Система «Речь в Реальность»: ИИ и роботы научились создавать физические объекты по голосовой команде

✦ ИИ  Этот пост, предположительно, был создан при помощи искусственного интеллекта
Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | Наука и космос

Генеративный ИИ научился рисовать картины за секунды. Он пишет код, сочиняет симфонии и ведет диалоги. Проблема только в том, что всё, что он делает, заперто внутри экрана. Вы можете попросить нейросеть нарисовать стул, но вы не можете на него сесть.

До сегодняшнего дня переход от слова к вещи требовал посредников: CAD-инженеров, долгих часов 3D-моделирования, настройки 3D-принтеров, которые печатают объект сутками.

робот получил команду «Сделай полку с двумя ярусами» и самостоятельно построил структуру из унифицированных модулей. На фото видна траектория движения манипулятора в процессе работы
Автор: Kyaw et al. Источник: dl.acm.org

Исследователи из MIT (CSAIL и Center for Bits and Atoms) представили систему Speech-to-Reality («От речи к реальности»). Вы говорите: «Мне нужен простой стул». Через пять минут перед вами стоит физический объект, собранный роботом.

Как это работает

Система — сложный конвейер, который переводит язык в физику. Процесс разбит на четыре этапа, где каждый последующий шаг заземляет галлюцинации предыдущего.

1. Интерпретация намерения: всё начинается с LLM (GPT-4 Turbo). Пользователь произносит команду. Нейросеть анализирует текст и отсеивает абстракции. Если вы попросите «создать красоту», система откажет. Ей нужны конкретные объекты: стол, полка, буква «Т». Лингвистическая модель извлекает суть запроса и передает его дальше.

2. Генерация формы: здесь вступает text-to-3D модель (в данном исследовании использовалась Meshy. ai). Она создает полигональную сетку (mesh) — цифровую форму объекта. На этом этапе объект выглядит правдоподобно для глаза, но абсолютно непригоден для реального мира. Нейросети часто игнорируют гравитацию, создают висящие в воздухе детали или поверхности с нулевой толщиной.

3. Дискретизация и проверка физики: гладкая 3D-модель разбивается на воксели — объемные пиксели. Система превращает сложную криволинейную форму в набор стандартных кубических блоков размером 10x10x10 см.

От сгенерированного AI меша — к дискретным компонентам, координатам и отсортированной последовательности сборки
Автор: Kyaw et al. Источник: dl.acm.org

Далее алгоритм проводит жесткую проверку на приложение к реальности:

  • Инвентаризация: есть ли у нас столько кубиков? В экспериментальной установке было всего 40 модулей. Если ИИ нарисовал трон из 100 блоков, алгоритм автоматически уменьшает масштаб модели, пока она не впишется в лимит.
  • Гравитация и консоли: выдержит ли конструкция? Если ИИ создал стол с трехметровой столешницей на одной ножке, он упадет. Алгоритм ищет «нависающие» элементы без опоры. Если консоль длиннее трех блоков, система сжимает модель по горизонтали, пока физика не сойдется.
  • Вертикальная устойчивость: слишком высокие и тонкие колонны (стопки выше 4 блоков) нестабильны. Алгоритм находит их и масштабирует объект по вертикали, снижая центр тяжести.
  • Связность: в цифровой модели детали могут висеть в миллиметре друг от друга. В реальности они упадут. Алгоритм совершает подгонку, чтобы каждый новый блок имел грань соприкосновения с уже установленным или с полом.

4. Роботизированная сборка: шестиосевой робот-манипулятор UR10 получает координаты. Он берет унифицированные блоки с конвейера и укладывает их. Блоки не требуют клея или винтов — внутри находятся магниты, которые обеспечивают сцепление и самовыравнивание.

Унифицированные блоки для сборки роботом
Автор: Kyaw et al. Источник: dl.acm.org

Результат: скорость и осязаемость

Чтобы напечатать простую табуретку на большом 3D-принтере, требуется около 3 дней и 1 часа. Система Speech-to-Reality собирает функциональный стул за 3 минуты 36 секунд.

В ходе экспериментов исследователи собирали столы, полки, буквы и даже стилизованную собаку. Время сборки варьировалось от 1 до 5 минут.

Экология вокселей

Ключевое преимущество этого подхода — обратимость. Традиционное производство или 3D-печать создают монолитную конструкцию. Если стул вам надоел, или сломался — повторно его не пересобрать.

Здесь же используется принцип дискретной сборки. Блоки — это многоразовый ресурс. После того как объект перестал быть нужен, его можно разобрать (вручную или тем же роботом), а блоки вернуть на конвейер. Один и тот же набор из 40 модулей сегодня был столом, завтра станет полкой, а послезавтра — временной конструкцией для выставки.

Объекты, созданные системой Speech-to-Reality. Для всех моделей использовался один и тот же набор многоразовых деталей
Автор: Kyaw et al. Источник: dl.acm.org
Минусы будут?

Система, мягко говоря, не идеальная.

  • Разрешение: объекты выглядят пиксельными. Вы ограничены размером минимального блока (в данном случае 10 см). Тонкие детали или эргономичные изгибы реализовать не получится.
  • Прочность: магнитные соединения уступают сварке или литью. На такой стул можно положить книгу, но вставать на него ногами пока рискованно.
  • Сложность восприятия ИИ: генеративные модели всё еще склонны к галлюцинациям, и алгоритмам коррекции приходится агрессивно менять форму объекта, чтобы сделать его устойчивым. Иногда результат отличается от задумки пользователя.
Alexander Htet Kyaw
Зачем это нужно?

Speech-to-Reality — это прототип интерфейса будущего, где разрыв между цифровым и осязаемым сводится к минимуму.

MIT показывает, что физический мир может перенять свойства цифрового: стать быстрым, модульным и редактируемым.

Источник: Proceedings of the ACM Symposium on Computational Fabrication

Изображение в превью:
Автор: Kyaw et al. CC-BY 4.0
Источник: dl.acm.org

1 комментарий

P
Сразу вспоминается мультик, где «мальчик квадратный ковер выбивает»;)

Добавить комментарий

Сейчас на главной

Новости

Публикации

✦ ИИ  Почему на Землю падает космический мусор: что происходит на орбите

Космический мусор давно перестал быть фантастической темой. Сегодня вокруг Земли вращаются тысячи неработающих спутников, обломков ракет, фрагментов после столкновений и даже мелкие частицы краски....

✦ ИИ  Как дефектные процессоры Intel стали ходовым товаром благодаря ИИ-буму

Продавать брак техгигантам? Для Intel это стало реальностью. ИИ-гонка заставила Microsoft и Google скупать дефектные процессоры, которые раньше годами отправлялись в утиль.

Каких важных государственных деятелей не включили в памятник «Тысячелетие России»

Монумент «Тысячелетие России», возведенный в Великом Новгороде в 1862 году, является известным произведением искусства, наглядно представляющим долгую историю России длиной в 1000 лет через образы...

Кто такой квокка и почему он постоянно улыбается

Если бы природа устраивала конкурс на самое фотогеничное и милое животное на планете, то квокка, вероятно, заняла бы в нём первое место. Этот небольшой милый зверёк, напоминающий собой мягкую плюшевую

Обзор пауэрбанка Ugreen PB536 – встроенный кабель оказался удобнее, чем ожидалось

Пауэрбанков сейчас много, и почти все они на первый взгляд одинаковые. Ugreen PB536 цепляет одной простой вещью — встроенным кабелем. Казалось бы, мелочь, но именно такие вещи и...

Драконовы деревья и голубые лагуны: почему природа острова Сокотра застыла в доисторическом состоянии

В бешеном темпе мира, который за неделю порой переворачивается с ног на голову, кажется, что место, с доисторических времен живущее по своему таймеру, просто не может существовать. В таком случае...