Роботы обрели «самосознание»? Ученые научили роботов познавать свое тело с помощью камеры

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

28 июля 2025, 11:00 | Мнение | Наука и космос

Десятилетиями инженеры-робототехники сталкивались с фундаментальным парадоксом. Мы стремимся создавать машины, способные действовать в нашем сложном и непредсказуемом мире: помогать по дому, работать на полях или строительных площадках. Для этого им нужна гибкость, адаптивность, почти «живая» пластика движений. Но методы, которыми мы их создаем, толкают нас в противоположном направлении — к жестким, громоздким и до мелочей просчитанным механизмам, место которым скорее на конвейерной ленте, чем в гостиной.

Этот разрыв между желаемым и возможным — своего рода «проблема души и тела» в мире робототехники. Чтобы точно управлять роботом, инженеру нужен его «цифровой двойник» — идеальная математическая модель, описывающая каждый винтик, каждый сустав. Такой подход прекрасно работает для заводских манипуляторов, но рассыпается в прах, как только речь заходит о мягких, деформируемых или просто нестандартных конструкциях.

Иллюстрация
Автор: ИИ Copilot Designer//DALL·E 3 Источник: www.bing.com

Но что, если вместо того, чтобы затачивать робота под несовершенную модель, позволить ему самому понять, как устроено его тело? Недавно исследователи из Лаборатории компьютерных наук и искусственного интеллекта MIT (CSAIL) представили подход, который может кардинально изменить правила игры. Их система, названная «Нейронные якобианские поля» (NJF), наделяет робота способностью к самопознанию. Ему больше не нужны сложные датчики или заранее прописанные инструкции. Достаточно просто посмотреть на себя в «зеркало» — объектив камеры.

От программирования к интуиции

В чём же заключается прорыв? Представьте, что вы учите ребенка играть на пианино. Один способ — это диктовать: «Согни указательный палец на 30 градусов, опусти его со скоростью 0.5 м/с, приложив силу в 2 Ньютона». Звучит абсурдно, не так ли? Гораздо эффективнее просто показать, какую клавишу нажать, и позволить ребенку самому найти нужное движение.

Традиционная робототехника долгое время шла по первому, «абсурдному» пути. Каждое действие было результатом сложной цепочки вычислений. Система NJF предлагает второй путь — путь обучения через наблюдение. «Эта работа знаменует собой переход от программирования роботов к их обучению», — отмечает ведущий исследователь проекта Сиже Лестер Ли.

a, Реконструкция визуомоторного поля Якоби и прогнозирование движения. На основе одного изображения модель машинного обучения выводит трехмерное представление робота в сцене, которое мы называем визуомоторным полем Якоби. Оно кодирует геометрию и кинематику робота, позволяя нам прогнозировать трехмерные движения точек поверхности робота при всех возможных командах. Цвета указывают на чувствительность этой точки к отдельным каналам команд. б) Управление по замкнутому циклу на основе зрения. Исходя из желаемых траекторий движения в пиксельном пространстве или в 3D, мы используем зрительно-моторное поле Якоби для оптимизации команды робота, которая будет генерировать заданное движение с интерактивной скоростью примерно 12 Гц. Выполнение команды робота в реальном мире подтверждает, что желаемые движения были достигнуты. Цитирование: Li, S.L., Zhang, A., Chen, B. et al. Controlling diverse robots by inferring Jacobian fields with deep networks. Nature 643, 89-95 (2025). https://doi.org/10.1038/s41586-025-09170-0
Автор: Li, S.L., Zhang, A., Chen, B. et al. Источник: www.nature.com

Идея в том, чтобы отделить конструкцию робота от системы управления им. Раньше эти два аспекта были неразрывно связаны: инженеры намеренно делали роботов жесткими и напичканными датчиками, чтобы их можно было контролировать. Теперь же конструктор может дать волю фантазии: создать робота из мягких полимеров, напечатать на 3D-принтере причудливый манипулятор или собрать что-то совсем необычное. А уже потом, с помощью камеры и системы NJF, эта диковинная конструкция «научится» двигаться.

Как работает «машинное самосознание»?

В основе технологии лежит элегантная идея, позаимствованная из компьютерной графики. Давайте разберемся, как это работает на практике.

Процесс обучения напоминает то, как младенец знакомится со своим телом. Робот начинает совершать хаотичные, случайные движения: сгибает «пальцы», поворачивает «суставы», шевелит всем, чем может. В это время несколько камер внимательно следят за ним с разных ракурсов.

a, c, e, g. Визуализация реконструированных полей Якоби и яркости (в центре) и сравнение реконструированной и измеренной геометрии (по бокам) на основе одного входного изображения. Цвета обозначают чувствительность 3D-точки к различным каналам команд привода, что означает, что наша система успешно обучается сопоставлению 3D-частей робота и каналов команд без аннотаций человека. Мы показываем прогнозы глубины (Pred. Dep.) рядом с измерениями камер RGB-D (True Dep.), демонстрируя точность 3D-реконструкции во всех системах. Pred. Jac., прогнозируемый якобиан. b, d, f, h, 3D-движения, прогнозируемые с помощью поля якобиана. Мы отображаем движения, предсказанные с помощью визуомоторного поля Якоби (сплошные кружки) для различных команд двигателя рядом с эталонными движениями, реконструированными из видеопотоков с помощью отслеживания точек (пунктирные кружки). Реконструированные движения качественно точны во всех робототехнических системах. Хотя мы вручную раскрасили каналы команд, наша структура связывает каналы команд с 3D-движениями без контроля. N, S, E и W — это север, юг, восток и запад соответственно. Цитирование: Li, S.L., Zhang, A., Chen, B. et al. Controlling diverse robots by inferring Jacobian fields with deep networks. Nature 643, 89-95 (2025). https://doi.org/10.1038/s41586-025-09170-0
Автор: Li, S.L., Zhang, A., Chen, B. et al. Источник: www.nature.com

Нейронная сеть, лежащая в основе NJF, выполняет две задачи одновременно:

Построение 3D-модели. На основе изображений с камер система, подобно художнику, воссоздает трехмерную форму робота. Это похоже на технологию NeRF (Neural Radiance Fields), которая умеет генерировать объемные сцены из набора плоских фотографий.
Создание «карты чувствительности». Это и есть главное ноу-хау. Система не просто видит статичную модель, она анализирует динамику. Она сопоставляет каждую отправленную двигателю команду с тем, как изменилось положение точек на 3D-модели. По сути, она составляет подробную карту, отвечающую на вопрос: «Если я подам вот такой сигнал на этот мотор, какая часть моего тела и как именно сдвинется?». Эта карта и называется в математике якобианом, отсюда и название технологии.

Самое поразительное, что весь процесс происходит автономно. Никто не говорит системе: «Вот это — палец, а это — локоть». Нейросеть сама, через наблюдение за последствиями своих действий, выстраивает внутреннее представление о собственном теле. «Система сама выясняет, какие двигатели управляют какими частями робота, — объясняет Ли. — Это не программируется, а возникает естественным образом».

После такой «тренировки» роботу для работы достаточно всего одной камеры. Он смотрит на себя, видит, где находится его рука, и, опираясь на свою внутреннюю «карту тела», точно знает, какие команды подать на моторы, чтобы схватить нужный объект.

a, Мы изменили динамику платформы HSA. Мы прикрепили к платформе стержень и добавили грузы весом 350 г в контролируемом месте, что привело к наклону платформы в положении покоя. b, Вверху: наша структура позволила системе HSA с измененной динамикой выполнить вращательное движение. Внизу: график показывает расстояние до цели во времени. c. Используя вид с высоты птичьего полета, мы наложили завершенную 3D-траекторию (traj.) на начальную конфигурацию платформы HSA. Мы сравнили траекторию выполнения нашего подхода с эталонной траекторией. Эта визуализация подтвердила, что наш метод способен противодействовать физическим эффектам веса и стабилизировать траекторию движения по направлению к целевому пути. d. Расстояние от цели руки Allegro уменьшалось с течением времени по мере выполнения плана движения. Мы измерили расстояние до цели, используя как погрешности суставов в градусах, так и положения кончиков пальцев в миллиметрах. e, Вверху показана эталонная траектория белым цветом, а завершенная траектория — цветными цветами во время задачи рисования квадрата. Внизу показано расстояние до цели с течением времени с использованием робота-манипулятора Poppy в четырех сегментах траектории. f, Сравнение наших прогнозов Якобиана с аналитическими аналогами, вычисленными с помощью физических симуляций. Наш метод научился получать согласованные измерения Якобиана из необработанных наблюдений RGB. Цитирование: Li, S.L., Zhang, A., Chen, B. et al. Controlling diverse robots by inferring Jacobian fields with deep networks. Nature 643, 89-95 (2025). https://doi.org/10.1038/s41586-025-09170-0
Автор: Li, S.L., Zhang, A., Chen, B. et al. Источник: www.nature.com

Свобода для конструктора, доступность для всех

Последствия этого подхода могут быть колоссальными. Прежде всего, он открывает двери для нового поколения роботов — мягких, биоподобных, безопасных для человека. Их было так сложно создавать именно из-за проблем с моделированием. Теперь это ограничение снято.

Но что еще важнее, технология делает робототехнику значительно дешевле и доступнее. Зрение — самый универсальный и недорогой датчик. Вместо того чтобы оснащать робота сложными внутренними сенсорами, гироскопами, акселерометрами или полагаться на внешние системы вроде GPS, можно обойтись одной камерой.

Это делает реальными сценарии, которые раньше казались фантастикой:

В сельском хозяйстве: робот, который с сантиметровой точностью обрабатывает растения, ориентируясь только по своему «зрению».
На стройке: автономные машины, работающие в постоянно меняющейся, хаотичной среде без дорогостоящей инфраструктуры.
Дома: доступные и адаптивные помощники, способные работать в загроможденных комнатах.

Исследователи даже рисуют картину будущего, в котором любой энтузиаст сможет «научить» своего самодельного робота, просто сняв его случайные движения на камеру смартфона.

Горизонты и препятствия

Конечно, технология NJF находится еще в начале своего пути. Сегодня для обучения каждого нового робота требуется отдельная процедура с несколькими камерами, а система пока не умеет обобщать знания, перенося их с одного робота на другого. Кроме того, у нее нет тактильного или силового восприятия — робот не «чувствует» прикосновений, что ограничивает его в задачах, требующих деликатного обращения.

Однако, как и у любой прорывной технологии, ее текущие ограничения лишь очерчивают фронт будущей работы. Команда MIT уже исследует пути их преодоления.

Фундаментальный принцип — обучение через самонаблюдение — уже доказал свою состоятельность. Он дает роботам то, что можно назвать «воплощенным самосознанием» — интуитивное понимание возможностей собственного тела. И это не просто очередной шаг в развитии робототехники. Это смена парадигмы, которая может, наконец, позволить машинам выйти за пределы заводских цехов и стать по-настоящему гибкими и полезными партнерами в нашей повседневной жизни.

Роботы обрели «самосознание»? Ученые научили роботов познавать свое тело с помощью камеры

От программирования к интуиции

Как работает «машинное самосознание»?

Свобода для конструктора, доступность для всех

Горизонты и препятствия

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Sony запатентовала контроллер для PlayStation с гибким корпусом, который можно сжимать, скручивать и деформировать

Bluetti представила FridgePower: ультратонкую электростанцию на 2016 Вт·ч с расширением до 8 кВт·ч

Роботы на дорогах возят за деньги. Южная Корея одобрила поставки грузовиков без водителя для коммерческих перевозок

Galaxy S27 Ultra может стать первым смартфоном Samsung с UFS 5.0, что ускорит запуск приложений и обработку больших файлов на устройстве

В Quick Share на Galaxy выявлена проблема при передаче фото на iPhone

Публикации

Как бактерии стали многоклеточными: система разделения ДНК эволюционировала во внутриклеточный каркас

Компьютерные расчеты термоядерных реакций оказались ошибочными: как эксперимент с испаренной медью переписывает законы физики плазмы

Самые крупные карповые в мире и в России: история семейства, размеры и что из них готовят

✦ ИИ 5 сервисов для создания презентаций с опросами: для учителей, маркетологов и бизнеса

Где можно увидеть Стоунхендж, не выезжая за границы России

Обзор бесщеточной аккумуляторной пилы ProCraft PKA45 (PKA46): 2 аккумулятора, 2 шины и 2 цепи