World Models: следующая эволюция ИИ, которая научит нейросети «здравому смыслу» и физике

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | ИИ, сервисы и приложения

Недавно я публиковал новость о том, что стартап Advanced Machine Intelligence Labs под руководством Яна ЛеКуна привлёк 1,03 миллиарда долларов посевных инвестиций. Он планирует развивать радикально иной подход к искусственному интеллекту, и в сегодняшней статье я хочу подробнее рассказать, в чем заключается суть этого подхода.

Автор: Elon Merlin

Итак, что на сегодняшний день умеют ChatGPT, Gemini или Grok? Они могут написать симфонию, сдать экзамен на адвоката и создать код для сложного сайта за секунды. Кажется, что искусственный интеллект уже всемогущ. Но если вы попросите нейросеть управлять роботизированной рукой, чтобы пожарить яичницу, она, скорее всего, раздавит яйцо, сожжет сковородку и устроит пожар.

Почему? Потому что современные языковые модели (LLM) гениально жонглируют словами, но абсолютно не понимают, как устроен физический мир. Они не знают, что стекло бьется, вода течет вниз, а если положить предмет в коробку, он никуда не исчезнет.

Чтобы решить эту проблему и создать настоящий сильный ИИ (AGI), ученые обратились к совершенно новому классу архитектур. Знакомьтесь: World Models (Модели Мира).

В чем проблема привычных нейросетей?

Архитектура на которой работают ChatGPT, Claude, Gemini основана на авторегрессии — предсказании следующего токена (слова или пикселя) на основе огромной базы статистики. Например, если нейросеть пишет: «Уронил стакан на пол, и он…», то она дописывает «разбился», потому что в обучающих ее текстах эти слова часто стоят рядом. Однако нейронка не понимает гравитации. Она не видит осколков. Она просто статистический попугай с гигантской памятью.

Из-за этого LLM страдают галлюцинациями. Они не умеют логически планировать на 10 шагов вперед и не обладают «здравым смыслом». Чтобы ИИ перестал быть просто генератором текста и смог управлять роботами, машинами и сложными процессами, ему нужна внутренняя симуляция реальности.

Что такое World Model?

Термин «World Model» был популяризирован Дэвидом Ха и Юргеном Шмидхубером в 2018 году, а сегодня главным евангелистом этого подхода является Ян ЛеКун (вице-президент и главный ИИ-ученый в команде Цукерберга).

World Model — это архитектура ИИ, которая строит внутреннее представление об окружающей среде, чтобы понимать причинно-следственные связи и предсказывать будущее.

Как это работает у людей? Представьте, что вы едете на велосипеде и видите впереди яму. Ваш мозг мгновенно прокручивает симуляцию: «Если я поеду прямо — колесо попадет в яму, я упаду и разобью колено. Если я поверну руль влево — я объеду яму и сохраню равновесие». Вы еще ничего не сделали, но ваш мозг уже «сгенерировал» будущее в безопасной внутренней песочнице.

World Models пытаются дать нейросетям точно такую же «песочницу» в их цифровых мозгах.

Как устроена архитектура World Models?

Автор: Elon Merlin

В отличие от LLM, которые просто переводят текст в текст, классическая Модель Мира состоит из трех главных компонентов:

  1. Сенсор (V-модель), эдакое сжатие хаоса реальности. Когда вы смотрите на дорогу, вы не анализируете каждый листик на дереве, вы выделяете главное: машины, светофор, пешеходы. ИИ делает то же самое — сжимает сырые данные (видео, звук) в компактный «вектор состояния».
  2. Память (M-модель) — запоминает прошлый контекст. «Машина слева ехала быстро, значит, она, вероятно, продолжит движение».
  3. Предиктор — предсказатель будущего. Самая важная часть. Он берет текущее состояние мира, а также возможное действие (например, «нажать на тормоз») и предсказывает, как изменится мир на следующем шаге.

Главный прорыв подхода Яна ЛеКуна заключается в том, что ИИ предсказывает будущее не попиксельно (что требует гигантских вычислительных мощностей), а концептуально. Модель учится игнорировать неважное (как колышется трава) и концентрироваться на физике (куда летит мяч).

Где World Models применяются уже сейчас?

Мы находимся на самом пороге внедрения этих технологий, но результаты уже поражают:

  • Sora от OpenAI и Kling AI. Когда OpenAI показала генератор видео Sora, многие эксперты назвали его первой примитивной Моделью Мира. Чтобы нарисовать реалистичное видео едущего по грязи джипа, ИИ должен понимать физику отражений, гравитацию, перспективу и то, как грязь вылетает из-под колес. Sora — это не просто генератор пикселей, это дата-движок, симулирующий физику.
  • Автопилоты (Wayve, Tesla FSD v12). Британский стартап Wayve использует World Models для беспилотных авто. Их ИИ не просто распознает знаки, он предсказывает поведение других водителей на основе внутренней модели физики и социума на дороге.
  • Робототехника (Google RT-2, Figure 01). Чтобы робот-гуманоид мог принести вам яблоко из холодильника, он должен понимать, что яблоко мягкое (нельзя сильно сжимать), что оно может укатиться (форма сферы) и что холодильник нужно сначала открыть. World Models позволяют роботам обучаться физике в виртуальных симуляторах, а затем применять эти знания в реальном мире.

Почему за этим будущее

Текстовые данные в интернете заканчиваются. По оценкам ученых, LLM скоро прочитают все существующие книги и статьи. Но наши дети не учатся по Википедии. Они учатся, бросая игрушки на пол, трогая горячее, падая и наблюдая за физикой.

World Models позволяют ИИ обучаться так же: через наблюдение за видео (миллионы часов на YouTube) и через взаимодействие со средой.

Переход от LLM к World Models — это эволюционный скачок. Мы переходим от ИИ, который умеет «красиво говорить», к ИИ, который умеет «понимать, планировать и действовать». И именно этот класс архитектур, скорее всего, подарит нам надежных домашних роботов, полностью автономные автомобили и научные открытия, о которых мы сегодня даже не можем мечтать.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Нейрофилософ. Пишу статьи на темы будущего, искусственного интеллекта и науки. Рассуждаю о том, как существовать в новом мире.
Полный перечень статей можно найти на моем сайте Блог Илона Мерлина
Присоединяйтесь в ТГ канал. Там представлен сборник мыслей, инструкций и советов по адаптации к миру будущего. Кодекс Мерлина

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Ноутбук, планшет 13" и доска для рисования в одном: обзор Ninkear S13

С современным ритмом жизни многое приходится делать на бегу, включая срочные рабочие задачи, хобби и отдых от них же в мультимедийном пространстве. И гаджеты для этого нужны универсальные....

Чтобы рисовать, как ребенок, надо повзрослеть, или прогулка по «Бумажному саду» Сергея Макарова

Примерно раз в месяц галереи Винзавода обновляют экспозиции, и до 24 мая Totibadze Gallery будет демонстрировать серию работ «Бумажный сад» современного художника Сергея Макарова.

Для чего в горлышке бутылки подсолнечного масла есть прорези

Если внимательно посмотреть внутрь бутылки с подсолнечным маслом, можно заметить странные пластиковые «лепестки» или прорези в горлышке. Многие воспринимают их как элемент дизайна или думают, что...

Откуда берутся звездопады: как Солнце разрушает астероиды и формирует новые метеорные потоки на пути Земли

Наблюдая за ночным небом, люди часто видят метеоры — яркие вспышки, возникающие при сгорании космических частиц в атмосфере Земли. Астрономия связывает происхождение большинства...

Почему на некоторых зарядных кабелях есть утолщение

Если посмотреть на кабели разных зарядных устройств, часто, почти у самого штекера, можно заметить небольшое утолщение. Многие воспринимают его как элемент дизайна или просто не обращают внимания....

Вулкан, который работает как насос: как Этна выкачивает магму с 80-километровой глубины

Вулкан Этна, расположенный на восточном побережье Сицилии, остается одним из самых сложных объектов для геологического моделирования. Будучи самым активным вулканом Европы, он демонстрирует...