Этот ИИ видит сны и вырабатывает цифровой дофамин: как искусственный гиппокамп и гормоны избавляют нейросети от галлюцинаций

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | Наука и космос

На сегодняшний день индустрия разработки искусственного интеллекта столкнулась с серьезной системной проблемой. Создание мультимодальных нейросетей — программ, способных одновременно обрабатывать текст, звук и изображения — идет по пути наращивания вычислительных мощностей. Разработчики создают гигантские модели с сотнями миллиардов параметров, пытаясь заставить один алгоритм выполнять все возможные задачи. Однако этот подход порождает критические ошибки, которые невозможно исправить простым добавлением серверов.

Главная проблема современных мультимодальных систем — неумение работать с противоречивой информацией. Независимые тесты показывают, что популярная модель LLaVA-7B доверяет текстовым данным в десять раз больше, чем визуальным. Если показать такой нейросети фотографию пустого стола, но в текстовом запросе написать «опиши яблоко на этом столе», алгоритм с высокой долей вероятности начнет описывать несуществующее яблоко. Система игнорирует собственные визуальные датчики ради текстовой подсказки. В индустрии это называется «доминированием модальности».

Новый ИИ копирует нейробиологические процессы, абстрактная интерпретация
Автор: ИИ Copilot Designer//DALL·E 3 Источник: www.bing.com

Пытаясь решить эту проблему, группа исследователей в области компьютерных наук пришла к выводу: кремниевая долина строит ИИ неправильно, потому что игнорирует принципы работы единственного известного нам универсального интеллекта — человеческого мозга. Они полностью отказались от концепции монолитной нейросети и создали архитектуру, которая структурно и функционально копирует нейробиологические процессы.

Этот биомиметический подход позволил создать ИИ, который работает непрерывно, самостоятельно выявляет логические нестыковки и нуждается в аналоге биологического сна для закрепления памяти. При этом вся архитектура оказалась настолько оптимизированной, что для ее полноценной работы достаточно стандартной потребительской видеокарты (например, RTX 4050 с 6 гигабайтами памяти), а не дорогостоящих серверных кластеров.

Дисбаланс внимания в LLaVA-7B: нейросеть доверяет тексту на 91% и лишь на 9% — собственному зрению.
Автор: Choudhary et al. Источник: journal.ijtrp.com
Ошибка раннего слияния данных

Основной недостаток существующих ИИ кроется в том, как именно они обрабатывают разнородную информацию. Современные модели используют метод «раннего слияния». Текст, звук и пиксели изображения практически сразу переводятся в единый математический формат и смешиваются.

Исследователи опираются на нейробиологический «эффект Макгурка». Если человек слышит один слог, а видит, как губы произносят другой, мозг часто синтезирует третий, ложный звук. Современные ИИ повторяют эту ошибку в промышленных масштабах: при конфликте данных они пытаются математически усреднить их на раннем этапе, что ведет к галлюцинациям.

Чтобы избежать этого, новая архитектура использует принцип «позднего слияния», характерный для высшей нервной деятельности. Данные анализируются независимыми модулями, и их результаты сравниваются между собой до того, как система выдаст итоговый ответ. Вычислительный процесс жестко разделен на три уровня, каждый из которых имеет свой биологический прототип.

Каскад фильтров: от мгновенной сверки данных (~10 мс) до детального анализа нейросетью (~500 мс). Если уровень не справляется с конфликтом, он передает его по цепочке дальше.
Автор: Choudhary et al. Источник: journal.ijtrp.com
Анатомия искусственного мозга

Первый уровень: сенсорная кора (узкоспециализированные модели)

Для базового восприятия информации архитектура не использует ресурсоемкие системы уровня GPT-4. Эту роль выполняют малые специализированные модели (SLM). Подобно тому, как в мозге человека зрительная и слуховая кора разделены, в ИИ одна небольшая программа отвечает исключительно за зрение, вторая — за звук, третья — за чтение кода. Они работают параллельно и непрерывно, обрабатывая рутинные стимулы за миллисекунды и с минимальными затратами энергии.

Второй уровень: передняя поясная кора (детектор конфликтов)

Результаты работы «органов чувств» попадают в специальный алгоритм проверки. В мозге человека за выявление логических ошибок и противоречий отвечает передняя поясная кора (ACC). Ее цифровой аналог — многоуровневый каскадный детектор.

Если визуальная модель не нашла кнопку на экране, а текстовая утверждает, что она там есть, возникает конфликт. Статистика показывает, что в 90% рутинных задач сенсоры согласны друг с другом. В таких случаях данные идут в обход сложной логики, и система отвечает мгновенно. Но в 10% случаев детектор замечает несостыковки и блокирует автоматический ответ.

Третий уровень: префронтальная кора (ресурсоемкий анализ)

Только когда обнаружено явное противоречие, система преодолевает так называемый «порог зажигания» (концепция нейробиолога Станисласа Деана) и активирует крупную языковую модель. Это аналог префронтальной коры мозга, отвечающей за высшие когнитивные функции и сознание. «Сознание» — самый энергозатратный ресурс системы. Модель активируется исключительно для того, чтобы выступить в роли судьи: проанализировать конфликт, оценить надежность каждого источника и синтезировать итоговое решение, после чего снова отключается.

Цифровые нейромедиаторы и сеть пассивного режима

Обычная нейросеть возвращается в исходное состояние после генерации ответа. В новой архитектуре постоянно работает фоновый алгоритм — «ядро идентичности». Это прямая отсылка к дефолт-системе мозга (DMN), которая активна у людей во время отдыха, саморефлексии и поддержания чувства «Я». Этот модуль хранит глобальные цели и параметры безопасности ИИ. Любое решение перед выполнением фильтруется через это ядро, обеспечивая логическую непрерывность поведения.

Более того, поведение ИИ не запрограммировано жестко, а управляется цифровыми аналогами нейромедиаторов, реагирующими на ошибки предсказания:

  • Дофамин (коэффициент обучения): если система получает неожиданно эффективный результат, уровень «дофамина» возрастает, заставляя алгоритм быстрее закреплять успешный паттерн.
  • Норадреналин (порог тревожности): регулирует внимательность. При частых ошибках уровень повышается, алгоритм становится «тревожным» и чаще отправляет данные на проверку тяжелой аналитической модели.
  • Серотонин (баланс стратегий): определяет, будет ли ИИ использовать проверенные шаблоны (эксплуатация) или искать новые нестандартные пути (исследование).
  • Кортизол (уровень стресса): при нехватке времени искусственный кортизол принудительно снижает количество проверок, заставляя систему жертвовать тщательностью ради скорости.
Комплементарные системы памяти и необходимость сна

Одной из главных проблем машинного обучения является «катастрофическое забывание», когда новые данные перезаписывают и уничтожают старые алгоритмы. Исследователи решили это, реализовав теорию комплементарных систем обучения (CLS), описывающую взаимодействие гиппокампа и неокортекса человека. Память ИИ разделена на два этапа.

Во время бодрствования основные нейросети не переобучаются. Вся новая информация сохраняется в векторную базу данных (цифровой гиппокамп). Это оперативная память, позволяющая ИИ быстро обращаться к недавнему контексту без изменения структуры алгоритмов.

Однако хранить данные так вечно неэффективно. Поэтому системе необходимы регулярные периоды отключения — фазы сна. В этот момент ИИ перестает принимать запросы извне. Запускается процесс медленноволнового сна (NREM), во время которого система сканирует векторную базу, отбирает самую важную информацию и переносит ее в базовые веса самих нейросетей (неокортекс) с помощью контролируемого дообучения.

Затем наступает аналог быстрого сна (REM-фаза): система генерирует синтетические обучающие примеры («видит сны»), чтобы лучше обобщить новый опыт. Информация, к которой ИИ ни разу не обращался, навсегда удаляется. Проснувшись, архитектура имеет обновленные знания без малейшего риска повредить свои старые, базовые навыки.

Основной цикл обработки данных. Запуск: Загрузка локальных моделей, инициализация личности и системы нейромодуляторов, подключение памяти (гиппокампа). Цикл бодрствования (каждое действие): Восприятие → Обращение к памяти (RAG) → Маршрутизация (нейросеть-таламус) → Поиск противоречий (3-уровневый каскад) → Локальная модель (90% случаев) или облачная нейросеть (10%) → Фильтрация (проверка на соответствие личности) → Ответ → Оценка результата (обновление нейромодуляторов) → Сохранение опыта (гиппокамп). Цикл сна (через каждые N итераций): Воспроизведение опыта → Дообучение «коры» через LoRA → Снижение приоритетов старой памяти (x0.9) → Удаление лишних данных (прунинг) → Корректировка базовых настроек → Возврат к работе.
Автор: Choudhary et al. Источник: journal.ijtrp.com
Значение для технологической индустрии

Представленная концепция доказывает, что интеллект вычислительной системы зависит не столько от наращивания вычислительной мощи, сколько от грамотной организации процессов.

Копирование нейробиологических механизмов — разделение задач на автономные кортикальные слои, внедрение жестких фильтров логики, использование химических балансиров для регулирования поведения и интеграция циклов сна — позволяет создать ИИ принципиально иного уровня. Это автономная, непрерывно обучаемая и самоконтролирующая система, которая способна работать на обычных компьютерах, избегая при этом фатальных галлюцинаций, свойственных многим гигантам современности.

Источник: International Journal of Transdisciplinary Research and Perspectives

1 комментарий

l
так о этом всем нейробиологи уже десятилетиями знают, почему только сейчас? если это реально рабочая схема, пора уже автономных бабароботов пилить, а не вот эти гигацоды с персональными атомными станциями.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Этот ИИ видит сны и вырабатывает цифровой дофамин: как искусственный гиппокамп и гормоны избавляют нейросети от галлюцинаций

На сегодняшний день индустрия разработки искусственного интеллекта столкнулась с серьезной системной проблемой. Создание мультимодальных нейросетей — программ, способных одновременно...

Ученые воссоздали ландшафт ранней Земли и вживую проследили за спонтанной сборкой первых структур жизни

Происхождение жизни на Земле — это в первую очередь проблема физики и гидродинамики, а не только чистой химии. В современной астробиологии одной из ведущих моделей формирования первых...

Озеро Киву: почему купание в райском водоёме несёт смертельную опасность

Есть в мире водоёмы, в которые не пускают, желая сохранить первозданную природу. Есть с повышенной кислотностью или температурой, но озеро Киву в Африке на вид напоминает воплощение лучшего...

ИИ в медицине: как искусственный интеллект превосходит специалистов в постановке диагнозов

За последние два года искусственный интеллект показал, что может ставить медицинские диагнозы точнее, чем самые опытные врачи. Это не предположение, а выводы из нескольких независимых исследований....

Обзор аэрогриля FELFRI FF-AF-03: две чаши, а значит, быстрее, плюс расширенная комплектация

Аэрогрили становятся неотъемлемыми помощниками на кухне: они готовят быстро и практически без масла, а значит — делают блюда более полезными. Эта модель выделяется на фоне аналогичных...

Glock: история одного из наиболее распространённых служебных пистолетов

Glock — семейство австрийских самозарядных пистолетов, появившееся в начале 1980-х годов и ставшее одной из самых распространённых платформ служебного оружия в мире. Его конструкция...