Мозг способен воспринимать «невидимый» текст: как мы понимаем значение слов, которые не успели рассмотреть

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | Наука и космос

Группа когнитивных нейробиологов из Франции и Великобритании экспериментально доказала, что человек способнен осознать абстрактный смысл визуального стимула, даже если его физические характеристики полностью стерты зрительными помехами. Результаты исследования, опубликованного в научном журнале Communications Psychology, показывают, что механизмы сознательного доступа к информации могут работать независимо от процессов раннего построения зрительного образа.

В ходе серии из семи экспериментов исследователи показывали добровольцам слова на экране на экстремально короткое время — от 12 до 48 миллисекунд. Стимулы были зажаты между быстро меняющимися строками случайных символов, которые блокировали нормальную обработку изображения зрительной корой. В обычных условиях испытуемые не могли различить буквы и утверждали, что ничего не видели.

Однако когда через 215 миллисекунд после исчезновения текста участники слышали через наушники подсказку — семантически связанное аудиослово (например, «дикобраз» после замаскированного слова «ёж»), — точность распознавания скрытого слова резко возрастала. Более того, участники уверенно заявляли, что действительно почувствовали присутствие этого слова на экране.

Экспериментальная установка, вольная интерпретация
Автор: ИИ Copilot Designer//DALL·E 3 Источник: www.bing.com

Самым примечательным оказалось то, что успешное осознание смысла происходило на фоне полной слепоты к физическим деталям стимула. Испытуемые, верно назвавшие скрытое слово, не могли определить, какими буквами оно было написано — заглавными или строчными, и в какой части экрана оно находилось. Точность ответов на эти вопросы оставалась на уровне случайного угадывания.

Это открытие ставит под сомнение классическую модель зрительного восприятия, согласно которой осознание смысла всегда происходит строго после успешного анализа физических параметров объекта.

Чтобы понять, почему этот результат стал неожиданностью для когнитивной науки, необходимо рассмотреть, как именно мозг обрабатывает входящую информацию и какие теории сознания конкурируют между собой в современных лабораториях.

Теоретический спор: три фазы обработки информации

Процесс обработки любого сенсорного сигнала (будь то изображение, звук или тактильное ощущение) состоит из трех последовательных стадий, различающихся по своим нейрофизиологическим характеристикам:

  1. Прямой поток активации. Зрительный сигнал передается от сетчатки глаза через латеральное коленчатое тело в первичную зрительную кору (зона V1), а затем последовательно поднимается к высшим зрительным отделам (зоны V2, V3, V4, теменная и височная области). Этот путь занимает около 100 миллисекунд. Информация кодируется точно, но процесс протекает полностью неосознанно.
  2. Локальная обратная связь. Когда сигнал достигает высших отделов зрительной коры, запускаются обратные связи: высшие зоны отправляют сигналы обратно в нижележащие (например, из V2 в V1). Этот двусторонний обмен сигналами стабилизирует образ, позволяя мозгу отделить объект от фона и зафиксировать его форму.
  3. Глобальное вещание. На этом этапе функциональная связанность выходит за пределы зрительной коры. В процесс вовлекаются лобные, теменные и поясные области мозга. Информация становится доступной для сознания.

Современные теории сознания по-разному оценивают важность этих фаз. Сторонники теории локальной рекуррентной обработки утверждают, что сознательное восприятие возникает уже на второй фазе, внутри самой зрительной коры. С их точки зрения, если обратная связь заблокирована внешними помехами, осознать стимул невозможно.

Напротив, сторонники теории глобального нейронного рабочего пространства утверждают, что локальной обратной связи в зрительной коре недостаточно. Осознание происходит только на третьей фазе, когда сигнал транслируется на общемозговом уровне.

Из теории глобального рабочего пространства следовало теоретическое предсказание: если сознательный доступ относительно независим от ранних зрительных процессов, мозг может получить доступ к высокоуровневой абстрактной информации (смыслу слова) даже тогда, когда низкоуровневая сенсорная информация (форма букв) была уничтожена помехами. Прошедшее исследование было направлено на проверку этого предсказания.

(Гипотеза) Схема иллюстрирует предполагаемую последовательность процессов в мозге при сочетании зрительной маскировки (masking) и ретроспективного подсказывания (retro-cueing): Первичная обработка: Когда целевое слово появляется на экране в окружении масок, оно успевает пройти первую стадию обработки и достичь уровня активации лексических значений в мозге. Блокировка обратной связи (masking): Зрительные маски обладают теми же физическими свойствами, что и слово. Они останавливают обратные сигналы в зрительной коре и разрушают первичный сенсорный образ слова. Именно это мешает человеку осознать увиденное. Ретроспективная активация (retro-cueing): Содержательно связанная слуховая подсказка возвращает слово в сознание. Звуковой сигнал повторно активирует скрытый лексический след, оставшийся от замаскированного слова. Выход в сознание (Global Workspace): Благодаря подсказке сигнал получает второй шанс распределиться по фронто-теменной сети мозга — глобальному рабочему пространству (Global Workspace). Результат: Человек получает сознательный доступ к значению слова даже при полном отсутствии информации о его визуальном облике (шрифте, регистре или положении на экране).
Автор: Rimsky Robert, D., Lisi, M., Nguy, K. et al. Источник: www.nature.com
Как устроен эксперимент: метод маскировки и ретро-подсказки

Для прерывания локальной обратной связи в зрительной коре авторы использовали метод зрительной маскировки.

Целевое слово предъявляли участникам на CRT-мониторе с частотой обновления 85 Гц. Слово показывалось на сером фоне на 12, 24, 36 или 48 миллисекунд. Непосредственно до и сразу после него на экране демонстрировались маски — строки случайных символов (%#?&/!), полностью совпадающие по размеру, шрифту и контрастности с целевым словом. Это визуальное зашумление блокировало возможность обратной связи в зрительной коре: мозг фиксировал вспышку света, но не успевал распознать очертания букв.

Через 215 миллисекунд после исчезновения финальной маски участникам через наушники подавали аудиослово-подсказку. Ученые использовали два типа подсказок:

  • Конгруэнтные (связанные по смыслу): например, скрытое слово «ёж» (hedgehog) и подсказка «дикобраз» (porcupine).
  • Инконгруэнтные (несвязанные): скрытое слово «ёж» и подсказка.

Связи между словами определяли заранее на основе масштабных лингвистических тестов на свободные ассоциации.

После прослушивания подсказки участники выполняли несколько задач. Сначала они должны были произнести скрытое слово в микрофон. Если они не видели слова, инструкция требовала назвать любое слово наугад. Затем они указывали регистр букв (прописные или строчные) или пространственное положение слова (вверху или внизу экрана в зависимости от серии эксперимента). Наконец, они оценивали видимость слова по девятибалльной шкале.

(Эксперимент 1) (a) Структура попытки: Участникам демонстрировали один поток визуальных стимулов строго по центру экрана. На экранах ответа последовательно запрашивались: идентификация слова, определение регистра букв (прописные или строчные) и общая оценка видимости стимула. (b) Точность распознавания слов (с математической поправкой на угадывание): Точки показывают реальные экспериментальные данные; линии — теоретические значения, предсказанные моделью. Усы погрешности показывают стандартную ошибку среднего (SE), а закрашенные области вокруг линий — стандартную ошибку предсказаний модели. (c) Точность определения регистра букв: Точки отражают реальные данные, линии — предсказания модели. Усы погрешности показывают стандартную ошибку среднего (SE), а закрашенные области — стандартную ошибку предсказаний модели. (d) Чувствительность обнаружения слова: Показатель рассчитан на основе площади под ROC-кривой (Area under the Receiver Operating Curve) для субъективных оценок видимости. Усы погрешности показывают стандартную ошибку среднего. (e) Точность определения регистра букв в попытках с правильным распознаванием слова: На графике представлена отдельная оценка для ретроспективно осознанных попыток. Усы погрешности показывают 95%-й доверительный интервал, рассчитанный методом бутстрепа. Звездочки на всех графиках указывают на статистическую значимость результатов тестов, как описано в тексте статьи.
Автор: Rimsky Robert, D., Lisi, M., Nguy, K. et al. Источник: www.nature.com
Защита от ошибок: как ученые исключили логическое угадывание

Главная трудность подобных исследований — доказать, что испытуемые действительно осознали скрытое слово, а не просто угадали его, основываясь на подсказке или случайных обрывках информации. Авторы работы применили четыре независимых метода математического и методологического контроля.

1. Коррекция показателей угадывания

Исследователи применили иерархический байесовский анализ и построили модель логистической регрессии, чтобы учесть чистую вероятность угадывания. Модель вычисляла базовый уровень ложных срабатываний в инконгруэнтных пробах (где подсказка никак не помогала угадать скрытое слово) и вычитала этот показатель из результатов конгруэнтных проб.

Даже после этой строгой математической коррекции чувствительность обнаружения слова (показатель AROC, рассчитанный по теории обнаружения сигналов) в условиях со связанной подсказкой оставалась высокой. Это доказывает, что ретро-подсказка действительно улучшала способность участников обнаруживать стимул.

2. Контроль частичного считывания букв (расстояние Левенштейна)

Существовала гипотеза, что участники могли заметить лишь отдельные буквы слови, услышав в наушниках «дикобраз», логически вычислить ответ.

Для проверки этой версии ученые проанализировали орфографическую структуру ошибочных ответов с помощью расстояния Левенштейна. Эта метрика оценивает количество замен, вставок и удалений букв, необходимых для превращения одного слова в другое.

Если бы испытуемые опирались на обрывки букв, их ошибочные ответы в конгруэнтных пробах все равно содержали бы те же буквенные элементы, что и скрытое слово. Однако статистический анализ показал, что ретро-подсказка не влияла на орфографическое сходство ошибок с целевым словом. Распознавание не строилось на частичном считывании букв.

(Эксперимент 2) (a) Структура попытки: Участникам демонстрировали два параллельных потока стимулов — один выше и один ниже центральной точки фиксации взгляда. На экранах ответа последовательно запрашивались: определение положения слова (вверху или внизу), субъективная оценка видимости положения, идентификация самого слова и субъективная оценка видимости слова. (b) Точность распознавания слов (с математической поправкой на угадывание). (c) Точность определения положения слова на экране (вверху или внизу). (d) Чувствительность обнаружения слова, рассчитанная на основе оценок видимости самого слова. (e) Чувствительность обнаружения слова, рассчитанная на основе оценок видимости положения слова на экране. (f) Условная точность определения положения слова в тех попытках, где само слово было названо абсолютно верно.
Автор: Rimsky Robert, D., Lisi, M., Nguy, K. et al. Источник: www.nature.com
3. Анализ условных вероятностей

Ученые проанализировали точность определения регистра букв (прописные или строчные) исключительно в тех пробах, где скрытое слово было названо абсолютно правильно.

В пробах с несвязанными подсказками точность определения регистра в таких случаях была очень высокой — 92,9%. Это логично: назвать скрытое слово без подсказки участники могли только тогда, когда зрительная маскировка не сработала и они четко рассмотрели его на экране.

Однако в пробах со связанными подсказками точность определения регистра среди правильно названных слов снизилась до 86,3%. Это статистически значимое снижение доказывает, что часть правильных ответов была получена исключительно за счет семантической активации через аудиоподсказку, без визуального доступа к очертаниям букв.

(Эксперимент 3) (a) Структура попытки: Участникам демонстрировали один поток стимулов строго по центру экрана. На экранах ответа последовательно запрашивались: определение регистра букв (прописные или строчные), степень уверенности в выборе регистра, идентификация самого слова и степень уверенности в правильности идентификации слова. (b) Точность распознавания слов (с математической поправкой на угадывание). (c) Точность определения регистра букв. (d) Чувствительность уверенности для распознавания слов, рассчитанная на основе показателя AROC для оценок уверенности в ответе по идентификации слова. (e) Чувствительность уверенности для определения регистра, рассчитанная на основе показателя AROC для оценок уверенности в ответе по определению регистра букв. (f) Вероятность согласованности ответов. (g) Условная точность определения регистра букв (в попытках с правильным распознаванием слова).
Автор: Rimsky Robert, D., Lisi, M., Nguy, K. et al. Источник: www.nature.com
4. Временной контроль (пред-подсказки против ретро-подсказок)

В экспериментах с 4-го по 7-й ученые проверили, играет ли роль время подачи аудиосигнала. Они сравнили ретро-подсказки (подаваемые через 248 миллисекунд после стимула) с пред-подсказками (подаваемыми за 1,6 секунды до стимула).

При подаче пред-подсказки у участников значимо улучшалось как обнаружение слова, так и способность правильно определять его шрифт. Мозг заранее настраивал зрительную систему на восприятие конкретного объекта.

При подаче ретро-подсказки улучшалось только обнаружение слова, но точность распознавания регистра букв оставалась на уровне случайного угадывания. Это подтверждает, что ретро-подсказка работает иначе: она не предотвращает разрушение зрительного образа маской, а извлекает уже угасший абстрактный лексический след из памяти.

(Эксперименты 4-7) Чувствительность обнаружения стимула (a) и точность распознавания регистра букв (b) показаны для предварительного подсказывания (pre-cueing, левые графики) и ретроспективного подсказывания (retro-cueing, правые графики). Звездочки указывают на интервалы, где апостериорные сравнения (post-hoc) были статистически значимыми, либо на графики, где общий статистический анализ выявил значимый эффект конгруэнтности при отсутствии значимого апостериорного критерия. Вертикальные линии показывают стандартную ошибку среднего по группе участников (нижние графики) либо средние значения, предсказанные теоретической моделью (нижние графики).
Автор: Rimsky Robert, D., Lisi, M., Nguy, K. et al. Источник: www.nature.com
Новая модель восприятия: предиктивный мозг и обратная иерархия

Результаты исследования предоставляют новые доказательства в пользу двух фундаментальных концепций когнитивной науки.

Теория обратной иерархии

Теория обратной иерархии утверждает, что при восприятии информации первый неосознанный поток сигналов быстро доходит до высших отделов мозга, обеспечивая мгновенное понимание общей сути и значения объекта (так называемое gist-perception). Детализация же изображения (определение точного шрифта, регистра букв или координат) требует обратного процесса — направления внимания сверху вниз, обратно к первичным сенсорным зонам.

Если эти первичные зоны заблокированы маскировкой, нисходящий поиск деталей завершается неудачей. Однако высокоуровневое представление о значении слова уже сформировано в височной коре и может быть успешно извлечено при помощи слухового сигнала.

Ретроспективный мозг

Исследование расширяет рамки концепции предиктивного кодирования. Мозг работает не только в режиме прогнозирования будущего. Он постоянно осуществляет ретроспективную реконструкцию — использует информацию из настоящего времени (звук в наушниках), чтобы стабилизировать, переписать и вывести в сознание события, которые уже произошли в прошлом и физически исчезли из органов чувств.

Сознание как мозаика

Данная работа демонстрирует, что наше сознательное восприятие устроено гораздо более фрагментарно и модульно, чем принято считать. Субъективный когнитивный опыт не является неделимым блоком. Мозг способен обрабатывать, стабилизировать и выводить в сознание смысловое значение стимула полностью независимо от его физической и сенсорной формы.

Этот вывод открывает новые перспективы в изучении природы когнитивных различий у людей (например, при афантазии — неспособности к визуализации образов при сохранении понятийного мышления). Кроме того, понимание механизмов независимой обработки смысла и физической формы может быть использовано при создании архитектур искусственного интеллекта, способных раздельно обрабатывать семантическую информацию и низкоуровневые сенсорные параметры сигналов.

Источник: Communications Psychology

2 комментария

Андрей Панов vkontakte4711216
Благодарю авторов за элегантный экспериментальный дизайн. Данная работа ставит важные вопросы перед классическими иерархическими моделями зрительного восприятия и предоставляет убедительные эмпирические аргументы в пользу предиктивных и реконструктивных механизмов работы мозга.
Опираясь на полученные данные, хотелось бы предложить несколько теоретических шагов для расширения интерпретации, которые могут помочь еще глубже интегрировать эти результаты в современный научный контекст:
1. Восприятие и память как единый реконструктивный континуум
Авторы обоснованно вводят концепт «ретроспективного мозга». Логичным развитием этой идеи может стать отказ от жесткого механистического разделения «онлайн-восприятия» и «кратковременной памяти». В рамках парадигмы предиктивного кодирования оба процесса опираются на одну и ту же генеративную модель, различаясь лишь временным масштабом и источниками сенсорных ошибок. Аудиоподсказка не «реактивирует угасший энграммный след» в классическом смысле, а выступает новым апостериорным контекстом (prior), позволяющим системе пересобрать (reconstruct) перцептивный опыт. Граница между «я вижу это сейчас» и «я вспомнил это только что» оказывается не столько архитектурным барьером, сколько феноменологической иллюзией, возникающей при разной степени уверенности (precision weighting) предсказательной модели.
2. Вычислительная экономика: диссоциация семантики и физических атрибутов
Наблюдаемая диссоциация (осознание смысла при слепоте к регистру и локации) отлично иллюстрирует принцип минимизации свободной энергии. Физические детали (шрифт, координаты) несут высокую энтропию; их удержание требует ресурсоемкой локальной рекуррентной обработки в ранних зрительных зонах. Маскировка прерывает этот цикл, и система, минимизируя метаболические затраты, отбрасывает этот уровень. Семантический же уровень (например, концепт «ёж») представляет собой высокоабстрагированную, сжатую предсказательную модель (low-entropy prior). Для закрытия ошибки предсказания на этом уровне системе не нужны пиксели — ей достаточно активировать семантический указатель. Мозг оптимизирует не хранение сырых данных, а вычислительную стоимость их предсказания.
3. От «театра сознания» к глобальной доступности интегрированных сигналов
В тексте отмечается «мозаичность» сознания. В свете этих данных классическую метафору «театра сознания» (где неявно предполагается скрытый наблюдатель-гомункулус, смотрящий на целостную сцену) продуктивнее заменить моделью глобальной доступности (global availability). Сознательный отчет формируется только из тех модулей, которые успешно завершили цикл минимизации ошибки и получили доступ к фронто-париетальной сети. Если ранние зрительные зоны не смогли разрешить неопределенность из-за маски, этот сигнал просто не проходит порог глобального вещания. Отсутствие у испытуемых жалоб на «неполноту картинки» подтверждает, что единого центрального наблюдателя нет: феноменологический опыт складывается исключительно из успешно интегрированных предсказаний, доступных системе в данный момент.
Данный сдвиг фокуса — от пассивного извлечения признаков к активному конструированию реальности на основе ресурсных ограничений — имеет значение не только для нейрофизиологии (например, для понимания механизмов афантазии), но и для машинного обучения. Архитектуры ИИ, способные разделять семантическое ядро (latent space) и сенсорную оболочку, опираясь на вычислительную стоимость их обработки, могут стать принципиально более устойчивыми к шуму и состязательным атакам (adversarial attacks).
Спасибо команде за сильную эмпирическую работу!
B
Спасибо, что включил в перевод заключение. Хоть что-то понятное, о чем это они так парились, исследуя.
Кстати! Косвенно, эти результаты подтверждают некоторую обоснованность опасности «25-го кадра», возникающего перед глазами, как раз на 40 мс. Интересное совпадение с диапазоном времени, используемым исследователями, не правда ли?

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор ZiiGaat x Vivir Digital Rumba: универсальные бюджетные наушники с акцентом на басе

ZiiGaat Rumba — динамические наушники, созданные в сотрудничестве с Vivir Digital (популярным латиноамериканским аудиообзорщиком). Наушники позиционируются как универсальные —...

Зачем Audi и Mazda ещё 30 лет назад устанавливали солнечные панели на серийные машины

Сегодня солнечные панели на автомобили вряд ли вызовут какие-либо эмоции у обычного человека, и здесь все логично, учитывая «зелёную» повестку и современные технологии. Но для чего солнечные...

Почему почти вся Япония сместилась на восток через 15 минут после землетрясения 2011 года: научное объяснение феномена

11 марта 2011 года в Тихом океане у северо-восточного побережья острова Хонсю произошло землетрясение Тохоку магнитудой 9,0. Оно стало сильнейшим в истории наблюдений Японии. Основной...

Мозг способен воспринимать «невидимый» текст: как мы понимаем значение слов, которые не успели рассмотреть

Группа когнитивных нейробиологов из Франции и Великобритании экспериментально доказала, что человек способнен осознать абстрактный смысл визуального стимула, даже если его физические характеристики...

Из свалки в музей: как старые неоновые вывески Лас-Вегаса стали популярной туристической локацией

Не всякая свалка становится музеем, но местечку в Неваде близ Лас-Вегаса повезло совершить невероятный карьерный рост. Возможно, потому что в нем собраны не просто железки, а железки с историей!...

Почему песок из Сахары нельзя использовать в строительстве даже при дефиците сырья

В мире существует огромный спрос на песок, используемый в строительстве. Но почему же пески Сахары не могут удовлетворить спрос строителей из Каира или Дубая, а заказчикам приходится...