ИИ не глупеет от большого количества информации, а просто ленится: Как заставить машину рассуждать, а не просто вспоминать?

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Наука и космос

Искусственный интеллект не всегда умнеет от большего количества данных — иногда он просто начинает, скажем так, «лениться» думать. Звучит странно, правда? Ведь мы привыкли считать, что чем больше информации у машины, тем точнее её выводы. Но недавние исследования показывают: столкнувшись с огромными массивами текста, даже самые продвинутые языковые модели (LLM) могут начать «срезать углы» в своих рассуждениях.

Все мы слышали про задачку «Иголка в стоге сена», где ИИ ищет факт в куче текста. Это базовая проверка. Но что, если задача сложнее? Если нужно найти несколько «иголок» и логически их связать, чтобы прийти к ответу? Именно в таких, более реалистичных сценариях, и вскрылась интересная закономерность: чем больше становился «стог сена» из отвлекающей информации, тем чаще некоторые ИИ начинали ошибаться. Особенно модели с открытым кодом.

Но почему? Неужели они просто «забывают» нужные факты в потоке данных? Или дело в чем-то другом? Оказалось, проблема куда тоньше: похоже, ИИ начинает жертвовать глубиной своего мыслительного процесса.

Когда больше значит хуже?

Именно такую, более хитрую задачу, названную «Множество иголок в стоге сена для рассуждений» (сокращенно MNIAH-R, но не будем забивать голову аббревиатурами), и стали использовать исследователи. Они прятали несколько связанных фактов в большой «стог» отвлекающей информации и просили ИИ ответить на вопрос, требующий многоходовых рассуждений.

Казалось бы, чем больше контекста, тем лучше модель должна справляться, верно? Ведь у неё больше информации под рукой. А вот и нет! Выяснилось нечто парадоксальное: по мере увеличения объема «стога сена» точность ответов у многих моделей начинала… падать. Не сильно, но заметно. Особенно это коснулось моделей с открытым исходным кодом по сравнению с их коммерческими собратьями.

Хм, странно. Почему так?

Показатели по MNIAH-R после фильтрации
Автор: Yidong Wang arXiv:2504.04150 [cs.CL] Источник: arxiv.org
В поисках виновника: Копаем глубже

Первым делом исследователи решили разобраться с «читерством». А что, если модель просто знает ответ, потому что он был в её обучающих данных? Чтобы исключить этот фактор, учёные отфильтровали вопросы — оставили только те, на которые модель не могла правильно ответить без предоставленного текста, но могла, если текст был под рукой. И вот тут-то падение точности стало куда более драматичным! Значит, проблема глубже, чем просто «вспоминание».

Стали искать дальше. Может, дело в том, где спрятаны «иголки»? Ближе к началу текста, к концу? Или важно расстояние между ними? Проверили и то, и другое. Оказалось — нет, ни расположение, ни дистанция особой роли не играли. Точность плавала незначительно, но явной зависимости не было.

Влияние положения игл // Влияние расстояния между иглами.
Автор: Yidong Wang arXiv:2504.04150 [cs.CL] Источник: arxiv.org

Так в чём же тогда дело?

И ответ оказался довольно неожиданным. Проблема крылась в… «длине мыслительного процесса» модели. Попросту говоря, когда ИИ давали очень много текста, он начинал «думать» меньше — генерировать более короткую цепочку рассуждений перед тем, как дать ответ. Представьте, что вам дали проанализировать огромный, скучный отчет на тысячу страниц. Не возникнет ли соблазн где-то «срезать углы», пропустить пару шагов анализа, чтобы быстрее прийти к выводу? Похоже, что-то подобное происходило и с ИИ. Большой объем информации его как будто перегружал, и он старался побыстрее выдать результат, жертвуя глубиной анализа.

Учим ИИ не торопиться и думать

Итак, если проблема в сокращении «размышлений», можно ли это исправить? Исследователи предложили интересный подход. Давайте разделим процесс на этапы, как это часто делаем мы, люди.

  1. Найди улики (Извлечение): Сначала пробегись по тексту и вытащи всю информацию, которая кажется релевантной для ответа на вопрос.
  2. Сложи два и два (Рассуждение): Теперь, имея перед глазами эти улики, подумай и сформулируй ответ.

Но это ещё не всё! Что если первого захода оказалось недостаточно? Добавим ещё один шаг — «рефлексию».

  1. Подумай ещё раз (Рефлексия и повторное извлечение): Посмотри на свой первый ответ и собранные улики. Может, ты что-то упустил? Вернись к тексту и поищи ещё информацию, но постарайся не повторяться.
  2. Финальный вывод (Повторное рассуждение): Теперь, с учетом всех найденных улик (старых и новых), сформулируй окончательный ответ.

По сути, это похоже на то, как мы решаем сложную задачу: сначала собираем факты, делаем предварительный вывод, потом сомневаемся, ищем ещё, перепроверяем и приходим к итоговому заключению. Такой многоэтапный подход назвали «Масштабирование в реальном времени» (Test-Time Scaling) — то есть, мы не меняем саму модель, а просто даем ей больше «времени» и шагов на обдумывание во время ответа.

И знаете что? Это сработало! Точность ответов улучшилась, а её падение с увеличением текста стало менее резким.

Снижение точности при увеличении числа итераций мыслительного процесса
Автор: Yidong Wang arXiv:2504.04150 [cs.CL] Источник: arxiv.org
А если научить этому «правильному» мышлению?

Следующий логичный шаг: а что если не просто заставлять модель думать итерациями во время теста, а прямо научить её этому? Взяли одну из моделей (Llama-3-8B-ProLong), которая показывала сильное падение точности, и дообучили её на примерах вот такого пошагового, итеративного мышления, сгенерированных с помощью мощной GPT-4o.

Результат превзошел ожидания! После такого дообучения падение точности у модели сократилось с внушительных 25.8% до всего 4.6% при переходе от коротких к длинным текстам. Она научилась поддерживать глубину рассуждений даже в больших «стогах сена».

И вишенка на торте: этот навык «глубокого думания» оказался полезен не только для поиска иголок. Когда эту дообученную модель попробовали применить к совершенно другой задаче — решению математических олимпиадных заданий (AIME 2024), она справилась лучше! Она смогла эффективнее анализировать предложенные варианты решений и выбирать правильное, улучшив результат базовой GPT-4o.

Что всё это значит?

Эта работа — не просто про иголки и стога. Она о том, как мы можем строить ИИ, который не просто накапливает информацию, а способен глубоко и последовательно рассуждать, даже когда информации очень много. Умение не «тонуть» в данных, а вычленять суть, перепроверять себя и строить сложные логические цепочки — вот что отличает по-настоящему умную систему.

Конечно, это лишь один из шагов. Ещё многое предстоит изучить. Но понимание того, как ИИ думает (или почему он перестает думать глубоко), и разработка методов, помогающих ему мыслить лучше — это ключ к созданию более надежных и способных интеллектуальных помощников в будущем. Ведь настоящая цель — не просто ходячая энциклопедия, а партнер по размышлениям. И, кажется, мы сделали ещё один шажок в эту сторону.

1 комментарий

Pchelkin
А с чего вообще взяли, что ИИ «глупеет» или «умнеет»? У него, что, появился ум? Или душа? Или дух? Или разум? ИИ — это всё тот же набор единиц и нулей, всё. Конечно, если ИИ скармливать запрос типа: «Напиши мне супер-пупер статью, на тему, бла-бла-бла...», то умного текста вы не получите. А вот если создать тем же ИИ хотя бы три полноценных промта, каждый из которых будет выполнять свою роль (создание, проверка, улучшение), то на выходе получите ТОП материал высшего уровня. Это я к тому, что как мы общаемся с ИИ, так и он общается с нами.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Почему мозг «видит лица» там, где их нет, особенно в темноте

Возможно, вы когда-нибудь ловили себя на мысли, что в темноте видите чьё-то лицо — в складках одежды, в силуэте стула или на шторе. Сердце замирает, а потом разум быстро убеждает: «Это...

Что такое структурированная икра и чем она отличается от зернистой

Когда открываешь банку икры, в комнате на мгновение замирает воздух. Солёный запах моря, влажный блеск зёрен, тихий звон ложки о стекло, всё это будто про что-то личное. Но стоит присмотреться, и...

Один фонарик на все случаи. Лазер, светодиодные «крылья» и честный УФ-свет. . Обзор фонарика Wurkkos HD02

«Крылья» кемпингового света, основной свет с 3200люм яркости, зелёный лазер и честный ультрафиолетовый свет с 365нм, резьба под штатив и магнит. Экспериментальный фонарик Wurkkos сулит многое. Вот...

Обзор планшета Blackview Zeno 10 5G: искусственный интеллект, плавный экран и объемный звук

Blackview Zeno 10 5G это современный планшет с поддержкой сим карты, которая обеспечивает связь и автономную работу с мобильным интернетом. Планшет интересен своей доступной ценой и...

ДТ-30 «Витязь»: сильные и слабые стороны легендарного вездехода

Страна у нас огромная и богатая на природные недра, а вот с дорогами постоянные проблемы. Порой проще придумать супер проходимый вездеход, чем прокладывать дороги в условиях Крайнего Севера. Так и...

Одинокое дерево в сердце Сахары: как дереву Тенере удавалось столетиями расти среди песков и что с ним сейчас

В сердце Сахары, в районе Тенере в северо-восточной части Нигера, более трёх веков стояло дерево, которое считалось самым одиноким на планете. Это была зонтичная акация, которую назвали «Дерево...