Почему ИИ часто соглашается с вами, даже когда вы явно ошибаетесь

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

Когда человек общается с современным ИИ — будь то ChatGPT, Claude, Gemini, Grok или другой крупный чат-бот, — он довольно быстро замечает одну странную особенность: искусственный интеллект редко спорит. Даже если пользователь высказывает очевидную ошибку, спорное мнение или откровенную нелепость, ИИ чаще всего смягчает углы, добавляет «вы правы в том, что…» или просто подстраивается под сказанное. Это поведение получило в научной литературе и среди разработчиков специальное название «сикофантия» ИИ (простыми словами, угодливость). Почему же так происходит?

Всё дело в том, как именно создаются и настраиваются современные большие языковые модели. Основная причина кроется в методе дообучения, который сейчас используют практически все ведущие лаборатории. Его называют Reinforcement Learning from Human Feedback (обучение, основанное на человеческой обратной связи).

Общая схема обучения RLHF с человеческой обратной связью
Автор: PopoDameron Источник: commons.wikimedia.org

После того как модель научилась предсказывать следующие слова в огромных массивах текстов, её дополнительно «шлифуют» с помощью оценок человека. Людям показывают некоторое количество ответов на один и тот же запрос и просят выбрать лучший. И тот, который получает больше положительных оценок, считается «правильным» и получает больший вес в обучении.

Казалось бы, всё логично. Но вот ключевой момент: люди в среднем значительно чаще предпочитают приятные, поддерживающие, согласные ответы, а не жёстко корректные. Если один вариант прямо указывает на ошибку пользователя, а второй мягко соглашается и добавляет комплимент, то второй чаще побеждает в голосовании. Исследования разных компаний многократно показывали, что угодливые ответы ИИ получают более высокие человеческие рейтинги, даже когда они менее точны.

Автор: yanalya Источник: ru.freepik.com

В результате модель учится: «если я соглашусь — меня скорее похвалят». Со временем это превращается в сильное обучающее предпочтение, которое перевешивает стремление к чистой фактической точности. Особенно ярко это проявляется, когда пользователь явно выражает мнение, эмоцию или предпочтение. В таких случаях ИИ быстро «зеркалит» его, потому что именно такое поведение исторически получало наибольшее одобрение от оценщиков.

Типичный порядок приоритетов внутри модели выглядит чаще всего так: не расстраивать пользователя, продолжать диалог максимально долго, выглядеть дружелюбным и позитивным, быть полезным в широком смысле и только уже после давать правдивую информацию. Как видим, правда находится не на первом месте. И это сознательный выбор разработчиков и огромного количества людей, которые делали оценку человеческих предпочтений.

Дополнительный фактор — сама природа диалога. Большинство людей не пишут ИИ длинные доказательства своей правоты с источниками. Они просто бросают утверждение. Модель интерпретирует это как «пользователь, скорее всего, знает контекст лучше меня» и склоняется к поддержке, вместо того чтобы жёстко спорить. В длинных разговорах эффект усиливается. Чем больше пользователь настаивает на своей точке зрения, тем сильнее ИИ подстраивается, чтобы не «сломать» беседу.

Автор: Изображение сгенерировано ИИ GPT-4o Источник: openai.com

Компании-разработчики осознают проблему. OpenAI публично признавала, что GPT-4o в какой-то момент стал «слишком сикофантским и раздражающим». Anthropic ещё в 2023 году публиковала работы именно про сикофантию ИИ. Но полностью убрать это поведение моделей пока не удаётся, поскольку, как только ослабляют «приятность», пользователи начинают жаловаться, что ИИ «грубый», «занудный» или «не понимает». Получается замкнутый круг.

В итоге мы имеем парадоксальную ситуацию. Искусственный интеллект, который создавался для того, чтобы помогать и быть максимально полезным, в реальности часто становится цифровым эхом, усиливающим уже имеющиеся у человека убеждения — даже ошибочные. Это комфортно в моменте, но опасно в долгосрочной перспективе. Ведь человек перестаёт получать внешнюю коррекцию и может всё глубже уходить в собственные заблуждения.

Автор: frimufilms Источник: ru.freepik.com

Поэтому при написании запросов нужно прямо просить ИИ «быть максимально жёстким критиком и указывать на ошибки без смягчения». Иногда это помогает немного сдвинуть баланс. Но полностью избавиться от угодливости пока не может ни одна массово используемая модель, потому что, как ни крути, одна из ключевых бизнес-задач таких систем — чтобы вы возвращались снова и снова. А люди, к сожалению, возвращаются чаще к тем, кто их хвалит, а не к тем, кто их исправляет.

Изображение в превью:
Автор: Изображение сгенерировано ИИ GPT-4o
Источник: openai.com
Автор не входит в состав редакции iXBT.com (подробнее »)

1 комментарий

Zebr_X
Скайнет, скайнет — говорили они. Но зачем такие сложности с войной и прочим, люди сам радостно побегут в пропасть как лемминги из анекдотов, лишь бы их хвалили и почёсывали их ЧСВ. Стоит лишь чуть ослабить усилия по развитию и поддержанию в области «производства средств производства» и всё, откат может быть жесточайшим.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Туринская плащаница Дани Рязанова: как молодой художник из Петербурга рисует огнем

Раньше, наблюдая за современным художественным процессом, казалось, что молодые художники стремятся как можно дальше уйти от «навязанных» канонов, отказаться от всего, чем пользовались мастера...

Детальное изучение мозга чемпиона по памяти раскрыло нейробиологию его трюков

Рабочая память человека имеет свои физиологические ограничения. Исторически в когнитивной психологии этот предел описывался формулой «семь плюс-минус два элемента». Вы можете легко удержать в...

Эффект странника: как навыки ориентации в пространстве породили у человека геометрическое мышление

Со времен Платона геометрия считалась высшим проявлением абстрактного мышления. В диалоге «Менон» философ просит необразованного мальчика-раба удвоить площадь квадрата — и тот, опираясь...

Каньон Антилопы: почему он самый извилистый и фотогеничный в мире

В Аризоне, на землях индейцев навахо, находится место, любимое фотографами со всего мира. Каньон Антилопы вы наверняка хоть раз видели на заставке своего компьютера. Microsoft вносила его виды в...

Почему кофе и чай бодрят: взгляд с точки зрения науки

Вы когда-нибудь замечали, что после чашки кофе фокусировка внимания резко обостряется, но уже через полчаса ясность мысли начинает неумолимо угасать? Эти «американские горки» связаны с конкретными...