Почему ИИ часто соглашается с вами, даже когда вы явно ошибаетесь

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

Когда человек общается с современным ИИ — будь то ChatGPT, Claude, Gemini, Grok или другой крупный чат-бот, — он довольно быстро замечает одну странную особенность: искусственный интеллект редко спорит. Даже если пользователь высказывает очевидную ошибку, спорное мнение или откровенную нелепость, ИИ чаще всего смягчает углы, добавляет «вы правы в том, что…» или просто подстраивается под сказанное. Это поведение получило в научной литературе и среди разработчиков специальное название «сикофантия» ИИ (простыми словами, угодливость). Почему же так происходит?

Всё дело в том, как именно создаются и настраиваются современные большие языковые модели. Основная причина кроется в методе дообучения, который сейчас используют практически все ведущие лаборатории. Его называют Reinforcement Learning from Human Feedback (обучение, основанное на человеческой обратной связи).

Общая схема обучения RLHF с человеческой обратной связью
Автор: PopoDameron Источник: commons.wikimedia.org

После того как модель научилась предсказывать следующие слова в огромных массивах текстов, её дополнительно «шлифуют» с помощью оценок человека. Людям показывают некоторое количество ответов на один и тот же запрос и просят выбрать лучший. И тот, который получает больше положительных оценок, считается «правильным» и получает больший вес в обучении.

Казалось бы, всё логично. Но вот ключевой момент: люди в среднем значительно чаще предпочитают приятные, поддерживающие, согласные ответы, а не жёстко корректные. Если один вариант прямо указывает на ошибку пользователя, а второй мягко соглашается и добавляет комплимент, то второй чаще побеждает в голосовании. Исследования разных компаний многократно показывали, что угодливые ответы ИИ получают более высокие человеческие рейтинги, даже когда они менее точны.

Автор: yanalya Источник: ru.freepik.com

В результате модель учится: «если я соглашусь — меня скорее похвалят». Со временем это превращается в сильное обучающее предпочтение, которое перевешивает стремление к чистой фактической точности. Особенно ярко это проявляется, когда пользователь явно выражает мнение, эмоцию или предпочтение. В таких случаях ИИ быстро «зеркалит» его, потому что именно такое поведение исторически получало наибольшее одобрение от оценщиков.

Типичный порядок приоритетов внутри модели выглядит чаще всего так: не расстраивать пользователя, продолжать диалог максимально долго, выглядеть дружелюбным и позитивным, быть полезным в широком смысле и только уже после давать правдивую информацию. Как видим, правда находится не на первом месте. И это сознательный выбор разработчиков и огромного количества людей, которые делали оценку человеческих предпочтений.

Дополнительный фактор — сама природа диалога. Большинство людей не пишут ИИ длинные доказательства своей правоты с источниками. Они просто бросают утверждение. Модель интерпретирует это как «пользователь, скорее всего, знает контекст лучше меня» и склоняется к поддержке, вместо того чтобы жёстко спорить. В длинных разговорах эффект усиливается. Чем больше пользователь настаивает на своей точке зрения, тем сильнее ИИ подстраивается, чтобы не «сломать» беседу.

Автор: Изображение сгенерировано ИИ GPT-4o Источник: openai.com

Компании-разработчики осознают проблему. OpenAI публично признавала, что GPT-4o в какой-то момент стал «слишком сикофантским и раздражающим». Anthropic ещё в 2023 году публиковала работы именно про сикофантию ИИ. Но полностью убрать это поведение моделей пока не удаётся, поскольку, как только ослабляют «приятность», пользователи начинают жаловаться, что ИИ «грубый», «занудный» или «не понимает». Получается замкнутый круг.

В итоге мы имеем парадоксальную ситуацию. Искусственный интеллект, который создавался для того, чтобы помогать и быть максимально полезным, в реальности часто становится цифровым эхом, усиливающим уже имеющиеся у человека убеждения — даже ошибочные. Это комфортно в моменте, но опасно в долгосрочной перспективе. Ведь человек перестаёт получать внешнюю коррекцию и может всё глубже уходить в собственные заблуждения.

Автор: frimufilms Источник: ru.freepik.com

Поэтому при написании запросов нужно прямо просить ИИ «быть максимально жёстким критиком и указывать на ошибки без смягчения». Иногда это помогает немного сдвинуть баланс. Но полностью избавиться от угодливости пока не может ни одна массово используемая модель, потому что, как ни крути, одна из ключевых бизнес-задач таких систем — чтобы вы возвращались снова и снова. А люди, к сожалению, возвращаются чаще к тем, кто их хвалит, а не к тем, кто их исправляет.

Изображение в превью:
Автор: Изображение сгенерировано ИИ GPT-4o
Источник: openai.com
Автор не входит в состав редакции iXBT.com (подробнее »)

1 комментарий

Zebr_X
Скайнет, скайнет — говорили они. Но зачем такие сложности с войной и прочим, люди сам радостно побегут в пропасть как лемминги из анекдотов, лишь бы их хвалили и почёсывали их ЧСВ. Стоит лишь чуть ослабить усилия по развитию и поддержанию в области «производства средств производства» и всё, откат может быть жесточайшим.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Чем запомнился советским дальнобойщикам тягач МАЗ-6422

Не смотря на обилие модификаций седельных тягачей Минского автомобильного завода, у них четко прослеживаются поколения, отличающиеся дизайном и силовыми агрегатами. В конце 80-х годов вышел...

Какая бесплатная карта российского банка работает в Египте в 2026 году

В наши времена санкций и блокировок, то, что российскую карту можно использовать в Египте, кажется почти фантастикой. Я получил бесплатную карту Unionpay Россельхозбанка за день до поездки и уже...

Природа изобрела сложный глаз дважды: почему глаза людей и осьминогов устроены абсолютно по-разному

Позвоночные животные и головоногие моллюски — две совершенно разные ветви жизни. Их эволюционные пути разошлись так давно, что у их последнего общего предка не было даже примитивных...

Салар-де-Уюни в Боливии: почему в самой большой зеркальной поверхности мира нельзя оставаться после заката и ходить без гида

Салар-де-Уюни в Боливии — это одно из самых поразительных природных чудес планеты. Расположенный на высоте около 3650 метров над уровнем моря в высокогорном Альтиплано, этот солончак...

Кембрийского взрыва не было: почему внезапное появление сложных животных оказалось ошибкой геологической летописи

Если вы посмотрите на палеонтологическую летопись 550 миллионов лет назад, вы увидите Эдиакарский период — странный, тихий мир. Дно океанов покрыто бактериальными матами, на которых...

Часовой букет Чайкина: как механические цветы превращаются в символ времени

Апрель в этом году начался очень художественно: сразу несколько выставок-ярмарок современного искусства проходят в Москве, и на одной из них, «Арт России» можно видеть замысловатые художественные...