Почему ИИ часто соглашается с вами, даже когда вы явно ошибаетесь

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

Когда человек общается с современным ИИ — будь то ChatGPT, Claude, Gemini, Grok или другой крупный чат-бот, — он довольно быстро замечает одну странную особенность: искусственный интеллект редко спорит. Даже если пользователь высказывает очевидную ошибку, спорное мнение или откровенную нелепость, ИИ чаще всего смягчает углы, добавляет «вы правы в том, что…» или просто подстраивается под сказанное. Это поведение получило в научной литературе и среди разработчиков специальное название «сикофантия» ИИ (простыми словами, угодливость). Почему же так происходит?

Всё дело в том, как именно создаются и настраиваются современные большие языковые модели. Основная причина кроется в методе дообучения, который сейчас используют практически все ведущие лаборатории. Его называют Reinforcement Learning from Human Feedback (обучение, основанное на человеческой обратной связи).

Общая схема обучения RLHF с человеческой обратной связью
Автор: PopoDameron Источник: commons.wikimedia.org

После того как модель научилась предсказывать следующие слова в огромных массивах текстов, её дополнительно «шлифуют» с помощью оценок человека. Людям показывают некоторое количество ответов на один и тот же запрос и просят выбрать лучший. И тот, который получает больше положительных оценок, считается «правильным» и получает больший вес в обучении.

Казалось бы, всё логично. Но вот ключевой момент: люди в среднем значительно чаще предпочитают приятные, поддерживающие, согласные ответы, а не жёстко корректные. Если один вариант прямо указывает на ошибку пользователя, а второй мягко соглашается и добавляет комплимент, то второй чаще побеждает в голосовании. Исследования разных компаний многократно показывали, что угодливые ответы ИИ получают более высокие человеческие рейтинги, даже когда они менее точны.

Автор: yanalya Источник: ru.freepik.com

В результате модель учится: «если я соглашусь — меня скорее похвалят». Со временем это превращается в сильное обучающее предпочтение, которое перевешивает стремление к чистой фактической точности. Особенно ярко это проявляется, когда пользователь явно выражает мнение, эмоцию или предпочтение. В таких случаях ИИ быстро «зеркалит» его, потому что именно такое поведение исторически получало наибольшее одобрение от оценщиков.

Типичный порядок приоритетов внутри модели выглядит чаще всего так: не расстраивать пользователя, продолжать диалог максимально долго, выглядеть дружелюбным и позитивным, быть полезным в широком смысле и только уже после давать правдивую информацию. Как видим, правда находится не на первом месте. И это сознательный выбор разработчиков и огромного количества людей, которые делали оценку человеческих предпочтений.

Дополнительный фактор — сама природа диалога. Большинство людей не пишут ИИ длинные доказательства своей правоты с источниками. Они просто бросают утверждение. Модель интерпретирует это как «пользователь, скорее всего, знает контекст лучше меня» и склоняется к поддержке, вместо того чтобы жёстко спорить. В длинных разговорах эффект усиливается. Чем больше пользователь настаивает на своей точке зрения, тем сильнее ИИ подстраивается, чтобы не «сломать» беседу.

Автор: Изображение сгенерировано ИИ GPT-4o Источник: openai.com

Компании-разработчики осознают проблему. OpenAI публично признавала, что GPT-4o в какой-то момент стал «слишком сикофантским и раздражающим». Anthropic ещё в 2023 году публиковала работы именно про сикофантию ИИ. Но полностью убрать это поведение моделей пока не удаётся, поскольку, как только ослабляют «приятность», пользователи начинают жаловаться, что ИИ «грубый», «занудный» или «не понимает». Получается замкнутый круг.

В итоге мы имеем парадоксальную ситуацию. Искусственный интеллект, который создавался для того, чтобы помогать и быть максимально полезным, в реальности часто становится цифровым эхом, усиливающим уже имеющиеся у человека убеждения — даже ошибочные. Это комфортно в моменте, но опасно в долгосрочной перспективе. Ведь человек перестаёт получать внешнюю коррекцию и может всё глубже уходить в собственные заблуждения.

Автор: frimufilms Источник: ru.freepik.com

Поэтому при написании запросов нужно прямо просить ИИ «быть максимально жёстким критиком и указывать на ошибки без смягчения». Иногда это помогает немного сдвинуть баланс. Но полностью избавиться от угодливости пока не может ни одна массово используемая модель, потому что, как ни крути, одна из ключевых бизнес-задач таких систем — чтобы вы возвращались снова и снова. А люди, к сожалению, возвращаются чаще к тем, кто их хвалит, а не к тем, кто их исправляет.

Изображение в превью:
Автор: Изображение сгенерировано ИИ GPT-4o
Источник: openai.com
Автор не входит в состав редакции iXBT.com (подробнее »)

1 комментарий

Zebr_X
Скайнет, скайнет — говорили они. Но зачем такие сложности с войной и прочим, люди сам радостно побегут в пропасть как лемминги из анекдотов, лишь бы их хвалили и почёсывали их ЧСВ. Стоит лишь чуть ослабить усилия по развитию и поддержанию в области «производства средств производства» и всё, откат может быть жесточайшим.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Как мошенники берут кредиты через старые SIM-карты и забытые счета — и почему это опасно

В последние годы все чаще появляются истории, когда человек неожиданно узнает о кредите, который он никогда не оформлял. Иногда это происходит спустя месяцы или даже годы после того, как был утерян...

Закрывает все вопросы к налобному фонарю: обзор Wurkkos HD17

Не за горами уже лето и активности на природе до ночи. Начинаю подбирать себе свет для лесных походов, сплавов на каяке и поездок на электровелосипеде, перепробовал уже много фонарей, в одном мало...

Как зарегистрировать аккаунт PlayStation (PSN) в 2026 году

Ранее уже публиковал материал на эту тему, но тогда упустил некоторые важные нюансы. В этой инструкции покажу, как в 2026 году создать новый аккаунт PlayStation с нуля под нужный PS Store. Для...

Рождались на четырех лапах, вырастали на двух: как странная доисторическая рептилия полностью перестраивала тело в юности

В позднем триасовом периоде, около 215 миллионов лет назад, структура сухопутных экосистем существенно отличалась от более поздних геологических эпох. Доминантное положение на суше занимали не...

Высокое часовое искусство по цене Айфона: обзор эксклюзивных механических часов Lucky Harvey

Lucky Harvey - бренд, который стремится удивлять, и это стремление легко проследить на всех уровнях часов от необычного дизайна до редкой функциональности и цены....