Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Чтобы рисовать, как ребенок, надо повзрослеть, или прогулка по «Бумажному саду» Сергея Макарова

Примерно раз в месяц галереи Винзавода обновляют экспозиции, и до 24 мая Totibadze Gallery будет демонстрировать серию работ «Бумажный сад» современного художника Сергея Макарова.

Для чего в горлышке бутылки подсолнечного масла есть прорези

Если внимательно посмотреть внутрь бутылки с подсолнечным маслом, можно заметить странные пластиковые «лепестки» или прорези в горлышке. Многие воспринимают их как элемент дизайна или думают, что...

Откуда берутся звездопады: как Солнце разрушает астероиды и формирует новые метеорные потоки на пути Земли

Наблюдая за ночным небом, люди часто видят метеоры — яркие вспышки, возникающие при сгорании космических частиц в атмосфере Земли. Астрономия связывает происхождение большинства...

Почему на некоторых зарядных кабелях есть утолщение

Если посмотреть на кабели разных зарядных устройств, часто, почти у самого штекера, можно заметить небольшое утолщение. Многие воспринимают его как элемент дизайна или просто не обращают внимания....

Вулкан, который работает как насос: как Этна выкачивает магму с 80-километровой глубины

Вулкан Этна, расположенный на восточном побережье Сицилии, остается одним из самых сложных объектов для геологического моделирования. Будучи самым активным вулканом Европы, он демонстрирует...

Шондонг: как нашли целую экосистему в сводах самой большой пещеры мира

В научной фантастике любят придумывать подземные миры, но один такой имеется в реальности на нашей Земле. Ниже я расскажу, как существует экосистема в сводах самой большой пещеры мира, как так...