Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор беговых смарт-часов Amazfit Active 3 Premium: теперь ты знаешь свой порог лактата

Решил заняться бегом, а выбор программ в фитнес-часах ограничен? На помощь пришли Amazfit с беговыми смарт-часами Active 3 Premium, в которых есть 10 видов беговых тренировок и оценка порога лактата.

Как пополнить российской картой баланс любого мобильного оператора Египта и других стран

Недавно в приложении Сбера появилась возможность оплаты мобильной связи многих стран, в том числе Египта. Опробовал, действительно работает.

Любовь с первого взгляда: обзор маленького, но очень полезного пауэрбанка Ugreen PB727

Компания Ugreen давно уже выпускает различные средства для зарядки любых гаджетов. Не так давно мне отправили новинку — Ugreen PB727, который буквально стал для меня любовью с первого...

Тихий час 13:00–15:00 и иски за ремонт: как законно бороться с шумными соседями в Москве и Московской области

Шум в Москве и МО: лимиты 45–55 дБ, перерыв 13:00–15:00 и протоколы вместо бесед. Как взыскать 30 000 ₽ за моральный вред, если участковый бездействует, и почему новостройки — исключение.

Установка нейросети без цензуры с поддержкой памяти

Нейронные сети стремительно входят в нашу повседневную жизнь, меняя мир уже сегодня. Из этой короткой инструкции вы узнаете, как установить на ПК нейронную сеть, которая не требует мощного оборудов...