Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

Сейчас на главной

Новости

Публикации

Рождались на четырех лапах, вырастали на двух: как странная доисторическая рептилия полностью перестраивала тело в юности

В позднем триасовом периоде, около 215 миллионов лет назад, структура сухопутных экосистем существенно отличалась от более поздних геологических эпох. Доминантное положение на суше занимали не...

Высокое часовое искусство по цене Айфона: обзор эксклюзивных механических часов Lucky Harvey

Lucky Harvey - бренд, который стремится удивлять, и это стремление легко проследить на всех уровнях часов от необычного дизайна до редкой функциональности и цены....

3D печать с хитростями: установка магнитов в модели с помощью инструмента

Наверняка многие сталкивались с необходимостью размещения магнитов в отпечатанных 3D моделях. И если штучная установка вручную практически не занимает времени, то в случаях, когда магнитов...

Что важно знать перед покупкой капсульной кофемашины

Капсульные кофемашины за последние годы стали очень популярными. Они компактны, просты в использовании и позволяют приготовить чашку кофе буквально за минуту. Однако перед покупкой такой техники...

Свет заставили подчиняться законам твердых тел: как физики воссоздали квантовый эффект Холла в оптическом волокне

Развитие вычислительной техники и систем передачи данных неизбежно упирается в физические ограничения оптических компонентов. Свет, движущийся по оптоволокну или кремниевому волноводу микрочипа,...

Выращенный в лаборатории мозг подключили к симулятору: клетки успешно решили бенчмарк для искусственного интеллекта

Несмотря на колоссальный прогресс в развитии искусственного интеллекта, современные нейронные сети всё ещё сильно проигрывают биологическому мозгу в энергоэффективности. Чтобы обучить алгоритм...