Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Fnirsi tdm-120: бюджетный автономный тепловизор

Разрешение матрицы 120 на 90 пикселей, честная частота 25 Герц и чувствительность <60mK позволяют заметить малейший перегрев элемента платы или утечку в теплом полу задолго до серьезной аварии....

Астрономы получили самые убедительные доказательства существования первых звезд Вселенной: они оказались сверхмассивными

Через 400 миллионов лет после Большого взрыва Вселенная состояла исключительно из водорода, гелия и следовых количеств лития. Более тяжелых элементов, которые астрономы собирательно называют...

Серфинг без капли воды: как оазис Уакачина стал курортом для тех, кто боится утонуть

Хочется ловить волну, но вот проблема: только оказавшись в водоёме глубже пары метров, вам даётся исключительно стиль топориком ко дну? В таком случае вам стоит узнать про самое необычное место для...

Астрономы доказали существование трех популяций сливающихся черных дыр: неразлучные пары, случайные встречи и «каннибалы»

Астрофизики получают информацию о слияниях черных дыр благодаря детекторам гравитационных волн. Когда два сверхплотных объекта сталкиваются, они вызывают возмущение пространства, которое...

Туер «Енисей»— один из последних в мире: почему он до сих пор работает на Казачинском пороге, хотя на всех остальных реках России и Европы такие суда давно исчезли

На реке Енисей есть участок, который веками оставался серьёзным препятствием для судоходства. Это Казачинский порог — природная «плотина» из скальных выступов и каменистых гряд,...

Наши предки вылуплялись из яиц: окаменелость возрастом 250 млн лет подтвердила спорную гипотезу палеонтологов

Эволюционная история млекопитающих неразрывно связана с процессом размножения. Долгое время биологи опирались на устоявшееся положение: древние предки современных млекопитающих, известные как...