Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Хижина Маргариты: почему люди поднимаются на высоту 4554 метра ради одной ночи

В итальянских Альпах на горе Пунта-Гнифетти горной цепи Монте-Роза (Monte Rosa) стоит необычное место для ночлега, называемое «Хижиной Маргариты». Находится оно на высоте 4554 метра над уровнем...

Будущее защищённых смартфонов на российском рынке: планы и инновации бренда Ulefone

  • Статья
  • Ulefone
О планах Ulefone на российском рынке и особенностях новых защищённых гаджетов рассказал CEO компании, господин Сюн Синьань. Компания уже много лет выпускает защищённые смартфоны и продолжает...

Гравитация следует законам Ньютона и Эйнштейна на любых масштабах: доказывает ли это существование темной материи?

Наблюдая за космосом, современные астрономы сталкиваются с серьезной физической проблемой. Эта проблема касается того, как движутся звезды внутри галактик и как сами галактики перемещаются внутри...

Обзор NAS TerraMaster F2-425 или как я пришел к покупке сетевого хранилища, после утраты более 10 000 фото

После того, как я случайно сломал свой основной телефон где-то на побережье Эгейского моря, столкнулся с потерей личных фотографий и видеороликов с близкими мне людьми. Почему-то я всегда считал,...

Моточасы вместо километров: зачем сельхозтехнике особый способ учёта пробега

У сельхозмашин (тракторов, комбайнов, погрузчиков), коммунальной технике (снегоуборочной, грейдеров) показатель наработки выражается в мото — часах, а не в километрах (как у привычных...