Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Новое исследование перечислило типичные ошибки в рассуждениях у ChatGPT и Claude

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

18 февраля 2026, 18:05 | Новость | ИИ, сервисы и приложения

Группа учёных из Стэнфордского университета, Калифорнийского технологического института и Карлтонского колледжа опубликовала масштабный обзор, в котором классифицировала типы логических сбоев, возникающих в работе больших языковых моделей, включая ChatGPT и Claude. Работа размещена на платформе arXiv и в издании Transactions on Machine Learning Research.

Авторы объединили результаты ранее проведённых экспериментов с собственными данными и выделили несколько категорий устойчивых ошибок. Среди них — неспособность моделей стабильно выполнять элементарные логические операции с естественным языком, например корректно обрабатывать симметричные утверждения вида «если A равно B, то B равно A». Зафиксированы систематические сбои при двухэтапных рассуждениях, требующих сопоставления фактов из разных источников.

В области математики модели допускают ошибки в базовых операциях, включая счёт и работу с символами. При решении текстовых математических задач модели не способны определить наличие ошибки в условии. В задачах на пространственное и физическое мышление модели не справляются с определением расположения объектов в заданном сценарии.

Автор: DC Studio Источник: ru.freepik.com

Отдельная категория сбоев связана с социальным мышлением. Модели не могут последовательно моделировать внутренний мир человека, прогнозировать поведение и выносить морально-этические суждения. При длительных диалогах модели теряют единую линию рассуждения, опираясь на локальный контекст.

Исследователи предложили отрасли внедрить единые отказоустойчивые эталонные тесты, охватывающие все выявленные типы ошибок, а также применять методы инжекции ошибок для целенаправленной проверки известных слабых мест. По мнению авторов, систематическая классификация сбоев аналогична практике анализа инцидентов в критически важных для безопасности отраслях и является необходимым этапом для создания более устойчивых систем.

Источник: Popular Mechanics

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Mercedes‑Benz представит электрический C‑класс с бесшовным экраном

Авто и транспорт
21 минута назад
0

Представлен интегральный усилитель, который выдает 390 ватт при нагрузке 4 Ом и работает на платформе TITAN

Аудио и звук
32 минуты назад
0

В Китае стартовали продажи первого совместного кроссовера Volkswagen и Xpeng — электрокара ID. Unyx 08

Авто и транспорт
33 минуты назад
0

Skoda показала механический велосипедный звонок, который «прошивает» активное шумоподавление беспроводных наушников

Авто и транспорт
51 минута назад
0

Слияние двух гигантских чёрных дыр в 500 млн световых лет от Земли может произойти уже в этом столетии

Наука и космос
1 час назад
0

Публикации

Обзор портативной колонки SVEN PS-375

Обзор
3 часа назад
Аудио и звук

Если вы ищете портативную колонку, которая одинаково уверенно звучит и в квартире, и на даче, и на выезде на природу, то SVEN PS-375 сразу привлекает внимание. В этом обзоре посмотрю, на что...

Хижина Маргариты: почему люди поднимаются на высоту 4554 метра ради одной ночи

Статья
3 часа назад
Путешествия и туризм

В итальянских Альпах на горе Пунта-Гнифетти горной цепи Монте-Роза (Monte Rosa) стоит необычное место для ночлега, называемое «Хижиной Маргариты». Находится оно на высоте 4554 метра над уровнем...

Будущее защищённых смартфонов на российском рынке: планы и инновации бренда Ulefone

Статья
5 часов назад
Ulefone

О планах Ulefone на российском рынке и особенностях новых защищённых гаджетов рассказал CEO компании, господин Сюн Синьань. Компания уже много лет выпускает защищённые смартфоны и продолжает...

Гравитация следует законам Ньютона и Эйнштейна на любых масштабах: доказывает ли это существование темной материи?

Статья
5 часов назад
Наука и космос

Наблюдая за космосом, современные астрономы сталкиваются с серьезной физической проблемой. Эта проблема касается того, как движутся звезды внутри галактик и как сами галактики перемещаются внутри...

Обзор NAS TerraMaster F2-425 или как я пришел к покупке сетевого хранилища, после утраты более 10 000 фото

Обзор
6 часов назад
Сетевое оборудование

После того, как я случайно сломал свой основной телефон где-то на побережье Эгейского моря, столкнулся с потерей личных фотографий и видеороликов с близкими мне людьми. Почему-то я всегда считал,...

Моточасы вместо километров: зачем сельхозтехнике особый способ учёта пробега

Мнение
6 часов назад
Авто и транспорт

У сельхозмашин (тракторов, комбайнов, погрузчиков), коммунальной технике (снегоуборочной, грейдеров) показатель наработки выражается в мото — часах, а не в километрах (как у привычных...