Всего лишь около 2% ведущих моделей ИИ могут решить недавно вышедший новый математический тест

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Модели ИИ используются не только для базовых задач, таких как простые исследования и быстрое резюме контента. Они также используются для помощи во всем, от финансового анализа до научных исследований. Вот почему их математические возможности так важны. Вот почему существуют такие математические тесты, как FrontierMath, который его создатель, Epoch AI, недавно опубликовал, и который проверяет LLM с помощью «сотен оригинальных, созданных экспертами математических задач, предназначенных для оценки расширенных способностей к рассуждению в системах ИИ».

Автор: PhonlamaiPhoto Источник: www.pcgamer.com

Хотя сегодняшние модели ИИ, как правило, не уступают другим математическим тестам, таким как GSM-8k и MATH, по данным Epoch AI, «они решают менее 2% задач FrontierMath, что демонстрирует существенный разрыв между текущими возможностями ИИ и коллективным мастерством математического сообщества».

Чтобы было ясно, это сложные тесты. Настолько сложные, что «для их решения обычно требуются часы или дни для опытных математиков», начиная «от вычислительно интенсивных задач в теории чисел и реальном анализе до абстрактных вопросов в алгебраической геометрии и теории категорий».

Что так сильно отличает этот бенчмарк, так это то, что решение этих математических задач требует «расширенных цепочек точных рассуждений, где каждый шаг строится точно на том, что было до этого».

Модели ИИ традиционно не были хороши в расширенных рассуждениях в целом, не говоря уже о сверхсложной математике. Это имеет смысл, если учесть, что модели ИИ, по сути, делают. Используя в качестве примера LLM, они обучаются на тоннах данных, чтобы выяснить, каким, скорее всего, будет каждое следующее слово на основе этих данных.

Однако в последнее время можно было наблюдать, как модели ИИ применяют свое вероятностное «мышление» более направленным образом к промежуточным шагам этого «мышления». Другими словами, наблюдается движение к моделям ИИ, которые пытаются рассуждать посредством своего мышления, а не просто перескакивают к вероятностному выводу.

Что касается задач FrontierMath, обладатель премии Филдса Теренс Тао сказал об Epoch AI: «Я думаю, что в ближайшей перспективе, по сути, единственный способ их решить, не имея настоящего эксперта в этой области, — это сочетание полуэксперта, например, аспиранта в смежной области, возможно, в паре с некоторой комбинацией современного ИИ и множества других алгебраических пакетов…»

Источник: PCGAMER

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор УШМ Интерскол УШМВ-125/1300Э: с бесщеточным двигателем 1,3 кВт и электронной поддержкой оборотов

В январе этого года купил себе бесщеточную сетевую УШМВ-125/1200Э от Интерскол. Плавный запуск, электронная регулировка мощности и удобство в работе оценил не только я, но и соседи по гаражному...

Робот пылесос с непрерывной подачей воды и самоочисткой в реальном времени: обзор новой модели Qrevo Curv 2 Flow от Roborock

Продуманный робот пылесос Roborock Qrevo Curv 2 Flow для влажной и совмещенной уборки, оснащенный лазерной навигацией и ИИ-камерой. Такой вариант и полы помоет, и мусор соберет, и протрет в углах...

Обзор кресла Zone51 X-Prime Optimus – удобно ли сидеть целый день

Zone 51 X-Prime Optimus — кресло с сетчатой конструкцией и набором регулировок, которое сразу задает свою логику посадки. Здесь нет привычной мягкости и простых механизмов, зато есть...

Классическая фотография умерла? Нет. Просто фотоиндустрия стоимостью $100 млрд превратилась в иконку на экране смартфона

Куда исчезли $90 млрд? Как индустрия Kodak и Fujifilm сжалась в 10 раз, превратившись в иконку на экране. История о величайшей ошибке в бизнесе и о том, кто на самом деле победил в войне за наши кадры

Странные полосы на соснах в лесу: что такое подсочка

Прогуливаясь по сосновому лесу или собирая грибы, ягоды вы, возможно, замечали странные отметины на стволах взрослых деревьев V- образные надрезы в виде зарубок, иногда их называют рунами. И...

Обзор ноутбука Ninkear S14 — продуманное решение с малым весом

Сегодня я расскажу о ноутбуке Ninkear S14. Ноутбук задуман как максимально лёгкое и компактное устройство, имеющее при этом интересные характеристики, и предлагающееся за адекватную стоимость....