Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Всего лишь около 2% ведущих моделей ИИ могут решить недавно вышедший новый математический тест

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

14 ноября 2024, 15:13 | Новость | ИИ, сервисы и приложения

Модели ИИ используются не только для базовых задач, таких как простые исследования и быстрое резюме контента. Они также используются для помощи во всем, от финансового анализа до научных исследований. Вот почему их математические возможности так важны. Вот почему существуют такие математические тесты, как FrontierMath, который его создатель, Epoch AI, недавно опубликовал, и который проверяет LLM с помощью «сотен оригинальных, созданных экспертами математических задач, предназначенных для оценки расширенных способностей к рассуждению в системах ИИ».

Автор: PhonlamaiPhoto Источник: www.pcgamer.com

Хотя сегодняшние модели ИИ, как правило, не уступают другим математическим тестам, таким как GSM-8k и MATH, по данным Epoch AI, «они решают менее 2% задач FrontierMath, что демонстрирует существенный разрыв между текущими возможностями ИИ и коллективным мастерством математического сообщества».

Чтобы было ясно, это сложные тесты. Настолько сложные, что «для их решения обычно требуются часы или дни для опытных математиков», начиная «от вычислительно интенсивных задач в теории чисел и реальном анализе до абстрактных вопросов в алгебраической геометрии и теории категорий».

Что так сильно отличает этот бенчмарк, так это то, что решение этих математических задач требует «расширенных цепочек точных рассуждений, где каждый шаг строится точно на том, что было до этого».

Модели ИИ традиционно не были хороши в расширенных рассуждениях в целом, не говоря уже о сверхсложной математике. Это имеет смысл, если учесть, что модели ИИ, по сути, делают. Используя в качестве примера LLM, они обучаются на тоннах данных, чтобы выяснить, каким, скорее всего, будет каждое следующее слово на основе этих данных.

Однако в последнее время можно было наблюдать, как модели ИИ применяют свое вероятностное «мышление» более направленным образом к промежуточным шагам этого «мышления». Другими словами, наблюдается движение к моделям ИИ, которые пытаются рассуждать посредством своего мышления, а не просто перескакивают к вероятностному выводу.

Что касается задач FrontierMath, обладатель премии Филдса Теренс Тао сказал об Epoch AI: «Я думаю, что в ближайшей перспективе, по сути, единственный способ их решить, не имея настоящего эксперта в этой области, — это сочетание полуэксперта, например, аспиранта в смежной области, возможно, в паре с некоторой комбинацией современного ИИ и множества других алгебраических пакетов…»

Источник: PCGAMER

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

TWSC представила первый собственный корпоративный контроллер H3361 с поддержкой PCIe и SATA

Хранение данных
15 минут назад
0

Представлен PocketTerm35 — карманный компьютер на базе Raspberry Pi 4 и 5

Платформа ПК
27 минут назад
0

«Росатом» рассматривает возможность создания АЭС на Луне

Наука и космос
2 часа назад
0

Ученые раскрыли механизм воздействия яда паука-отшельника на клетки человека

Наука и космос
8 часов назад
0

Запас хода больше 190 км, движок 1800 Вт/120 Н*м, грузоподъемность 180 кг, толстые шины. Компания Rattan выпустила электровелосипед Rattan LF Ultra

Авто и транспорт
9 часов назад
0

Публикации

Серфинг без капли воды: как оазис Уакачина стал курортом для тех, кто боится утонуть

Статья
Вчера в 19:44
Путешествия и туризм

Хочется ловить волну, но вот проблема: только оказавшись в водоёме глубже пары метров, вам даётся исключительно стиль топориком ко дну? В таком случае вам стоит узнать про самое необычное место для...

Астрономы доказали существование трех популяций сливающихся черных дыр: неразлучные пары, случайные встречи и «каннибалы»

Статья
Вчера в 19:00
Наука и космос

Астрофизики получают информацию о слияниях черных дыр благодаря детекторам гравитационных волн. Когда два сверхплотных объекта сталкиваются, они вызывают возмущение пространства, которое...

Туер «Енисей»— один из последних в мире: почему он до сих пор работает на Казачинском пороге, хотя на всех остальных реках России и Европы такие суда давно исчезли

Мнение
Вчера в 18:18
Авто и транспорт

На реке Енисей есть участок, который веками оставался серьёзным препятствием для судоходства. Это Казачинский порог — природная «плотина» из скальных выступов и каменистых гряд,...

Наши предки вылуплялись из яиц: окаменелость возрастом 250 млн лет подтвердила спорную гипотезу палеонтологов

Статья
Вчера в 18:00
Наука и космос

Эволюционная история млекопитающих неразрывно связана с процессом размножения. Долгое время биологи опирались на устоявшееся положение: древние предки современных млекопитающих, известные как...

Фильм «Белое солнце пустыни»: как он стал негласным талисманом космонавтов

Мнение
Вчера в 13:42
Оффтопик

У советских и российских космонавтов сложилась необычная, но неизменная традиция: перед стартом обязательно смотреть фильм «Белое солнце пустыни» — начало ритуала существует ещё с...

Обзор USB-тестера FNIRSI FNB-C2: с поддержкой PD 3.1 и мощностью 240 Вт

Обзор
Вчера в 11:16
Инструменты и запчасти

Новая модель USB-тестера FNIRSI FNB-C2 — это не просто компактный измерительный прибор, а полноценный инструмент для диагностики современных устройств питания. Он предназначен для...