Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Всего лишь около 2% ведущих моделей ИИ могут решить недавно вышедший новый математический тест

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

14 ноября 2024, 15:13 | Новость | ИИ, сервисы и приложения

Модели ИИ используются не только для базовых задач, таких как простые исследования и быстрое резюме контента. Они также используются для помощи во всем, от финансового анализа до научных исследований. Вот почему их математические возможности так важны. Вот почему существуют такие математические тесты, как FrontierMath, который его создатель, Epoch AI, недавно опубликовал, и который проверяет LLM с помощью «сотен оригинальных, созданных экспертами математических задач, предназначенных для оценки расширенных способностей к рассуждению в системах ИИ».

Автор: PhonlamaiPhoto Источник: www.pcgamer.com

Хотя сегодняшние модели ИИ, как правило, не уступают другим математическим тестам, таким как GSM-8k и MATH, по данным Epoch AI, «они решают менее 2% задач FrontierMath, что демонстрирует существенный разрыв между текущими возможностями ИИ и коллективным мастерством математического сообщества».

Чтобы было ясно, это сложные тесты. Настолько сложные, что «для их решения обычно требуются часы или дни для опытных математиков», начиная «от вычислительно интенсивных задач в теории чисел и реальном анализе до абстрактных вопросов в алгебраической геометрии и теории категорий».

Что так сильно отличает этот бенчмарк, так это то, что решение этих математических задач требует «расширенных цепочек точных рассуждений, где каждый шаг строится точно на том, что было до этого».

Модели ИИ традиционно не были хороши в расширенных рассуждениях в целом, не говоря уже о сверхсложной математике. Это имеет смысл, если учесть, что модели ИИ, по сути, делают. Используя в качестве примера LLM, они обучаются на тоннах данных, чтобы выяснить, каким, скорее всего, будет каждое следующее слово на основе этих данных.

Однако в последнее время можно было наблюдать, как модели ИИ применяют свое вероятностное «мышление» более направленным образом к промежуточным шагам этого «мышления». Другими словами, наблюдается движение к моделям ИИ, которые пытаются рассуждать посредством своего мышления, а не просто перескакивают к вероятностному выводу.

Что касается задач FrontierMath, обладатель премии Филдса Теренс Тао сказал об Epoch AI: «Я думаю, что в ближайшей перспективе, по сути, единственный способ их решить, не имея настоящего эксперта в этой области, — это сочетание полуэксперта, например, аспиранта в смежной области, возможно, в паре с некоторой комбинацией современного ИИ и множества других алгебраических пакетов…»

Источник: PCGAMER

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Samsung Electro-Mechanics и LG Innotek начали совместную разработку «подложек CPO»

Платформа ПК
8 минут назад
0

Музей АВТОВАЗа вошел в топ туристических мест России

Авто и транспорт
9 минут назад
0

Геологи восстановили потерянные 5 миллионов лет в истории образования Большого каньона

Наука и космос
11 минут назад
0

Ninkear представила ноутбуки и мини-ПК на выставке «Связь-2026»

В консолях Xbox добавили опцию ручного отключения режима Quick Resume

Публикации

Новый игрок на рынке: обзор ультратонкой беспроводной клавиатуры xG Blade TKL

Обзор
41 минута назад
Клавиатуры, мыши и периферия

xG Blade — абсолютная новинка в мире клавиатур, которая зарелизилась без какой-либо помпы, громких анонсов и так далее, хотя клавиатура, как минимум, любопытная. Во-первых, это...

Обзор портативной колонки SVEN PS-375

Обзор
4 часа назад
Аудио и звук

Если вы ищете портативную колонку, которая одинаково уверенно звучит и в квартире, и на даче, и на выезде на природу, то SVEN PS-375 сразу привлекает внимание. В этом обзоре посмотрю, на что...

Хижина Маргариты: почему люди поднимаются на высоту 4554 метра ради одной ночи

Статья
5 часов назад
Путешествия и туризм

В итальянских Альпах на горе Пунта-Гнифетти горной цепи Монте-Роза (Monte Rosa) стоит необычное место для ночлега, называемое «Хижиной Маргариты». Находится оно на высоте 4554 метра над уровнем...

Будущее защищённых смартфонов на российском рынке: планы и инновации бренда Ulefone

Статья
6 часов назад
Ulefone

О планах Ulefone на российском рынке и особенностях новых защищённых гаджетов рассказал CEO компании, господин Сюн Синьань. Компания уже много лет выпускает защищённые смартфоны и продолжает...

Гравитация следует законам Ньютона и Эйнштейна на любых масштабах: доказывает ли это существование темной материи?

Статья
7 часов назад
Наука и космос

Наблюдая за космосом, современные астрономы сталкиваются с серьезной физической проблемой. Эта проблема касается того, как движутся звезды внутри галактик и как сами галактики перемещаются внутри...

Обзор NAS TerraMaster F2-425 или как я пришел к покупке сетевого хранилища, после утраты более 10 000 фото

Обзор
7 часов назад
Сетевое оборудование

После того, как я случайно сломал свой основной телефон где-то на побережье Эгейского моря, столкнулся с потерей личных фотографий и видеороликов с близкими мне людьми. Почему-то я всегда считал,...