Исследователи разработали экзамен из 2500 вопросов для оценки возможностей ИИ

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Humanity's Last Exam охватывает широкий спектр дисциплин — от математики и естественных наук до гуманитарных областей, древних языков и узкоспециализированных академических тем.

Автор: Google Flow Источник: labs.google

Одним из участников проекта стал исследователь Тунг Нгуен из Техасского университета A&M, который принимал участие в разработке и редактировании многих заданий. По его словам, высокие результаты ИИ на привычных тестах могут создавать ложное впечатление, будто системы уже приблизились к человеческому уровню интеллекта. Однако настоящий интеллект — это не просто распознавание закономерностей. Он также требует глубокого понимания контекста и наличия профильных знаний.

Вопросы для этого экзамена разрабатывали специалисты из разных стран мира. Каждая задача предполагает чёткий проверяемый ответ и разработана так, чтобы исключить возможность её решения с помощью обычного поиска в сети. Первые результаты показали значительный разрыв между возможностями людей и машин. Так, модель GPT-4 набрала лишь около 2.7 % правильных ответов, а Claude 3.5 Sonnet — около 4.1 %. Более продвинутая система OpenAI o1 показала примерно 8 %. Даже самые современные модели, включая Gemini 3.1 Pro и Claude Opus 4.6, смогли достичь точности лишь на уровне 40-50 %.

Исследователи планируют использовать этот тест как долгосрочный ориентир для оценки новых поколений ИИ. Хотя часть вопросов уже находится в открытом доступе, большинство из них не публикуется, чтобы системы не могли просто запомнить ответы.

Источник: ScienceDaily

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Делюсь опытом и своими знаниями на различные темы.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Гибко настраиваемые под себя TWS наушники: обзор Creative AURVANA ACE SXFI

Компания Creative давно известно как пионер компьютерного звука в средне бюджетном диапазоне. Она выпустила линейку наушников AURVANA. Недавно мы рассматривали модель MiMi, а сегодня рассмотрим, на...

Как настроить напоминания о днях рождения на Айфоне

Иногда день рождения вылетает из головы в самый неподходящий момент. Особенно обидно, когда человек ждал хотя бы пару тёплых слов, а вы вспоминаете о празднике только вечером или вообще на...

Обзор тепловизора TOOLTOP T7: Профессиональное разрешение по цене игрушки

Тепловизор — штука, которая большинству людей кажется чем-то из мира военных или промышленных инспекторов. На практике же он нужен гораздо шире: найти утечку тепла в стене,...

Обзор зарядного устройства UGREEN Nexode X759 500W: Единственный в своем роде зарядник способный выдать 48В Type-C

Рынок многопортовых зарядных устройств растёт стремительно — производители наперебой предлагают решения на 200, 300 Вт и выше. Но есть один нюанс, который часто теряется за красивыми...

Обзор аэрогриля Rawmid RMA-04: Вкусно и быстро. И это не просто слова

Всегда хочется кушать вкусно приготовленные блюда, но с минимальным количеством масла и за минимальное количество времени. В обзоре мы рассмотрим и протестируем Аэрогриль RAWMID Modern RMA-04,...