Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Исследователи разработали экзамен из 2500 вопросов для оценки возможностей ИИ

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

13 марта 2026, 16:34 | Новость | ИИ, сервисы и приложения

Humanity's Last Exam охватывает широкий спектр дисциплин — от математики и естественных наук до гуманитарных областей, древних языков и узкоспециализированных академических тем.

Автор: Google Flow Источник: labs.google

Одним из участников проекта стал исследователь Тунг Нгуен из Техасского университета A&M, который принимал участие в разработке и редактировании многих заданий. По его словам, высокие результаты ИИ на привычных тестах могут создавать ложное впечатление, будто системы уже приблизились к человеческому уровню интеллекта. Однако настоящий интеллект — это не просто распознавание закономерностей. Он также требует глубокого понимания контекста и наличия профильных знаний.

Вопросы для этого экзамена разрабатывали специалисты из разных стран мира. Каждая задача предполагает чёткий проверяемый ответ и разработана так, чтобы исключить возможность её решения с помощью обычного поиска в сети. Первые результаты показали значительный разрыв между возможностями людей и машин. Так, модель GPT-4 набрала лишь около 2.7 % правильных ответов, а Claude 3.5 Sonnet — около 4.1 %. Более продвинутая система OpenAI o1 показала примерно 8 %. Даже самые современные модели, включая Gemini 3.1 Pro и Claude Opus 4.6, смогли достичь точности лишь на уровне 40-50 %.

Исследователи планируют использовать этот тест как долгосрочный ориентир для оценки новых поколений ИИ. Хотя часть вопросов уже находится в открытом доступе, большинство из них не публикуется, чтобы системы не могли просто запомнить ответы.

Источник: ScienceDaily

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

В России начались продажи смартфонов Xiaomi Poco X8 Pro и X8 Pro Max на базе процессоров Dimensity 8500 и 9500s

Смартфоны и телефоны
28 минут назад
0

Bentley откладывает электрическое будущее: первый электромобиль выйдет в 2027 году, второй — не раньше 2030-го

Авто и транспорт
33 минуты назад
0

«Супер-Эль-Ниньо» может разогреть планету до рекордных значений

Наука и космос
38 минут назад
0

В мозге обнаружен световой канал передачи информации между нервными клетками

Наука и космос
2 часа назад
0

Volvo EX30 уходит с рынка США: что произошло и почему

Авто и транспорт
3 часа назад
0

Публикации

Гибко настраиваемые под себя TWS наушники: обзор Creative AURVANA ACE SXFI

Обзор
53 минуты назад
Аудио и звук

Компания Creative давно известно как пионер компьютерного звука в средне бюджетном диапазоне. Она выпустила линейку наушников AURVANA. Недавно мы рассматривали модель MiMi, а сегодня рассмотрим, на...

Как настроить напоминания о днях рождения на Айфоне

Инструкция
1 час назад
Смартфоны и телефоны

Иногда день рождения вылетает из головы в самый неподходящий момент. Особенно обидно, когда человек ждал хотя бы пару тёплых слов, а вы вспоминаете о празднике только вечером или вообще на...

Обзор тепловизора TOOLTOP T7: Профессиональное разрешение по цене игрушки

Обзор
2 часа назад
Инструменты и запчасти

Тепловизор — штука, которая большинству людей кажется чем-то из мира военных или промышленных инспекторов. На практике же он нужен гораздо шире: найти утечку тепла в стене,...

Обзор зарядного устройства UGREEN Nexode X759 500W: Единственный в своем роде зарядник способный выдать 48В Type-C

Обзор
2 часа назад
Питание и аккумуляторы

Рынок многопортовых зарядных устройств растёт стремительно — производители наперебой предлагают решения на 200, 300 Вт и выше. Но есть один нюанс, который часто теряется за красивыми...

Идеальный сценарий будущего: каким будет мир, если мы пойдем по пути децентрализации

Статья
3 часа назад
Наука и космос

Продолжаем размышлять о будущем. Сегодня рассмотрим вариант развития нашей цивилизации, если она пойдет по пути децентрализации.

Обзор аэрогриля Rawmid RMA-04: Вкусно и быстро. И это не просто слова

Обзор
6 часов назад
Техника для дома

Всегда хочется кушать вкусно приготовленные блюда, но с минимальным количеством масла и за минимальное количество времени. В обзоре мы рассмотрим и протестируем Аэрогриль RAWMID Modern RMA-04,...