Google Gemini 3 набрал 48,4% на сложнейшем тесте для ИИ «Последний экзамен человечества»

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследователи из Центра безопасности и масштабируемости ИИ опубликовали результаты тестирования современных моделей искусственного интеллекта на экзамене «Последний экзамен человечества» (Humanity's Last Exam, HLE). По состоянию на 12 февраля 2026 года модель Google Gemini 3 Deep Think показала наивысший результат — 48,4%.

Тест был запущен в январе 2025 года и описан в исследовании, опубликованном 28 января в журнале Nature. Экзамен содержит 2500 вопросов по более чем 100 темам уровня докторантуры. В разработке участвовали свыше 1000 экспертов из 500 учреждений в 50 странах.

При создании теста из 70 000 присланных вопросов отобрали только те, на которые модели ИИ не смогли ответить правильно. Вопросы проверялись на невозможность быстрого поиска ответа в интернете и отсутствие в обучающих данных моделей.

Автор: pressfoto Источник: ru.freepik.com

На старте тестирования в 2025 году лучший результат показала система OpenAI o1 — всего 8,3%. Также тестировались GPT-4o, Google Gemini 1.5 Pro, Anthropic Claude 3.5 Sonnet и DeepSeek R1. Эксперты-люди набирают около 90% в своих областях знаний.

Авторы исследования подчёркивают, что высокий балл на HLE не свидетельствует о появлении искусственного общего интеллекта. Нейробиолог Мануэль Шоттдорф из Делавэрского университета, участвовавший в создании теста, заявил, что успешное прохождение HLE является необходимым, но недостаточным критерием для утверждения о достижении машинами истинного интеллекта.

Источник: Live Science

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Как люди попали в Южную Америку: новое исследование ставит под сомнение ключевой памятник континента

На протяжении почти пятидесяти лет археология Нового Света опиралась на один памятник. Стоянка Монте-Верде на юге Чили считалась главным и самым надежным доказательством того, что люди оказались в...

Как заставить звук проходить сквозь стены: новый материал направляет сигнал изнутри, оставаясь невидимым для внешних волн

Управление звуком всегда опиралось на создание физических преград. Звук это механическая волна, чередование зон высокого и низкого давления, которое распространяется в пространстве. Чтобы направить...

Ежегодное ТО газового котла. Разбираемся, за что «газовщики» берут деньги?

На днях с моими родителями случилась неприятная история — начал «скрежетать» газовый котел. Вызвали мастера, который определил, что данная проблема требует замены насоса, причем сумма за...

✦ ИИ  Между забвением и «понтами»: почему наручные часы отказываются умирать

Наручным часам уже лет тридцать безапелляционно пророчат неминуемую смерть. Начались подобные «упаднические» разговоры с появления массовых карманных компьютеров вроде легендарных Palm, грозивших...

Десять лет назад вышел смартфон, который мог спасти HTC от краха — HTC 10: почему у него ничего не получилось

Один из пионеров рынка Android, компания HTC, очень быстро растеряла свои позиции. Сначала люди недооценили аппарат One M8, который мало отличался от предыдущего M7, а затем стали ругать...

Победа «лопаты»: как Galaxy Note заставил Apple переделать iPhone, а Samsung научила мир любить большие телефоны

Если бы вы оказались в начале 2010-х и спросили любого техногика, каким должен быть идеальный смартфон, ответ был бы почти единогласным. Правила игры казались высеченными в граните, а...