Google Gemini 3 набрал 48,4% на сложнейшем тесте для ИИ «Последний экзамен человечества»

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследователи из Центра безопасности и масштабируемости ИИ опубликовали результаты тестирования современных моделей искусственного интеллекта на экзамене «Последний экзамен человечества» (Humanity's Last Exam, HLE). По состоянию на 12 февраля 2026 года модель Google Gemini 3 Deep Think показала наивысший результат — 48,4%.

Тест был запущен в январе 2025 года и описан в исследовании, опубликованном 28 января в журнале Nature. Экзамен содержит 2500 вопросов по более чем 100 темам уровня докторантуры. В разработке участвовали свыше 1000 экспертов из 500 учреждений в 50 странах.

При создании теста из 70 000 присланных вопросов отобрали только те, на которые модели ИИ не смогли ответить правильно. Вопросы проверялись на невозможность быстрого поиска ответа в интернете и отсутствие в обучающих данных моделей.

Автор: pressfoto Источник: ru.freepik.com

На старте тестирования в 2025 году лучший результат показала система OpenAI o1 — всего 8,3%. Также тестировались GPT-4o, Google Gemini 1.5 Pro, Anthropic Claude 3.5 Sonnet и DeepSeek R1. Эксперты-люди набирают около 90% в своих областях знаний.

Авторы исследования подчёркивают, что высокий балл на HLE не свидетельствует о появлении искусственного общего интеллекта. Нейробиолог Мануэль Шоттдорф из Делавэрского университета, участвовавший в создании теста, заявил, что успешное прохождение HLE является необходимым, но недостаточным критерием для утверждения о достижении машинами истинного интеллекта.

Источник: Live Science

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

Сейчас на главной

Новости

Публикации

Как ошибка в 0.4 миллиметра при копировании IBM похоронила советские ЭВМ

В 1950-х СССР лидировал в компьютерной гонке, но один приказ все разрушил. Почему советские заводы не могли скопировать американские чипы, и как разница в 0.4 мм привела к краху целой индустрии?

✦ ИИ  Опасность морепродуктов: почему стандартные тесты на «вечные химикаты» (PFAS) не показывают всей картины

Проверки рыбы на «вечные химикаты» упускают главное. Ученые выяснили, что реальная опасность PFAS зависит от формы молекулы: линейные структуры накапливаются в организме в разы быстрее ветвистых.

В какой храм идти в Шанхае и зачем вообще туда идти?

Я была в 4х самых «обязательных к посещению» храмах в Шанхае и расскажу, стоит ли в них идти и какой выбрать именно вам.Вообще не обязательно посещать их все, потому что храмы сильно похожи:...

Планшет MAIBENBEN PAD 5: обзор стильной и тонкой модели с 4G/LTE на борту

Что может планшет на базе Helio G99 в 2026 году? Мне стало интересно проверить новинку от бренда MAIBENBEN — тонкий планшет PAD 5 в металлическом корпусе, с Wi-Fi/4G/LTE модулями и...

Дешевая мощность: обзор платы усилителя ZK-2001 на чипе TPA3221

Спасибо селлерам на Aliexpress, теперь DIY проекты в аудиотехнике упростились до крупноузловой сборки по платам. В чем-то это даже хорошо, не нужно иметь продвинутую инженерную квалификацию, чтобы...

Археологи обнаружили древнейшую протописьменность в истории: она старше шумеров на 35 000 лет

Традиционная историческая наука считает, что способность человека фиксировать информацию на внешних носителях зародилась вместе с первыми земледельческими цивилизациями. Считается, что это...