Исследователи разработали экзамен из 2500 вопросов для оценки возможностей ИИ
Humanity's Last Exam охватывает широкий спектр дисциплин — от математики и естественных наук до гуманитарных областей, древних языков и узкоспециализированных академических тем.
Одним из участников проекта стал исследователь Тунг Нгуен из Техасского университета A&M, который принимал участие в разработке и редактировании многих заданий. По его словам, высокие результаты ИИ на привычных тестах могут создавать ложное впечатление, будто системы уже приблизились к человеческому уровню интеллекта. Однако настоящий интеллект — это не просто распознавание закономерностей. Он также требует глубокого понимания контекста и наличия профильных знаний.
Вопросы для этого экзамена разрабатывали специалисты из разных стран мира. Каждая задача предполагает чёткий проверяемый ответ и разработана так, чтобы исключить возможность её решения с помощью обычного поиска в сети. Первые результаты показали значительный разрыв между возможностями людей и машин. Так, модель GPT-4 набрала лишь около 2.7 % правильных ответов, а Claude 3.5 Sonnet — около 4.1 %. Более продвинутая система OpenAI o1 показала примерно 8 %. Даже самые современные модели, включая Gemini 3.1 Pro и Claude Opus 4.6, смогли достичь точности лишь на уровне 40-50 %.
Исследователи планируют использовать этот тест как долгосрочный ориентир для оценки новых поколений ИИ. Хотя часть вопросов уже находится в открытом доступе, большинство из них не публикуется, чтобы системы не могли просто запомнить ответы.
Источник: ScienceDaily





0 комментариев
Добавить комментарий