Новая ИИ-модель из Сингапура обошла ChatGPT в сложном тесте

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Исследователи из сингапурского стартапа Sapient разработали новую архитектуру искусственного интеллекта под названием «иерархическая модель рассуждений» (HRM), которая достигла значительных результатов при минимальных вычислительных ресурсах. Согласно препринту, опубликованному на arXiv, модель HRM показала точность 40,3% на тесте абстракции и корпуса рассуждений (ARC-AGI), превзойдя такие модели как o3-mini-high от OpenAI (34,5%), Claude 3.7 (21,2%) и Deepseek R1 (15,8%).

Ключевая особенность HRM заключается в её компактности — модель содержит всего 27 миллионов параметров, что примерно в 1000 раз меньше, чем у традиционных крупных языковых моделей. Обучение проводилось на ограниченном наборе данных из 1000 выборок без предварительного обучения, обучения с подкреплением или тонкой настройки на больших массивах интернет-данных.

Автор: Freepik Источник: ru.freepik.com

Архитектура HRM состоит из двух модулей: высокоуровневого контроллера, планирующего абстрактные стратегии, и низкоуровневого исполнителя, обрабатывающего детальные вычисления. Эта структура имитирует способность человеческого мозга обрабатывать информацию в различных временных масштабах. В отличие от метода цепочки мыслей (CoT), используемого большинством современных языковых моделей, HRM выполняет задачи за один прямой проход.

Модель продемонстрировала высокую эффективность в решении сложных логических задач, таких как судоку и навигация в лабиринтах. Однако независимые исследователи отмечают, что успех модели может быть связан не столько с иерархической структурой, сколько с новым методом обучения — циклом уточнения, который был лишь кратко упомянут в оригинальной статье.

Статья Sapient пока не прошла полное рецензирование, и версия HRM с открытым исходным кодом для независимого тестирования в настоящее время недоступна.

Источник: Daily Galaxy

Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

„Бриг-001“: как советские инженеры создали Hi-Fi в условиях дефицита комплементарных транзисторов

В начале 1970-х годов советская бытовая аудиоаппаратура находилась в технологическом тупике. Ранняя полупроводниковая техника страдала от специфических нелинейных искажений, которые инженеры и...

Как в СССР собирались повернуть реки вспять: мегапроект, который так и не построили

Идея звучит почти фантастически: взять часть воды великих сибирских рек и направить её туда, где воды катастрофически не хватало. Не просто построить канал между двумя городами, не просто проложить...

Как математика Джона Нэша управляет ИТ-системами: реальная теория игр против мифа из «Игр разума»

Голливудская драма «Игры разума» приучила массового зрителя к красивой, но сугубо романтизированной сцене в баре: персонаж Рассела Кроу внезапно осознает, что если все парни бросятся к одной и...

Мирабель: как Канада построила самый большой аэропорт в мире и почему он оказался никому не нужен

В 1960-х годах Монреаль переживал экономический подъём и готовился к проведению Олимпийских игр 1976 года. Действующий аэропорт Дорваль приближался к пределу своей пропускной способности....

Нужен ли SSD-кэш в NAS или это бесполезная переплата

SSD-кэш в NAS ускоряет не хранение файлов вообще, а конкретные операции, с которыми жесткие диски справляются плохо. Для домашнего архива, резервных копий и просмотра фильмов он чаще всего не...