Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Простой способ открыть порты в Windows

Рано или поздно каждый уважающий себя геймер задумывается о собственном игровом сервере. Но уже на первых шагах к желаемому он сталкивается со множеством препятствий: серый IP-адрес, закрытый порт,...

✦ ИИ  Сознание не умирает после остановки сердца: ученые зафиксировали всплески активности мозга у мертвых крыс

Смерть долгое время воспринималась как мгновенное отключение — щелчок, после которого не остаётся ничего. Но исследования последних лет рисуют совершенно иную картину. В момент, когда...

✦ ИИ  Почему лава застывает в идеальные шестигранные колонны и выглядит как древняя постройка

Когда базальтовая лава остывает, она уменьшается в объёме. Внутри породы возникает напряжение, которое со временем приводит к растрескиванию. Эти трещины не возникают случайно. Они формируются так,...

6 растений-репеллентов: что посадить на даче, чтобы отпугнуть клещей?

С приходом тепла дача оживает — и вместе с ней просыпаются не только цветы, но и куда менее приятные соседи. Клещи начинают активно искать «хозяев», и чаще всего встреча происходит прямо...

Обзор цифрового смарт-мультиметра iCartool IC-M116: прорезиненный корпус и питание от аккумулятора

Без мультиметра довольно сложно протестировать электронику и проверить напряжение в розетке. Предлагаю рассмотреть современный цифровой мультиметр IC-M116, который подойдёт как профессионалам, так...

Как сменить регион Apple ID (App Store) на iPhone. Пошаговое руководство и ответы на частые вопросы

Сейчас с российским Apple ID всё стало сложнее. Просто взять и пополнить баланс, как раньше, уже не получится. Поэтому если вы хотите и дальше спокойно оплачивать подписки, покупать...