Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Олени против газопровода: как советские инженеры спасали тундру на Таймыре

В 1970-х годах во время строительства газопровода Мессояха — Норильск на Таймыре проектировщики столкнулись со специфической проблемой. Наземные трубы и железнодорожные насыпи преградили...

Почему и как пирамида Хеопса пережила тысячи лет землетрясений: разбор физики конструкции

Великая пирамида Хеопса на плато Гиза — единственный дошедший до наших дней памятник из списка семи чудес древнего мира. Построенная в период Древнего царства (ориентировочно в 2600-2450...

Всемирное хранилище семян: почему «Ноев ковчег» для растений построили именно в вечной мерзлоте и что там скрыто

На архипелаге Шпицберген, далеко за Полярным кругом, в толще горы из песчаника, скрыто одно из важнейших сооружений современности. Это Всемирное хранилище семян. Его часто называют «хранилищем...

Физика поющих дюн: как на самом деле устроен песчаный акустический генератор

Пустыня — сложная среда для акустики. Разогретый воздух и рыхлая поверхность обычно глушат и рассеивают любые колебания. Кварцевый песок, как классическая сыпучая среда с высоким...

Откуда красный помпон на французской бескозырке: практические причины, а не легенда про императрицу

Красный помпон на бескозырке — символ пролитой крови за монархию? Забудьте эту сказку. Реальная история этого аксессуара куда прозаичнее: это был «бампер» для головы и способ спасения жизни в море.

Ёрш: враг рыбаков и альфа российских водоёмов

Ёрша принято называть сорной рыбой. Но ёрш — не просто маленькая рыба размером с ладонь, которая завоевала водоёмы от Сибири до Великих озёр. Это вид, который разработал идеальную стратегию выживания.