Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

Сейчас на главной

Новости

Публикации

Правда ли, что кубический сантиметр человеческого тела выделяет больше тепла, чем кубический сантиметр Солнца?

Фраза «кубический сантиметр человеческого тела выделяет больше энергии, чем кубический сантиметр Солнца» звучит почти как ошибка или провокация. Интуиция протестует, Солнце —...

Как пополнить PlayStation Store с любым регионом

Универсальный способ пополнения для «зарубежных» аккаунтов PlayStation это подарочные карты (их ещё называют ваучерами). На самом деле всё просто. Вы покупаете код нужной страны, активируете его на...

Один компактный, другой из керамики: Honor представила два интересных флагмана

Сегодня компания Honor представила два флагманских смартфона из серии Magic 8. Несмотря на принадлежность к одной линейке, аппараты ни имеют между собой ничего общего

Они научили Blancpain и Tag Heuer делать часы: обзор возрожденных швейцарских часов Squale

Бренд Squale не совсем правильно было бы назвать новинкой российского рынка: точнее утверждать, что он все еще воспринимается «в новинку», причем, даже часовыми энтузиастами. Меж тем, его...

Почему США и другие страны покупают ледоколы у Финляндии

В связи с растущим интересом к арктическому судоходству, таянием полярных льдов и увеличением числа рейсов через покрытые льдом моря финны активно продвигают свои знания и технологии для работы в...