Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Человеческий мозг работает близко к критической точке, но никогда в нее не срывается: как физики пересмотрели динамику сложных систем

Любой биологической или искусственной информационная системе, с одной стороны, необходим строгий внутренний порядок, чтобы надежно хранить информацию и поддерживать стабильность. А с другой,...

Почему в ГАЗ-66 «Шишигу» так и не поставили дизельный двигатель

ГАЗ-66, более известный как «Шишига», стал настоящей легендой советского автопрома. Этот полноприводной грузовик грузоподъёмностью 2 тонны отличался высокой проходимостью и надежностью, что делало...

Дополнительная клавиатура — цифровой блок Aceline AN-ZM0. Обзор беспроводного помощника для моего ноутбука

Так уж вышло, что при работе мне не хватает ряда нужных символов. Выбрал дополнительную клавиатуру — цифровой блок Aceline AN-ZM0 с беспроводным подключением. Это компактный модуль на 23...

Почему раньше консервировали почти всё — даже обычную воду

Сегодня идея законсервировать воду кажется странной, или даже почти абсурдной. Вода есть в каждом доме, стоит недорого и доступна в любое время. Но раньше, в реальности времён СССР, отношение к...

Мистери Спот: место, в котором отключается гравитация

Только представьте себе место, где дом кренится стенами к земле, деревья растут под непонятными углами и во всех, даже самых невообразимых направлениях, мяч катится вверх, а ваш довольно низкий...