Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Кембрийского взрыва не было: почему внезапное появление сложных животных оказалось ошибкой геологической летописи

Если вы посмотрите на палеонтологическую летопись 550 миллионов лет назад, вы увидите Эдиакарский период — странный, тихий мир. Дно океанов покрыто бактериальными матами, на которых...

Часовой букет Чайкина: как механические цветы превращаются в символ времени

Апрель в этом году начался очень художественно: сразу несколько выставок-ярмарок современного искусства проходят в Москве, и на одной из них, «Арт России» можно видеть замысловатые художественные...

Обзор наушников ZiiGaat Arete II: буря эмоций и мощный драйв

Наушники Arete II, производства компании компании ZiiGaat, интересны в первую очередь своей преемственностью, прошлая версия стала относительно успешной, ну и в разработке опять участвовал...

В атмосфере Венеры может существовать жизнь: химики синтезировали аналоги ДНК, устойчивые к серной кислоте

Поверхность Венеры абсолютно непригодна для любых известных науке сложных химических процессов. Температура там достигает 470 градусов Цельсия, а атмосферное давление в девяносто раз превышает...

Какие великаны создали Тропу гигантов в Ирландии

Ирландия это поистине страна, которая всем своим видом пытается доказать, что волшебство существует. Изумрудные луга простираются на многие километры, над головой нависают скалы, а о берега бьются...

Необычный фонарик. Светит ярко, наклоняет голову и помогает при ремонте. Полный обзор Sofirn ST2

3000люм яркости, голова с изменяемым углом наклона, питание от двух 18650 аккумуляторов и дополнительные УФ и красный свет. Фонарик получился явно необычный. Но удачный ли? Обзор Sofirn...