Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

✦ ИИ  Этот пост, предположительно, был создан при помощи искусственного интеллекта
Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

✦ ИИ  Универсальное постоянное питание регистратора: обзор TrendVision HardWare Kit 2.0 (Pro Edition) и тест с DDPAI

Многие автомобильные видеорегистраторы можно использовать не только для записи дорожной обстановки непосредственно в поездке, но и для охранной записи на парковке. Для этого в меню устройства...

✦ ИИ  Когда жалко 100 Вт GaN зарядник: сетевой адаптер питания GP WM2A

GP WM2A — сетевой адаптер питания мощностью 20 Вт, который может служить основой для многих USB устройств, которым нужно немного, а занимать какой-нибудь 90-ваттный адаптер не хочется....

✦ ИИ  Обзор аккумуляторной дрели-шуруповёрта TECHNICOM TC-CD797: щеточный двигатель RS-755S, быстрозажимной патрон и 40 нМ

Проверяем, на что способна бюджетная аккумуляторная дрель-шуруповёрт TECHNICOM TC-CD797 с щеточным двигателем. Инструмент работает на штатном 2Ач аккумуляторе с быстрой зарядкой. Для удобства...

✦ ИИ  Почему Вселенная не могла существовать вечно

Вселенная, которую мы наблюдаем сегодня, представляет собой огромную систему галактик, звезд и межзвездного пространства. Ее размер и сложность наводят на естественный вопрос: могла ли она...

✦ ИИ  Обзор процессорного кулера PcCooler RT400 – хватает ли охлаждения для Ryzen 9

PcCooler RT400 — это башенный кулер с классической компоновкой и без лишних усложнений. Здесь нет подсветки или дисплеев. Упор сделан на базовые вещи: тепловые трубки, плотный радиатор и...