Xiaomi выпустила открытую ИИ-модель MiMo с архитектурой MoE

✦ ИИ  Этот пост, предположительно, был создан при помощи искусственного интеллекта
Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Компания Xiaomi представила новую открытую языковую модель MiMo, построенную по архитектуре Mixture of Experts (MoE). Модель разработана для выполнения различных задач обработки естественного языка.

Версия MiMo V2 Flash использует гибридный механизм внимания, сочетающий слои со скользящим окном (Sliding Window Attention) и слои с глобальным вниманием в соотношении 5:1. Размер окна составляет 128 токенов, а максимальная поддерживаемая длина контекста — 256 000 токенов. Модель включает 256 экспертов, из которых для каждого токена активны восемь. В процессе разработки была учтена роль смещения в точке внимания (attention sink bias), влияющего на стабильность работы локального внимания.

Автор: qwen. ai Источник: chat.qwen.ai

Для ускорения генерации применяется технология Multi-Token Prediction (MTP). Она использует три дополнительные головы меньшего размера для предварительной генерации токенов, в то время как основная модель выполняет их верификацию. Это позволяет достичь скорости генерации до 150 токенов в секунду. Тот же подход задействован в обучении с подкреплением для повышения эффективности при малом размере батча.

Для обеспечения баланса между различными компетенциями (например, математикой, генерацией кода и безопасностью) реализован метод Multi-Teacher On-Policy Distillation (MOPD). Он включает обучение нескольких специализированных моделей, после чего их знания передаются единой модели с использованием вознаграждения на уровне отдельных токенов.

Модель демонстрирует результат 73,4 % в тесте SWE-Bench Verified и 71,7 % в многоязычной версии. На текущий момент MiMo доступна в открытом доступе бесплатно. В будущем доступ к модели может быть ограничен или переведён на коммерческую основу.

Источник: hyperosinsider

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

✦ ИИ  Физики выяснили, при какой температуре вечная мерзлота начнет массово высвобождать парниковые газы: критический порог в -5°C

Вечная мерзлота занимает около 25 процентов территории Северного полушария Земли. Под поверхностью грунта на глубине сотен метров скрыто очень большое количество углерода — по оценкам...

✦ ИИ  Физики впервые поймали ультрабыстрые импульсы света, рожденного из абсолютной пустоты

Все время оптическая физика развивалась по двум независимым направлениям, которые практически не пересекались друг с другом. Первое направление — сверхбыстрая наука. Она изучает...

✦ ИИ  Kiwi Ears Cadenza II — нейтральный баланс — обзор динамических внутриканальных наушников

Я узнал о компании Kiwi Ears примерно три года назад, когда у них вышла первая Cadenza и сразу словила хайп. Я, к сожалению, с первой версией не познакомился, поэтому сравнить обе версии не смогу....

✦ ИИ  Мон-Сен-Мишель: как древний замок стоит посреди моря и почему его стоит посетить

Вот вам загадка: кто, приехав во Францию, постоянно мониторит время приливов, идет на экскурсию пешком, а вернуться с нее может уже вплавь? Это турист, пожелавший осмотреть аббатство...

✦ ИИ  Универсальное постоянное питание регистратора: обзор TrendVision HardWare Kit 2.0 (Pro Edition) и тест с DDPAI

Многие автомобильные видеорегистраторы можно использовать не только для записи дорожной обстановки непосредственно в поездке, но и для охранной записи на парковке. Для этого в меню устройства...

✦ ИИ  Когда жалко 100 Вт GaN зарядник: сетевой адаптер питания GP WM2A

GP WM2A — сетевой адаптер питания мощностью 20 Вт, который может служить основой для многих USB устройств, которым нужно немного, а занимать какой-нибудь 90-ваттный адаптер не хочется....