Microsoft выпустила три собственные ИИ-модели для речи и изображений

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

5 часов назад

Microsoft представила три собственные модели искусственного интеллекта для работы с речью и изображениями. Системы MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 доступны через сервис Microsoft Foundry и площадку MAI Playground.

Модель преобразования речи в текст MAI-Transcribe-1 показала средний уровень ошибок 3,8% при тестировании на 25 языках по методике FLEURS. Алгоритм обрабатывает файлы форматов MP3, WAV и FLAC объемом до 200 МБ. Скорость пакетной транскрипции превышает показатели существующих предложений Azure в 2,5 раза. Технология применяется в режимах голосового управления Copilot и для расшифровки разговоров в Teams.

Автор: qwen. ai Источник: chat.qwen.ai

Генератор голоса MAI-Voice-1 создает 60 секунд аудио за одну секунду реального времени и поддерживает клонирование голоса по коротким образцам. Стоимость услуги составляет 22 доллара за миллион символов. Система создания изображений MAI-Image-2 размещена в тройке лидеров рейтинга Arena. ai и работает вдвое быстрее предыдущей версии. Тарифы установлены на уровне 5 долларов за миллион входных токенов и 33 доллара за миллион выходных токенов.

Разработка моделей велась командами численностью менее десяти человек. Требования к вычислительным ресурсам снизились вдвое по сравнению с показателями конкурентов. Запуск состоялся после пересмотра соглашения с OpenAI в сентябре 2024 года, который снял ограничения на самостоятельные исследования в области общего искусственного интеллекта. Партнерство с OpenAI сохраняется до 2032 года.

Руководитель направления суперинтеллекта Мустафа Сулейман сообщил о планах обеспечить независимость компании в создании моделей всех типов. Стратегия ценообразования направлена на снижение себестоимости внутренних продуктов.

Microsoft выпустила три собственные ИИ-модели для речи и изображений

Читайте также

Новости

Не хуже грузового с перевозкой 200 кг, к тому же полноподвесный вездеход и проедет 240 км. Компания ROLL ROAD выпустила электровелосипед Emma 4.0

Беспилотные грузовики КАМАЗ «Маяк-2» вышли на М-12 по команде президента

Теперь ключи воют сереной при потере и заряжают смартфон: представлен брелок Keeptr

Samsung назвала цены на Frame Pro 2026 и изменила конструкцию базового Frame

Компания Vivo анонсировала бюджетный смартфон Y11d с поддержкой 4G

Публикации

Блики от неизвестных объектов на орбите найдены на фото докосмической эры: что это может быть?

Самое большое природное зеркало в мире: солончак Уюни

С каждым годом мы произносим на 120 000 слов меньше: как автоматизация быта лишает нас живого общения

Обзор бюджетного лазерного дальномера MiLESEEY S2

Обзор KICKPI KP2: сертифицированная Google TV приставка в формате стика

Фонарик в смартфоне больше не включаю: обзор мини-фонаря Sofirn SC13