Microsoft выпустила три собственные ИИ-модели для речи и изображений

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Microsoft представила три собственные модели искусственного интеллекта для работы с речью и изображениями. Системы MAI-Transcribe-1, MAI-Voice-1 и MAI-Image-2 доступны через сервис Microsoft Foundry и площадку MAI Playground.

Модель преобразования речи в текст MAI-Transcribe-1 показала средний уровень ошибок 3,8% при тестировании на 25 языках по методике FLEURS. Алгоритм обрабатывает файлы форматов MP3, WAV и FLAC объемом до 200 МБ. Скорость пакетной транскрипции превышает показатели существующих предложений Azure в 2,5 раза. Технология применяется в режимах голосового управления Copilot и для расшифровки разговоров в Teams.

Автор: qwen. ai Источник: chat.qwen.ai

Генератор голоса MAI-Voice-1 создает 60 секунд аудио за одну секунду реального времени и поддерживает клонирование голоса по коротким образцам. Стоимость услуги составляет 22 доллара за миллион символов. Система создания изображений MAI-Image-2 размещена в тройке лидеров рейтинга Arena. ai и работает вдвое быстрее предыдущей версии. Тарифы установлены на уровне 5 долларов за миллион входных токенов и 33 доллара за миллион выходных токенов.

Разработка моделей велась командами численностью менее десяти человек. Требования к вычислительным ресурсам снизились вдвое по сравнению с показателями конкурентов. Запуск состоялся после пересмотра соглашения с OpenAI в сентябре 2024 года, который снял ограничения на самостоятельные исследования в области общего искусственного интеллекта. Партнерство с OpenAI сохраняется до 2032 года.

Руководитель направления суперинтеллекта Мустафа Сулейман сообщил о планах обеспечить независимость компании в создании моделей всех типов. Стратегия ценообразования направлена на снижение себестоимости внутренних продуктов.

Источник: venturebeat

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Интересуюсь технологиями и рассказываю о них вам.

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор смарт- и спортивных часов: HUAWEI WATCH GT 6 Pro или Amazfit T-Rex 3 Pro

Какие часы лучше для спорта, смарт- или спортивные? Ответ на вопрос не сводится только к автономности, но результат вас точно удивит. Кто любит бегать, кататься на велосипеде и плавать, выбирают ...

Какие речные рыбы используют для вяления и какой результат получается: 5 видов

Для вяления обычно выбирают не любую рыбу, а те виды, у которых совпадают базовые параметры: плотность мяса, умеренное содержание жира и толщина тушки. От этого зависит, как рыба просаливается и...

Обзор электрической мультирезки Даджет KS20 — оливье кубиками, морковь соломкой, рифленый картофель, как в ресторане

Кухонной техники дома хватает, и казалось, что все основные задачи уже закрыты. Но мы давно засматривались на электрический прибор для нарезки продуктов кубиками, в первую очередь, под оливье. И...

Полный разнос! Обзор беспроводной колонки Tribit StormBox Blast 2 на 200 Вт + видеообзор

Сегодня посмотрим на Tribit StormBox Blast 2, которая является настоящим гигантом среди портативных, переносных Bluetooth-колонок, выдающая, на мой взгляд, одно из лучших звучаний в своем сегменте....

Обзор стильных внутриканальных Hi-Fi наушников Cozoy D1

Внутриканальные наушники сохраняют свою популярность за счет качественной звукоизоляции и хорошей эргономики. В текущем обзоре пойдет речь Cozoy D1, которые выделяются своим ярким внешним видом....