Resemble AI представила открытую модель синтеза речи с функцией клонирования голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Канадский стартап Resemble AI опубликовал в открытом доступе модель преобразования текста в речь под названием Chatterbox Turbo. Ключевой особенностью разработки является способность воспроизводить голос конкретного человека на основе аудиозаписи длительностью всего пять секунд.

Техническая документация проекта указывает на то, что время генерации первого фрагмента речи составляет менее 150 миллисекунд. Такие показатели задержки критичны для использования в системах реального времени — голосовых помощниках, телефонных службах поддержки, интерактивных игровых персонажах и цифровых аватарах.

Автор: freepik Источник: ru.freepik.com

Компания Resemble AI, основанная в 2019 году в Торонто, интегрировала в свою модель собственную технологию аудиоводяных знаков PerTh. Этот механизм встраивает в сгенерированную речь невидимую маркировку, которая впоследствии позволяет идентифицировать контент как созданный искусственным интеллектом. Эта функция предназначена для организаций из регулируемых отраслей, где требуется прозрачность происхождения медиаматериалов.

Проект распространяется по лицензии MIT, которая допускает бесплатное использование, модификацию и распространение в коммерческих целях без ограничений. Исходный код размещён на GitHub. Тестирование модели доступно на платформах HuggingFace, RunPod, Modal, Replicate и Fal. Параллельно компания развивает собственную облачную инфраструктуру для корпоративных клиентов и анонсировала подготовку версии с ещё более низкой задержкой отклика.

Источник: Habr

нет
Автор не входит в состав редакции iXBT.com (подробнее »)

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Предложен новый алгоритм поиска жизни в космосе, не опирающийся на биосигнатуры: жизнь выдает статистика

Поиск внеземной жизни десятилетиями строится на попытке обнаружить биосигнатуры — специфические химические маркеры в атмосферах далеких планет. Мы ищем кислород, метан или фосфин,...

Что за странный выступ на территории Афганистана на востоке

Глядя на политическую карту мира, у многих стран замечаешь странные геометрические «узоры» линии границы, не всегда они определяются географическими особенностями местности. Есть свой необычный...

Обзор компактного трёхпортового внешнего аккумулятора со встроенным кабелем Ugreen PB727, а также кабеля Ugreen 240W со встроенным информационным дисплеем

Ugreen PB727 — это компактный и мощный трёхпортовый внешний аккумулятор ёмкостью 10000 mAh, оснащённый информационным экраном и встроенным USB-C кабелем. Автор: Ugreen Источник:...

Ученые научились выключать «гормон любви»: почему точечная блокировка окситоцина поможет в изучении мозга

Окситоцин и вазопрессин — это нейропептиды, которые выполняют ключевые функции в организме млекопитающих. Их эволюционная история насчитывает около 600 миллионов лет, и за это время они...

Призраков не существует: новая математическая структура объяснила эффект темной материи без невидимых частиц

Галактики вращаются слишком быстро. Окраины спиральных структур движутся с такой скоростью, что гравитация видимого вещества — всех существующих там звезд, планет и газовых...