Resemble AI представила открытую модель синтеза речи с функцией клонирования голоса
Канадский стартап Resemble AI опубликовал в открытом доступе модель преобразования текста в речь под названием Chatterbox Turbo. Ключевой особенностью разработки является способность воспроизводить голос конкретного человека на основе аудиозаписи длительностью всего пять секунд.
Техническая документация проекта указывает на то, что время генерации первого фрагмента речи составляет менее 150 миллисекунд. Такие показатели задержки критичны для использования в системах реального времени — голосовых помощниках, телефонных службах поддержки, интерактивных игровых персонажах и цифровых аватарах.
Компания Resemble AI, основанная в 2019 году в Торонто, интегрировала в свою модель собственную технологию аудиоводяных знаков PerTh. Этот механизм встраивает в сгенерированную речь невидимую маркировку, которая впоследствии позволяет идентифицировать контент как созданный искусственным интеллектом. Эта функция предназначена для организаций из регулируемых отраслей, где требуется прозрачность происхождения медиаматериалов.
Проект распространяется по лицензии MIT, которая допускает бесплатное использование, модификацию и распространение в коммерческих целях без ограничений. Исходный код размещён на GitHub. Тестирование модели доступно на платформах HuggingFace, RunPod, Modal, Replicate и Fal. Параллельно компания развивает собственную облачную инфраструктуру для корпоративных клиентов и анонсировала подготовку версии с ещё более низкой задержкой отклика.
Источник: Habr





0 комментариев
Добавить комментарий
Добавить комментарий