Сервис для создания голосового контента DupDub: подкасты, аудиокниги и голосовое сопровождение

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | Информационная безопасность, Законы, Программы, ПО, сайты

Название сервиса вводит в ступор своим произношением. С одной стороны, это полностью создаёт непонимание, про что он. С другой, желание разобраться или хотя бы посмотреть подталкнуло в нём зарегистрироваться. Как потом понял, это сервис перевода текста в голос, а у меня раньше была "идея фикс" обратного действия.

Понимание, о чем сервис, создастся после ознакомления с содержанием. Будет представлен разбор каждой функции DupDub и сделаны выводы.

Лирическое отступление

Сервис разработала компания Mobvoi, известная по, в первую очередь, смарт-часам. Немногие, возможно, знают, что у Mobvoi есть транскрибер, который позволяет записывать разговор в течение 10 часов, а потом через специальное приложение переводить разговор в текст. Доступен у товара, насколько понимаю, только английский язык. Однако задолго до этого продукта я начал интересоваться переводом сказанного в текст.

С сервисом DupDub - аналогично: можно переводить контент в голос (и в обратную сторону) пока только на английском языке, но с диалектами. Жалко, что доступен только один язык. Надеюсь, будут и другие языки.

Отсутствие русского языка может сразу отпугнуть, что со мной и произошло поначалу, но потом решил попробовать. Пусть голос перевода будет машинным, но он всё равно лучше, так как наиболее приближен к оригинальному носителю. Эх, если бы такая возможность была, когда я учил английский язык, то было бы сейчас всё по-другому. На данном этапе я бы был не против начать учить французский язык (где ты, подобный сервис, но с французским языком?).

О возможности перевода голоса в текст в доступном сегменте я впервые узнал с появлением беспроводных наушников Xiaodu Du Smart Buds. Это было в сентябре 2021 г. Как понимаю, наушники начинали своё путешествие с китайского на глобальный рынок. Количество транскрибируемых голосов у них было три - английский, китайский и японский. Позже вышла вторая версия - модель Xiaodu Du Smart Buds Pro, в которой количество языков было увеличено до более 40.

Модель предлагала тогда недорогой вариант получения текста из голоса, что, конечно, огромной аудитории завоевать не могло, но как нововведение было интересным решение, как минимум, для понимания, куда сейчас идёт рынок аудио в сегменте наушников. Конечно, у названной модели были огрехи понимания сказанного в тексте.

Описание сервиса DupDub

Для понимания сути сервиса достаточно ознакомиться с главной страницей.

Видно, есть разные голосовые профили, как женские, так и мужские.

На второй фотографии видны сферы применения сервиса, в т.ч. для озвучивания:

  1. подкастов
  2. аудиокниг
  3. маркетинговых результатов
  4. блогов в социальных сетях
  5. пересказа фильмов
  6. новостей
  7. образовательных программ
  8. документальной съёмки
  9. развлекательных программ

Сфера применения не ограничивается одним голосом, мужским или женским. В процессе перевода текста в голос можно выбирать персонажа с нужным акцентом, делать расстановку по ключевым словам, выделять ударение в словах, ставить смысловые паузы, добавлять эмоциональный окрас тексту или его части, а также сопровождать перевод музыкой, усиливая сказанное (тревога, радость, сочувствие). Это только маленькая толика того, что можно делать в сервисе DupDub.

Процесс перевода не занимает времени, то есть можно вставить текст и нажать на проигрывание - вы уже можете приступать к прослушиванию.

Всего доступно более 130 голосовых профилей, которые можно выбрать в зависимости от сценария использования (13 вариантов), стиля (18), языковых диалектов (15), пола (2). К сожалению, количество голосов зависит от подписки, как и возможность выгружать записанный контент.

На текущий момент доступен только один язык - английский. Если сервис разовьётся на большее количество языков, то возможности его будут доступны ещё большему кругу людей.

Особенность сервиса для меня состоит ещё в том, что работать с ним удобнее через компьютер, или планшет, но с клавиатурой и мышкой. Сайт не сильно приспособлен для работы со смартфона. 

Перевод текста в голос

После регистрации на сайте всё управление осуществляется через личный кабинет.

Как видно, я уже создал тестовый проект, в котором решил использовать (для демонстрации и для себя) первый текст, который мне попался, на сайте Bloomberg.

Источник: Bloomberg

По представленной фотографии видно, что есть ограничение количества символов для базового уровня доступа, равное 10 тыс., которое можно вставить в один проект. К функциям управления текстом относится:

  1. произношение
  2. ритм
  3. способ произношения слов со спецсимволами
  4. добавление паузы и ударения
  5. настройка пауз
  6. скорость голоса
  7. добавить звуковой эффект
  8. несколько голосов
  9. исправить несколько параметров

Приведенный текст Bloomberg надо было немного подредактировать, чтобы голос мог правильно произносить числа с процентами и аббревиатуру. Отредактированный текст показан ниже. Аудиофайл можно загрузить, но для этого надо оформлять платную подписку.

Подробнее доступный функционал показан ниже.

Самое интересное в сервисе - это возможность выбора персонажа для озвучивания текста. В базовой подписке доступны все персонажи с разными голосами. Настроек много и можно практиковаться в понимании текста с разной скоростью. В этом плане для озвучивания английских книг, заданий и учебников сервис DupDub предлагает множество вариантов сомовыражения.

Помню, во время учёбы в школе нам преподаватель говорил, смотрите английские фильмы, чтобы учиться понимать сходу, или слушайте аудиокниги. В текущих условиях с появлением подобных сервисом можно слушать любой текст. Да, сейчас для молодого поколения намного больше вариантов получить знания и сделать этот процесс проще.

В рамках выбранного персонажа, озвучивающего текст, можно устанавливать тембр голоса - звонкий или грубый. Уже в стандартной подписке доступно множество модификаций голосов каждого из 68 персонажей (на скриншоте выше видны только 50, но если разделять на мужской и женский пол, то суммарно вариантов получается 32 мужчин и 36 женщин). Модификации различиются между собой по скорости и стилю произношения (правая часть скриншота выше), которых суммарно насчитывается 39. Итого доступна 741 модификация голоса. Иными словами, вариаций много, но не все из них будут популярными.

Если заниматься языком серьезно, то подтянуть понимание беглого произношения с такой возможностью не составит труда. Когда учил язык мне хотелось, чтобы я понимал с лету, но практики и подобных сервисов тогда не хватало. 

Отдельно надо сказать про использование нескольких персонажей в тексте. Ниже показан скриншот, как происходит постановка нескольких голосов для чтения текста.

Процедура следующая:

  1. Выделяется отрывок и нажимается Multi-Speaker в меню выбора на странице сервиса
  2. Появляется окно выбора с доступными голосами
  3. Выбрать скорость и задать тон второму персонажу

Если требуется добавить ещё персонажей, то процедура повторяется, но уже с другим куском текста. В итоге текст будет читаться, как это называется, по ролям.

Перевод видео в текст

Второй способ работы с DupDub - это перевод видео в текст. К сожалению для меня, есть ограничения в количестве минут видео, которое можно перевести в текст. Для перевода надо вставить ссылку в соответствующее поле. По истечении времени будет доступна транскрипция. Она получилась, в моем случае, достаточно точной. Переведены в текст даже междометия, вздохи и ахи.

Дальнейшее редактирование текста можно сделать через названный ранее способ - перевести текст в голос при помощи доступного персонажа. После показать оригинальному спикеру и удивить его. Вариантов много.

Добавление субтитров

Третий доступный пункт ресурса DupDub  - это редактирование и добавление субтитров. Для наглядности можно скачать названное выше видео с YouTube и вставить в него ранее полученный текстовый файл. 

На этапе добавления видео у меня возникла проблема: видно, скаченное из YouTube нужного формата, не добавлялось на ресурс DupDub.

Попробовал не видео-, а аудио-формат представленного выше ролика. Результат аналогичный - не получилось. Система ругается на мой формат файла. В общем, есть что дорабатывать сервису.

Субъективное мнение

Второй и третий функционал сервиса мне, к примеру, не сильно интересны. Намного интереснее практиковаться в понимании слышимого текста.

Сервис DupDub - иностранный, поэтому подписка указана в долларах США.

Базовая подписка при всей своей доступности ограничена ресурсами и бвстра закончится, к сожалению. Перепробовал много вариантов произношения и добавления персонажей, выбора стиля их голоса. В итоге получил сообщение, что базовая подписка ограничена просмотром 5000 знаков.

Главный вопрос для жителей России - как оплачивать. Сервис можно оплатить банковской картой UnionPay. Некоторые российские банки выпускают цифровые карты данной платежной системы бесплатно, поэтому при желании оплатить месячную подписку не составит труда.

Технологии в плане обучения я всегда приветствую, особенно в случае изучения иностранных языков. Как не раз упомянул, мне не хватало такого сервиса во время моего обучения. Сейчас у молодежи больше вариантов получить знания при сравнимых трудовых затратах.

Вывод

Возможности сервиса не ограничиваются названным в обзоре функционалом. В DupDub можно загрузить клон своего собственного голоса. Как это сделать, указано в графе Вопросы и ответы на странице ресурса. Все используемые голоса могут быть использованы в коммерческих целях, что указано на соответствующей странице сайта.

Сервис от компании Mobvoi даёт возможность начинающим блоггерам, людям и интересующимся попробовать и протестировать свои презентационные навыки с голосовым контентом. Теперь каждый имеет возможность создать свою аудиокнигу и слушать её когда и где захочется.

Не удивлюсь, если будущие поколения будут учиться по учебникам, в которых аудиотексты будут записаны с помощью сервисов, подобных DupDub, и которые будут доступны любому пользователю. Реализовать свои желания при помощи функционала может каждый в течение месяца с промокодом IXBTLIVE.

Источник: DupDub

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
На большинство обозреваемых товаров будут появляться скидки и после моих обзоров. Если интересно, то можно отслеживать их в специальном Телеграм-канале — https://t.me/notesbyjj.

2 комментария

s
По поводу сервиса, в котором можно получать текс из видео я нашел причину неудачи. Проблема решается VPN. Наверное, хранилище сервиса находится за рубежом, который ограничил доступ для пользователей из России.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Так ли сложно отчистить газовую плиту? Обзор пароочистителя высокого давления

Обзор
Чистка кухонной и другой техники, наверное, самый трудоемкий процесс в быту. Традиционные моющие средства и специальные чистящие составы дают свой эффект, но порой требуют больших затрат времени и...

Незабываемое культурное путешествие в Ночь искусства

Прочее
Осенняя пора далеко не всегда может порадовать своей погодой, все чаще городские улицы встречают жителей Минска своей прохладой и грустью. И чтобы никого не затянула эта осенняя меланхолия и...

Обзор 2.5" SATA SSD накопителя Kingston KC600 объемом 1 ТБ. Когда NVME медленнее

Обзор
В повседневных задачах разница между PCIe и SATA твердотельным накопителем почти незаметна, более того, там редко есть смысл брать какого-то скоростного представителя, ведь мы никогда не выйдем за...

Обзор контактного гриля Zigmund&Shtain Grillmeister ZEG-928

Обзор
Контактный гриль очень полезный прибор на кухне. Он позволяет быстро приготовить достаточно толстый кусок мяса или даже несколько кусков. И часто это бывает лучше, чем на сковороде, т.к. нет...

Обзор Sata III накопителя F6Pro от компании KingFast объемом в 120ГБ

Обзор
У меня есть хороший знакомый, который делает и продает недорогие сборки ПК. В своих сборках он довольно часто использует накопители от компании KingFast объемом 120 и 240ГБ. Мне же стало...

Обзор акустической мультимедийной системы 2.1 Sven MS-1821

Обзор
Современный ПК тяжело представить без акустической системы. Акустика развивается, получает дополнительные источники музыкального сигнала. Сегодня рассмотрим доступную модель акустики формата 2.1...