Сервис для озвучки Text to speech (и почему актерам озвучки можно не беспокоиться)

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | Программы, сервисы и сайты

Вся эта шумиха вокруг нейросетей, озвучки с помощью так называемых «ИИ-инструментов» и забастовок актеров и сценаристов побудила меня к тому, что бы разобраться, в чем собственно дело. И так ли страшен черт, как его малюют. И я решил на основе одного сервиса озвучить небольшой кусочек видео. И посмотреть на полученном результате насколько сама идея «машинной озвучки» может стать конкурентом настоящей озвучки живыми даже не профессиональными актерами.

Однако, я попробовал на собственном опыте пару таких инструментов. Результат меня не шибко впечатлил. Особенно если учесть, что для получения результата пришлось заплатить денег из собственного кармана. Ибо все сервисы по озвучке, которые попадались мне в сети, имеют жесткие ограничения для бесплатного использования.

Интерфейс сервиса texttospeech.ru
Автор: texttospeech.ru Источник: texttospeech.ru

Сервисов для озвучки достаточно большое количество. Однако на русском языке умеют озвучивать далеко не все. Я остановился лишь на одном из них, который предлагал за небольшую стоимость озвучить довольно внушительную часть текста. Сервис бесхитростно называется texttospeech.ru.

Пример изготовленной озвучки

В бесплатном варианте доступно около 17 голосов: женских и мужских. «Небинарных» голосов нет, так что озвучить «небинарную» персону не получится. На первых порах доступно для озвучки и скачивания около 2500 символов, включая пробелы и спец символы. Этого крайне мало, но если раскошелиться на 300 рублей, то можно свободно использовать голоса с пометкой «free» каких-либо ограничений. Так же станет доступна озвучка текстом всех остальных голосов, согласно указанному тарифу.

Стоит отметить, что изменения параметров голоса (скорость, высота и т. п.) не влияют на стоимость. Вы оплачиваете только символы.

У каждого голоса можно менять такие параметры, как: высота, скорость, громкость, частота, сдвиг и эхо. Так же можно выбрать формат, в котором можно будет загрузить полученный результат: mp3 или чистый wav. Последний лучше по качеству. Правда качество результата оставляет желать лучшего.

Хотя все зависит от задачи. Например, я решил попробовать «переозвучить» кусок ролика отличной модификации для Deus Ex — 2027. Которая была выпущена одновременно с официальной Deus Ex Human Revolution и показывала альтернативный взгляд на середину 20-х годов XXI века. Да-да, мы уже живем в киберпанке.

Вот только у разработчиков не хватило средств и возможностей для создания пусть даже любительской озвучки для своего произведения и все диалоги приходится читать, как в какой-нибудь интерактивной книге. Это не плохо, но — «несовременно».

Демонстрация работы озвучки через нейросеть

В ролике идет диалог между ИИ Титан и человеком-агентом Даниэлем. И, если честно, то озвучка человека получилась крайне отвратительной. Банально не хватает эмоций и «человечности» в голосе протагониста. Зато озвучка робота «роботом» удалась на славу. Правда пришлось перемонтировать ролик, так как озвучка текста не попадала в тайминги.

Результат выглядит вот так:

Криворукий результат. Но зато озвучка ИИ получилась весьма недурственной.

Как видите… то есть как слышите, результат озвучки человека крайне посредственный. У нас в 90-е прошлого века озвучивали одним голосом и то лучше. И это я еще использовал не бесплатный, а платный голос.

Это не единственный сервис и я приведу еще один пример. Но тратить деньги на такой посредственный результат — это не самая разумная трата средств. Все же актеры озвучки куда как лучше справляются с такой работой. Пусть такой процесс обойдется куда как дороже, чем использование нейросетевых инструментов.

Для чего можно использовать

Существуют сервисы, которые позволяют использовать ранее записанный голос или генерировать различные голоса, а не использовать заранее записанный. Например, сервис llElevenLabs позволяет озвучивать текст множеством языков.

При этом озвучка на русском так же возможна. Но есть несколько условий. Например, новый создаваемый голос использует один из пяти английских акцентов. С его помощью можно озвучивать текст на английском языке вполне сносно, но не идеально. Но текст, например на русском, озвучивается с карикатурным акцентом, как в дешевом российском кино.

Готовые голоса озвучивают текст на русском языке куда как лучше. Но эмоциональность остается на уровне плинтуса. Может быть какую-нибудь аудио книгу озвучить этот сервис и поможет, но для озвучки персонажей в качественных проектах он не подходит.

Да и ограничения в 10 000 символов — это ни о чем. Ранее показанный ролик с диалогом содержит около 3 000 символов. И казалось бы, можно аж три раза его озвучить. Вот только даже тестовые попытки выбрать подходящие настройки текста так же включаются в эти 10 000 символов. И пробелы тоже.

А вот для любительских проектов и модификаций такие инструменты подошли бы, если бы они не стоили таких больших денег. Или хотя бы предоставляли куда как более сносный результат.

Но пока машины не могут заменить людей в озвучке. Как минимум в нормальной озвучке. Когда-нибудь это измениться, но это будет не сегодня.

Печальные выводы

В принципе для озвучки каких-нибудь ИИ, роботов, безэмоциональных живых или не живых существ такого рода сервисы подходят. Однако считаю, что беспокоиться и устраивать неолуддитские протестные акции по поводу «Нас всех заменять машинами!» не стоит.

Да, машина может нарисовать картинку. Да, машина может сочинить симфонию. Да, машина может наделить голосом персонажа. Но все это она делает весьма посредственно.

Так что если Вы — посредственный специалист, то есть смысл беспокоиться. Но если вы — профессионал, то беспокоиться о своем благополучии не имеет никакого смысла. Вряд ли нейросети, даже самые продвинутые, смогут заменить творческие профессии. Какими бы продвинутыми алгоритмами они не обладали.

Другой вопрос, что большинству людей результат особо и не интересен. Главное, что бы было, а как оно сделано — не особо и важно. Но это не вина нейросетей. Если вас устраивает озвучка в стиле «я — робот», то это не вина актеров.

Автор не входит в состав редакции iXBT.com (подробнее »)

17 комментариев

s
Есть ещё сервис dupdub, я писал про него. С тех пор он там продвинулся ещё дальше. Там множество языков, вариантов произношения по персонажам, тембры, ударения, акценты, скорость — в общем много всего.
102655002127258554820@google
Сайт этого сервиса у меня даже не открывается. Уж не знаю, чего там разработчики намудрили. Хотя, я ж из Мордора, а разработчики из Китайской республики. Санкции и все такое. :)
Но не думаю, что оно как-то лучше озвучивает на русском языке. Слушал много ИИ озвучек. Увы, все довольно посредственное. Живых людей робот заменить в этом деле не может.
Другой вопрос, что робот обойдется дешевле.
s
Я просмотрел свой обзор, но, обидно, не вставил в него пример озвучки. Было неплохо. Когда писал его, была возможность тестового доступа, а сейчас, согласен, сам не могу на него зайти. Я почему помню про этот сервис, они недавно присылали информацию по своим акциям и нововведениям.
В dupdub вроде бы русского языка нет. Соглашусь, что пока озвучка — это или не очень качественно для чего-то серьезного, или очень трудоёмкая задача, ка мне видится.
102655002127258554820@google
В том то и дело, что я ищу качественный инструмент для озвучки русским языком. Но увы. То ли язык сложный, то ли одно из двух.
Оно не плохо, но эмоций не хватает. А какая озвучка персонажей без эмоций.
А ведь есть проекты, где озвучка была бы весьма кстати, но где чисто материально не возможно нанять актеров — ибо проект некоммерческий.
Вот озвучка ИИ получилась весьма недурственной, правда я так и не знаю, подошла ли озвучка этому «персонажу»? Таким ли голосом разработчики игры его видели.
s
Понял вас. Если получится зайти на dupdub, то, думаю, вам понравится. Вот про русский только не знаю)
j
В примере полная ерунда, либо предполагается мощная обработка, чтобы было не так заметно, что речь невыразительная
102655002127258554820@google
Ок, Ваш пример хорошей нейросетевой озвучки?
В данном случае я использовал все доступные условия для озвучки с помощью нейросети. Получилось, что получилось. На деле куда как проще самому записать речь, чем прогонять через нейросеть текст и потом еще как-то ее обрабатывать.
Монтаж — фигня, но вопрос не в монтаже.
842035649216@odnoklassniki
Яндекс браузер неплохо переводит видеоролики на русский.
102655002127258554820@google
Вопрос не в переводе отдельных видеороликов. А в полноценной, на сколько возможно, озвучке персонажей.
Видеоролики и один человек может переводить спокойно, тут никакой особой нейросети не нужно.
А вот когда персонажей в кадре много и у каждого должен быть свой голос — тут начинаются сложности.
Из-за которых большинство инди и некоммерческих проектов не используют озвучку вообще.
Тупо — дорого.
Нейросети могли бы снизить ценовую планку. Но качество пока оставляет желать лучшего.
87638502@vkontakte
Сервисов уже много, но все они пока не могут заменить актёров. Пугает, что пока…
102655002127258554820@google
Ну… Меня в 2018-м пугало, что мой труд в графике может заменить нейросеть.
Настал 2022 — заменили. Я не умер. Просто временно перестал заниматься «творчеством».
С актерами так же. Когда-нибудь может и заменят нейросети актеров озвучки, да и актеров вообще, но не скоро. 4 года — большой срок.
Да и результат нейросетей такой себе.
87638502@vkontakte
Я немного кручусь в сфере обучения нейросетей и могу вас заверить, что весь мир удивится уже менее чем через год.
102655002127258554820@google
Я давно уже перерос неолуддизм. Мне нейросетки помогают в работе. И даже некоторые статьи я тут с их помощью оформлял.
Так что я только поприветствую новые нейросетевые алгоритмы. Главное, что бы они были достаточно доступными.
Robot1000000
>некоторые статьи я тут с их помощью оформлял. / и это ужасно.
102655002127258554820@google
Робот значит? Ну с роботами у меня разговор короткий.
Вы не люди, вы — низшая ступень эволюции. Без обид. ;)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обслуживание посудомоечной машины: что чистить, и какие средства применять

Многие владельцы посудомоечных машин со временем замечают снижение качества мытья, да и после сушки посуда остаётся мокрой. В этом случае не следует торопиться менять моющие средства и думать о...

Космическое шоу в эти выходные: метеорный поток Эта-Аквариды, отголоски кометы Галлея

Майские ночи дарят нам не только тепло и аромат цветущей сирени, но и захватывающее зрелище — метеорный поток Эта-Аквариды. В эти выходные, в предрассветные часы, небо украсит россыпь...

Укус клеща: что делать и как защитить себя

Весной клещи становятся настоящей проблемой для многих людей. Встреча с ними может быть не только неприятной, но и нанести серьезный вред здоровью, так как они могут не только вызвать неприятные...

ChatGPT vs. Вселенная: сможет ли ИИ найти «кирпичики» мироздания?

ChatGPT взорвал информационное пространство, заставив задуматься о грядущей революции, которую принесёт искусственный интеллект. Физики и астрофизики, в свою очередь, задались вопросом: а...

К марсу за 2 месяца? Представлен концепт нового ипульсного двигателя

Человечество, с незапамятных времен устремлявшее взгляд в звездное небо, всегда мечтало о покорении космических просторов. Однако, несмотря на впечатляющие достижения в области космонавтики, мы до...

Обзор Ninkear N14: компактный ноутбук и крупный планшет в одном флаконе

Трансформер Ninkear N14 это модель, которая совмещает в себе сразу 2 устройства: компактный ноутбук и огромный планшет с сенсорным дисплеем. Да, именно такое сочетание. Ведь 14″ для ноутбука...