Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Сервис для озвучки Text to speech (и почему актерам озвучки можно не беспокоиться)

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

13 ноября 2023, 18:45 | Обзор | ИИ, сервисы и приложения

Вся эта шумиха вокруг нейросетей, озвучки с помощью так называемых «ИИ-инструментов» и забастовок актеров и сценаристов побудила меня к тому, что бы разобраться, в чем собственно дело. И так ли страшен черт, как его малюют. И я решил на основе одного сервиса озвучить небольшой кусочек видео. И посмотреть на полученном результате насколько сама идея «машинной озвучки» может стать конкурентом настоящей озвучки живыми даже не профессиональными актерами.

Однако, я попробовал на собственном опыте пару таких инструментов. Результат меня не шибко впечатлил. Особенно если учесть, что для получения результата пришлось заплатить денег из собственного кармана. Ибо все сервисы по озвучке, которые попадались мне в сети, имеют жесткие ограничения для бесплатного использования.

Содержание

Пример изготовленной озвучки
Демонстрация работы озвучки через нейросеть
Для чего можно использовать
Печальные выводы

Интерфейс сервиса texttospeech.ru
Автор: texttospeech.ru Источник: texttospeech.ru

Сервисов для озвучки достаточно большое количество. Однако на русском языке умеют озвучивать далеко не все. Я остановился лишь на одном из них, который предлагал за небольшую стоимость озвучить довольно внушительную часть текста. Сервис бесхитростно называется texttospeech.ru.

Пример изготовленной озвучки

В бесплатном варианте доступно около 17 голосов: женских и мужских. «Небинарных» голосов нет, так что озвучить «небинарную» персону не получится. На первых порах доступно для озвучки и скачивания около 2500 символов, включая пробелы и спец символы. Этого крайне мало, но если раскошелиться на 300 рублей, то можно свободно использовать голоса с пометкой «free» каких-либо ограничений. Так же станет доступна озвучка текстом всех остальных голосов, согласно указанному тарифу.

Стоит отметить, что изменения параметров голоса (скорость, высота и т. п.) не влияют на стоимость. Вы оплачиваете только символы.

Выбор голосов большой, но все звучат одинаково безэмоционально.

Зато внесли возможность менять цвет интерфейса.

Настройки голоса не требуют отдельной оплаты.

У каждого голоса можно менять такие параметры, как: высота, скорость, громкость, частота, сдвиг и эхо. Так же можно выбрать формат, в котором можно будет загрузить полученный результат: mp3 или чистый wav. Последний лучше по качеству. Правда качество результата оставляет желать лучшего.

Хотя все зависит от задачи. Например, я решил попробовать «переозвучить» кусок ролика отличной модификации для Deus Ex — 2027. Которая была выпущена одновременно с официальной Deus Ex Human Revolution и показывала альтернативный взгляд на середину 20-х годов XXI века. Да-да, мы уже живем в киберпанке.

Вот только у разработчиков не хватило средств и возможностей для создания пусть даже любительской озвучки для своего произведения и все диалоги приходится читать, как в какой-нибудь интерактивной книге. Это не плохо, но — «несовременно».

Демонстрация работы озвучки через нейросеть

В ролике идет диалог между ИИ Титан и человеком-агентом Даниэлем. И, если честно, то озвучка человека получилась крайне отвратительной. Банально не хватает эмоций и «человечности» в голосе протагониста. Зато озвучка робота «роботом» удалась на славу. Правда пришлось перемонтировать ролик, так как озвучка текста не попадала в тайминги.

Результат выглядит вот так:

Криворукий результат. Но зато озвучка ИИ получилась весьма недурственной.

Как видите… то есть как слышите, результат озвучки человека крайне посредственный. У нас в 90-е прошлого века озвучивали одним голосом и то лучше. И это я еще использовал не бесплатный, а платный голос.

Это не единственный сервис и я приведу еще один пример. Но тратить деньги на такой посредственный результат — это не самая разумная трата средств. Все же актеры озвучки куда как лучше справляются с такой работой. Пусть такой процесс обойдется куда как дороже, чем использование нейросетевых инструментов.

Для чего можно использовать

Существуют сервисы, которые позволяют использовать ранее записанный голос или генерировать различные голоса, а не использовать заранее записанный. Например, сервис llElevenLabs позволяет озвучивать текст множеством языков.

При этом озвучка на русском так же возможна. Но есть несколько условий. Например, новый создаваемый голос использует один из пяти английских акцентов. С его помощью можно озвучивать текст на английском языке вполне сносно, но не идеально. Но текст, например на русском, озвучивается с карикатурным акцентом, как в дешевом российском кино.

Создание нового языка на основе одного из английских акцентов.

Функционал для записи и обработки голоса.

Готовые голоса озвучивают текст на русском языке куда как лучше. Но эмоциональность остается на уровне плинтуса. Может быть какую-нибудь аудио книгу озвучить этот сервис и поможет, но для озвучки персонажей в качественных проектах он не подходит.

Да и ограничения в 10 000 символов — это ни о чем. Ранее показанный ролик с диалогом содержит около 3 000 символов. И казалось бы, можно аж три раза его озвучить. Вот только даже тестовые попытки выбрать подходящие настройки текста так же включаются в эти 10 000 символов. И пробелы тоже.

А вот для любительских проектов и модификаций такие инструменты подошли бы, если бы они не стоили таких больших денег. Или хотя бы предоставляли куда как более сносный результат.

Но пока машины не могут заменить людей в озвучке. Как минимум в нормальной озвучке. Когда-нибудь это измениться, но это будет не сегодня.

Печальные выводы

В принципе для озвучки каких-нибудь ИИ, роботов, безэмоциональных живых или не живых существ такого рода сервисы подходят. Однако считаю, что беспокоиться и устраивать неолуддитские протестные акции по поводу «Нас всех заменять машинами!» не стоит.

Да, машина может нарисовать картинку. Да, машина может сочинить симфонию. Да, машина может наделить голосом персонажа. Но все это она делает весьма посредственно.

Так что если Вы — посредственный специалист, то есть смысл беспокоиться. Но если вы — профессионал, то беспокоиться о своем благополучии не имеет никакого смысла. Вряд ли нейросети, даже самые продвинутые, смогут заменить творческие профессии. Какими бы продвинутыми алгоритмами они не обладали.

Другой вопрос, что большинству людей результат особо и не интересен. Главное, что бы было, а как оно сделано — не особо и важно. Но это не вина нейросетей. Если вас устраивает озвучка в стиле «я — робот», то это не вина актеров.

17 комментариев

Добавить комментарий

Есть ещё сервис dupdub, я писал про него. С тех пор он там продвинулся ещё дальше. Там множество языков, вариантов произношения по персонажам, тембры, ударения, акценты, скорость — в общем много всего.

Ответить

Сайт этого сервиса у меня даже не открывается. Уж не знаю, чего там разработчики намудрили. Хотя, я ж из Мордора, а разработчики из Китайской республики. Санкции и все такое. :)
Но не думаю, что оно как-то лучше озвучивает на русском языке. Слушал много ИИ озвучек. Увы, все довольно посредственное. Живых людей робот заменить в этом деле не может.
Другой вопрос, что робот обойдется дешевле.

Ответить

Я просмотрел свой обзор, но, обидно, не вставил в него пример озвучки. Было неплохо. Когда писал его, была возможность тестового доступа, а сейчас, согласен, сам не могу на него зайти. Я почему помню про этот сервис, они недавно присылали информацию по своим акциям и нововведениям.
В dupdub вроде бы русского языка нет. Соглашусь, что пока озвучка — это или не очень качественно для чего-то серьезного, или очень трудоёмкая задача, ка мне видится.

Ответить

В том то и дело, что я ищу качественный инструмент для озвучки русским языком. Но увы. То ли язык сложный, то ли одно из двух.
Оно не плохо, но эмоций не хватает. А какая озвучка персонажей без эмоций.
А ведь есть проекты, где озвучка была бы весьма кстати, но где чисто материально не возможно нанять актеров — ибо проект некоммерческий.
Вот озвучка ИИ получилась весьма недурственной, правда я так и не знаю, подошла ли озвучка этому «персонажу»? Таким ли голосом разработчики игры его видели.

Ответить

Понял вас. Если получится зайти на dupdub, то, думаю, вам понравится. Вот про русский только не знаю)

Ответить

В примере полная ерунда, либо предполагается мощная обработка, чтобы было не так заметно, что речь невыразительная

Ответить

Ок, Ваш пример хорошей нейросетевой озвучки?
В данном случае я использовал все доступные условия для озвучки с помощью нейросети. Получилось, что получилось. На деле куда как проще самому записать речь, чем прогонять через нейросеть текст и потом еще как-то ее обрабатывать.
Монтаж — фигня, но вопрос не в монтаже.

Ответить

Яндекс браузер неплохо переводит видеоролики на русский.

Ответить

Вопрос не в переводе отдельных видеороликов. А в полноценной, на сколько возможно, озвучке персонажей.
Видеоролики и один человек может переводить спокойно, тут никакой особой нейросети не нужно.
А вот когда персонажей в кадре много и у каждого должен быть свой голос — тут начинаются сложности.
Из-за которых большинство инди и некоммерческих проектов не используют озвучку вообще.
Тупо — дорого.
Нейросети могли бы снизить ценовую планку. Но качество пока оставляет желать лучшего.

Ответить

Сервисов уже много, но все они пока не могут заменить актёров. Пугает, что пока…

Ответить

Ну… Меня в 2018-м пугало, что мой труд в графике может заменить нейросеть.
Настал 2022 — заменили. Я не умер. Просто временно перестал заниматься «творчеством».
С актерами так же. Когда-нибудь может и заменят нейросети актеров озвучки, да и актеров вообще, но не скоро. 4 года — большой срок.
Да и результат нейросетей такой себе.

Ответить

Я немного кручусь в сфере обучения нейросетей и могу вас заверить, что весь мир удивится уже менее чем через год.

Ответить

Я давно уже перерос неолуддизм. Мне нейросетки помогают в работе. И даже некоторые статьи я тут с их помощью оформлял.
Так что я только поприветствую новые нейросетевые алгоритмы. Главное, что бы они были достаточно доступными.

Ответить

>некоторые статьи я тут с их помощью оформлял. / и это ужасно.

Ответить

Робот значит? Ну с роботами у меня разговор короткий.
Вы не люди, вы — низшая ступень эволюции. Без обид. ;)

Ответить

фантазии

Ответить

баловство

Ответить

Добавить комментарий

Сейчас на главной

Новости

Одноногий астронавт намерен отправиться на частную орбитальную станцию Haven-1

Наука и космос
2 часа назад
0

Адаптивный профиль производительности: новая функция Galaxy S26 проходит тестирование в Китае

Outlander объединяет шлем, гарнитуру и систему связи: Sena представила мотошлем со встроенным Mesh-интеркомом

Авто и транспорт
6 часов назад
0

В священном лесу на востоке Непала обнаружен находящийся под угрозой исчезновения китайский панголин

Флора и фауна
6 часов назад
0

AirPods впервые позволят настраивать звук под себя: Apple добавит в наушники долгожданный эквалайзер

Аудио и звук
6 часов назад
0

Публикации

«Сапсан» на резиновом ходу: почему автобусы не мчатся по шоссе со скоростью поезда (и что нужно, чтобы это исправить)

Статья
8 часов назад
Наука и космос

Междугородные автобусы считаются доступным, но медленным способом передвижения. Их скорость на трассах обычно ограничена установленными правилами и возможностями техники — в большинстве...

Haylou Solar Lite 2 — обзор бюджетных смарт-часов, от которых ждешь меньше, чем получаешь

Обзор
8 часов назад
Гаджеты

Вы удивитесь, что смарт-часы Haylou Solar Lite 2 за цену обычного фитнес-браслета способны предложить AMOLED-экран, звонки и автономность до 10 дней. Я протестировал новинку и выяснил, где она...

5 лет без еды: как гигантские глубоководные изоподы выживают на дне океана

Статья
8 часов назад
Наука и космос

Глубоководные зоны океана это одна из самых неблагоприятных сред для жизни на Земле. На глубине от нескольких сотен метров до нескольких километров полностью отсутствует солнечный свет, температура...

Обзор Blackview AceBook 8 Pro — неожиданно удачный ноутбук для учебы и офисных задач

Компания Blackview, известная своими решениями в смартфонах, выпустила новинку на рынке ноутбуков для работы, который получил все необходимые решения: правильная диагональ экрана 16″,...

Что мы знаем о метеоритах: от удара по дому до египетских бус

Тематическая подборка
11 часов назад
Наука и космос

Метеорит ударил Энн рикошетом, самый тяжёлый камень весит 66 тонн, а египетские бусы сделаны из космического никеля. Разобрала невыдуманные истории — с цифрами и без пафоса.

✦ ИИ Самолёт, который летает быстрее звука, но не шумит: история NASA X-59 и будущее сверхзвуковых полётов

Статья
11 часов назад
Авто и транспорт

Жители, проживающие вблизи аэродромов, отлично осведомлены о том, насколько сильный дискомфорт создают самолеты при взлете. Именно по этой причине полеты над жилыми зонами строго запрещены,...