Сервис для озвучки Text to speech (и почему актерам озвучки можно не беспокоиться)
Вся эта шумиха вокруг нейросетей, озвучки с помощью так называемых «ИИ-инструментов» и забастовок актеров и сценаристов побудила меня к тому, что бы разобраться, в чем собственно дело. И так ли страшен черт, как его малюют. И я решил на основе одного сервиса озвучить небольшой кусочек видео. И посмотреть на полученном результате насколько сама идея «машинной озвучки» может стать конкурентом настоящей озвучки живыми даже не профессиональными актерами.
Однако, я попробовал на собственном опыте пару таких инструментов. Результат меня не шибко впечатлил. Особенно если учесть, что для получения результата пришлось заплатить денег из собственного кармана. Ибо все сервисы по озвучке, которые попадались мне в сети, имеют жесткие ограничения для бесплатного использования.
Содержание
Сервисов для озвучки достаточно большое количество. Однако на русском языке умеют озвучивать далеко не все. Я остановился лишь на одном из них, который предлагал за небольшую стоимость озвучить довольно внушительную часть текста. Сервис бесхитростно называется texttospeech.ru.
Пример изготовленной озвучки
В бесплатном варианте доступно около 17 голосов: женских и мужских. «Небинарных» голосов нет, так что озвучить «небинарную» персону не получится. На первых порах доступно для озвучки и скачивания около 2500 символов, включая пробелы и спец символы. Этого крайне мало, но если раскошелиться на 300 рублей, то можно свободно использовать голоса с пометкой «free» каких-либо ограничений. Так же станет доступна озвучка текстом всех остальных голосов, согласно указанному тарифу.
Стоит отметить, что изменения параметров голоса (скорость, высота
У каждого голоса можно менять такие параметры, как: высота, скорость, громкость, частота, сдвиг и эхо. Так же можно выбрать формат, в котором можно будет загрузить полученный результат: mp3 или чистый wav. Последний лучше по качеству. Правда качество результата оставляет желать лучшего.
Хотя все зависит от задачи. Например, я решил попробовать «переозвучить» кусок ролика отличной модификации для Deus Ex — 2027. Которая была выпущена одновременно с официальной Deus Ex Human Revolution и показывала альтернативный взгляд на середину 20-х годов XXI века. Да-да, мы уже живем в киберпанке.
Вот только у разработчиков не хватило средств и возможностей для создания пусть даже любительской озвучки для своего произведения и все диалоги приходится читать, как в какой-нибудь интерактивной книге. Это не плохо, но — «несовременно».
Демонстрация работы озвучки через нейросеть
В ролике идет диалог между ИИ Титан и человеком-агентом Даниэлем. И, если честно, то озвучка человека получилась крайне отвратительной. Банально не хватает эмоций и «человечности» в голосе протагониста. Зато озвучка робота «роботом» удалась на славу. Правда пришлось перемонтировать ролик, так как озвучка текста не попадала в тайминги.
Результат выглядит вот так:
Как видите… то есть как слышите, результат озвучки человека крайне посредственный. У нас в 90-е прошлого века озвучивали одним голосом и то лучше. И это я еще использовал не бесплатный, а платный голос.
Это не единственный сервис и я приведу еще один пример. Но тратить деньги на такой посредственный результат — это не самая разумная трата средств. Все же актеры озвучки куда как лучше справляются с такой работой. Пусть такой процесс обойдется куда как дороже, чем использование нейросетевых инструментов.
Для чего можно использовать
Существуют сервисы, которые позволяют использовать ранее записанный голос или генерировать различные голоса, а не использовать заранее записанный. Например, сервис llElevenLabs позволяет озвучивать текст множеством языков.
При этом озвучка на русском так же возможна. Но есть несколько условий. Например, новый создаваемый голос использует один из пяти английских акцентов. С его помощью можно озвучивать текст на английском языке вполне сносно, но не идеально. Но текст, например на русском, озвучивается с карикатурным акцентом, как в дешевом российском кино.
Готовые голоса озвучивают текст на русском языке куда как лучше. Но эмоциональность остается на уровне плинтуса. Может быть какую-нибудь аудио книгу озвучить этот сервис и поможет, но для озвучки персонажей в качественных проектах он не подходит.
Да и ограничения в 10 000 символов — это ни о чем. Ранее показанный ролик с диалогом содержит около 3 000 символов. И казалось бы, можно аж три раза его озвучить. Вот только даже тестовые попытки выбрать подходящие настройки текста так же включаются в эти 10 000 символов. И пробелы тоже.
А вот для любительских проектов и модификаций такие инструменты подошли бы, если бы они не стоили таких больших денег. Или хотя бы предоставляли куда как более сносный результат.
Но пока машины не могут заменить людей в озвучке. Как минимум в нормальной озвучке. Когда-нибудь это измениться, но это будет не сегодня.
Печальные выводы
В принципе для озвучки каких-нибудь ИИ, роботов, безэмоциональных живых или не живых существ такого рода сервисы подходят. Однако считаю, что беспокоиться и устраивать неолуддитские протестные акции по поводу «Нас всех заменять машинами!» не стоит.
Да, машина может нарисовать картинку. Да, машина может сочинить симфонию. Да, машина может наделить голосом персонажа. Но все это она делает весьма посредственно.
Так что если Вы — посредственный специалист, то есть смысл беспокоиться. Но если вы — профессионал, то беспокоиться о своем благополучии не имеет никакого смысла. Вряд ли нейросети, даже самые продвинутые, смогут заменить творческие профессии. Какими бы продвинутыми алгоритмами они не обладали.
Другой вопрос, что большинству людей результат особо и не интересен. Главное, что бы было, а как оно сделано — не особо и важно. Но это не вина нейросетей. Если вас устраивает озвучка в стиле «я — робот», то это не вина актеров.
17 комментариев
Добавить комментарий
Но не думаю, что оно как-то лучше озвучивает на русском языке. Слушал много ИИ озвучек. Увы, все довольно посредственное. Живых людей робот заменить в этом деле не может.
Другой вопрос, что робот обойдется дешевле.
В dupdub вроде бы русского языка нет. Соглашусь, что пока озвучка — это или не очень качественно для чего-то серьезного, или очень трудоёмкая задача, ка мне видится.
Оно не плохо, но эмоций не хватает. А какая озвучка персонажей без эмоций.
А ведь есть проекты, где озвучка была бы весьма кстати, но где чисто материально не возможно нанять актеров — ибо проект некоммерческий.
Вот озвучка ИИ получилась весьма недурственной, правда я так и не знаю, подошла ли озвучка этому «персонажу»? Таким ли голосом разработчики игры его видели.
В данном случае я использовал все доступные условия для озвучки с помощью нейросети. Получилось, что получилось. На деле куда как проще самому записать речь, чем прогонять через нейросеть текст и потом еще как-то ее обрабатывать.
Монтаж — фигня, но вопрос не в монтаже.
Видеоролики и один человек может переводить спокойно, тут никакой особой нейросети не нужно.
А вот когда персонажей в кадре много и у каждого должен быть свой голос — тут начинаются сложности.
Из-за которых большинство инди и некоммерческих проектов не используют озвучку вообще.
Тупо — дорого.
Нейросети могли бы снизить ценовую планку. Но качество пока оставляет желать лучшего.
Настал 2022 — заменили. Я не умер. Просто временно перестал заниматься «творчеством».
С актерами так же. Когда-нибудь может и заменят нейросети актеров озвучки, да и актеров вообще, но не скоро. 4 года — большой срок.
Да и результат нейросетей такой себе.
Так что я только поприветствую новые нейросетевые алгоритмы. Главное, что бы они были достаточно доступными.
Вы не люди, вы — низшая ступень эволюции. Без обид. ;)
Добавить комментарий