Нейросети заменяют актёров озвучивания

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Игры

Этим летом по многим новостным сайтам, связанным с компьютерными играми, прошла новость, что мододел создал мод для Ведьмака 3, который был озвучен с помощью нейросетей. И тогда множество западных актёров озвучивания прокомментировали эту новость, выразив крайнюю обеспокоенность за свои рабочие места. Итак, что же это был за мод, что за сети там использовались и насколько это всё на самом деле опасно для профессии актёров озвучивания?

Автором мода является россиянин под ником nikich340. И использовал он нейросеть созданную так же российской компанией Mind Simulation Lab. Данная компаний из Краснодара появилась не так давно, в 2018 году. На данный момент в разработке у неё два крупных проекта: CyberMind и CyberVoice.

Первый проект позиционируется как система создания программ поведения для NPC в играх. Пока что на сайте компании об этой системе по существу ничего не написано. Только то, как авторы предлагают её использовать. Никакой информации об используемых технологиях, полном спектре возможностей и технических характеристиках в открытом доступе нет. Как нет и информации о крупных проектах, в которых она на сегодня используется. Судя по всему, сейчас данная система находится лишь на этапе разработки.

Второй проект является той самой нейросетью, которая как раз и была использована для озвучивания Геральта в моде. Данная система уже активно продаётся и позиционируется как система для разработчиков видеоигр и стримеров. Тем не менее информации в открытом доступе о том, какие конкретно модели использует данная система нет. А самым нашумевшим проектом, в котором она была использована, является как раз мод для Ведьмака. 

В силу отсутствия хоть какой-то информации о технологиях, используемых компанией, пока что сложно судить о перспективах конкретно этого проекта. С другой стороны, даже если мы берём в расчёт только Россию, уже существует далеко не одна похожая система. Есть, к примеру, VoxWorker, VoiceBot, TextToSpeech и множество других. Так что можно говорить, что к автоматизации профессии актёров озвучивания подбирается множество компаний со всех сторон.

Насколько возможно в принципе автоматизировать озвучивание в играх? Какие рамки есть у существующих на сегодня систем? Если кого–то интересует техническая сторона вопроса, то я отдельно записал видео с разбором системы созданной разработчиками из Google в 2019 году. 

Данная система уже два года назад была способна обучиться голосу любого человека «прослушав» запись его голоса длинной лишь в 5 секунд. И эти два года работа на месте не стояла. Сейчас нейросети могут и добавлять эмоции в сгенерированные голоса, и генерировать вокал. По сути уже осталось не так много времени, когда можно будет полностью заменить актёров озвучивания на нейросети. Не говоря уже, что того же Козловского уже сейчас можно заменить и разницы никто не заметит.

И с тем, какие это принесёт достоинства в целом всё понятно. Теперь не нужно тратить сотни часов на запись текста для компьютерных игр. Вам достаточно привлечь актёров озвучки на пару часов (возможно дней) для детальной записи его голоса. А всё озвучивание персонажей можно генерировать буквально не лету, без привлечения актёров. Можно сэкономить буквально сотни часов работы. А внесение правок в текст, который проговаривают персонажи, можно будет осуществлять хоть в последний день и это не будет кромешным мраком и авралом для десятков людей. 

Полезно это будет особенно для инди проектов. Которым будет ещё проще и дешевле локализировать свои игры. А у крупных издателей всё меньше останется оправданий для отсутствия этой самой локализации.

Что же по поводу самих актёров озвучивания? Тут стоит вспомнить, в чём сейчас заключается работа фотомоделей. Они приходят на фотосет. На этих фотосетах делают определённый набор фотографий с моделями в разных позах. А потом эти фотографии уже обрабатывают в фотошопе, перенося моделей на всякие курорты, подставляя им в руки разную продукцию и так далее. А сами модели получают отчисления за использования своих фотографий. При этом, им совершенно не нужно мотаться везде и в натуре фотографироваться со всем подряд. То есть, фотошоп автоматизирует работу фотомоделей, а не лишает их её. По сути то же самое светит и профессии актёров озвучивания. Возможно не сразу, но с большой вероятностью всё придёт к тому, что актёры будут продавать права на свой голос. Этот голос будут копировать нейросетями, а дальше, уже без привлечения живых людей, будет создаваться озвучка в различных проектах. А актёры будут получать отчисления за использования своего образа. 

Поэтому, как и во многих других отраслях, в озвучивании нейронные сети будут лишь инструментом автоматизации. Лишать людей работы они не будут. Просто потому, что намного проще и дешевле скопировать голос живого человека, чем вручную с нуля создавать роботизированный голос, добиваясь, во-первых, его естественности, а во-вторых, делать его подходящим под конкретный образ.

Имитатор техникиДругойДругая
Автор не входит в состав редакции iXBT.com (подробнее »)

1 комментарий

Добавить комментарий

Сейчас на главной

Новости

Публикации

5 видов грибов, которые лучше не жарить: после сковороды вкус может неприятно удивить

  • Тематическая подборка
  • Оффтопик
Кажется, что с грибами всё просто: почистил, бросил на сковородку, добавил лук — и ужин готов. Но именно здесь многих кулинаров ждет жесткое разочарование. Одни грибы после термической...

Как замедлить ход времени в собственной голове: раскрыт биологический механизм растягивания воспоминаний

Механическое время всегда идет с одной скоростью. Но человеческий мозг устроен иначе: наше внутреннее ощущение времени крайне изменчиво. Бывает так, что один день, наполненный событиями, кажется...

Микроавтобус «Старт» 1963 года: техническая изнанка советского композитного эксперимента

В 1963 году на дорогах СССР появился автомобиль, который выглядел чужеродно среди угловатых советских грузовиков и консервативных «Волг». Микроавтобус «Старт» с плавными обводами, обратным наклоном...

Как самое тяжелое здание мира строили всей Румынией, да не достроили

По центру румынской столицы Бухареста стоит монументальное здание парламента. Даже на снимках с высоты птичьего полета можно понять, какая это на самом деле махина. По размеру это административное...

Почему мы не чувствуем вращение Земли, и как его доказал тяжелый шар на нити? 175 лет маятнику Фуко

Человеческий организм устроен так, что он не способен чувствовать равномерное движение. Мы замечаем только изменения скорости — ускорение или торможение. Именно поэтому люди не ощущают,...

Как проверить мясные снеки (джерки) дома: два теста, которые позволят определить действительно ли это натуральное вяленое мясо

Как отличить настоящие снеки из натурального цельного мяса от имитации. Простые способы, которые позволяют выяснить качество мясных снеков дома без лаборатории, приборов и реактивов.