Deepfake голоса и создание новых композиций с помощью нейросети

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Гайд | Программы, сервисы и сайты

Благодаря развитию нейронных сетей эффект «Зловещей Долины» с каждым днём всё ближе и ближе к человечеству, ибо то, что когда-то считалось невозможным, в наши дни становится вполне осуществимым. В этой небольшой инструкции вы узнаете, как выполнить Deepfake голоса и на его основе создать совершенно новую композицию, даже если его обладатель давно покинул нас.

RVC-GUI — это удобная оболочка с открытым исходным кодом созданная для упрощения управления параметрами нейронной сети RVC применяемой для синтеза любого голоса/музыкальной композиции. По сравнению с аналогами, не требует установки и настройки сложных библиотек или использования Linux. Для работы программы достаточно Windows 10/11 и относительно современного ПК.

Инструкция

1. Скачиваем с GitHub бесплатное приложение RVC-GUI и распаковываем его в любую удобную папку. Убедитесь, что в название папки или пути до конечного файла запуска нет кириллицы.

2. Запускаем файл RVC-GUI.bat.

Если всё прошло успешно, то перед вашим взором появится интерфейс ПО.

3. Чтобы программа могла воссоздать полноценную музыкальную композицию с интересующем нас голосом, необходимо заранее подготовить голосовую модель и отделить вокал солиста от инструментала в интересующей нас композиции. В общем, чтобы голос стал отдельно от музыки.

Скачиваем заранее обученные модели:

Дополнительные модели формата RVC/RVC2 вы всегда можете найти здесь.

4. Выбираем желаемую композицию, которую мы хотим, чтобы наша модель перепела. Отделяем вокал солиста от инструментала. Благо, сделать это весьма просто.

Переходим на веб-сайт редактора:

Загружаем трек формата .mp3 и дожидаемся пока редактор обработает композицию. Скачиваем результат.

5. После того как мы выбрали желаемую модель и отделили вокал от инструментала, можно вновь возвращаться к интерфейсу программы.

  • (1) Выбираем через кнопку Browse наш подготовленный музыкальный трек с голосом солиста.
  • (2) Загружаем и выбираем модель через кнопку Select a model. Чтобы загрузить голосовую модель, можно воспользоваться кнопкой Import model from. zip в интерфейсе ПО или распакуйте файлы архива модели напрямую в папку models с установленной программой.
  • (3) Выбираем алгоритм конечного качества трека. Советую всегда использовать пресет harvest.
  • (4) Выбираем, на чём будет обсчитываться конечный трек. Если у вас мощный ПК с видеокартой Nvidia, то выбирайте GPU, но не забудьте тогда установить вспомогательный пакет CUDA. Обладатели видеокарт AMD/Intel выбирают CPU.
  • (5) Нажимаем Convert.

Вот, собственно, и всё! Если всё было сделано правильно, то, через пару десятков минут, вы получите готовый музыкальный трек с любимым исполнителем в папке рядом с оригиналом.

6. Сводим готовы аудиодарожки вокала и инструментала в любом аудио/видео редакторе. Лично я использую для этого бесплатный видеоредактор Shotсut.

  • Правый клик по нижней части программы>> действия с дорожкой>> добавить аудиотрек.
  • Левый угол программы «Открыть файл». Переносим треки на добавленные дорожки.
  • Правый угол программы «Экспорт». Выбираем в левом углу программы желаемый формат и качество.

7. Наслаждаемся результатом.

Заключение

Скажу откровенно, меня пугает уровень развития современных технологий. Но кроме страха я ощущаю ещё и надежду. Надежду на то, что человечество может и не искоренит свои пороки, но благодаря развитию технологий подарит утешение миллионам людей по всему миру. Уважайте свободу, используйте свободное ПО и ни в коем случае не предавайте себя!

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Сисадмин и любитель эльфиек.

52 комментария

87638502@vkontakte
Иструкция по создание модели будет готова где-то после праздников.
U
Когда ж таки настанет «после праздников»? :)
87638502@vkontakte
Только сейчас заметил, конвертирование немного поджевало качества записи. Поменяю в ближайшее время.
___________
Земенено!
110254628370034667766@google
на андроид есть аналог? хотелось бы на телефоне такое творить.
а вообще браво ?
87638502@vkontakte
Слишком затратно по ресурсам для телефона.
к
Дополню что собирать музло обратно гораздо удобнее во FL Studio
А Отковыривать голос и музыку отдельно в Ultimate Vocal Remover
ЗЫ я хз как комент сюда попал вместо того чтобы пойти вниз… ну да ладно.
По теме отвечу что для телефона есть гугл коллаб он всё за телефон сделает по быстрому)
Но это огромная тема есть на ютубе lunnaholy он инструкции подробные снимал для бедолаг с телефонами
87638502@vkontakte
Так это обычная демонстрация, что в итоге получится. Ссылки указаны на оригинал под видео и в самом видео. Присмотритесь. Не говоря уже о том, что я дополнил видео и создаю в видеоредакторе совершенно другую композицию. Гайд структрурирован и дополнен для ixbt/live.
____________________
https://sun9-68.userapi.com/impg/kd6PbLiwqeZXUQUaGrhvfO7RzOsKtzyNKRdvrA/nqmmeGHt7uM.jpg?size=408x799&quality=96&sign=732996bb6c0bcb3d8034bd250d444997&type=album
_____________________
https://sun9-44.userapi.com/impg/xPuiy1N3LeDzaej6LE9FLz5RQ5zA7jnLboEJng/hXQC4cymEEI.jpg?size=1118x211&quality=95&sign=6aa0749ba4a3e0c6e2520597d41d4f62&type=album
Анри14
Как здорово! Очень жду инструкции, как свою модель забацать! Спасибо.
87638502@vkontakte
Современные технологии это настоящее чудо!
370582630@vkontakte
Так вот как это делают Вован и Лексус…
87638502@vkontakte
Сомневаюсь)
к
Вообще могут) например на so-vits-svc fork можно подрубать микрофон и базарить в реальном времени чужим голосом) А уж всякие программы в даркнете поди давно так могли.
Именно на fork это его главное отличие от просто svc
к
ВОт спасибо бро за ощерный гайд по РВС и за линк иде модели лежат! А то на СВС нихто моделями нормально не делится самому тренировать приходится)
ЗАбираю в арсенал извращений и РВС))
к
Забрал по ссылке модельку Бритни Спирс (всё никак сам датасет не дорежу натренировать) и скормил so-vits-svc fork
И он модельку радостно всосал и уже вовсю пашет над моим тестовым треком )) О_О
ВОзможно модельки универсальные)
87638502@vkontakte
Или моделька попалась под svc. Скажите, пожалуйста, как там назван файл конфигурации?
к
Файлы по SVCшному и обозваны config.json да G_100000.pth
Ога пока писал до меня допёрло почему по ссылке в списке на некоторых там написано RVC в скобках!
Там значиться всё в перемешку лежит)
к
К слову если ваша любимая поп певица или певец никогда не будет петь ваш любимый всякий лютый метал это не проблема!!!
Нейросеть в недавних версиях наловчилась адекватно переваривать гроул и скрим и петь его внятно чистым голосом))
Например вот так Милен Фармер поёт лютый похоронный дум митол)
https://www.youtube.com/watch?v=TfkuXjirPYU
А вот так русскую алтьтернативу 2007го))
https://www.youtube.com/watch?v=nne3wxyzeZU
к
Отдельно дополню для тех кто попробует натянуть на экстремальный вокал — чистый голос
Возможны неприятные открытия типа экстрим вокалиста орущего мимо нот но при экстрим вокале это было нормально а на чистом звучит как испанский стыд))
Ещё обнажается хреновое качество записи или недостаточная тренировка модели (не только малое количество эпох но и неудачно собранный датасет для тренировки с однообразным или слишком небольшим по количеству материалом) — слова могут звучать неразборчиво.
Ну и на совсем высоком скриме или шрайке уменьшайте питч иначе чистым голосом будет совсем шептать)
87638502@vkontakte
Для среднего качества хватает эпох 150, но опять таки, всё зависит от желаемого голоса и конечного произвидения. Если брать бардовсвое исполнение, то и 250 будет уже за глаза, но если хардкорный металл, то и 500 будет мало.
к
Отдельно отмечу что по крайней мере для SVC не все эпохи одинаково полезны)
Лучше тестить промежуточные итерации (я сохраняю каждую 1000ю потому говорю за них) скажем 42000 шаг может звучать с откровенный металлическим голосом робота работая хуже чем 16000й а тем временем 41000 был идеален о_о а 40000 тоже мусор.
Металл кстати многое прощает! Как раз плотное музло скрывает многие косяки) Голос понизил в редакторе на децибел и ваще хорошо стало)
А вот с простым музлом типа голоса под гитару засада) косяки как на ладони — их нечем маскировать!
Естественно всё это зависит от того чей голос куда натягивать)
Когото проще когото сложнее.
Это индивидуально даже не для каждого исполнителя а для для каждой песни.
E
А можно без музыки изменить голос и получить только вокал измененный? Мне не надо накладывать на музыку, но надо поменять голос.
87638502@vkontakte
Конечно, просто пропустите 6 шаг.
E
Подскажите, а что означают в описании моделей голосов параметры: Anuel AA (RVC) 400 Epoch, Anuel AA (2016 Era) 500 Steps, Anuel AA 41.6k ?
И есть ли еще российские голосовые модели для скачивания, кроме 2-х в статье?
87638502@vkontakte
1. Количество эпох это степень обучения модели, больше>лучше. 41.6k — это качество дискретизации, больше>лучше.
2. Модели есть, но их нужно ещё поискать. В основном все их обучают сами и мало кто делится в итоге. Погуглите модели или гайд по обучению. Я хотел продолжить гайд обучением, но обнаружил, что это мало кому интересно. В общем, решил не тратить силы.
A
Шутишь? Я уже неделю обновляю твою страницу ради этой инструкции)
87638502@vkontakte
Прости, придётся тебе просто погуглить).
к
Эх ладно я нашел живой гайд и живой коллаб по которому уже успешно обучаю) Дам ссылки тута
Инструкция по обучению увы токмо на ангельском но с картинками! https://youtu.be/x-jelyl6dyE
Коллаб для тренировки по этой инструкции https://colab.research.google.com/drive/1TU-kkQWVf-PLO_hSa2QCMZS1XF5xVHqs#scrollTo=MErtbNbp4wn0
Коллаб живой и рабочий остальное что находил нерабочий мусор.
Да суперкомпы гугла бесплатно попашут на вас 3 часа в сутки мощей стоимостью в пару миллионов)
87638502@vkontakte
Вот по этому, и не захотел).
к
Можно взять и перевести коллаб на русскый и запилить инструкцию)
Некий неивестный никому поц lunnaholy за месяц поднял на этом и канал в телеге до 3к подпищеков и ютубный...
Хотя тогда эффект новизны был в конце апреля…
87638502@vkontakte
Автор делает всё для помощи людям, ему не нужны поклонники и прочие бонусы.
H
Здравствуйте. Извините, но в этой статье вы вроде даёте инструкции просто как сделать кавер, а где же генерация абсолютно новых композиций?
87638502@vkontakte
Изменяйте музыку, слова. Получите новые композиции.
H
… ничего не понимаю. То есть, слова и музыку надо создать самостоятельно?
H
Так я прочитал, но там как раз про это не написано
105896898924598160541@google
Вопрос: у меня 32 разрядная винда и ваша программа ругается, что она не совместима с ней. Есть версия на 32ую винду?
572838613@vkontakte
А может ли установиться эта программа на среднем пк?
457319130@vkontakte
При открытии файла пишет что не нашел модуль. Помогите пожалуйста, что можно сделать?
111790671766249066551@google
Здравствуйте, скажите пожалуйста как подтянуть вокал, например если берешь какую-то песню с высоким припевом, эта программа RVC-GUI не вытягивает припев до конца, может есть какие-то лучшие программы или настройки улучшить? спасибо
50274431@vkontakte
Почему у всех в описании так всё просто? Запустите и работайте :) Так она не запускается просто. Моя система Win7 64, видео АМД, 32 память. При запуске не может загрузить модуль cudart64_110.dll, который точно есть. И нигде никто не пишет, как это можно исправить. Или, какие требования, чтоб RVC точно работала :(((
87638502@vkontakte
Простите, но автор не поддерживает устаревшие ОС, как и компания Nvidia. Попробуйте установить версию Cuda для Windows 7.
50274431@vkontakte
Попробовал, не получилось. Как я понял из статьи, возможно использовать ресурсы ЦПУ для работы. Но для этого надо, чтобы программа запустилась ;-)
87638502@vkontakte
А для этого программе нужно Windows 10)
v
Здравствуйте, не пойму что нужно делать, к примеру я хочу заменить песенку про мамонтенка, голосом Розенбаума, мои действия какие должны быть???? 1) взять песенку мамонтенка и сделать один вокал или наоборот один Розенбаум??? 2)где мне брать модель под мамонтёнка в формате RVC/RVC2, 3) МОЖНО пожалуйста дополнить инструкцию???
i
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
File "<frozen importlib._bootstrap>", line 562, in module_from_spec
AttributeError: 'NoneType' object has no attribute 'loader'
Remainder of file ignored
Error processing line 1 of G:\Archive\Deep Fake\runtime\lib\site-packages\matplotlib-3.6.2-py3.9-nspkg.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
File "<frozen importlib._bootstrap>", line 562, in module_from_spec
AttributeError: 'NoneType' object has no attribute 'loader'
Remainder of file ignored
Error processing line 7 of G:\Archive\Deep Fake\runtime\lib\site-packages\pywin32.pth:
Traceback (most recent call last):
File «site.py», line 169, in addpackage
File "", line 1, in
ModuleNotFoundError: No module named 'pywin32_bootstrap'
Remainder of file ignored
Traceback (most recent call last):
File «G:\Archive\Deep Fake\rvcgui.py», line 3, in
from tkinter import filedialog
ModuleNotFoundError: No module named 'tkinter'
Press any key to continue.. .
((((

Добавить комментарий

Сейчас на главной

Новости

Публикации

Ugreen Robot GaN 65W: трёхпортовое зарядное устройство с забавным дизайном

Герой сегодняшнего обзора Ugreen Nexode Robot GaN 65W. Это качественное трёхпортовое зарядное устройство, выполненное в необычном дизайне, поддерживающее многие протоколы быстрой зарядки и высокую...

Обзор тепловизора ACEGMET P200 с разрешением 240х180 и дополнительной камерой на 2 мегапикселя

Сегодня на обзоре крайне интересное устройство — тепловизор с отдельной камерой, оформленный в виде смартфона, с отдельным большим дисплеем и высоким разрешением тепловизионной...

Темная энергия или «глючная» гравитация? Новая теория пытается объяснить напряжение Хаббла

Вселенная — место, полное загадок. Одна из них, темная энергия, заставляет пространство расширяться с ускорением, но ее природа остается непостижимой. Ученые выдвигают различные...

750 слов: современная философия ведения дневников

В книге «Путь художника» Джулии Кэмерон среди прочего есть упражнение, которое она рекомендует выполнять каждый день — «утренние страницы». По задумке творческому человеку нужно каждое...

Обзор внешнего аккумулятора Anker 737 140W 24000 mAh (PowerCore 24K): Стильно, мощно, инновационно

Anker уже давно занимается выпуском крайне удачных зарядных устройств, оснащённых уникальной фишкой, но их внешние аккумуляторы оставались не столь примечательными, что достаточно странно, ибо они...

Дорогие промахи при выборе автоматической кофемашины

Выбор автоматической кофемашины может оказаться настоящим испытанием для кофейного гурмана. От ежедневного эспрессо до роскошных капучино — правильное оборудование способно радикально...