Как не попасться на дипфейки: научные методы распознавания голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Оффтопик

В наше время интернет полон ложной и искаженной информацией, которая может вводить в заблуждение и манипулировать общественным мнением. Особенно опасны так называемые дипфейки — подделки аудио и видео, созданные с помощью искусственного интеллекта (AI). Дипфейки могут имитировать голос и облик любого человека, будь то политик, знаменитость или ваш близкий родственник. Такие подделки могут использоваться для шантажа, мошенничества, дезинформации или просто для развлечения.

Угроза дипфейка — не фейк
Автор: Designer

Но как отличить реальный голос от клонированного? Есть ли способы, которые помогут нам не попасться на уловки дипфейков? На эти вопросы пытаются ответить исследователи из Школы информации при Калифорнийском университете в Беркли. Сара Баррингтон, Ромит Баруа и Гаутам Курма (все MIMS '23) представили свою работу по обнаружению клонированного голоса на нескольких научных конференциях, включая Нобелевский саммит и конференцию IEEE WIFS (Workshop in Information Forensics and Security) в Нюрнберге, Германия.

Исследователи работали под руководством профессора Хани Фарида, эксперта в области цифровой криминалистики и борьбы с дипфейками. Профессор Фарид признал, что он был удивлен скоростью и качеством развития технологии клонирования голоса, которая стала «потрясающе хорошей» за несколько месяцев. По его словам, команда сделала важный вклад в разработку методов обнаружения новой угрозы дипфейков аудио.

Пример реальных звуковых сигналов (вверху) и «синтетических» звуковых сигналов (внизу) во времени (каждая нормализована по диапазону амплитуд). [−1, 1]) для одной и той же фразы. Обратите внимание на разницу в продолжительности пауз и разницу в общей амплитуде и амплитудной модуляции с течением времени
Автор: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid; arxiv(2023); DOI: 10.48550/arxiv.2307.07683 Источник: arxiv.org

Команда применила три разных подхода для анализа аудиопроб реальных и поддельных голосов. Первый подход заключался в изучении воспринимаемых особенностей или паттернов, которые можно визуально (или на слух) идентифицировать. Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. Этот метод легко понять, но может давать менее точные результаты.

Второй подход заключался в использовании спектрального анализа с помощью специальной программы, которая извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д. Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. Этот метод дает более точные результаты, но требует больше вычислительных ресурсов.

Третий подход основан на использовании модели глубокого обучения, которая принимает на вход сырое аудио и обрабатывает его, извлекая многомерные представления, называемые вложениями. Эти вложения используются для различения реального и «синтетического» аудио. Этот метод показал самые высокие показатели точности и даже достигал нулевой ошибки в лабораторных условиях. Однако этот метод сложнее понять и объяснить, так как он основан на сложных математических операциях.

Исследователи считают, что их работа может помочь защитить общественность от злоупотребления технологией клонирования голоса, которая хоть и может быть полезным инструментом для творчества, но в руках злоумышленников способна принести несоизмеримо больший вред. «Клонирование голоса — это один из первых случаев, когда мы сталкиваемся с дипфейками, имеющими реальную угрозу, будь то обход биометрической верификации банка или звонок родственнику с просьбой о деньгах», — сказала Баррингтон. «Теперь под угрозой не только мировые лидеры и знаменитости, но и обычные люди».

Поэтому важно развивать и совершенствовать методы обнаружения дипфейков, которые будут надежными и масштабируемыми для широкой публики. Исследователи надеются, что их работа способствует восстановлению доверия к аудиоконтенту в интернете и снижению рисков, связанных с развитием технологий. Они также планируют продолжать свои исследования в этой области и сотрудничать с другими учеными в поиске лучших решений.

3 комментария

Добавить комментарий

Viktormayz
Актуальность таких проблем только растет))
Ruby_Rougarou
Причем с каждым днём всё больше. Мной уже давно были проинструктированы все знакомые/родственники, особенно старики о наличии у мошенников таких технологий, и о том, что если мой голос просит перевести деньги, то это не я прошу
a
И поэтому с мошенниками нельзя долго разговаривать: чем больше скажешь — тем лучше они подделают голос. И еще не надо говорить слова вроде «да», «нет», которые потом используются в прохождении разного сорта «электронных ассистентов» банков/компаний.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Как Земля «варит» золото в мантийных котлах: почему для создания руды нужны истощенная мантия и кислород

На дне Тихого океана, к северу от Новой Зеландии, расположена система Кермадек — протяженная цепь подводных вулканов, образованная в зоне субдукции. Зона субдукции — это...

Держит яркость и светит широко. Стильный EDC фонарик с подсветкой. Обзор Wurkkos TS26

3470 люменов широкого ближнего света, дальнобойность 194м, настраиваемая подсветка, интерфейс Anduril, питание от 21700 аккумулятора. Новый фонарик Wurkkos TS26 получил 4 светодиода TN3535 с...

Почему авиация отказалась от двухэтажных самолётов

В истории авиации двухэтажные (двухпалубные) пассажирские самолёты долгое время оставались символом грандиозных амбиций и технического прогресса. Перевозчики стремились увеличить вместимость и...

Ученые впервые наблюдали процесс, давший начало сложной жизни на Земле: как контакт двух простых клеток изменил ход эволюции

Один из самых сложных вопросов в современной биологии — это механизм появления эукариотической клетки. Вся жизнь на Земле делится на простые микроорганизмы (бактерии и археи) и...

Архитектура преисподней: как на самом деле устроен источник магмы Йеллоустоунского супервулкана

Традиционно считалось, что под Йеллоустоуном находится мантийный плюм. Согласно этой классической концепции, глубоко в недрах планеты, на границе земного ядра и мантии, зарождается мощный...

Секрет Саграда Фамилия: почему у самого высокого храма мира предел высоты в 172 метра

В прошлой статье я писал про долгострой, и вот совпадение, тоже храм, в Таиланде. Но если Храм Истины это самый масштабный проект целиком из древесины, то Саграда Фамилия уже самый высокий...