Как не попасться на дипфейки: научные методы распознавания голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Оффтопик

В наше время интернет полон ложной и искаженной информацией, которая может вводить в заблуждение и манипулировать общественным мнением. Особенно опасны так называемые дипфейки — подделки аудио и видео, созданные с помощью искусственного интеллекта (AI). Дипфейки могут имитировать голос и облик любого человека, будь то политик, знаменитость или ваш близкий родственник. Такие подделки могут использоваться для шантажа, мошенничества, дезинформации или просто для развлечения.

Угроза дипфейка — не фейк
Автор: Designer

Но как отличить реальный голос от клонированного? Есть ли способы, которые помогут нам не попасться на уловки дипфейков? На эти вопросы пытаются ответить исследователи из Школы информации при Калифорнийском университете в Беркли. Сара Баррингтон, Ромит Баруа и Гаутам Курма (все MIMS '23) представили свою работу по обнаружению клонированного голоса на нескольких научных конференциях, включая Нобелевский саммит и конференцию IEEE WIFS (Workshop in Information Forensics and Security) в Нюрнберге, Германия.

Исследователи работали под руководством профессора Хани Фарида, эксперта в области цифровой криминалистики и борьбы с дипфейками. Профессор Фарид признал, что он был удивлен скоростью и качеством развития технологии клонирования голоса, которая стала «потрясающе хорошей» за несколько месяцев. По его словам, команда сделала важный вклад в разработку методов обнаружения новой угрозы дипфейков аудио.

Пример реальных звуковых сигналов (вверху) и «синтетических» звуковых сигналов (внизу) во времени (каждая нормализована по диапазону амплитуд). [−1, 1]) для одной и той же фразы. Обратите внимание на разницу в продолжительности пауз и разницу в общей амплитуде и амплитудной модуляции с течением времени
Автор: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid; arxiv(2023); DOI: 10.48550/arxiv.2307.07683 Источник: arxiv.org

Команда применила три разных подхода для анализа аудиопроб реальных и поддельных голосов. Первый подход заключался в изучении воспринимаемых особенностей или паттернов, которые можно визуально (или на слух) идентифицировать. Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. Этот метод легко понять, но может давать менее точные результаты.

Второй подход заключался в использовании спектрального анализа с помощью специальной программы, которая извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д. Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. Этот метод дает более точные результаты, но требует больше вычислительных ресурсов.

Третий подход основан на использовании модели глубокого обучения, которая принимает на вход сырое аудио и обрабатывает его, извлекая многомерные представления, называемые вложениями. Эти вложения используются для различения реального и «синтетического» аудио. Этот метод показал самые высокие показатели точности и даже достигал нулевой ошибки в лабораторных условиях. Однако этот метод сложнее понять и объяснить, так как он основан на сложных математических операциях.

Исследователи считают, что их работа может помочь защитить общественность от злоупотребления технологией клонирования голоса, которая хоть и может быть полезным инструментом для творчества, но в руках злоумышленников способна принести несоизмеримо больший вред. «Клонирование голоса — это один из первых случаев, когда мы сталкиваемся с дипфейками, имеющими реальную угрозу, будь то обход биометрической верификации банка или звонок родственнику с просьбой о деньгах», — сказала Баррингтон. «Теперь под угрозой не только мировые лидеры и знаменитости, но и обычные люди».

Поэтому важно развивать и совершенствовать методы обнаружения дипфейков, которые будут надежными и масштабируемыми для широкой публики. Исследователи надеются, что их работа способствует восстановлению доверия к аудиоконтенту в интернете и снижению рисков, связанных с развитием технологий. Они также планируют продолжать свои исследования в этой области и сотрудничать с другими учеными в поиске лучших решений.

3 комментария

Добавить комментарий

Viktormayz
Актуальность таких проблем только растет))
Ruby_Rougarou
Причем с каждым днём всё больше. Мной уже давно были проинструктированы все знакомые/родственники, особенно старики о наличии у мошенников таких технологий, и о том, что если мой голос просит перевести деньги, то это не я прошу
a
И поэтому с мошенниками нельзя долго разговаривать: чем больше скажешь — тем лучше они подделают голос. И еще не надо говорить слова вроде «да», «нет», которые потом используются в прохождении разного сорта «электронных ассистентов» банков/компаний.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Почему шерсть мериноса так ценится? Греет, не колется и не пахнет — научный взгляд на природные технологии

Несмотря на появление высокотехнологичных синтетических материалов, натуральная шерсть мериноса остается одним из самых востребованных видов сырья в производстве функциональной одежды. Ее...

Могла ли Земля случайно занести жизнь на спутник Юпитера? Как миллионы наших бактерий ежесекундно падают на Европу

Поиски внеземной жизни сосредоточены на ледяных спутниках планет-гигантов. Европа, один из крупнейших спутников Юпитера, обладает глобальным океаном жидкой воды, который расположен под...

Поджарит с корочкой: обзор аэрогриля Dreame Tasti PT60 с двумя чашами в комплекте

Люблю готовить с аппетитной корочкой, но не люблю тратить на это время. В этом меня выручает аэрогриль Tasti PT60 от Dreame. Его особенность — сразу две стеклянные чаши в комплекте и...

FiiO JadeAudio Level 1 — компактно, функционально и мощно — обзор 600-ваттного усилителя для акустики

Насколько я знаю, до Level 1 у компании FiiO еще не было усилителей для акустики. У них есть несколько серьезных настольных усилителей для наушников и активная акустика, а вот усилителей для...

Как мальтийцы полвека получают прибыль от декораций к провальному фильму

Далеко не каждый фильм становится культовым. Как показывает практика, часто деньги вливаются в ленту, которой не суждено даже окупиться. И на позорном кассовом провале такие фильмы заканчиваются,...

Можно ли снести дом на своем участке и построить новый

Многие владельцы домов сталкиваются с ситуацией, когда старое жилье приходит в негодность или перестает соответствовать потребностям семьи. Но можно ли полностью снести существующий дом на...