Как не попасться на дипфейки: научные методы распознавания голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Оффтопик

В наше время интернет полон ложной и искаженной информацией, которая может вводить в заблуждение и манипулировать общественным мнением. Особенно опасны так называемые дипфейки — подделки аудио и видео, созданные с помощью искусственного интеллекта (AI). Дипфейки могут имитировать голос и облик любого человека, будь то политик, знаменитость или ваш близкий родственник. Такие подделки могут использоваться для шантажа, мошенничества, дезинформации или просто для развлечения.

Угроза дипфейка — не фейк
Автор: Designer

Но как отличить реальный голос от клонированного? Есть ли способы, которые помогут нам не попасться на уловки дипфейков? На эти вопросы пытаются ответить исследователи из Школы информации при Калифорнийском университете в Беркли. Сара Баррингтон, Ромит Баруа и Гаутам Курма (все MIMS '23) представили свою работу по обнаружению клонированного голоса на нескольких научных конференциях, включая Нобелевский саммит и конференцию IEEE WIFS (Workshop in Information Forensics and Security) в Нюрнберге, Германия.

Исследователи работали под руководством профессора Хани Фарида, эксперта в области цифровой криминалистики и борьбы с дипфейками. Профессор Фарид признал, что он был удивлен скоростью и качеством развития технологии клонирования голоса, которая стала «потрясающе хорошей» за несколько месяцев. По его словам, команда сделала важный вклад в разработку методов обнаружения новой угрозы дипфейков аудио.

Пример реальных звуковых сигналов (вверху) и «синтетических» звуковых сигналов (внизу) во времени (каждая нормализована по диапазону амплитуд). [−1, 1]) для одной и той же фразы. Обратите внимание на разницу в продолжительности пауз и разницу в общей амплитуде и амплитудной модуляции с течением времени
Автор: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid; arxiv(2023); DOI: 10.48550/arxiv.2307.07683 Источник: arxiv.org

Команда применила три разных подхода для анализа аудиопроб реальных и поддельных голосов. Первый подход заключался в изучении воспринимаемых особенностей или паттернов, которые можно визуально (или на слух) идентифицировать. Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. Этот метод легко понять, но может давать менее точные результаты.

Второй подход заключался в использовании спектрального анализа с помощью специальной программы, которая извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д. Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. Этот метод дает более точные результаты, но требует больше вычислительных ресурсов.

Третий подход основан на использовании модели глубокого обучения, которая принимает на вход сырое аудио и обрабатывает его, извлекая многомерные представления, называемые вложениями. Эти вложения используются для различения реального и «синтетического» аудио. Этот метод показал самые высокие показатели точности и даже достигал нулевой ошибки в лабораторных условиях. Однако этот метод сложнее понять и объяснить, так как он основан на сложных математических операциях.

Исследователи считают, что их работа может помочь защитить общественность от злоупотребления технологией клонирования голоса, которая хоть и может быть полезным инструментом для творчества, но в руках злоумышленников способна принести несоизмеримо больший вред. «Клонирование голоса — это один из первых случаев, когда мы сталкиваемся с дипфейками, имеющими реальную угрозу, будь то обход биометрической верификации банка или звонок родственнику с просьбой о деньгах», — сказала Баррингтон. «Теперь под угрозой не только мировые лидеры и знаменитости, но и обычные люди».

Поэтому важно развивать и совершенствовать методы обнаружения дипфейков, которые будут надежными и масштабируемыми для широкой публики. Исследователи надеются, что их работа способствует восстановлению доверия к аудиоконтенту в интернете и снижению рисков, связанных с развитием технологий. Они также планируют продолжать свои исследования в этой области и сотрудничать с другими учеными в поиске лучших решений.

3 комментария

Добавить комментарий

Viktormayz
Актуальность таких проблем только растет))
Ruby_Rougarou
Причем с каждым днём всё больше. Мной уже давно были проинструктированы все знакомые/родственники, особенно старики о наличии у мошенников таких технологий, и о том, что если мой голос просит перевести деньги, то это не я прошу
a
И поэтому с мошенниками нельзя долго разговаривать: чем больше скажешь — тем лучше они подделают голос. И еще не надо говорить слова вроде «да», «нет», которые потом используются в прохождении разного сорта «электронных ассистентов» банков/компаний.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Забытые четвероногие: породы собак, исчезнувшие с лица Земли

Мир собаководства постоянно меняется: появляются новые породы, а некоторые старинные исчезают безвозвратно. Причины разные — смена хозяйственных потребностей, технический прогресс,...

Дни на Земле становятся длиннее: как стекшая с полюсов вода изменила форму и скорость планеты

Циферблаты наших устройств отсчитывают ровно 86 400 секунд каждый день. Поэтому часто кажется, что вращение Земли — такой же безупречно точный механизм. В реальности наша планета...

Пульт ДУ: история от «ленивой кости» до Bluetooth-канала

Сегодня мы воспринимаем возможность переключить трек или прибавить громкость, не вставая с дивана, как нечто естественное. Однако первые телевизоры требовали от пользователя дополнительных...

Возврат к «каплям» и MicroSD: как испортились смартфоны в 2026 году из-за кризиса памяти, и что будет дальше

Из-за ИИ-пузыря во всём мире начался кризис чипов памяти, который привёл к удорожанию электроники. Чем приходится (и придётся) жертвовать производителям ради того, чтобы цены не взлетели до потолка?

Взмах крыла, вызывающий торнадо: почему Теория Хаоса — самое пугающее и прекрасное открытие науки

Мы живем в мире, который отчаянно пытается всё контролировать. Мы планируем свой день по минутам, смотрим прогноз погоды на неделю вперед, строим финансовые модели на десятилетия и верим, что если...

Гайд по путешествию в Китай: местные приложения, которые нужно установить, чтобы не чувствовать себя как на другой планете

Путешественники, которые впервые направляются в Китай, часто сталкиваются с ощущением, будто попали на другую планету: всё работает иначе, темп жизни другой, а привычные способы общения и оплаты...