Как не попасться на дипфейки: научные методы распознавания голоса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Оффтопик

В наше время интернет полон ложной и искаженной информацией, которая может вводить в заблуждение и манипулировать общественным мнением. Особенно опасны так называемые дипфейки — подделки аудио и видео, созданные с помощью искусственного интеллекта (AI). Дипфейки могут имитировать голос и облик любого человека, будь то политик, знаменитость или ваш близкий родственник. Такие подделки могут использоваться для шантажа, мошенничества, дезинформации или просто для развлечения.

Угроза дипфейка — не фейк
Автор: Designer

Но как отличить реальный голос от клонированного? Есть ли способы, которые помогут нам не попасться на уловки дипфейков? На эти вопросы пытаются ответить исследователи из Школы информации при Калифорнийском университете в Беркли. Сара Баррингтон, Ромит Баруа и Гаутам Курма (все MIMS '23) представили свою работу по обнаружению клонированного голоса на нескольких научных конференциях, включая Нобелевский саммит и конференцию IEEE WIFS (Workshop in Information Forensics and Security) в Нюрнберге, Германия.

Исследователи работали под руководством профессора Хани Фарида, эксперта в области цифровой криминалистики и борьбы с дипфейками. Профессор Фарид признал, что он был удивлен скоростью и качеством развития технологии клонирования голоса, которая стала «потрясающе хорошей» за несколько месяцев. По его словам, команда сделала важный вклад в разработку методов обнаружения новой угрозы дипфейков аудио.

Пример реальных звуковых сигналов (вверху) и «синтетических» звуковых сигналов (внизу) во времени (каждая нормализована по диапазону амплитуд). [−1, 1]) для одной и той же фразы. Обратите внимание на разницу в продолжительности пауз и разницу в общей амплитуде и амплитудной модуляции с течением времени
Автор: Sarah Barrington, Romit Barua, Gautham Koorma, Hany Farid; arxiv(2023); DOI: 10.48550/arxiv.2307.07683 Источник: arxiv.org

Команда применила три разных подхода для анализа аудиопроб реальных и поддельных голосов. Первый подход заключался в изучении воспринимаемых особенностей или паттернов, которые можно визуально (или на слух) идентифицировать. Например, реальные человеческие голоса часто имеют больше пауз и различаются по громкости на протяжении всего клипа, в то время как клонированные голоса более ровные и однообразные. Этот метод легко понять, но может давать менее точные результаты.

Второй подход заключался в использовании спектрального анализа с помощью специальной программы, которая извлекает более 6 000 характеристик из аудиоволн, таких как среднее, стандартное отклонение, коэффициенты регрессии и т. д. Затем программа выбирает 20 самых важных характеристик и сравнивает их с другими аудиоклипами. Этот метод дает более точные результаты, но требует больше вычислительных ресурсов.

Третий подход основан на использовании модели глубокого обучения, которая принимает на вход сырое аудио и обрабатывает его, извлекая многомерные представления, называемые вложениями. Эти вложения используются для различения реального и «синтетического» аудио. Этот метод показал самые высокие показатели точности и даже достигал нулевой ошибки в лабораторных условиях. Однако этот метод сложнее понять и объяснить, так как он основан на сложных математических операциях.

Исследователи считают, что их работа может помочь защитить общественность от злоупотребления технологией клонирования голоса, которая хоть и может быть полезным инструментом для творчества, но в руках злоумышленников способна принести несоизмеримо больший вред. «Клонирование голоса — это один из первых случаев, когда мы сталкиваемся с дипфейками, имеющими реальную угрозу, будь то обход биометрической верификации банка или звонок родственнику с просьбой о деньгах», — сказала Баррингтон. «Теперь под угрозой не только мировые лидеры и знаменитости, но и обычные люди».

Поэтому важно развивать и совершенствовать методы обнаружения дипфейков, которые будут надежными и масштабируемыми для широкой публики. Исследователи надеются, что их работа способствует восстановлению доверия к аудиоконтенту в интернете и снижению рисков, связанных с развитием технологий. Они также планируют продолжать свои исследования в этой области и сотрудничать с другими учеными в поиске лучших решений.

3 комментария

Добавить комментарий

Viktormayz
Актуальность таких проблем только растет))
Ruby_Rougarou
Причем с каждым днём всё больше. Мной уже давно были проинструктированы все знакомые/родственники, особенно старики о наличии у мошенников таких технологий, и о том, что если мой голос просит перевести деньги, то это не я прошу
a
И поэтому с мошенниками нельзя долго разговаривать: чем больше скажешь — тем лучше они подделают голос. И еще не надо говорить слова вроде «да», «нет», которые потом используются в прохождении разного сорта «электронных ассистентов» банков/компаний.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Угольный фильтр в холодильнике: нужен ли он и стоит ли за него платить

Современный холодильник представляет сложную система, где воздух постоянно циркулирует для равномерного охлаждения всех продуктов. При хранении разнообразной еды в камере могут появляться...

Гидропонная ферма своими руками: создаём установку для свежей зелени на подоконнике с 3D‑принтером QIDI Max4

Свежая зелень круглый год: как собрать гидропонную систему с помощью 3D‑печати на примере QIDI Max4. Свежая зелень в доме круглый год — об этом, пожалуй, мечтают многие, и не имеет...

Роботы научились «плавать» в пространстве-времени, используя формулы Эйнштейна

Благодаря научно-фантастическим фильмам мы уже привыкли, что на основе Общей теории относительности Эйнштейна мы когда-то в далёком будущем сможем покорять пространство-время. А сейчас эту теорию...

Обзор комбо-устройства Inspector Mike S Pro – возможности комбо-устройства без лишних ожиданий

Inspector Mike S Pro это комбайн, вобравший в себя функции видеорегистратора, радар-детектора и GPS-информера в одном корпусе. Модель получила рупорную антенну с LNA-усилителем, распознавание...

Мы десятилетиями недооценивали Вселенную: астрономы обнаружили водородный туман, скрывающий настоящие размеры галактик

На протяжении многих десятилетий астрономические наблюдения строились вокруг изучения звезд. Когда исследователи направляли телескопы в космос, они фиксировали свет светящихся объектов и на основе...

Почему наличие великих рек не спасает Индию от дефицита чистой воды

Индия кажется страной, где проблем с водой быть не должно по определению. Ежегодно на её территорию выпадает около 4 000 млрд кубометров осадков. Для масштаба: это примерно одна шестая объёма...