Как отличить видео, созданное нейросетью, от реального

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Статья | ИИ, сервисы и приложения

В эпоху быстрого развития технологий видео, сгенерированные искусственным интеллектом, стали неотъемлемой частью интернета и в последнее время они стали почти неотличимы от настоящих. Такие ролики часто выглядят очень убедительно, но содержат скрытые дефекты, которые помогают их выявить. Искусственный интеллект обучается на огромных массивах данных, копируя статистические закономерности, однако он пока не идеально воспроизводит нюансы реальной жизни. Это приводит к ошибкам в движениях, освещении и деталях, которые заметны при внимательном рассмотрении.

Автор: freepik Источник: ru.freepik.com

Один из главных индикаторов — неестественные движения. Люди и животные часто перемещаются слишком легко, без учета массы тела или инерции. Предметы могут подпрыгивать нелогично, а капли воды летать по странным траекториям, игнорируя законы гравитации. В подобных роликах такие аномалии проявляются в дерганых жестах или чрезмерной плавности, которая не соответствует естественному ритму. Физика в таких видео нарушается, потому что ИИ фокусируется на визуальной последовательности кадров, но не всегда учитывает реальные взаимодействия объектов.

Другой заметный признак касается лица и глаз. Реальные люди моргают спонтанно каждые 2-10 секунд. В ИИ-видео моргание часто отсутствует. Глаза могут двигаться неестественно, взгляд выглядеть «стеклянным», а мимика оставаться слишком симметричной, без случайных асимметрий, характерных для живых лиц. Это происходит из-за того, что нейросети генерируют черты на основе средних статистических данных, упуская индивидуальные вариации. Лица в подделках часто слишком гладкие, без пор, морщин или текстуры. Волосы могут двигаться нереалистично, а макияж — выглядеть как на обложке журнала даже в хаотичной сцене. Это особенно заметно в динамичных роликах, где реальные люди должны потеть, краснеть или менять выражение лиц.

Автор: freepik Источник: ru.freepik.com

Руки и пальцы тоже выдают подделку. В сгенерированных роликах пальцы иногда переплетаются, срастаются, деформируются, исчезают или кажутся «резиновыми», без правильных суставов. Пропорции тела могут искажаться: руки выглядят слишком длинными или короткими. Жесты жесткие, без естественной гибкости, зачастую повторяющиеся и не соответствующие словам. Тело в целом двигается не так, как в жизни: движения бывают рваными, без плавных переходов. Если ролик показывает сложные действия, вроде танца, ошибки становятся заметнее. Хотя современные модели улучшили анатомию, такие дефекты все еще встречаются.

Фон и мелкие детали часто страдают от размытости. В ИИ-видео задний план бывает сглаженным, с пятнами или бликами, которые не соответствуют основной картинке. Объекты могут внезапно появляться или пропадать между кадрами, а текстуры материалов — казаться искаженными, как в старых видео с низким разрешением. Если в видео есть текст, он может искажаться или расплываться при смене кадров, может быть написан с ошибками. Это связано с тем, как ИИ обрабатывает сцены: он строит кадры поэтапно, но не всегда сохраняет последовательность.

Автор: freepik Источник: ru.freepik.com

Освещение и тени служат еще одним маркером. В реальных видео свет падает последовательно, создавая логичные блики и тени. В сгенерированных роликах тени могут направляться в разные стороны, имитируя «два солнца», или неправильно взаимодействовать с объектами. Например, снег в ИИ-видео может не оставлять следов на поверхностях или не обтекать фигуры людей, а просто накладываться как текстура без рельефа. Такие несоответствия возникают, потому что ИИ не полностью моделирует физические свойства света и материалов.

Аудио в таких видео тоже содержит подсказки. Голоса звучат без естественных пауз, заиканий или колебаний интонации. Предложения бывают рублеными, а фон — с неожиданными шумами, не подходящими к сцене. Синхронизация губ и звука часто нарушается. Движения рта не совпадают с произносимыми словами, создавая эффект «чужой» речи. Иногда голос кажется синтетическим, с металлическим оттенком.

Автор: stockking Источник: ru.freepik.com

Для более точной проверки существуют специальные детекторы. Инструменты вроде Deepware.ai или Undetectable.ai анализируют видео на наличие артефактов, таких как необычные распределения пикселей, несоответствия в кадрах и других паттернов, которые не видны глазу. Эти сервисы достигают точности до 93,7%.

По результатам опроса более 1000 человек, проведённого компанией HarrisX и опубликованного на сайте журнала Variety, пять из восьми участников не смогли правильно идентифицировать ИИ-видео, что подчеркивает сложность задачи.

В целом, отличить видео, созданное искусственным интеллектом, от реального становится сложнее с каждым годом. Технологии улучшаются, но ошибки в деталях всё же остаются. По мере эволюции технологий эти признаки могут изменяться, но пока они остаются надежными ориентирами и внимание к деталям снижает риск обмана. Комбинация критического визуального анализа изображения, звука и использования инструментов пока ещё позволяет отличить ИИ-контент от реального. В будущем, возможно, появятся стандарты маркировки подобного контента, но пока что внимательность — лучший инструмент.

Изображение в превью:
Автор: freepik
Источник: ru.freepik.com
Автор не входит в состав редакции iXBT.com (подробнее »)

3 комментария

p
это всё касается первых генеративных моделей, современные модели генерируют видео почти неотличимое от настоящего.
b
Статья от ИИ о том, как отличить видео от ИИ от такого же, но не от ИИ :D
C
На экранчике телефона, где скорее всего будет просматриваться видео, все эти дипфейки практически невыявляемы. К тому до сих пор мало кто знает, что ни фото, ни видео уже давно не являются доказательством чего-либо. Качество генерёжки постоянно растёт, так что выявлять приходится уже по косвенным признакам, например, часто пересылаемый ролик с большой вероятностью является ИИшным. По-моему, пользы от генерации картинок и видео ноль, скорее даже вред, они очень часто используются для мошенничества и политических манипуляций. Одно из немногих практических применений — реклама, но и это по сути является генерированием визуального мусора :)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Властелины кремния: как британская фирма без заводов захватила 99% смартфонов мира (и держит в заложниках Apple)

У этой компании нет конвейеров, складов и готовых товаров. Она продает только PDF-файлы с чертежами. Но если завтра она исчезнет, ваш iPhone превратится в кирпич, а сервера Amazon остановятся.

Украденное будущее: как Стив Джобс пустил «лису в курятник» и начал главную техно-войну века

Дружба Apple и Google казалась идеальной, пока не появился Android. История о том, как Эрик Шмидт сидел в совете директоров Джобса, записывал идеи iPhone в блокнот и готовил удар в спину.

Монструозный защищенник с топовым звуком и кемпинговым фонарем: обзор планшета Oukitel RT10 + видеообзор

Сегодня посмотрим на действительно монструозный защищенный планшет с топовым звуком — Oukitel RT10. Это тот самый случай, когда устройство с первых секунд даёт понять, что перед нами не...

Gümüş Alabalık Tesisi: форель «с воды на тарелку» — стоит ли ехать в Гюмюшлер ради неё

Форелевая ферма Gümüş Alabalık Tesisi в Гюмюшлере — муниципальное хозяйство по выращиванию форели с небольшой точкой питания на территории. Рыбу здесь разводят на месте и готовят сразу...

Портативная Bluetooth-колонка для вечеринок. Обзор Молния «Тренд»

Беспроводная колонка среднего размера - самое то, чтобы устроить вечеринку где угодно. У неё уже есть ощутимый бас и громкость, но при этом она всё еще достаточно компактная, чтобы её...

Обзор пуско-зарядного устройства Kromix Restarter для автомобиля: встроенный компрессор, фонарь и повербанк

Зима еще в самом разгаре и не сдает позиции. Продолжительные заморозки могут негативно воздействовать на аккумулятор и можно столкнуться с проблемой запуска автомобиля. Чтобы избежать подобных...