Могут ли нейросети сгенерировать по-настоящему реалистичную картинку?

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

30 июня 2025, 12:19

Нейросетевые изображения заполонили интернет. В мире где даже КокаКола делает нейрорекламу, многие пользователи не готовы мириться с нейросетевым мусором и считают, что нейронная картинка по умолчанию равняется мусору. Насколько релевантно подобное утверждение на самом деле? Могут ли нейросети создать картинку «с душой»? Разберёмся в данной статье.

Если бы у нейросети был мозг, она не была бы нейросетью

Автор: Grolribasi Источник: creator.nightcafe.studio

Какие бывают нейросети?

Сложно разобраться в нейросетях, если вы ими не увлекаетесь, поэтому необходимо дать небольшую вводную информацию. Ещё сравнительно недавно все нейронные сети генерировали плохо, но с каждым годом появляются всё более совершенные модели, которые не отличить от фотографий.

Базовые модели: простые бесплатные нейронки вроде тех, что можно встретить в любой подборке «лучших бесплатных моделей для генерации картинок». Сюда можно отнести, например, YandexART, Kandinsky, Шедеврум и другие менее известные. Кроме того сюда можно отнести старые модели вроде Stable Diffusion 2 или SDXL. Эти нейросети могут сгенерировать хорошие картинки или даже шедевры, но вам, скорее всего, понадобится множество генераций. Кроме того базовые модели плохо работают с текстом.
Продвинутые модели: могут быть платными или бесплатными. Сюда можно отнести таких мастодонтов как Midjourney, DALL-E, Imagen и более независимые вроде Ideogram, Flux, Stable Diffusion 3 и прочие. Эти модели генерируют изображения с высокой точностью, хорошо понимают текстовые подсказки, как правило, хорошо работают с руками и освещением, могут справляться с текстом (но не русским).

И здесь важно отличать модель и сервис. Очень часто разные сервисы (сайты) могут предлагать генерировать картинки с одной и той же моделью и могут даже ограничивать доступ платной подпиской. При этом сама модель может быть доступна бесплатно для скачивания и разворачивания на собственной инфраструктуре.

Вопросы к нейросетям

Многие пользователи интернета выдвигают ряд претензий к нейросетям, например, избыточная экспозиция, гипердетализация или, наоборот, отсутствие оной. Картинки от нейросетей могут казаться однообразными, изобиловать самым разными физиологическими увечьями и техническими ошибками. Самые яркие примеры — это лишние или недостающие пальцы, лишние колёса на автомобилях, транспорт, парящий в воздухе и другие «весёлые» детали.

Очень часто авторство нейросети можно определить по стилю картинки. Даже продвинутые модели вроде DALL-E и «младшенькие» из семейства FLux грешат изобилием «ретуши».

Flux Schnell

Автор: Grolribasi Источник: creator.nightcafe.studio

Imagen 3 Fast

Автор: Grolribasi Источник: creator.nightcafe.studio

DALL-E 3

Автор: Grolribasi

YandexART

Автор: Grolribasi Источник: ya.ru

Kandinsky

Автор: Grolribasi Источник: fusionbrain.ai

На примере выше пять генераций в разных моделях: Flux Schnell, Imagen 3 Fast, DALL-E 3, YandexART, Kandinsky. На всех трёх использован одинаковый простой промпт «A cat celebrating happy birthday wearing a party hat and eating a cake». Обратите внимание на то, как смазаны детали шерсти на 1, 3 и 5 картинках, а вот Imagen и YandexART смогли создаить довольно реалистичную картинку, которую сложно отличить от реального фото или «фотожабы». Шерсть, освещение и кошачья морда получились очень хорошо.

Dreamshaper XL Lightning

Автор: Grolribasi Источник: creator.nightcafe.studio

YandexART

Автор: Grolribasi

Kandinsky

Автор: Grolribasi

Imagen 3 Fast

Автор: Grolribasi Источник: creator.nightcafe.studio

Flux Schnell

Автор: Grolribasi Источник: creator.nightcafe.studio

Ideogram 2.0

Автор: Grolribasi Источник: creator.nightcafe.studio

Выше ещё одно сравнение реалистичности. Для всех генераций использовался неизменный промпт:

(happy summer dress girl dancing on longboard deck), hot sunny beach day, natural lighting, focus on feet, hot sunny California weather, beach background with palm trees, high resolution, ultra-detailed, cars parked on the beach

Grolribasi

Первая генерация от Dreamshaper XL Lightning на самом деле финальный результат цепочки генераций с использованием разных инструментов от починки лиц и переноса позиции до апскейлера. Получилось реалистично, если не обращать внимания на стопы, странные объекты и разметку на дороге. При беглом взгляде, если бы мне прислали картинку в каком-нибудь мессенджере, я бы не заподозрил подвоха.

YandexART и Kandinsky с более сложным промптом справились плохо. Яндекс не понял, что такое Longboard (разновидность скейта, только больше и длиннее), Kandinsky понял, но сотворил с девушкой нечто ужасное.

Imagen 3 Fast неплохо передал запрос, но тени, доска и девушка как будто бы не связаны между собой. Лицо плохо прорисовано, пальцы на левой руке превратились в кашу и вообще кто босыми ногами встаёт на доску. В общем, проблем достаточно, чтобы определить подделку.

Flux Schnell неплохо справилась с деталями, но преувеличила размеры доски. И это ещё мягко сказано.

А вот что генерация от Imagen 2 почти бесподобна за исключением левой руки и неправильной доски. Лонгборд отличается от скейта размерами и формой. Но если бы я не знал, что должно быть изображено и не вглядывался, я бы точно не отличил от реального фото. Достойная работа, нейросеть!

А далее вы увидите несколько фотографий из фотоальбома типичного бати, а вы скажите, какая из фотографий реальна, какая — нейросетевая:

Recracft 3