Могут ли нейросети сгенерировать по-настоящему реалистичную картинку?

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Нейросетевые изображения заполонили интернет. В мире где даже КокаКола делает нейрорекламу, многие пользователи не готовы мириться с нейросетевым мусором и считают, что нейронная картинка по умолчанию равняется мусору. Насколько релевантно подобное утверждение на самом деле? Могут ли нейросети создать картинку «с душой»? Разберёмся в данной статье.


Если бы у нейросети был мозг, она не была бы нейросетью
Автор: Grolribasi Источник: creator.nightcafe.studio

Какие бывают нейросети?

Сложно разобраться в нейросетях, если вы ими не увлекаетесь, поэтому необходимо дать небольшую вводную информацию. Ещё сравнительно недавно все нейронные сети генерировали плохо, но с каждым годом появляются всё более совершенные модели, которые не отличить от фотографий.

  1. Базовые модели: простые бесплатные нейронки вроде тех, что можно встретить в любой подборке «лучших бесплатных моделей для генерации картинок». Сюда можно отнести, например, YandexART, Kandinsky, Шедеврум и другие менее известные. Кроме того сюда можно отнести старые модели вроде Stable Diffusion 2 или SDXL. Эти нейросети могут сгенерировать хорошие картинки или даже шедевры, но вам, скорее всего, понадобится множество генераций. Кроме того базовые модели плохо работают с текстом.
  2. Продвинутые модели: могут быть платными или бесплатными. Сюда можно отнести таких мастодонтов как Midjourney, DALL-E, Imagen и более независимые вроде Ideogram, Flux, Stable Diffusion 3 и прочие. Эти модели генерируют изображения с высокой точностью, хорошо понимают текстовые подсказки, как правило, хорошо работают с руками и освещением, могут справляться с текстом (но не русским).

И здесь важно отличать модель и сервис. Очень часто разные сервисы (сайты) могут предлагать генерировать картинки с одной и той же моделью и могут даже ограничивать доступ платной подпиской. При этом сама модель может быть доступна бесплатно для скачивания и разворачивания на собственной инфраструктуре.

Вопросы к нейросетям

Многие пользователи интернета выдвигают ряд претензий к нейросетям, например, избыточная экспозиция, гипердетализация или, наоборот, отсутствие оной. Картинки от нейросетей могут казаться однообразными, изобиловать самым разными физиологическими увечьями и техническими ошибками. Самые яркие примеры — это лишние или недостающие пальцы, лишние колёса на автомобилях, транспорт, парящий в воздухе и другие «весёлые» детали.

Очень часто авторство нейросети можно определить по стилю картинки. Даже продвинутые модели вроде DALL-E и «младшенькие» из семейства FLux грешат изобилием «ретуши».

На примере выше пять генераций в разных моделях: Flux Schnell, Imagen 3 Fast, DALL-E 3, YandexART, Kandinsky. На всех трёх использован одинаковый простой промпт «A cat celebrating happy birthday wearing a party hat and eating a cake». Обратите внимание на то, как смазаны детали шерсти на 1, 3 и 5 картинках, а вот Imagen и YandexART смогли создаить довольно реалистичную картинку, которую сложно отличить от реального фото или «фотожабы». Шерсть, освещение и кошачья морда получились очень хорошо.

Выше ещё одно сравнение реалистичности. Для всех генераций использовался неизменный промпт:

(happy summer dress girl dancing on longboard deck), hot sunny beach day, natural lighting, focus on feet, hot sunny California weather, beach background with palm trees, high resolution, ultra-detailed, cars parked on the beach


Grolribasi

Первая генерация от Dreamshaper XL Lightning на самом деле финальный результат цепочки генераций с использованием разных инструментов от починки лиц и переноса позиции до апскейлера. Получилось реалистично, если не обращать внимания на стопы, странные объекты и разметку на дороге. При беглом взгляде, если бы мне прислали картинку в каком-нибудь мессенджере, я бы не заподозрил подвоха.

YandexART и Kandinsky с более сложным промптом справились плохо. Яндекс не понял, что такое Longboard (разновидность скейта, только больше и длиннее), Kandinsky понял, но сотворил с девушкой нечто ужасное.

Imagen 3 Fast неплохо передал запрос, но тени, доска и девушка как будто бы не связаны между собой. Лицо плохо прорисовано, пальцы на левой руке превратились в кашу и вообще кто босыми ногами встаёт на доску. В общем, проблем достаточно, чтобы определить подделку.

Flux Schnell неплохо справилась с деталями, но преувеличила размеры доски. И это ещё мягко сказано.

А вот что генерация от Imagen 2 почти бесподобна за исключением левой руки и неправильной доски. Лонгборд отличается от скейта размерами и формой. Но если бы я не знал, что должно быть изображено и не вглядывался, я бы точно не отличил от реального фото. Достойная работа, нейросеть!


А далее вы увидите несколько фотографий из фотоальбома типичного бати, а вы скажите, какая из фотографий реальна, какая — нейросетевая:

Знатоки рыбалки заподозрят неладное по чешуе вымышленных нейросетью рыб, смазанных рыб на генерациях от Flux, кажущуюся слишком лёгкий щуку и т. д. Можно заметить много маленьких и не очень огрех, но чем больше помех на фото, тем реалистичнее оно кажется. Недостаточная экспозиция от Imagen радует глаз и очень сильно добавляет аутентичности генерации. Фотографии из семейного архива примерно так и выглядят.

Но дьявол, как известно в деталях. Нейросети обычно генерируют чрезвычайно красивых людей. Представленная выше девушка на скейте от Ideogram — тому подтверждение. Безусловно, в мире хватает идеальных людей с чистой кожей, идеальными зубами, симметричным лицом и всеми другими атрибутами красивого человека. Но истинная красота другая, она в маленьких недостатках, мимических морщинках. И вообще, у 70% людей искривление носовой перегородки. Способны ли нейросети передать настоящую красоту?

Первая и вторая генерации выглядят великолепно. Кажется, будто парень готов пойти и дать в лицо томцу, кто написал ему что-то оскорбительное. Девушка от Flux Schnell смотрит в неведомый науке девайс (скажем, что это ручное зеркальце) и есть некоторый избыток ретуши, чёткость объектов хочется видеть повыше, но факт в том, что девушка вполне реалистичная, она похожа на типичную соседку из кафе на первом этаже, в которую влюблён вон тот парень за соседним столиком.

Девушка от Flux Pro — шедевр. Порой люди жалуются на неестественное размытие всего, кроме лица. Отчасти это правда, телефон в руках размыт, задний план размыт, но современные смартфоны делают именно такие кадры. Постобработка от ИИ уже не редкость. Слегка красные области на лице могут свидетельствовать о смущении или недосыпе. Но самое главное — искривление носовой перегородки! Вот оно, то самое, что делает человека немного несовершенным, но по-своему красивым и уникальным и нейросеть это передала. И пусть потребовалось несколько генераций и изменений промпта, чтобы получить такой результат, но это достойный результат. Настоящее фото от нейросети с душой.

Последняя картинка, от Imagen, тоже реалистичная, но есть подозрение, что немного слишком. Возникает ощущение будто на фото девушка 25 лет от роду с прогерией.

Итог

Нейросети действительно могут создать реалистичные изображения. Даже при создании без дополнительных настроек, просто через онлайн-сервис картинки выглядят настоящими. Если постараться и обучить нейросеть самостоятельно, создать LoRA на основе реальных людей, использовать продвинутые модели, подобрать параметры и количество шагов, картинка на выходе получится ещё лучше.

Что касается «нейросетевого мусора», то тут всё просто: не все авторы хотят заниматься вышеописанным, используют первые попавшиеся бесплатные модели и не утруждают себя подбором промпта. Является ли это неуважением к читателю? Решает только сам читатель.

Изображение в превью:
Автор: Grolribasi
Источник: creator.nightcafe.studio

Читайте также

Новости

Публикации