Могут ли нейросети сгенерировать по-настоящему реалистичную картинку?
Нейросетевые изображения заполонили интернет. В мире где даже КокаКола делает нейрорекламу, многие пользователи не готовы мириться с нейросетевым мусором и считают, что нейронная картинка по умолчанию равняется мусору. Насколько релевантно подобное утверждение на самом деле? Могут ли нейросети создать картинку «с душой»? Разберёмся в данной статье.
Какие бывают нейросети?
Сложно разобраться в нейросетях, если вы ими не увлекаетесь, поэтому необходимо дать небольшую вводную информацию. Ещё сравнительно недавно все нейронные сети генерировали плохо, но с каждым годом появляются всё более совершенные модели, которые не отличить от фотографий.
- Базовые модели: простые бесплатные нейронки вроде тех, что можно встретить в любой подборке «лучших бесплатных моделей для генерации картинок». Сюда можно отнести, например, YandexART, Kandinsky, Шедеврум и другие менее известные. Кроме того сюда можно отнести старые модели вроде Stable Diffusion 2 или SDXL. Эти нейросети могут сгенерировать хорошие картинки или даже шедевры, но вам, скорее всего, понадобится множество генераций. Кроме того базовые модели плохо работают с текстом.
- Продвинутые модели: могут быть платными или бесплатными. Сюда можно отнести таких мастодонтов как Midjourney, DALL-E, Imagen и более независимые вроде Ideogram, Flux, Stable Diffusion 3 и прочие. Эти модели генерируют изображения с высокой точностью, хорошо понимают текстовые подсказки, как правило, хорошо работают с руками и освещением, могут справляться с текстом (но не русским).
И здесь важно отличать модель и сервис. Очень часто разные сервисы (сайты) могут предлагать генерировать картинки с одной и той же моделью и могут даже ограничивать доступ платной подпиской. При этом сама модель может быть доступна бесплатно для скачивания и разворачивания на собственной инфраструктуре.
Вопросы к нейросетям
Многие пользователи интернета выдвигают ряд претензий к нейросетям, например, избыточная экспозиция, гипердетализация или, наоборот, отсутствие оной. Картинки от нейросетей могут казаться однообразными, изобиловать самым разными физиологическими увечьями и техническими ошибками. Самые яркие примеры — это лишние или недостающие пальцы, лишние колёса на автомобилях, транспорт, парящий в воздухе и другие «весёлые» детали.
Очень часто авторство нейросети можно определить по стилю картинки. Даже продвинутые модели вроде DALL-E и «младшенькие» из семейства FLux грешат изобилием «ретуши».
На примере выше пять генераций в разных моделях: Flux Schnell, Imagen 3 Fast, DALL-E 3, YandexART, Kandinsky. На всех трёх использован одинаковый простой промпт «A cat celebrating happy birthday wearing a party hat and eating a cake». Обратите внимание на то, как смазаны детали шерсти на 1, 3 и 5 картинках, а вот Imagen и YandexART смогли создаить довольно реалистичную картинку, которую сложно отличить от реального фото или «фотожабы». Шерсть, освещение и кошачья морда получились очень хорошо.
Выше ещё одно сравнение реалистичности. Для всех генераций использовался неизменный промпт:
(happy summer dress girl dancing on longboard deck), hot sunny beach day, natural lighting, focus on feet, hot sunny California weather, beach background with palm trees, high resolution, ultra-detailed, cars parked on the beach
Grolribasi
Первая генерация от Dreamshaper XL Lightning на самом деле финальный результат цепочки генераций с использованием разных инструментов от починки лиц и переноса позиции до апскейлера. Получилось реалистично, если не обращать внимания на стопы, странные объекты и разметку на дороге. При беглом взгляде, если бы мне прислали картинку в каком-нибудь мессенджере, я бы не заподозрил подвоха.
YandexART и Kandinsky с более сложным промптом справились плохо. Яндекс не понял, что такое Longboard (разновидность скейта, только больше и длиннее), Kandinsky понял, но сотворил с девушкой нечто ужасное.
Imagen 3 Fast неплохо передал запрос, но тени, доска и девушка как будто бы не связаны между собой. Лицо плохо прорисовано, пальцы на левой руке превратились в кашу и вообще кто босыми ногами встаёт на доску. В общем, проблем достаточно, чтобы определить подделку.
Flux Schnell неплохо справилась с деталями, но преувеличила размеры доски. И это ещё мягко сказано.
А вот что генерация от Imagen 2 почти бесподобна за исключением левой руки и неправильной доски. Лонгборд отличается от скейта размерами и формой. Но если бы я не знал, что должно быть изображено и не вглядывался, я бы точно не отличил от реального фото. Достойная работа, нейросеть!
А далее вы увидите несколько фотографий из фотоальбома типичного бати, а вы скажите, какая из фотографий реальна, какая — нейросетевая:
Знатоки рыбалки заподозрят неладное по чешуе вымышленных нейросетью рыб, смазанных рыб на генерациях от Flux, кажущуюся слишком лёгкий щуку
Но дьявол, как известно в деталях. Нейросети обычно генерируют чрезвычайно красивых людей. Представленная выше девушка на скейте от Ideogram — тому подтверждение. Безусловно, в мире хватает идеальных людей с чистой кожей, идеальными зубами, симметричным лицом и всеми другими атрибутами красивого человека. Но истинная красота другая, она в маленьких недостатках, мимических морщинках. И вообще, у 70% людей искривление носовой перегородки. Способны ли нейросети передать настоящую красоту?
Первая и вторая генерации выглядят великолепно. Кажется, будто парень готов пойти и дать в лицо томцу, кто написал ему что-то оскорбительное. Девушка от Flux Schnell смотрит в неведомый науке девайс (скажем, что это ручное зеркальце) и есть некоторый избыток ретуши, чёткость объектов хочется видеть повыше, но факт в том, что девушка вполне реалистичная, она похожа на типичную соседку из кафе на первом этаже, в которую влюблён вон тот парень за соседним столиком.
Девушка от Flux Pro — шедевр. Порой люди жалуются на неестественное размытие всего, кроме лица. Отчасти это правда, телефон в руках размыт, задний план размыт, но современные смартфоны делают именно такие кадры. Постобработка от ИИ уже не редкость. Слегка красные области на лице могут свидетельствовать о смущении или недосыпе. Но самое главное — искривление носовой перегородки! Вот оно, то самое, что делает человека немного несовершенным, но по-своему красивым и уникальным и нейросеть это передала. И пусть потребовалось несколько генераций и изменений промпта, чтобы получить такой результат, но это достойный результат. Настоящее фото от нейросети с душой.
Последняя картинка, от Imagen, тоже реалистичная, но есть подозрение, что немного слишком. Возникает ощущение будто на фото девушка 25 лет от роду с прогерией.
Итог
Нейросети действительно могут создать реалистичные изображения. Даже при создании без дополнительных настроек, просто через онлайн-сервис картинки выглядят настоящими. Если постараться и обучить нейросеть самостоятельно, создать LoRA на основе реальных людей, использовать продвинутые модели, подобрать параметры и количество шагов, картинка на выходе получится ещё лучше.
Что касается «нейросетевого мусора», то тут всё просто: не все авторы хотят заниматься вышеописанным, используют первые попавшиеся бесплатные модели и не утруждают себя подбором промпта. Является ли это неуважением к читателю? Решает только сам читатель.
Изображение в превью:
Автор: Grolribasi
Источник: creator.nightcafe.studio