Могут ли нейросети сгенерировать по-настоящему реалистичную картинку?

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

Нейросетевые изображения заполонили интернет. В мире где даже КокаКола делает нейрорекламу, многие пользователи не готовы мириться с нейросетевым мусором и считают, что нейронная картинка по умолчанию равняется мусору. Насколько релевантно подобное утверждение на самом деле? Могут ли нейросети создать картинку «с душой»? Разберёмся в данной статье.

Если бы у нейросети был мозг, она не была бы нейросетью
Автор: Grolribasi Источник: creator.nightcafe.studio

Какие бывают нейросети?

Сложно разобраться в нейросетях, если вы ими не увлекаетесь, поэтому необходимо дать небольшую вводную информацию. Ещё сравнительно недавно все нейронные сети генерировали плохо, но с каждым годом появляются всё более совершенные модели, которые не отличить от фотографий.

  1. Базовые модели: простые бесплатные нейронки вроде тех, что можно встретить в любой подборке «лучших бесплатных моделей для генерации картинок». Сюда можно отнести, например, YandexART, Kandinsky, Шедеврум и другие менее известные. Кроме того сюда можно отнести старые модели вроде Stable Diffusion 2 или SDXL. Эти нейросети могут сгенерировать хорошие картинки или даже шедевры, но вам, скорее всего, понадобится множество генераций. Кроме того базовые модели плохо работают с текстом.
  2. Продвинутые модели: могут быть платными или бесплатными. Сюда можно отнести таких мастодонтов как Midjourney, DALL-E, Imagen и более независимые вроде Ideogram, Flux, Stable Diffusion 3 и прочие. Эти модели генерируют изображения с высокой точностью, хорошо понимают текстовые подсказки, как правило, хорошо работают с руками и освещением, могут справляться с текстом (но не русским).

И здесь важно отличать модель и сервис. Очень часто разные сервисы (сайты) могут предлагать генерировать картинки с одной и той же моделью и могут даже ограничивать доступ платной подпиской. При этом сама модель может быть доступна бесплатно для скачивания и разворачивания на собственной инфраструктуре.

Вопросы к нейросетям

Многие пользователи интернета выдвигают ряд претензий к нейросетям, например, избыточная экспозиция, гипердетализация или, наоборот, отсутствие оной. Картинки от нейросетей могут казаться однообразными, изобиловать самым разными физиологическими увечьями и техническими ошибками. Самые яркие примеры — это лишние или недостающие пальцы, лишние колёса на автомобилях, транспорт, парящий в воздухе и другие «весёлые» детали.

Очень часто авторство нейросети можно определить по стилю картинки. Даже продвинутые модели вроде DALL-E и «младшенькие» из семейства FLux грешат изобилием «ретуши».

На примере выше пять генераций в разных моделях: Flux Schnell, Imagen 3 Fast, DALL-E 3, YandexART, Kandinsky. На всех трёх использован одинаковый простой промпт «A cat celebrating happy birthday wearing a party hat and eating a cake». Обратите внимание на то, как смазаны детали шерсти на 1, 3 и 5 картинках, а вот Imagen и YandexART смогли создаить довольно реалистичную картинку, которую сложно отличить от реального фото или «фотожабы». Шерсть, освещение и кошачья морда получились очень хорошо.

Выше ещё одно сравнение реалистичности. Для всех генераций использовался неизменный промпт:

(happy summer dress girl dancing on longboard deck), hot sunny beach day, natural lighting, focus on feet, hot sunny California weather, beach background with palm trees, high resolution, ultra-detailed, cars parked on the beach

Grolribasi

Первая генерация от Dreamshaper XL Lightning на самом деле финальный результат цепочки генераций с использованием разных инструментов от починки лиц и переноса позиции до апскейлера. Получилось реалистично, если не обращать внимания на стопы, странные объекты и разметку на дороге. При беглом взгляде, если бы мне прислали картинку в каком-нибудь мессенджере, я бы не заподозрил подвоха.

YandexART и Kandinsky с более сложным промптом справились плохо. Яндекс не понял, что такое Longboard (разновидность скейта, только больше и длиннее), Kandinsky понял, но сотворил с девушкой нечто ужасное.

Imagen 3 Fast неплохо передал запрос, но тени, доска и девушка как будто бы не связаны между собой. Лицо плохо прорисовано, пальцы на левой руке превратились в кашу и вообще кто босыми ногами встаёт на доску. В общем, проблем достаточно, чтобы определить подделку.

Flux Schnell неплохо справилась с деталями, но преувеличила размеры доски. И это ещё мягко сказано.

А вот что генерация от Imagen 2 почти бесподобна за исключением левой руки и неправильной доски. Лонгборд отличается от скейта размерами и формой. Но если бы я не знал, что должно быть изображено и не вглядывался, я бы точно не отличил от реального фото. Достойная работа, нейросеть!

А далее вы увидите несколько фотографий из фотоальбома типичного бати, а вы скажите, какая из фотографий реальна, какая — нейросетевая:

Знатоки рыбалки заподозрят неладное по чешуе вымышленных нейросетью рыб, смазанных рыб на генерациях от Flux, кажущуюся слишком лёгкий щуку и т. д. Можно заметить много маленьких и не очень огрех, но чем больше помех на фото, тем реалистичнее оно кажется. Недостаточная экспозиция от Imagen радует глаз и очень сильно добавляет аутентичности генерации. Фотографии из семейного архива примерно так и выглядят.

Но дьявол, как известно в деталях. Нейросети обычно генерируют чрезвычайно красивых людей. Представленная выше девушка на скейте от Ideogram — тому подтверждение. Безусловно, в мире хватает идеальных людей с чистой кожей, идеальными зубами, симметричным лицом и всеми другими атрибутами красивого человека. Но истинная красота другая, она в маленьких недостатках, мимических морщинках. И вообще, у 70% людей искривление носовой перегородки. Способны ли нейросети передать настоящую красоту?

Первая и вторая генерации выглядят великолепно. Кажется, будто парень готов пойти и дать в лицо томцу, кто написал ему что-то оскорбительное. Девушка от Flux Schnell смотрит в неведомый науке девайс (скажем, что это ручное зеркальце) и есть некоторый избыток ретуши, чёткость объектов хочется видеть повыше, но факт в том, что девушка вполне реалистичная, она похожа на типичную соседку из кафе на первом этаже, в которую влюблён вон тот парень за соседним столиком.

Девушка от Flux Pro — шедевр. Порой люди жалуются на неестественное размытие всего, кроме лица. Отчасти это правда, телефон в руках размыт, задний план размыт, но современные смартфоны делают именно такие кадры. Постобработка от ИИ уже не редкость. Слегка красные области на лице могут свидетельствовать о смущении или недосыпе. Но самое главное — искривление носовой перегородки! Вот оно, то самое, что делает человека немного несовершенным, но по-своему красивым и уникальным и нейросеть это передала. И пусть потребовалось несколько генераций и изменений промпта, чтобы получить такой результат, но это достойный результат. Настоящее фото от нейросети с душой.

Последняя картинка, от Imagen, тоже реалистичная, но есть подозрение, что немного слишком. Возникает ощущение будто на фото девушка 25 лет от роду с прогерией.

Итог

Нейросети действительно могут создать реалистичные изображения. Даже при создании без дополнительных настроек, просто через онлайн-сервис картинки выглядят настоящими. Если постараться и обучить нейросеть самостоятельно, создать LoRA на основе реальных людей, использовать продвинутые модели, подобрать параметры и количество шагов, картинка на выходе получится ещё лучше.

Что касается «нейросетевого мусора», то тут всё просто: не все авторы хотят заниматься вышеописанным, используют первые попавшиеся бесплатные модели и не утруждают себя подбором промпта. Является ли это неуважением к читателю? Решает только сам читатель.

Изображение в превью:
Автор: Grolribasi
Источник: creator.nightcafe.studio
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Пишу под ником Grolribasi, люблю посты на нишевые темы, чтобы в них разобраться.
Веду канал в телеграме: @grolchannel

0 комментариев

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор бесщеточной аккумуляторной пилы ProCraft PKA45 (PKA46): 2 аккумулятора, 2 шины и 2 цепи

Во время работы в саду или на приусадебном участке приходится срезать деревья и кустарники. Порой они достаточно толстые, чтобы справиться с ними вручную, и приходится доставать электрические или...

6 причин почему кофе из кофемашины дома получается хуже, чем в кофейне — и как это исправить

  • Тематическая подборка
  • Оффтопик
Вы потратили приличную сумму на современную кофемашину, выбираете дорогое зерно, но утренний эспрессо всё равно получается плоским, горчит или подозрительно напоминает напиток из вокзального...

Паводок и половодье: основные различия и причины возникновения

Весна время большой воды. Понятия «паводок» и «половодье» часто путают, хотя это разные гидрологические явления. Разберём их суть, отличия и особенности ниже. Автор: Heavylift Источник:...

Обзор блока питания PCCooler YS1200 – что происходит с напряжением и пульсациями

PCCooler YS1200 — блок питания на 1200 Вт под мощные сборки. Есть поддержка ATX 3.1 и отдельный кабель 12V-2x6 для видеокарт. По характеристикам все выглядит как нужно, но такие вещи...

Как Huawei показала, что может быть альтернативой Samsung и Apple: смартфону Huawei P9 — десять лет

В наши дни между крупными китайскими компаниями и «выжившими» A-брендами (Apple и Samsung) уже давно нет чёткой грани, однако десять лет назад ситуация воспринималась по-другому. Рынок делился на...