Какая нейросеть генерирует картинки лучше: сравниваем GPT Image и Nano Banana pro
Nano Banana очень долго была лучшей моделью для генерации картинок и сильно опережала конкурентов. Но недавно пользователи стали жаловаться на качество картинок и точность следования промптам. Я решил протеститровать модель и заодно сравнить, действительно ли она лучше нейронки от OpenAI.
Сравнить решил по 3 направлениям: качество генерации с нуля, качество обработки существующих фото, качество генерации картинок с русским текстом внутри.
Все промпты в нейросети я отправлял на английском, но здесь для удобства перевел на русский.
Какая нейросеть лучше генерирует картинки с нуля
Следование сложным инструкциям
С котиками и собачками любые нейросети давно справляются хорошо. Но такие картинки нужны редко, чаще нужно создать что-то сложное, с большим количество объектов, в определенных цветах
Проверим, как нейронки справятся с созданием картинки с точным количеством объектов таким промптом:
Деревянный обеденный стол, на котором в ряд расставлены пять предметов: красное яблоко, синяя керамическая кружка, раскрытая книга с читаемым текстом, небольшой суккулент в горшке и старинные латунные карманные часы. Стол стоит у окна, слева падает мягкий утренний свет. Фотореализм.
Первым проверяем Nano Banana.
Нейронка правильно учла количество объектов, свет и сделала в целом красивую картинку, но не раскрыла книгу и написала текст на обложке. Я считаю, что с заданием она справилась на 7 из 10.
Теперь проверим GPT.
Он книгу раскрыл, но изображение выглядит менее реалистично. Плюс часы получились большими, явно больше размера карманных. Так что с заданием тоже справился не на 100%, но заслуженные 8 баллов получает.
Теперь проверим, как нейронки справятся со сценами, в которых подразумевается много объектов. Используем такой промпт:
Уютная кухня, в которой вместе пекут три поколения женщин: бабушка лет семидесяти раскатывает тесто, мама лет сорока украшает капкейки розовой глазурью, а девочка лет восьми облизывает тесто с деревянной ложки. В теплом солнечном свете из окна видна мучная пыль в воздухе. Стиль живой семейной фотографии.
Первым проверяем Nano Banana
Картинка получилась очень детализированной и проработанной. Все герои выполняют ровно те действия, что прописаны в промпте. Артефактов не видно, все объекты на своих местах и в целом генерация выглядит как хорошая картинка с фотостока.
Теперь очередь за GPT.
Его исполнение мне понравилось меньше, потому что фото выглядит менее реалистично, с неествесвенным светом. И с первого взгляда кажется, что картинка ненастоящая. Так что в этом тесте победа за Nano Banana.
Работа с абстрактными концепциями и метафорами
Большой плюс нейронок для картинок — они могут сгенерировать то, что сфотографировать нельзя, а нарисовать очень сложно. Проверим, как они справятся абстрактными картинками с большим количеством деталей. Промпт будет такой:
Человек сидит в позе лотоса и медитирует в центре хаоса. Вокруг него кружится вихрь из парящих экранов, смартфонов, иконок соцсетей, колокольчиков уведомлений, писем, новостных заголовков и потоков данных. Человек спокоен, глаза закрыты, вокруг него — небольшой пузырь чистого пространства. Все кружащиеся элементы размыты в движении, медитирующая фигура в резком фокусе. Современная цифровая иллюстрация, динамичная композиция, контраст синего и оранжевого.
Nano Banana учел все требования и сделал классную картинку,
Но в одном месте ошибся в тексте и вместо headlines написал headlins.
Поэтому даем ему 8 баллов из 10.
GPT справился лучше и ошибок не допустил.
Поэтому получает 10 баллов.
Проверим еще один абстрактный запрос. Интересно, как нейронки обыграют сцену:
Сюрреалистичная иллюстрация течения времени: большие старинные напольные часы плавятся, как часы Сальвадора Дали, стекая по каменным ступеням залитого солнцем средиземноморского дворика. Из тающего циферблата вылетают бабочки. Сквозь часовой механизм прорастают лозы и цветы. Атмосфера сна, мягкий рассеянный свет, теплые золотистые тона. Сюрреализм с гиперреалистичной детализацией.
Сначала протестим Nano Banana.
Нейронка учла все требования и сделала классную картинку. Часы, конечно, не совсем похожи на часы Сальвадора Дали. Но в промпте и не было сказано, что они должны быть сгенерированы точь-в-точь. В целом ругать картинку не хочется, поэтому ставлю ей 10 баллов.
Теперь посмотрим на GPT.
У него стилистика отличается. Фото получилось странным, бабочки будто просто прифотошоплены. В общем, в этом случае GPT проиграл и получает максимум 7 баллов.
Генерация человеческих лиц
Подошли к самому интересному — насколько хорошо нейросети делают человеческие лица. Здесь же сразу проверим, как они детализируют одежду.
Используем такой промпт:
Фэшн-фотография для журнала: модель в оверсайз-блейзере изумрудно-зелёного бархата поверх белой шелковой блузки и черных кожаных брюках с высокой талией. Она сидит на бетонной лестнице в индустриальном лофте. Съемка на 85 мм, малая глубина резкости, рембрандтовский свет сверху справа, тона золотого часа.
Первым отдувается Nano Banana.
Нейронка сгенерировала очень реалистичную картинку. Лицо человека выглядит натурально, взгляд не пустой плюс на лице есть реалистичные тени. Одежда тоже сделана неплохо — хорошо видно, что пиджак велюровый, а штаны кожаные. Я оцениваю картинку на 10 из 10.
Теперь проверяем GPT.
Лицо человека выглядит менее натуральным и в сравнении Nano Banana заподозрить нейросеть здесь можно. Очень заметна сильная обработка картинки и лицо выглядит неестественно гладким.
Для чистоты сравнения сгенерируем еще по одной фотке с крупным планом лица.
Фотореалистичный портрет крупным планом: женщина чуть за тридцать с восточноевропейской внешностью. Естественная кожа с видимыми порами, легкие веснушки на носу и щеках, тонкие мимические морщинки у глаз. Каштановые волнистые волосы свободно обрамляют лицо. Серо-зеленые глаза с четкими бликами. Мягкий естественный свет из окна слева, создающий лёгкие тени. Без макияжа или с минимальным макияжем. Съёмка на 85 мм, малая глубина резкости. Детализированная текстура кожи, без ретуши и пластикового эффекта.
Nano Banana сгенерировала действительно обычного человека без макияжа. Да и картинка выглядит будто фотка на телефон.
А вот GPT добавил немного косметики и постарался сделать лицо будто идеальным.
Оно тоже выглядит натурально, но чисто субъективно мне больше нравится картинка Nano Banana. Поэтому победу отдаю ей.
С обычной генерацией закончили. Теперь проверим, как нейронки обрабатывают существующие изображения.
Какая нейросеть лучше редактирует картинки
Проверим, как нейросети удаляют и добавляют объекты и при этом сохраняют остальную композицию и лица людей.
Работать будем на основе такой картинки:
Девушка лет двадцати семи-двадцати восьми сидит за небольшим круглым столиком кафе на европейской мощеной улочке. На ней бежевый тренч, в правой руке белая кофейная чашка. На столе — круассан на тарелке, смартфон и солнечные очки. На заднем плане: фасады старинных зданий с цветочными ящиками на подоконниках, слева у стены стоит красный винтажный велосипед, справа — черный уличный фонарь. Утренний золотой свет падает справа, мягкие тени. У неё каштановые волосы до плеч и расслабленная улыбка, взгляд чуть левее камеры. Фотореализм, средний план, перспектива 35 мм.
Вот, что получилось в Nano Banana:
А вот, что в GPT:
Какая нейросеть лучше удаляет объекты с фото
Попробуем убрать велосипед:
Оставить женщину, ее позу, лицо, выражение, одежду и столик кафе со всеми предметами полностью без изменений. Фасады зданий, брусчатку и освещение сохранить как есть. Убрать красный винтажный велосипед, стоящий у стены слева. Сохранить единообразие теней и перспективы. Без артефактов, без сдвигов цвета, без размытия в отредактированной области.
Nano Banana хорошо удалила велосипед, но немного изменила освещение. И заделала отверстие в стене позади велосипеда. Все остальное осталось без изменений.
GPT справился с заданием отлично, на картинке не изменилось ничего.
В этом тесте победил GPT.
Какая нейросеть лучше добавляет объекты на фото
Пойдем в обратную сторону и проверим, как нейросети добавят объекты на фото. В нашем случае — бульдога.
Добавь маленького французского бульдога — он сидит на брусчатке у ее ног, под столом, и смотрит на нее снизу вверх. Окрас палевый с темной маской на морде. Освещение должно соответствовать имеющемуся утреннему свету: блики на шерсти справа, мягкая тень на брусчатке слева. Размер собаки должен быть реалистичным и пропорциональным относительно женщины и стола. Больше ничего в сцене не менять.
Nano Banana справился отлично, ничего не изменил и органично встроил пса. Единственное, выглядит он немного прифотошопленным, потому что на него непонятно откуда падает свет.
GPT учел направление света и встроил пса лучше. Но изменил размер стола и передвинул тарелку с круассаном.
Абсолютного победителя в тестах я выделить не могу, потому что оба справились неидеально. Поставим им по 8 баллов.
Осталось проверить последнее — как нейронки справляются с текстом.
Генерация текста на русском языке
С короткими текстами по типу вывесок и отдельных слов нейронки справляются давно. Поэтому мы сразу проверим, как они справятся с инфографикой и большим количеством текста.
Инфографика-постер с пошаговой инструкцией по завариванию кофе методом пуровер, полностью на русском языке. Заголовок вверху: «КАК ЗАВАРИТЬ ИДЕАЛЬНЫЙ КОФЕ» — жирный шрифт без засечек. Ниже — пять пронумерованных шагов, расположенных вертикально, рядом с каждым простая плоская иконка:"1. Вскипятите воду до 93-96 °C""2. Смелите 20 грамм зёрен""3. Смочите фильтр горячей водой""4. Залейте кофе круговыми движениями""5. Подождите 3-4 минуты"Внизу — блок с советом: «Совет: используйте свежеобжаренные зёрна!"Чистый минималистичный дизайн, белый фон, теплая коричнево-кремовая палитра с кофейными акцентами. Современная плоская иллюстрация. Весь кириллический текст должен быть без ошибок, читаемым и правильно оформленным. Вертикальный формат A4.
Nano Banana сделала хороший постер и нигде не ошибся. Единственное, в картинке с песочными часами нарисовал какие-то непонятные каракули. Считаем, что справилась на 8 из 10.
GPT тоже справился хорошо, но добавил таймер в правый нижний угол, хотя он там и не нужен. И продублировал на чайнике диапазон температуры.
Но с текстом справился хорошо и написал все без ошибок. Так что справился лучше Nano Banana, за что заслуженно получает 9 баллов.
Какая нейросеть генерирует картинки лучше
Однозначного победителя в этом сравнении нет. Обе нейросети справляются с генерацией на высоком уровне, но у каждой есть сильные стороны.
Nano Banana лучше работает с реалистичными изображениями. Лица людей у нее получаются естественнее, детализация сцен выше, а картинки в целом больше похожи на фотографии, а не на генерации. В тестах на сложные сцены с множеством объектов и на портреты она стабильно выдавала более убедительный результат.
GPT сильнее в точности следования инструкциям. Он лучше работает с текстом на изображениях, аккуратнее редактирует существующие фотографии и реже ошибается в деталях, которые прописаны в промпте. Удаление объектов у него получилось чище, а инфографика с русским текстом — аккуратнее.
Если собрать результаты всех тестов, расклад такой. В генерации сложных сцен победила Nano Banana — ее картинки выглядели реалистичнее. В абстрактных концепциях счет равный: в одном тесте лучше справился GPT, в другом — Nano Banana. Портреты убедительнее получились у Nano Banana. В редактировании изображений оба сработали примерно одинаково, но GPT точнее сохранял исходную композицию. С русским текстом лучше справился GPT.
В общем, для фотореалистичных изображений, портретов и детализированных сцен лучше подойдет Nano Banana. Для работы с текстом на картинках, инфографики и редактирования существующих фото — GPT.
Источник: Nano banana pro





6 комментариев
Добавить комментарий
но я все же больше nano banana люблю
Добавить комментарий