Какая нейросеть генерирует картинки лучше: сравниваем GPT Image и Nano Banana pro

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | ИИ, сервисы и приложения

Nano Banana очень долго была лучшей моделью для генерации картинок и сильно опережала конкурентов. Но недавно пользователи стали жаловаться на качество картинок и точность следования промптам. Я решил протеститровать модель и заодно сравнить, действительно ли она лучше нейронки от OpenAI.

Сравнить решил по 3 направлениям: качество генерации с нуля, качество обработки существующих фото, качество генерации картинок с русским текстом внутри.

Все промпты в нейросети я отправлял на английском, но здесь для удобства перевел на русский.

Какая нейросеть лучше генерирует картинки с нуля

Следование сложным инструкциям

С котиками и собачками любые нейросети давно справляются хорошо. Но такие картинки нужны редко, чаще нужно создать что-то сложное, с большим количество объектов, в определенных цветах и т. д.

Проверим, как нейронки справятся с созданием картинки с точным количеством объектов таким промптом:

Деревянный обеденный стол, на котором в ряд расставлены пять предметов: красное яблоко, синяя керамическая кружка, раскрытая книга с читаемым текстом, небольшой суккулент в горшке и старинные латунные карманные часы. Стол стоит у окна, слева падает мягкий утренний свет. Фотореализм.

Первым проверяем Nano Banana.

Автор: Nano Banana

Нейронка правильно учла количество объектов, свет и сделала в целом красивую картинку, но не раскрыла книгу и написала текст на обложке. Я считаю, что с заданием она справилась на 7 из 10.

Теперь проверим GPT.

Автор: ChatGPT

Он книгу раскрыл, но изображение выглядит менее реалистично. Плюс часы получились большими, явно больше размера карманных. Так что с заданием тоже справился не на 100%, но заслуженные 8 баллов получает.

Теперь проверим, как нейронки справятся со сценами, в которых подразумевается много объектов. Используем такой промпт:

Уютная кухня, в которой вместе пекут три поколения женщин: бабушка лет семидесяти раскатывает тесто, мама лет сорока украшает капкейки розовой глазурью, а девочка лет восьми облизывает тесто с деревянной ложки. В теплом солнечном свете из окна видна мучная пыль в воздухе. Стиль живой семейной фотографии.

Первым проверяем Nano Banana

Автор: Nano Banana

Картинка получилась очень детализированной и проработанной. Все герои выполняют ровно те действия, что прописаны в промпте. Артефактов не видно, все объекты на своих местах и в целом генерация выглядит как хорошая картинка с фотостока.

Теперь очередь за GPT.

Автор: ChatGPT

Его исполнение мне понравилось меньше, потому что фото выглядит менее реалистично, с неествесвенным светом. И с первого взгляда кажется, что картинка ненастоящая. Так что в этом тесте победа за Nano Banana.

Работа с абстрактными концепциями и метафорами

Большой плюс нейронок для картинок — они могут сгенерировать то, что сфотографировать нельзя, а нарисовать очень сложно. Проверим, как они справятся абстрактными картинками с большим количеством деталей. Промпт будет такой:

Человек сидит в позе лотоса и медитирует в центре хаоса. Вокруг него кружится вихрь из парящих экранов, смартфонов, иконок соцсетей, колокольчиков уведомлений, писем, новостных заголовков и потоков данных. Человек спокоен, глаза закрыты, вокруг него — небольшой пузырь чистого пространства. Все кружащиеся элементы размыты в движении, медитирующая фигура в резком фокусе. Современная цифровая иллюстрация, динамичная композиция, контраст синего и оранжевого.

Nano Banana учел все требования и сделал классную картинку,

Автор: Nano Banana

Но в одном месте ошибся в тексте и вместо headlines написал headlins.

Поэтому даем ему 8 баллов из 10.

GPT справился лучше и ошибок не допустил.

Автор: ChatGPT

Поэтому получает 10 баллов.

Проверим еще один абстрактный запрос. Интересно, как нейронки обыграют сцену:

Сюрреалистичная иллюстрация течения времени: большие старинные напольные часы плавятся, как часы Сальвадора Дали, стекая по каменным ступеням залитого солнцем средиземноморского дворика. Из тающего циферблата вылетают бабочки. Сквозь часовой механизм прорастают лозы и цветы. Атмосфера сна, мягкий рассеянный свет, теплые золотистые тона. Сюрреализм с гиперреалистичной детализацией.

Сначала протестим Nano Banana.

Автор: Nano Banana

Нейронка учла все требования и сделала классную картинку. Часы, конечно, не совсем похожи на часы Сальвадора Дали. Но в промпте и не было сказано, что они должны быть сгенерированы точь-в-точь. В целом ругать картинку не хочется, поэтому ставлю ей 10 баллов.

Теперь посмотрим на GPT.

Автор: ChatGPT

У него стилистика отличается. Фото получилось странным, бабочки будто просто прифотошоплены. В общем, в этом случае GPT проиграл и получает максимум 7 баллов.

Генерация человеческих лиц

Подошли к самому интересному — насколько хорошо нейросети делают человеческие лица. Здесь же сразу проверим, как они детализируют одежду.

Используем такой промпт:

Фэшн-фотография для журнала: модель в оверсайз-блейзере изумрудно-зелёного бархата поверх белой шелковой блузки и черных кожаных брюках с высокой талией. Она сидит на бетонной лестнице в индустриальном лофте. Съемка на 85 мм, малая глубина резкости, рембрандтовский свет сверху справа, тона золотого часа.

Первым отдувается Nano Banana.

Автор: Nano Banana

Нейронка сгенерировала очень реалистичную картинку. Лицо человека выглядит натурально, взгляд не пустой плюс на лице есть реалистичные тени. Одежда тоже сделана неплохо — хорошо видно, что пиджак велюровый, а штаны кожаные. Я оцениваю картинку на 10 из 10.

Теперь проверяем GPT.

Автор: ChatGPT

Лицо человека выглядит менее натуральным и в сравнении Nano Banana заподозрить нейросеть здесь можно. Очень заметна сильная обработка картинки и лицо выглядит неестественно гладким.

Для чистоты сравнения сгенерируем еще по одной фотке с крупным планом лица.

Фотореалистичный портрет крупным планом: женщина чуть за тридцать с восточноевропейской внешностью. Естественная кожа с видимыми порами, легкие веснушки на носу и щеках, тонкие мимические морщинки у глаз. Каштановые волнистые волосы свободно обрамляют лицо. Серо-зеленые глаза с четкими бликами. Мягкий естественный свет из окна слева, создающий лёгкие тени. Без макияжа или с минимальным макияжем. Съёмка на 85 мм, малая глубина резкости. Детализированная текстура кожи, без ретуши и пластикового эффекта.

Автор: Nano Banana

Nano Banana сгенерировала действительно обычного человека без макияжа. Да и картинка выглядит будто фотка на телефон.

А вот GPT добавил немного косметики и постарался сделать лицо будто идеальным.

Автор: ChatGPT

Оно тоже выглядит натурально, но чисто субъективно мне больше нравится картинка Nano Banana. Поэтому победу отдаю ей.

С обычной генерацией закончили. Теперь проверим, как нейронки обрабатывают существующие изображения.

Какая нейросеть лучше редактирует картинки

Проверим, как нейросети удаляют и добавляют объекты и при этом сохраняют остальную композицию и лица людей.

Работать будем на основе такой картинки:

Девушка лет двадцати семи-двадцати восьми сидит за небольшим круглым столиком кафе на европейской мощеной улочке. На ней бежевый тренч, в правой руке белая кофейная чашка. На столе — круассан на тарелке, смартфон и солнечные очки. На заднем плане: фасады старинных зданий с цветочными ящиками на подоконниках, слева у стены стоит красный винтажный велосипед, справа — черный уличный фонарь. Утренний золотой свет падает справа, мягкие тени. У неё каштановые волосы до плеч и расслабленная улыбка, взгляд чуть левее камеры. Фотореализм, средний план, перспектива 35 мм.

Вот, что получилось в Nano Banana:

Автор: Nano Banana

А вот, что в GPT:

Автор: ChatGPT

Какая нейросеть лучше удаляет объекты с фото

Попробуем убрать велосипед:

Оставить женщину, ее позу, лицо, выражение, одежду и столик кафе со всеми предметами полностью без изменений. Фасады зданий, брусчатку и освещение сохранить как есть. Убрать красный винтажный велосипед, стоящий у стены слева. Сохранить единообразие теней и перспективы. Без артефактов, без сдвигов цвета, без размытия в отредактированной области.

Nano Banana хорошо удалила велосипед, но немного изменила освещение. И заделала отверстие в стене позади велосипеда. Все остальное осталось без изменений.

Автор: Nano Banana

GPT справился с заданием отлично, на картинке не изменилось ничего.

Автор: ChatGPT

В этом тесте победил GPT.

Какая нейросеть лучше добавляет объекты на фото

Пойдем в обратную сторону и проверим, как нейросети добавят объекты на фото. В нашем случае — бульдога.

Добавь маленького французского бульдога — он сидит на брусчатке у ее ног, под столом, и смотрит на нее снизу вверх. Окрас палевый с темной маской на морде. Освещение должно соответствовать имеющемуся утреннему свету: блики на шерсти справа, мягкая тень на брусчатке слева. Размер собаки должен быть реалистичным и пропорциональным относительно женщины и стола. Больше ничего в сцене не менять.

Nano Banana справился отлично, ничего не изменил и органично встроил пса. Единственное, выглядит он немного прифотошопленным, потому что на него непонятно откуда падает свет.

Автор: Nano Banana

GPT учел направление света и встроил пса лучше. Но изменил размер стола и передвинул тарелку с круассаном.

Автор: ChatGPT

Абсолютного победителя в тестах я выделить не могу, потому что оба справились неидеально. Поставим им по 8 баллов.

Осталось проверить последнее — как нейронки справляются с текстом.

Генерация текста на русском языке

С короткими текстами по типу вывесок и отдельных слов нейронки справляются давно. Поэтому мы сразу проверим, как они справятся с инфографикой и большим количеством текста.

Инфографика-постер с пошаговой инструкцией по завариванию кофе методом пуровер, полностью на русском языке. Заголовок вверху: «КАК ЗАВАРИТЬ ИДЕАЛЬНЫЙ КОФЕ» — жирный шрифт без засечек. Ниже — пять пронумерованных шагов, расположенных вертикально, рядом с каждым простая плоская иконка:"1. Вскипятите воду до 93-96 °C""2. Смелите 20 грамм зёрен""3. Смочите фильтр горячей водой""4. Залейте кофе круговыми движениями""5. Подождите 3-4 минуты"Внизу — блок с советом: «Совет: используйте свежеобжаренные зёрна!"Чистый минималистичный дизайн, белый фон, теплая коричнево-кремовая палитра с кофейными акцентами. Современная плоская иллюстрация. Весь кириллический текст должен быть без ошибок, читаемым и правильно оформленным. Вертикальный формат A4.

Nano Banana сделала хороший постер и нигде не ошибся. Единственное, в картинке с песочными часами нарисовал какие-то непонятные каракули. Считаем, что справилась на 8 из 10.

Автор: Nano Banana

GPT тоже справился хорошо, но добавил таймер в правый нижний угол, хотя он там и не нужен. И продублировал на чайнике диапазон температуры.

Автор: ChatGPT

Но с текстом справился хорошо и написал все без ошибок. Так что справился лучше Nano Banana, за что заслуженно получает 9 баллов.

Какая нейросеть генерирует картинки лучше

Однозначного победителя в этом сравнении нет. Обе нейросети справляются с генерацией на высоком уровне, но у каждой есть сильные стороны.

Nano Banana лучше работает с реалистичными изображениями. Лица людей у нее получаются естественнее, детализация сцен выше, а картинки в целом больше похожи на фотографии, а не на генерации. В тестах на сложные сцены с множеством объектов и на портреты она стабильно выдавала более убедительный результат.

GPT сильнее в точности следования инструкциям. Он лучше работает с текстом на изображениях, аккуратнее редактирует существующие фотографии и реже ошибается в деталях, которые прописаны в промпте. Удаление объектов у него получилось чище, а инфографика с русским текстом — аккуратнее.

Если собрать результаты всех тестов, расклад такой. В генерации сложных сцен победила Nano Banana — ее картинки выглядели реалистичнее. В абстрактных концепциях счет равный: в одном тесте лучше справился GPT, в другом — Nano Banana. Портреты убедительнее получились у Nano Banana. В редактировании изображений оба сработали примерно одинаково, но GPT точнее сохранял исходную композицию. С русским текстом лучше справился GPT.

В общем, для фотореалистичных изображений, портретов и детализированных сцен лучше подойдет Nano Banana. Для работы с текстом на картинках, инфографики и редактирования существующих фото — GPT.

Изображение в превью:
Автор: Nano Banana
Источник: Nano banana pro
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Коммерческий автор, пишу о бизнесе, финансах, инвестициях и IT. Рассказываю о нейросетях в диджитале. Больше интересного контента о нейросетях в телеграм-канале «Нейроцех»

6 комментариев

Добавить комментарий

House007
Проводил как-то похожий эксперимент, и понял, что эти нейросети обе хороши и каждая друг друга дополняет
mikeshu
это точно
но я все же больше nano banana люблю
s
а на первых отражение на кружке норм?
mikeshu
кстати да, странное. Не обратил на это внимание
i
Спасибо за обзор, в принципе подтверждает то что я вижу, технически по картинке Nano Banana pro лучше, но с творческой точки зрения, увы GPT Image интереснее, особенно в деталях, если вам понадобится не просто создать картинку, а вы укажете конкретный авторский стиль, который надо скопировать или просто внесёте конкретный фотообъектив и тип фотопленки или цифровой профиль, в GPT Image результат будет очень близок к реальному, Nano Banana pro просто не понимает что от нее хотят и игнорирует подобные детали…
mikeshu
ну вот банана 2 стала получше. Но в целом тоже с вами согласен)

Добавить комментарий

Сейчас на главной

Новости

Публикации

«Союз‑5» стартовал: новая эра российской космонавтики началась

Сегодня космическая отрасль России отметила важную веху: с космодрома Байконур впервые стартовала ракета‑носитель «Союз‑5» — одна из самых перспективных разработок отечественной...

Составлена первая точная карта обоняния: как клетки носа считывают свои координаты, чтобы мы чувствовали запахи

Способность млекопитающих воспринимать окружающий мир опирается на строгую физическую организацию органов чувств. Зрение работает благодаря точному проецированию световых лучей на сетчатку, где...

Сколько развитых цивилизаций в Галактике, и как они на самом деле будут искать Землю

Попытки человечества обнаружить сигналы от внеземных цивилизаций строятся на теоретических допущениях. Радиоастрономы, участвующие в программах SETI (Search for Extraterrestrial Intelligence),...

Почему один из старейших городов Европы следит за всеми через камеру обскура и выглядит как близнец Кубы

Древность в представлении людей это почти всегда пыль и разруха. Но испанский город Кадис, несмотря на почтенный возраст, выглядит свежо и хранит за красивыми улочками не один секрет. Ниже я...

Пять смартфонов апреля 2026 года: батарея на 10200 мАч и аппарат, за который пришлось извиняться

Второй месяц весны подошёл к концу, пришло время подводить его итоги. Апрель запомнится нам большим анонсом компании Motorola, презентацией серии Huawei Pura 90, камерофонов OPPO Find X9 Ultra и...