Какая нейросеть генерирует картинки лучше: сравниваем GPT Image и Nano Banana pro

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | ИИ, сервисы и приложения

Nano Banana очень долго была лучшей моделью для генерации картинок и сильно опережала конкурентов. Но недавно пользователи стали жаловаться на качество картинок и точность следования промптам. Я решил протеститровать модель и заодно сравнить, действительно ли она лучше нейронки от OpenAI.

Сравнить решил по 3 направлениям: качество генерации с нуля, качество обработки существующих фото, качество генерации картинок с русским текстом внутри.

Все промпты в нейросети я отправлял на английском, но здесь для удобства перевел на русский.

Какая нейросеть лучше генерирует картинки с нуля

Следование сложным инструкциям

С котиками и собачками любые нейросети давно справляются хорошо. Но такие картинки нужны редко, чаще нужно создать что-то сложное, с большим количество объектов, в определенных цветах и т. д.

Проверим, как нейронки справятся с созданием картинки с точным количеством объектов таким промптом:

Деревянный обеденный стол, на котором в ряд расставлены пять предметов: красное яблоко, синяя керамическая кружка, раскрытая книга с читаемым текстом, небольшой суккулент в горшке и старинные латунные карманные часы. Стол стоит у окна, слева падает мягкий утренний свет. Фотореализм.

Первым проверяем Nano Banana.

Автор: Nano Banana

Нейронка правильно учла количество объектов, свет и сделала в целом красивую картинку, но не раскрыла книгу и написала текст на обложке. Я считаю, что с заданием она справилась на 7 из 10.

Теперь проверим GPT.

Автор: ChatGPT

Он книгу раскрыл, но изображение выглядит менее реалистично. Плюс часы получились большими, явно больше размера карманных. Так что с заданием тоже справился не на 100%, но заслуженные 8 баллов получает.

Теперь проверим, как нейронки справятся со сценами, в которых подразумевается много объектов. Используем такой промпт:

Уютная кухня, в которой вместе пекут три поколения женщин: бабушка лет семидесяти раскатывает тесто, мама лет сорока украшает капкейки розовой глазурью, а девочка лет восьми облизывает тесто с деревянной ложки. В теплом солнечном свете из окна видна мучная пыль в воздухе. Стиль живой семейной фотографии.

Первым проверяем Nano Banana

Автор: Nano Banana

Картинка получилась очень детализированной и проработанной. Все герои выполняют ровно те действия, что прописаны в промпте. Артефактов не видно, все объекты на своих местах и в целом генерация выглядит как хорошая картинка с фотостока.

Теперь очередь за GPT.

Автор: ChatGPT

Его исполнение мне понравилось меньше, потому что фото выглядит менее реалистично, с неествесвенным светом. И с первого взгляда кажется, что картинка ненастоящая. Так что в этом тесте победа за Nano Banana.

Работа с абстрактными концепциями и метафорами

Большой плюс нейронок для картинок — они могут сгенерировать то, что сфотографировать нельзя, а нарисовать очень сложно. Проверим, как они справятся абстрактными картинками с большим количеством деталей. Промпт будет такой:

Человек сидит в позе лотоса и медитирует в центре хаоса. Вокруг него кружится вихрь из парящих экранов, смартфонов, иконок соцсетей, колокольчиков уведомлений, писем, новостных заголовков и потоков данных. Человек спокоен, глаза закрыты, вокруг него — небольшой пузырь чистого пространства. Все кружащиеся элементы размыты в движении, медитирующая фигура в резком фокусе. Современная цифровая иллюстрация, динамичная композиция, контраст синего и оранжевого.

Nano Banana учел все требования и сделал классную картинку,

Автор: Nano Banana

Но в одном месте ошибся в тексте и вместо headlines написал headlins.

Поэтому даем ему 8 баллов из 10.

GPT справился лучше и ошибок не допустил.

Автор: ChatGPT

Поэтому получает 10 баллов.

Проверим еще один абстрактный запрос. Интересно, как нейронки обыграют сцену:

Сюрреалистичная иллюстрация течения времени: большие старинные напольные часы плавятся, как часы Сальвадора Дали, стекая по каменным ступеням залитого солнцем средиземноморского дворика. Из тающего циферблата вылетают бабочки. Сквозь часовой механизм прорастают лозы и цветы. Атмосфера сна, мягкий рассеянный свет, теплые золотистые тона. Сюрреализм с гиперреалистичной детализацией.

Сначала протестим Nano Banana.

Автор: Nano Banana

Нейронка учла все требования и сделала классную картинку. Часы, конечно, не совсем похожи на часы Сальвадора Дали. Но в промпте и не было сказано, что они должны быть сгенерированы точь-в-точь. В целом ругать картинку не хочется, поэтому ставлю ей 10 баллов.

Теперь посмотрим на GPT.

Автор: ChatGPT

У него стилистика отличается. Фото получилось странным, бабочки будто просто прифотошоплены. В общем, в этом случае GPT проиграл и получает максимум 7 баллов.

Генерация человеческих лиц

Подошли к самому интересному — насколько хорошо нейросети делают человеческие лица. Здесь же сразу проверим, как они детализируют одежду.

Используем такой промпт:

Фэшн-фотография для журнала: модель в оверсайз-блейзере изумрудно-зелёного бархата поверх белой шелковой блузки и черных кожаных брюках с высокой талией. Она сидит на бетонной лестнице в индустриальном лофте. Съемка на 85 мм, малая глубина резкости, рембрандтовский свет сверху справа, тона золотого часа.

Первым отдувается Nano Banana.

Автор: Nano Banana

Нейронка сгенерировала очень реалистичную картинку. Лицо человека выглядит натурально, взгляд не пустой плюс на лице есть реалистичные тени. Одежда тоже сделана неплохо — хорошо видно, что пиджак велюровый, а штаны кожаные. Я оцениваю картинку на 10 из 10.

Теперь проверяем GPT.

Автор: ChatGPT

Лицо человека выглядит менее натуральным и в сравнении Nano Banana заподозрить нейросеть здесь можно. Очень заметна сильная обработка картинки и лицо выглядит неестественно гладким.

Для чистоты сравнения сгенерируем еще по одной фотке с крупным планом лица.

Фотореалистичный портрет крупным планом: женщина чуть за тридцать с восточноевропейской внешностью. Естественная кожа с видимыми порами, легкие веснушки на носу и щеках, тонкие мимические морщинки у глаз. Каштановые волнистые волосы свободно обрамляют лицо. Серо-зеленые глаза с четкими бликами. Мягкий естественный свет из окна слева, создающий лёгкие тени. Без макияжа или с минимальным макияжем. Съёмка на 85 мм, малая глубина резкости. Детализированная текстура кожи, без ретуши и пластикового эффекта.

Автор: Nano Banana

Nano Banana сгенерировала действительно обычного человека без макияжа. Да и картинка выглядит будто фотка на телефон.

А вот GPT добавил немного косметики и постарался сделать лицо будто идеальным.

Автор: ChatGPT

Оно тоже выглядит натурально, но чисто субъективно мне больше нравится картинка Nano Banana. Поэтому победу отдаю ей.

С обычной генерацией закончили. Теперь проверим, как нейронки обрабатывают существующие изображения.

Какая нейросеть лучше редактирует картинки

Проверим, как нейросети удаляют и добавляют объекты и при этом сохраняют остальную композицию и лица людей.

Работать будем на основе такой картинки:

Девушка лет двадцати семи-двадцати восьми сидит за небольшим круглым столиком кафе на европейской мощеной улочке. На ней бежевый тренч, в правой руке белая кофейная чашка. На столе — круассан на тарелке, смартфон и солнечные очки. На заднем плане: фасады старинных зданий с цветочными ящиками на подоконниках, слева у стены стоит красный винтажный велосипед, справа — черный уличный фонарь. Утренний золотой свет падает справа, мягкие тени. У неё каштановые волосы до плеч и расслабленная улыбка, взгляд чуть левее камеры. Фотореализм, средний план, перспектива 35 мм.

Вот, что получилось в Nano Banana:

Автор: Nano Banana

А вот, что в GPT:

Автор: ChatGPT

Какая нейросеть лучше удаляет объекты с фото

Попробуем убрать велосипед:

Оставить женщину, ее позу, лицо, выражение, одежду и столик кафе со всеми предметами полностью без изменений. Фасады зданий, брусчатку и освещение сохранить как есть. Убрать красный винтажный велосипед, стоящий у стены слева. Сохранить единообразие теней и перспективы. Без артефактов, без сдвигов цвета, без размытия в отредактированной области.

Nano Banana хорошо удалила велосипед, но немного изменила освещение. И заделала отверстие в стене позади велосипеда. Все остальное осталось без изменений.

Автор: Nano Banana

GPT справился с заданием отлично, на картинке не изменилось ничего.

Автор: ChatGPT

В этом тесте победил GPT.

Какая нейросеть лучше добавляет объекты на фото

Пойдем в обратную сторону и проверим, как нейросети добавят объекты на фото. В нашем случае — бульдога.

Добавь маленького французского бульдога — он сидит на брусчатке у ее ног, под столом, и смотрит на нее снизу вверх. Окрас палевый с темной маской на морде. Освещение должно соответствовать имеющемуся утреннему свету: блики на шерсти справа, мягкая тень на брусчатке слева. Размер собаки должен быть реалистичным и пропорциональным относительно женщины и стола. Больше ничего в сцене не менять.

Nano Banana справился отлично, ничего не изменил и органично встроил пса. Единственное, выглядит он немного прифотошопленным, потому что на него непонятно откуда падает свет.

Автор: Nano Banana

GPT учел направление света и встроил пса лучше. Но изменил размер стола и передвинул тарелку с круассаном.

Автор: ChatGPT

Абсолютного победителя в тестах я выделить не могу, потому что оба справились неидеально. Поставим им по 8 баллов.

Осталось проверить последнее — как нейронки справляются с текстом.

Генерация текста на русском языке

С короткими текстами по типу вывесок и отдельных слов нейронки справляются давно. Поэтому мы сразу проверим, как они справятся с инфографикой и большим количеством текста.

Инфографика-постер с пошаговой инструкцией по завариванию кофе методом пуровер, полностью на русском языке. Заголовок вверху: «КАК ЗАВАРИТЬ ИДЕАЛЬНЫЙ КОФЕ» — жирный шрифт без засечек. Ниже — пять пронумерованных шагов, расположенных вертикально, рядом с каждым простая плоская иконка:"1. Вскипятите воду до 93-96 °C""2. Смелите 20 грамм зёрен""3. Смочите фильтр горячей водой""4. Залейте кофе круговыми движениями""5. Подождите 3-4 минуты"Внизу — блок с советом: «Совет: используйте свежеобжаренные зёрна!"Чистый минималистичный дизайн, белый фон, теплая коричнево-кремовая палитра с кофейными акцентами. Современная плоская иллюстрация. Весь кириллический текст должен быть без ошибок, читаемым и правильно оформленным. Вертикальный формат A4.

Nano Banana сделала хороший постер и нигде не ошибся. Единственное, в картинке с песочными часами нарисовал какие-то непонятные каракули. Считаем, что справилась на 8 из 10.

Автор: Nano Banana

GPT тоже справился хорошо, но добавил таймер в правый нижний угол, хотя он там и не нужен. И продублировал на чайнике диапазон температуры.

Автор: ChatGPT

Но с текстом справился хорошо и написал все без ошибок. Так что справился лучше Nano Banana, за что заслуженно получает 9 баллов.

Какая нейросеть генерирует картинки лучше

Однозначного победителя в этом сравнении нет. Обе нейросети справляются с генерацией на высоком уровне, но у каждой есть сильные стороны.

Nano Banana лучше работает с реалистичными изображениями. Лица людей у нее получаются естественнее, детализация сцен выше, а картинки в целом больше похожи на фотографии, а не на генерации. В тестах на сложные сцены с множеством объектов и на портреты она стабильно выдавала более убедительный результат.

GPT сильнее в точности следования инструкциям. Он лучше работает с текстом на изображениях, аккуратнее редактирует существующие фотографии и реже ошибается в деталях, которые прописаны в промпте. Удаление объектов у него получилось чище, а инфографика с русским текстом — аккуратнее.

Если собрать результаты всех тестов, расклад такой. В генерации сложных сцен победила Nano Banana — ее картинки выглядели реалистичнее. В абстрактных концепциях счет равный: в одном тесте лучше справился GPT, в другом — Nano Banana. Портреты убедительнее получились у Nano Banana. В редактировании изображений оба сработали примерно одинаково, но GPT точнее сохранял исходную композицию. С русским текстом лучше справился GPT.

В общем, для фотореалистичных изображений, портретов и детализированных сцен лучше подойдет Nano Banana. Для работы с текстом на картинках, инфографики и редактирования существующих фото — GPT.

Изображение в превью:
Автор: Nano Banana
Источник: Nano banana pro
Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Коммерческий автор, пишу о бизнесе, финансах, инвестициях и IT. Рассказываю о нейросетях в диджитале. Больше интересного контента о нейросетях в телеграм-канале «Нейроцех»

6 комментариев

Добавить комментарий

House007
Проводил как-то похожий эксперимент, и понял, что эти нейросети обе хороши и каждая друг друга дополняет
mikeshu
это точно
но я все же больше nano banana люблю
s
а на первых отражение на кружке норм?
mikeshu
кстати да, странное. Не обратил на это внимание
i
Спасибо за обзор, в принципе подтверждает то что я вижу, технически по картинке Nano Banana pro лучше, но с творческой точки зрения, увы GPT Image интереснее, особенно в деталях, если вам понадобится не просто создать картинку, а вы укажете конкретный авторский стиль, который надо скопировать или просто внесёте конкретный фотообъектив и тип фотопленки или цифровой профиль, в GPT Image результат будет очень близок к реальному, Nano Banana pro просто не понимает что от нее хотят и игнорирует подобные детали…
mikeshu
ну вот банана 2 стала получше. Но в целом тоже с вами согласен)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Идеальный камуфляж: почему для своих жертв оранжевый тигр выглядит зеленым

Окрас животных в дикой природе выполняет множество различных и строго практичных задач. В одних случаях яркие цвета помогают привлекать партнеров в период спаривания. В других — служат...

Аномально тяжёлая вода: комета 3I/ATLAS показала, из чего состояли древнейшие инопланетные миры

В конце 2025 года два крупнейших астрономических инструмента — космический телескоп «Джеймс Уэбб» и комплекс радиотелескопов ALMA в чилийской пустыне Атакама — получили...

Гибко настраиваемые под себя TWS наушники: обзор Creative AURVANA ACE SXFI

Компания Creative давно известно как пионер компьютерного звука в средне бюджетном диапазоне. Она выпустила линейку наушников AURVANA. Недавно мы рассматривали модель MiMi, а сегодня рассмотрим, на...

Как настроить напоминания о днях рождения на Айфоне

Иногда день рождения вылетает из головы в самый неподходящий момент. Особенно обидно, когда человек ждал хотя бы пару тёплых слов, а вы вспоминаете о празднике только вечером или вообще на...

Обзор тепловизора TOOLTOP T7: Профессиональное разрешение по цене игрушки

Тепловизор — штука, которая большинству людей кажется чем-то из мира военных или промышленных инспекторов. На практике же он нужен гораздо шире: найти утечку тепла в стене,...