Как Nano Banana Pro может галлюцинировать на простых запросах?

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

Сегодня расскажу про интересные наблюдения того, как новая генеративная модель на Nano Banana Pro галлюцинирует в простых запросах. Впрочем, у обычной Nano Banana тоже были различные выкрутасы, но обо всем по порядку.


Автор: TechnoReview

Как вы уже поняли, запросы будут далеко не из разряда «сделай анимированный сайт» или «стилизуй фотографию под определённые его элементы». Всё куда проще. Я попросил и генеративную модель сделать обычный зелёный хромакей для изображения, которое снято для превью видеоролика. Nano Banana первой версии очень хорошо вырезала фон, делала это с практически идеальной точностью, создавала глубину и тени контуров основного объекта.

Nano Banana Pro, по всей логике, должна справляться с задачей ещё лучше. Однако вне зависимости от развёрнутости запроса она может галлюцинировать. Так, например, я скормил ей четыре фотографии для превью новых видеообзоров и просто попросил сделать задний фон зелёного цвета. Также была активирована функция авто-подсказки, и ИИ в целом корректно понял данный запрос: определил каждую фотографию и даже считал название брендов на устройствах. Но по итогу зачем-то скомпилировал все эти устройства в одно изображение с зелёным задним фоном. Получилось кринжовая заставка для магазина на диване.

Далее я отправил ИИ одно первое изображение с роботом-пылесосом и также попросил просто сделать задний фон зелёного цвета. После чего модель использовала авто-подсказку, в которой также описала сам робот-пылесос, название и изображение. Результатом стало основательно переделанное в стилистике фото, где камера снимает пылесос абсолютно с другого ракурса, также изменилось его положение относительно тела человека, а фон был изображён изумрудной абстракцией.

Затем я решил создать новый чат и также скормил нейронке первое изображение с пылесосом и уже попросил сделать задний фон зелёного цвета, не меняя при этом стилистику и компоновку объектов на изображении. Модель вырезала не только основной объект, стену и дверь позади, а также другие объекты в кадре.

Источник: www.genspark.ai

При этом Nano Banana первой версии более прямо реагировала на простые запросы. Так, например, на запрос «сделай задний фон зелёным» она всеже могла додумать простоту запроса и нарисовать сзади, например, папоротники. Однако такой же прямой, но чуть более конкретный запрос «сделай задний фон зелёного цвета» она понимала вполне буквально и хорошо выносила нужный объект в кадре на зелёный хромакей. Да, хромакей не всегда мог быть однотонным в виду некоторых сложностей обработки, но на конечный результат и нужный эффект это никак не влияло.


Новая же генеративная модель как будто настроена на более сложные запросы, и простые задачи для неё кажутся не совсем понятными. Типа: «Зачем тебе вырезать задний фон, если это можно сделать в другой, более простой программе? Я умею гораздо больше, и давай предложу тебе что-нибудь этакое, даже если тебе это совсем не нужно». Ей как бы не верится в то, что пользователь, который добрался до такого мощного инструмента, может попросить решить такую простую задачу, хотя удаление заднего фона и формирование естественных не рваных контуров объекта не всегда и не во всех сучаях бывает лёгкой задачей. Несмотря на это, Nano Banana Pro начинает демонстрировать больше возможностей, которые действительно радуют и даже удивляют, но они не всегда нужны исходя из вполне конкретного и простого запроса. Напишите в комментариях, приходилось ли вам работать с новой генеративной моделью, какие сложные или простые задачи вы с ней уже выполняли? Будет интересно посмотреть и на ваш опыт. Всем удачи и на связи!

Читайте также

Новости

Публикации