Экскурсия по нейросети Leonardo.AI и сравнительные испытания моделей для генерации изображений

*Создано Leonardo.AI с помощью модели Gemini 3 Pro Image (Nano Banana Pro)*

Искусственный интеллект (ИИ), нейросети, генеративные модели — эти понятия стремительно ворвались в нашу жизнь и, похоже, останутся с нами. Практическое применение нейрогенерации началось лишь несколько лет назад, но уже успело изменить многие области человеческой деятельности. Однако подразумеваемые инструменты сильно отличаются от привычных орудий труда. Чтобы достать с дерева фрукт, обезьяна взяла в руки палку, и эта причинно-следственная связь — сначала мотивация, потом орудие труда — просуществовала до появления нейросетей, а с ними всё поменялось: сначала был создан инструмент, а затем возникла сфера занятий, подразумевающих его использование. Как раз об использовании инструментов для создания изображений (впрочем, не только их) мы поведем сегодня разговор. Представляем Leonardo.AI — «зоопарк» нейрогенеративных моделей. С ними (моделями) мы попробуем сегодня разобраться.

Приступим. Если ввести в строке браузера leonardo.ai, откроется начальное окно.

Здесь представлена маркетинговая, а не практическая информация, и данные могут быть полезны лишь для самого поверхностного знакомства. Язык интерфейса у сервиса только английский, изменить его нельзя ни средствами самого онлайн-ресурса, ни переводчиком, интегрированным в браузер (Google Translate и прочими). Нажимаем Get Started («начать») вверху.

Попадаем в рабочую среду. Слева в вертикальном меню представлены основные разделы. Активна Home — домашняя страница.

Library — библиотека наших работ. Здесь пока пусто, представлена чужая картинка (она меняется случайным образом). Слева располагается меню входа в систему. В качестве пары идентификатор-пароль можно использовать регистрационные данные из сервисов Canva, Apple, Google, Microsoft или использовать электронную почту. Мы войдем в наш платный аккаунт с помощью последнего способа.

Инструментальный набор

Открывается библиотека наших работ. Вместо этого похода окольным путем можно набрать в адресной строке app.leonardo.ai и сразу перейти к онлайн-приложению.

Меню начальных действий расположено горизонтально под строкой ввода промпта, основное меню — вертикальная полоска слева.

Сначала ознакомимся с вариантами подписки. Для этого нажмем на кнопку Plans (сервисные планы) в вертикальном меню.

Из пяти планов последний (Leonardo for Teams) предназначен для рабочих коллективов, и его условия устанавливаются путем обсуждения с ресурсом, поэтому о нем мы ничего не знаем. Остальные можно сравнить в таблице, которая приведена внизу.

Ресурсы	Сервисные планы
План	Бесплатный	Apprentice	Artisan	Maestro
Месяц/год, доллары США*	0/0	12/120	30/288	60/576
Жетонов на день	150	−	−	−
Жетонов на месяц	−	8500	25000	60000
Доступ к работам	нельзя закрыть	можно закрыть
Хранилище жетонов	нет	25500	75000	180000
Число обучаемых моделей	нет	10	20	50
Личные коллекции	1	сколько угодно
Одновременных генераций	1	2	3	6
Генераций в очереди	−	−	10	20
Покупка токенов	−	+	+	+

* При оплате сразу за год действует скидка 20%.

Бесплатный план (free) подходит только для самого поверхностного знакомства с ресурсом, но не позволяет даже предварительно оценить его возможности: ста пятидесяти жетонов (tokens) хватит лишь для создания пятнадцати картинок с использованием наиболее простых инструментов, а для сложных моделей нередко требуется в полтора-два раза больше этого количества. Набрать токены про запас нельзя, потому что хранилище для них не предоставляется, а счетчик обнуляется ежесуточно.

В горизонтальном меню можно сразу перейти к соответствующему рабочему разделу:

Image — генерация изображений
Video — создание видео из картинок
Blueprints — создание 5-секундных видеороликов по шаблону
Flow State — «потоковая» генерация изображений
Upscaler — приложения для увеличения размеров изображения (апскейла)
Canvas — редактор на холсте
Draw — инструменты рисования на экране

Начнем с того, что не является сегодня приоритетом. Забавы ради заглянем сначала в Blueprints.

Blueprints

Инструмент позволяет создать пятисекундное видео из фотографии в соответствии с шаблоном — это имеется в виду под «blueprint» (чертеж).

Выберем один из шаблонов — Paparazzi Fenzy (можно перевести как «назойливые папарацци»).

Добавим свое изображение.

Для получения результата пришлось истратить 700 жетонов (токенов) и подождать 2,5 минуты. С бесплатным планом использовать Blueprints невозможно.

Результат генерации в разрешении 1176×1764.

К Blueprints примыкают другие средства генерации движущихся изображений в разделе Video.

Video

Генерация видео возможна как на основе изображений, созданных в Leonardo.AI, так и любых других — их можно загрузить извне.

Можно использовать любую генеративную модель из набора. Подробный анализ специфики моделей мы оставим для другого обзора.

Раздел Motion Control (управление движением) предоставляет большой выбор разных вариантов смещения камеры. Их рассмотрение также выходит за рамки концепции настоящего материала.

То, что называется в левой колонке Motion Elements, не является собственно элементами движения — это скорее стили представления видео.

Мы выбрали одну из картинок, созданных при подготовке обзора с помощью модели Phoenix 1.0 (см. ниже). Использовали короткий промпт

Camera orbits around the wizard with a crystal ball.
Камера вращается вокруг волшебника с хрустальным шаром.

Исходное изображение.

Разрешение видео ограничено 1280×720 пикселей, текстурирование нельзя назвать естественным, но для всякого рода видеожаб это подходит (как и Blueprints).

Upscaler

Апскейлер служит для повышения разрешения выходного изображения. Но мы имеем дело с нейрогенерацией, поэтому увеличение размера картинки в виде бесплатного довеска сопровождается добавлением к ней деталей, усилением микроконтраста и рельефа объектов.

В основном окне слева имеется рабочее меню инструмента, снизу — лента генераций, хранящихся в библиотеке. Возьмем картинку из этой ленты.

Картинка дублируется в верхнем левом углу экрана, где она всегда присутствует в неизменном масштабе, в то время как в основном окне масштаб можно изменять при просмотре.

В меню есть собственный микробраузер последних генераций (Recent Images)

Выбор тех или иных опций масштабирования приводит к изменению цены операции (в токенах) на кнопке Upscale. В списке стилей можно найти следующие:

General — для общего случая
2D Arts & Illustration — для традиционного иллюстративного материала
Cinematic — для картинок с условной «кинематографичностью»
CG Art & Game Assets — для компьютерной графики и игр

Ползунки позволяют изменять степень «креативности», то есть самостоятельности моделей при внесении изменений и дополнений в исходное изображение, а также кратности апскейла (по умолчанию установлен максимум — ×2). Под ползунками имеются окна со значениями разрешения в пикселях по горизонтали и вертикали, а также просто в мегапикселях. Еще ниже располагается дополнительное окно для промпта, в котором можно указать, что следует удалить из изображения и что добавить в него.

«Шторка» в виде вертикальной полосы, перемещаемая при помощи мыши, показывает исходный и ожидаемый варианты. В верхнем правом углу представлены все параметры грядущей операции. Остается нажать на кнопку Upscale, на которой указана конечная цена генерации (точнее, регенерации).

Параметр Creativity Strength следует использовать осторожно. При значениях выше семи он, как правило, становится причиной возникновения неприятных артефактов.

Исходное изображение.

После апскейла с креативностью, установленной на «7».

После апскейла с креативностью, установленной на «8». Конечно, глаз во рту может быть сюжетной находкой, но лучше расписать это в промпте. Тем более что артефакты могут быть куда более скверными. Ослабить это «патологическое творчество» (но лишь до некоторой степени) можно, «выкрутив» на минимум показатель усиления контраста деталей (Details Contrast).

Image

Здесь находится всё необходимое для создания изображений.

Слева помещается управление: меню моделей, автоматическое управление промптом, меню стилей, выбор форматов (соотношения сторон) и разрешения, установка количества картинок (диапазон от одной до восьми), меню коллекций, другие (расширенные) параметры.

В верхней части располагается окно для ввода промпта. Справа под ним — кнопка запуска генерации с указанной на ней суммой списания токенов. Следующей строкой с выравниванием влево размещены кнопки вывода других инструментов: Video, Flow State (потоковый режим), Blueprints (рассмотрен выше).

Основную часть экрана занимают ссылки на уже выполненные генерации.

Для начала попробуем работать на русском языке:

Ветхая, покосившаяся избушка, стоящая на куриных ногах посреди темной поляны в мрачном еловом лесу в зимнюю ночь под звездами и полной луной.

Введем промпт и запустим генерацию с использованием модели Nano Banana.

Похоже, получается неплохо. Правда, третья и четвертая избушка стоят не на двух, а на трех ногах, а на второй картинке лестница приставлена не к двери, а к окну.

Однако использование промпта на английском языке имеет свои преимущества.

Промпт:

A dilapidated, rickety hut standing on chicken legs in the middle of a dark clearing in a gloomy spruce forest on a winter night under the stars and a full moon.

Ранее модель не додумалась как-то учесть последствия известных «повернись к лесу задом, ко мне передом». Теперь же мы видим вытоптанные на снегу круги как следствие многочисленных подобных действий.

Меню выбора модели (скроллируется только вместе с остальным содержимым окна браузера). Сегодня здесь доступно 16 моделей, но все может измениться в самое ближайшее время.

Меню выбора форматов (соотношения сторон). Этот набор зависит от модели и очень сильно различается. Как правило, форматов много. Их наибольшее количество можно видеть в оригинальных моделях Leonardo.AI — Phoenix, Ideogram, Lucid, а наименьшее — в продуктах Open AI (GPT).

Меню стилей может включать нижеследующее:

3D Render (трехмерный рендер)
Acrylic (акрил)
Cinematic (кинаматографичный)
Creative (креативный)
Dynamic (динамический)
Fashion (мода)
Game Concept (концепция для игр)
Graphic Design 2D (графический дизайн двумерный)
Graphic Design 3D (графический дизайн трехмерный)
Illustration (иллюстрация)
Portrait (портрет)
Stock Photo (стоковое фото)
Vibrant (живой)

Состав меню зависит от потенциала выбранной модели.

Можно сразу выбрать «коллекцию», в которую будут направляться создаваемые изображения (при этом изменяется лишь значение дескриптора соответствующего изображения, но сами файлы не перемещаются по древу каталогов). Это помогает упорядочить содержимое библиотеки.

Последний блок слева — расширенные установки:

PhotoReal (фотореализм, который работает лишь при определенных условиях)
Negative Prompt (негативный промпт, что следует исключить из генерации)
Transparency («прозрачность», то есть генерация изображения без фона)
Titing («плитка», то есть разделение картинки на зоны)
Use Fixed Seed («использовать один сид», генерировать картинки с одинаковыми командными параметрами, минимизируя вариабельность результата)

Ниже поля для ввода промпта, слева от запуска генерации есть «волшебная» кнопка. При нажатии на нее выпадает список дополнительных функций:

New Random Prompt (новый случайный промпт) генерирует инструкции автоматически
Improve Prompt (улучшить промпт) редактирует инструкции, делая их более пространными и более понятными для моделей
Edit With AI (редактировать при помощи ИИ) — улучшение текста промпта при помощи ИИ. Максимальный объем текста — 200 знаков
Describe With AI (описание изображения при помощи ИИ)

Начнем как раз с последней опции.

Предлагается:

Upload an image (загрузить картинку)
Your Uploads (использовать уже загруженные)
Your Generations (использовать генерации из ленты)
Collections (из коллекций)
Community Feed (из сообщений сообщества)
Follower Feed (из сообщений фолловера)

Мы воспользуемся первой опцией.

Загружаем такое изображение.

После минутного раздумья система заполняет поле созданным промптом.

Промпт, созданный Leonardo.AI:

Image is a dramatic, digitally created movie poster with a dark, atmospheric style. It features a collage layout with prominent, large faces of a man and a woman in the foreground, both with light skin tones. The man has short dark hair and a serious expression, while the woman has long brown hair and a contemplative look. Surrounding them are smaller figures, including a woman with dark hair and a determined expression, and a man holding a weapon, suggesting a fantasy or action theme. The background is filled with fiery, apocalyptic imagery, including burning landscapes, a large moon, and flying bats, enhancing the intense and mysterious mood. The overall color scheme is dominated by dark tones with vivid reds and oranges, creating a sense of urgency and drama.

Изображение — это эффектный, созданный с помощью цифровых технологий постер, выполненный в мрачном, атмосферном стиле. Он представляет собой коллаж с крупными лицами мужчины и женщины на переднем плане, оба со светлым цветом кожи. У мужчины короткие темные волосы и серьезное выражение лица, а у женщины длинные каштановые волосы и задумчивый взгляд. Вокруг них расположены более мелкие фигуры, в том числе женщина с темными волосами и решительным выражением лица, и мужчина с оружием в руках, что намекает на фэнтезийную или боевую тематику. Фон заполнен огненными, апокалиптическими образами, включая горящие пейзажи, большую луну и летающих летучих мышей, что усиливает напряженную и таинственную атмосферу. В общей цветовой гамме преобладают темные тона с яркими красными и оранжевыми оттенками, создавая ощущение быстрого действия и драматизма.

Запустим три последовательных генерации блоков по четыре картинки с использованием этого промпта в трех разных моделях, чтобы продемонстрировать разницу:

Seedream 4.5 — 120 токенов
Flux 2 Pro — 249 токенов
Nano Banana — 160 токенов

Следует сказать, что самая дорогая модель показала, на наш взгляд, наихудший результат. Самым приемлемым вариантом оказалась Nano Banana. Правда, она была чересчур изобретательной и добавила в композицию от себя придуманные названия фильмов: «Эхо страны мертвых», «Пепел вечности», «Рассвет пепла» (так не говорят) и «Эхо пепла» (тоже химера). Иногда можно избежать этого словотворчества, добавив в промпт:

No visible text, slogans or logos

Без видимых надписей, лозунгов и логотипов.

Мы вставили нужное дополнение, и модель перестала удивлять плодами своей фантазии.

Попробуем улучшить промпт средствами ИИ (Improve Prompt).

Так было.

Так стало. Измененный промпт:

A decrepit, swaying hut poised on chicken legs amidst a shadowy glade in a winter spruce forest beneath a starlit sky and full moon. Within the moon's glow, the timeworn shack exudes an eerie charm, its weathered wooden walls etched with runes of old magic. This bewitching painting captures the hut's otherworldly allure, with twisted branches clawing at the night air and shimmering snowflakes frosting the enchanted scene. The hut's windows glint with an ethereal light, inviting viewers to step into a realm of fairy tale wonder.

А что перемены добавят к результатам генерации?

Стало лучше: повысилась детализация, изменился свет, стали богаче тональные переходы.

Flow State

Так называется особый режим потоковой генерации изображений, создание которых происходит по мере скроллирования содержимого окна.

Окно режима Flow State. Для генерации используется лишь одна модель — высокоскоростная Flux Schnell. Другие не могут работать в режиме быстрой генерации.

Используем такой промпт:

An eerie, creepy alien landscape on a newly discovered exoplanet, captured in a top-down ultra-wide shot. Photorealistic, vivid colors, deep shadows, and a dark, unsettling tone, enhanced by soft rim light and realistic shadows creating a low visibility, thick fog effect.

Жуткий, пугающий инопланетный пейзаж на недавно обнаруженной экзопланете, запечатленный в сверхширокоугольном ракурсе сверху вниз. Фотореалистичные яркие цвета, глубокие тени и темный, тревожный тон, усиленные мягким контурным светом и реалистичными тенями, создающими эффект густого тумана с низкой видимостью.

Поток картинок. Сохранять изображения нужно специально, что, в общем правильно. Стоимость генерации одного изображения — один токен. В нашем случае на экране их двенадцать, значит, уже 12 токенов истрачено.

Для удобства пользователя реализовано быстрое сохранение понравившегося результата в составе «коллекции».

Можно сделать полюбившееся изображение источником промпта для нового потока генерации (кнопка More Like This — больше похожего). Появится новый поток.

Поток 2 с генерацией на основе предшествующей картинки.

Дополнительные опции:

Generate Video (создать видео из картинки)
Edit in Canvas (редактировать в Канве)
Use as Image Guidance (использовать как референс)
Remove Background (убрать фон)

При обновлении экрана пропадают не только результаты генерации, но и промпт, а также все установки.

Flow State — отличная находка для тех, кто не хочет заниматься дизайном и предпочитает полагаться в этом на фантазию ИИ. Даже прокрутив 8—10 экранов, пользователь истратит меньше токенов, чем при последовательных операциях с участием других моделей, но получит большое разнообразие изображений с разной техникой исполнения, композицией, светотональными и цветовыми решениями.

Сравнение моделей

В отличие от традиционных средств ИИ-генерации изображений, знакомых по GPT, Midjourney и прочим ресурсам, Leonardo.AI предоставляет пользователю возможность работы с большим количеством моделей, причем, созданных не только командой самого сервиса, но и другими разработчиками.

Генеративные модели мы испытаем в трех номинациях:

Жанровая сцена
Фотопортрет
Постер (киноафиша)

Промпт жанровой сцены

A high-quality, cinematic photograph of an ancient white-robed wizard standing in a dark stone tower, gazing into a glowing crystal sphere that reveals a fiery, all-seeing eye within swirling smoke. The atmosphere is dramatic and mystical, with strong contrast between the wizard’s pale robes and the ominous red-orange light from the orb. Realistic lighting, hyper-detailed textures, cinematic composition, shallow depth of field, fantasy realism inspired by epic high-fantasy worlds.

Высококачественный кинокадр волшебника древности в белых одеждах, стоящего в темной каменной башне и смотрящего в светящийся хрустальный шар, в котором в клубах дыма виднеется огненное всевидящее око. Атмосфера драматичная и мистическая, с сильным контрастом между светлыми одеждами волшебника и зловещим красно-оранжевым светом шара. Реалистичное освещение, гипердетализированные текстуры, кинематографическая композиция, малая глубина резкости, фэнтезийный реализм, вдохновленный эпическими мирами высокого фэнтези.

Промпт фотопортрета

A cinematic close-up portrait of a female bus driver behind the wheel, photographed through the open driver's side window. She is focused on the road, wearing a professional uniform with a name badge, natural expression showing confidence and calm. Soft natural daylight illuminates her face from the side, creating gentle shadows and warm skin tones. Hyperrealistic photography style, shallow depth of field with the steering wheel and dashboard slightly blurred in the foreground, urban environment visible in soft bokeh through the windshield. Shot with a 50mm lens, f/2.8, cinematic color grading, rich details, photojournalistic aesthetic.

Кинематографический крупный план женщины-водителя автобуса за рулем, снятый через открытое боковое окно со стороны водителя. Она сосредоточена на дороге, одета в униформу с именной табличкой, выражение лица естественное, демонстрирующее уверенность и спокойствие. Мягкий естественный дневной свет освещает ее лицо сбоку, создавая мягкие тени и теплые оттенки кожи. Гиперреалистичный стиль фотографии, малая глубина резкости, руль и приборная панель слегка размыты на переднем плане, городская среда видна в мягком боке через лобовое стекло. Снято на объектив 50 мм, f/2.8, кинематографическая цветокоррекция, богатая детализация, фотожурналистская эстетика.

Промпт постера

A cinematic movie poster for “Hidden in This Town”, romantic mystery drama. Main composition: Close-up faces of a young man and woman, emotional tension, soft dramatic lighting on their faces. Background: Misty small town scenery with narrow streets, old buildings, mysterious atmosphere. Bottom third: Collage of smaller scenes from the movie - couple walking through foggy streets, hands touching, old map or letter, hidden doorway, secret meeting place. Professional movie poster, high quality, photorealistic, dramatic composition, shallow depth of field on faces, theatrical release quality.

Кинопостер к фильму «Скрытое в этом городе», романтической драме. Основная композиция: крупные планы лиц молодого человека и молодой женщины, эмоциональное напряжение, мягкое драматическое освещение на их лицах. Фон: туманный пейзаж маленького городка с узкими улочками, старинными зданиями, таинственной атмосферой. Нижняя треть: коллаж из небольших сцен из фильма — пара, идущая по туманным улицам, соприкасающиеся руки, старая карта или письмо, проем потайной двери, тайное место встречи. Профессиональный постер, высокое качество, фотореалистичный, драматическая композиция, малая глубина резкости на лицах, стиль для кинотеатра.

Начнем с конца, а не с начала меню Leonard.AI, поскольку способности моделей, качество генерации и ее стоимость убывают сверху вниз.

Phoenix 0.9

Оригинальная разработка Leonardo.AI. Отличается реализмом и детализацией. Создает фотореалистичные изображения с богатой текстурой, точным освещением и естественными пропорциями. Подходит для портретов, предметных композиций и концепт-арта с мягким стилем.

В качестве прототипов можно использовать:

Image to Image (картинка из картинки)
Style Ref (референс стиля)
Content Ref (референс содержимого)
Character Ref (референс объекта)

Об этих хитростях мы расскажем позднее.

Доступные соотношения сторон результирующего изображения: 1:1, 3:1 и 1:3, 2:1 и 1:2, 16:9 и 9:16, 3:2 и 2:3, 4:3 и 3:4, 5:4 и 4:5, 6:5 и 5:6.

Разрешение	1:1	16:9
Small (малое)	896×896	1184×672
Medium (среднее)	1024×1024	1376×768
Large (большое)	1120×1120	1472×832

Режимы генерации:

Fast (быстрый) — 10 токенов за изображение
Quality (качество) — 15 токенов за изображение
Ultra (высокое качество) — 27 токенов за изображение

Выбираем средние параметры.

Стоимость генерации четырех изображений — 32 токена. В целом, достаточно заурядные решения. Главное достоинство — разная композиция сцен и разная динамика в кадре.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 30 токенов.

Фотопортрет

Итоги генерации. Заметна характерная беда выходящих из употребления моделей: неправильное расположение рулевого колеса и кабины; окружение, напоминающее скорее микроавтобус, чем настоящий пассажирский автобус; несоответствие положения транспортного средства относительно дорожной полосы и других автомобилей.

Лучший результат.

Постер

Итоги генерации. Достаточно формальное отношение к композиции, особенно к кадрам сцен из фильма. Совершенно одинаковые колористические и светотональные решения на всех результатах.

Лучший результат.

Phoenix 1.0

Оригинальная разработка Leonardo.AI. Более зрелая и точная версия, чем Phoenix 0.9. Ориентирована на создание реалистичных картинок. Более естественные оттенки кожи, более точные микродетали — текстуры, волокна, отражения. Улучшены тени, контровой свет, проработка глубины сцены. Лучше интерпретирует промпты — описания композиции и стиля. Улучшено качество при высоком разрешении, должно быть уменьшено число возникающих артефактов. Подходит для портретов и жанровых сцен.

В качестве прототипов можно использовать:

Image to Image (картинка из картинки)
Style Ref (референс стиля)
Content Ref (референс содержимого)
Character Ref (референс объекта)

Разрешение	1:1	16:9
Small (малое)	896×896	1184×672
Medium (среднее)	1024×1024	1376×768
Large (большое)	1120×1120	1472×832

Режимы генерации:

Fast (быстрый) — 10 токенов за изображение
Quality (качество) — 15 токенов за изображение
Ultra (высокое качество) — 27 токенов за изображение

Выбираем средние параметры.

Стоимость генерации четырех изображений — тоже 24 токена (как и для модели Phoenix 0.9). Опять-таки не слишком затейливые решения генеративной задачи. Но вновь радует разнообразие поз, ракурсов, а также динамика на двух правых картинках.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 44 токена.

Фотопортрет

Итоги генерации. Те же проблемы, что и с Phoenix 0.9.

Лучший результат.

Постер

Итоги генерации. Несколько более заметная вариабельность цветовых решений, но в целом всё так же, как и в предыдущей версии модели.

Лучший результат.

В инструментальном наборе Leonardo.AI широко представлены генеративные модели группы Flux, которые разработал стартап Black Forest Labs, главные офисы которого расположены во Фрайбурге (Германия) и Сан-Франциско (США).

В группу входят модели Flux Schnell, Flux Dev, Flux.1 Kontext, Flux.1 Kontext Max, Flux 2.0 Pro. Согласно уверениям разработчика (впрочем, поддержанным и пользователями со стороны), Flux Pro и Flux Dev превосходят популярные Midjourney 6.0, DALL·E 3 (HD) и Stable Diffusion 3 Ultra по качеству генерации, возможностям управления промптом и разнообразию получаемых результатов. Исторически разработка моделей началась в Германии, поэтому их названия до сих пор имеют немецкую нотацию.

Flux Schnell

Наиболее быстрая модель в арсенале Leonardo.AI, отличающаяся многочисленными упрощениями, но сохраняющая приемлемое качество. Используется для оперативного прототипирования и творческих экспериментов, где важна реактивность и визуальная выразительность.

В качестве прототипов можно использовать:

Style Ref (референс стиля)
Content Ref (референс содержимого)

Доступные соотношения сторон: 3:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2, 1:3.

Разрешение	1:1	16:9	Стоимость
Small (малое)	896×896	1184×672	2
Medium (среднее)	1024×1024	1376×768	2
Large (большое)	1120×1120	1472×832	3

Режим генерации единственный, общий для всех вариантов разрешения. Выбираем среднее.

Стоимость генерации четырех изображений — 10 токенов. Сильно упрощенное представление шара — прямо как картинка художника в кадре из фильма.

Лучший результат

Апскейл лучшего результата. Стоимость операции — 20 токенов.

Фотопортрет

Итоги. Для получения единственного удовлетворительного варианта нам пришлось сделать восемь генераций по четыре картинки. Таким образом «выход годных» составил 3%. Впрочем, положение и форма рулевого колеса все равно далеки от приемлемых.

Лучший результат.

Постер

Генерацию пришлось запускать трижды; «выход годных» составил 8%. Модель вообще известна тем, что не умеет размещать текст поверх изображений.

Лучший результат.

Flux Dev

Другой вариант модели Black Forest Labs. Dev (от Developer) предназначена для более точной, детализированной генерации, когда требуется качество, а не скорость. Работает существенно медленнее, чем Flux Schnell, но лучше реализует композицию, анатомические особенности живых объектов, освещение и текстуры. Подходит для окончательного рендера, концепт-арта высокого качества, иллюстраций. Если Flux Schnell — это черновики, наброски, идеи, то Flux Dev — это доработка и окончательный результат. При работе в Leonardo.AI их нередко используют в два этапа.

В качестве прототипов можно использовать:

Style Ref (референс стиля)
Content Ref (референс содержимого)
Elements (референс компонентов изображения)

Доступные соотношения сторон: 3:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2, 1:3.

Разрешение	1:1	16:9	Стоимость
Small (малое)	896×896	1184×672	6
Medium (среднее)	1024×1024	1376×768	8
Large (большое)	1120×1120	1472×832	10

Режим генерации единственный, общий для всех вариантов разрешения. Выбираем среднее.

Стоимость генерации четырех изображений — 33 токена. Композиционно решения однотипные, построение кадра мало меняется.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 17 токенов.

Фотопортрет

Итоги генерации. Рули неподобающие, на правой нижней картинке две девушки за двумя рулями. Ни в одном из изображений нельзя узнать кабину пассажирского автобуса.

Лучший результат.

Постер

Итоги генерации. Неудачная композиция с расположением лиц слишком близко друг к другу.

Лучший результат.

Flux.1 Kontext

Модель Black Forest Labs, встроенная в Leonardo.AI, с акцентом на улучшенное понимание контекста промпта и наполнение сцены. Отличается улучшенным восприятием взаимосвязей между объектами. Модель «осознаёт», что где находится, как объекты должны взаимодействовать. Сохраняет реализм и выразительность, характерные для Flux, но делает композиции более осмысленными. Подходит для многофигурных сцен, сюжетных иллюстраций, кадров с действием и кинематографичных композиций.

В качестве прототипа можно использовать Image Ref (референс картинки).

Режимы не определены. Разрешение 1024×1024 для соотношения сторон 1:1, другие варианты — 2,4:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2. Стоимость генерации — 50 токенов за одно изображение, она не изменяется для разных соотношениях сторон.

Стоимость генерации четырех изображений — 200 токенов. Реализма явно недостаточно. Плохая работа с освещением.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 17 токенов.

Фотопортрет

Итоги генерации. На половине картинок нельзя узнать пассажирский автобус.

Лучший результат.

Постер

Итоги генерации. Решения чуть лучше, чем были ранее. Но с текстом модель работает не очень удачно.

Лучший результат.

Flux.1 Kontext Max

Модель Black Forest Labs в составе инструментов Leonardo.AI. Является улучшенной версией Flux.1 Kontext. Использует более масштабную модель с расширенным набором параметров, поэтому лучше понимает сложные сцены и промпты. Создает более детализированные рендеры. Точнее передает взаимосвязи между объектами и атмосферу сцены, что делает композиции более естественными. В отличие от Flux.1 Kontext требует больше времени и аппаратных ресурсов.

Прототипом может служить только референс картинки (Image Ref).

Режимы не определены. Разрешение 1024×1024 для соотношения сторон 1:1, другие варианты: 2:1, 16:9, 4:3, 4:5, 2:3, 9:16. Стоимость генерации — 100 токенов за одно изображение.

Стоимость генерации четырех изображений — 400 токенов. Цена высокая, но результаты того не стоят. Повторяется ситуация с Flux.1 Kontext.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 17 токенов.

Фотопортрет

Итоги генерации. В погоне за якобы реализмом модель намешала бликов на стеклах переднего плана, которые испортили результаты. Кстати, в промпте указано, что фотографирование ведется через открытое стекло двери, а здесь видна не дверь, а поверхность стекла.

Лучший результат.

Постер

Итоги генерации. Решения неудачные с точки зрения композиции, света, расположения текста.

Лучший результат.

GPT Image-1

Генеративная модель OpenAI, встроенная в GPT, а затем использованная Leonardo.AI. Умеет создавать фотореалистичные изображения и иллюстрации. Работает быстрее и стабильнее, чем ранние версии DALL·E, с улучшенным управлением деталями и стилем. Можно комбинировать GPT Image‑1 с моделями Phoenix и Flux, применяя стили, фильтры и постобработку. Подходит для создания и реалистичных, и концептуальных изображений, включая продукт‑рендеры, фэнтези‑сцены, иллюстрации и дизайн.

Прототипом может служить только референс картинки (Image Ref).

Режимы генерации не определены. Доступно разрешение только 1024×1024 для соотношения сторон 1:1. Другие варианты соотношения сторон — 2:3 и 3:2. Стоимость генерации — 50 токенов за одно изображение, она не меняется для разных соотношений сторон.

Можно выбрать один из трех вариантов качества результирующего изображения.

Качество	Стоимость
Low (низкое)	20
Medium (среднее)	60
High (высокое)	215

Выбираем Medium.

Стоимость генерации четырех изображений — 340 токенов. Реализм неплох, но композиции бедны, фон не проработан. Выражение лица, складки ткани на плаще однообразны, поэтому выглядят скучновато. Персонаж слишком напоминает Иэна МакКеллена в роли Гэндальфа.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 25 токенов.

Фотопортрет

Итоги генерации. Лица «деревянные», заметны проблемы как с транспортным средством (это всё же не привычный для нас автобус), так и с рулем. Одежда однообразная, лица скучные и невыразительные.

Лучший результат.

Постер

Итоги генерации. Всё однообразно и малоинтересно.

Лучший результат.

Ideogram 3.0

Ideogram 3.0 создана командой Ideogram AI. В Leonardo.AI она доступна как одна из подключаемых генеративных моделей. Отличается точной работой с текстом в изображениях: правильно размещает надписи, логотипы, слоганы. Генерирует картинки с выразительной композицией, чистыми линиями и современным дизайнерским стилем. Хорошо разбирается в сложных описаниях, сочетает визуальные и текстовые элементы в единую композицию.

С этой моделью референсные изображения использовать нельзя.

Разрешение на выходе: 1024×1024 для соотношения сторон 1:1; 1376×768 для 16:9. Доступны 2:1, 16:9, 4:3, 1:1, 4:5, 2:3, 9:16. Можно выбрать один из трех режимов генерации.

Режим	Стоимость
Turbo (приоритет скорости генерации в ущерб качеству)	35
Balanced (сбалансированный по скорости и качеству)	70
Quality (приоритет качества в ущерб скорости генерации)	105

Выбираем Balanced — «золотую середину» по скорости генерации и качеству.

Стоимость генерации четырех изображений — 420 токенов. Персонаж выглядит не очень реалистичным, даже искусственным, зато шары получились очень хорошо. Правда, в них отражается едва ли не интерьер современного офиса.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 25 токенов.

Фотопортрет

Итоги генерации. По части персонажей это, пожалуй, первые результаты, которые можно считать по-настоящему приемлемыми.

Лучший результат.

Постер

Итоги генерации. С лицами дело обстоит почти хорошо, с названием фильма появляются сложности.

Лучший результат.

Flux.2 Pro

Это премиум-модель Black Forest Labs, способная генерировать изображения в высоком разрешении и ультракачестве. Результаты генерации отличаются выдающейся резкостью и отличной проработкой мелких деталей. Модель лучше справляется со сложным взаимодействием нескольких объектов, эффективнее использует перспективу и анатомические подробности, понижая к тому же вероятность появления «галлюцинаций» (неожиданных элементов и артефактов).

Прототипом может служить только референс картинки (Image Guidance).

Соотношение сторон	Разрешение	Стоимость
2:1	960×1440	41
1:1	1440×1440	62
16:9	1440×816	35
9:16	816×1440	35

Стоимость генерации четырех изображений — 141 токен. Композиционное решение одно из лучших, виденных доселе. Выражение лица персонажа решено удачно.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 19 токенов.

Фотопортрет

Итоги генерации. С автобусной кабиной нас постигла явная неудача, с лицами всё много лучше.

Лучший результат.

Постер

Итоги генерации. То же, что и ранее: с лицами хорошо, а с остальным — не очень.

Лучший результат.

Lucid Realism

Это тонко настроенная генеративная модель, следующая стилизованной фотореалистичности с кинематографичным или сюрреалистичным оттенком. Результаты не стремятся к документальной фотографии — пользователь получает изображения, которые выглядят как кадры из высокобюджетного фильма, картины снов или цифровое искусство. Модель мастерски работает со светом: контровой, неоновый, свет от экранов, атмосферные лучи — это ее «визитная карточка». Кожа, волосы, материалы (металл, стекло, ткань) прорабатываются с особой четкостью в процессе 3D-рендера.

Прототипом могут служить референсы стиля и контента.

Доступны 3:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2, 1:3.

Можно выбрать один из двух режимов генерации.

		Small	Medium	Large
Fast (быстро)	Разрешение	1376×768	1600×896	1920×1088
Fast (быстро)	Стоимость	8	11	17
Ultra (качественно)	Разрешение	2752×1536	3200×1792	3840×2176
Ultra (качественно)	Стоимость	25	34	50

Выбираем Fast Medium.

Стоимость генерации четырех изображений — 141 токен. Композиционно решения неудачные: ни на одной картинке не видно лица. Мы сделали еще три повторных генерации, но на всех изображениях маг был обращен спиной к зрителю. Это явные проблемы модели. Всё остальное вполне приемлемо.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 23 токена.

Фотопортрет

Итоги генерации. Что касается лиц, то они уже похожи на настоящие фото. Но с рулем заметны те же сложности, что и ранее.

Лучший результат.

Постер

Итоги генерации. Больших удач нет, композиционно всё слишком нагромождено.

Лучший результат.

Nano Banana

Официальное наименование — Gemini 2.5 Flash Image (детище Google DeepMind). Быстрая, тщательно настроенная модель для осмысленной генерации на основе текстовых промптов для получения высококачественных изображений.

Прототипом могут служить референс-изображения.

Разрешение на выходе: 1024×1024 для соотношения сторон 1:1; 1344×768 для 16:9. Доступные соотношения сторон: 3:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2, 1:3.

Стоимость генерации четырех изображений — 160 токенов. Лучшее из того, что было сделано до этого времени. Проработка лица, текстуры и складок ткани, работа с освещением — всё на достойном уровне.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 17 токенов.

Фотопортрет

Итоги генерации. Несколько бедновато, но на фотографии походит.

Лучший результат.

Seedream 4.0

Бесплатная (на входе) модель ByteDance — китайской компании со штаб-квартирой в Пекине.

Модель создает «современный» визуальный стиль и стабильный результат. Хорошо справляется с портретами, иллюстрациями, предметными картинками, окружением, постерами. Дает ровные результаты при смешанных запросах (стиль + сцена + свет + материал). Композиции более «собранные»: читаемый силуэт, акцент на объекте, выразительный свет. Лучше работает, когда промпт разделен на блоки: объект, окружение, свет, стиль, качество. Меньше «провалов» от одной генерации к другой при одинаковых настройках. Удобна, когда надо быстро получить серию вариантов с похожим визуальным языком. Слабости: ошибки в тексте, известные проблемы с числом пальцев на руках и их взаиморасположением, пренебрежение мелкими деталями, что не дает «жесткого» фотореализма.

Прототипом могут служить только изображения.

Доступные соотношения сторон: 3:1, 2,4:1, 21:9, 2:1, 1,85:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 5:6, 4:5, 3:4, 2:3, 9:16, 1:2, 1:3.

Разрешение	1:1	16:9	Стоимость
Small (малое)	1024×1024	1920×1080	30
Medium (среднее)	2048×2048	2560×1440	30
Large (большое)	4096×4096	4096×2304	30

Поскольку цена за все варианты разрешения одинаковая, выбираем Large.

Стоимость генерации четырех изображений — 120 токенов. Цветовые решения сомнительные. Общее впечатление: перед нами игра. Это не значит, что всё плохо, но реализма явно недостает.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 74 токена.

Фотопортрет

Итоги генерации. Очень удачные решения. Хорошая работа с освещением. Несомненный фотореализм.

Лучший результат.

Постер

Итоги генерации. Всё слишком однообразно, и цветовые решения сомнительные.

Лучший результат.

Gemini 3 Pro Image (Nano Banana Pro)

Обновленная модель Google DeepMind, доступная на платформе Leonardo.Ai. Она способна создавать высококачественные изображения с разрешением до 5632×3072 пикселей, корректно отображает текст на ста языках, умеет рисовать диаграммы и карты, хорошо подходит для визуализации данных и создания инфографики, но работает медленнее более простых моделей и требует больше токенов.

Прототипом могут служить референсы изображений.

Доступные соотношения сторон: 21:9, 16:9, 3:2, 4:3, 5:4, 1:1, 4:5, 3:4, 2:3, 9:16.

Разрешение	1:1	16:9	Стоимость
Small (малое)	1024×1024	1920×1080	140
Medium (среднее)	2048×2048	2560×1440	140
Large (большое)	4096×4096	4096×2304	250

Поскольку цена Small и Medium одинаковая, выбираем Medium.

Стоимость генерации четырех изображений — 560 токенов. Вновь явное заимствование облика Иэна МакКеллена, хотя заимствование очень удачное. Результаты, пожалуй, лучшие из уже испытанного.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 68 токенов.

Фотопортрет

Итоги генерации. «Фотографичность», освещение лиц и их выражение на высоте. А вот с автобусом явная неудача.

Лучший результат.

Постер

Итоги генерации. Малоудачные решения с точки зрения композиции и цвета.

Лучший результат.

Seedream 4.5

Как и прежняя версия (4.0), это продукт китайской компании ByteDance. Выпущена в начале 2026 г. Точно учитывает минимальные изменения референсных изображений. Может изменять детали одежды, фона и объектов с сохранением освещения и мимики персонажей. Способна объединять несколько картинок в одну сцену. Умеет создавать динамические вариации на основе ключевого сюжета. Правильно размещает плотный текст внутри изображений. Разрешение на выходе до 4K. Небольшая длительность генерации. Оптимизирована для проработки идей и прототипирования. Поддерживает inpainting (дорисовку изображения), outpainting (расширение изображения за пределы рамок), изменение персонажей и фона сцены.

Прототипом могут служить референсы изображений.

Доступные соотношения сторон: 3:1, 2,4:1, 21:9, 2:1, 1,85:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 5:6, 4:5, 3:4, 2:3, 9:16, 1:2, 1:3.

Разрешение	1:1	16:9	Стоимость
Medium (среднее)	2048×2048	2560×1440	30
Large (большое)	4096×4096	4096×2304	30

Поскольку цена за оба варианта разрешения одинаковая, выбираем Large.

Стоимость генерации четырех изображений — 120 токенов. Почти то же самое, что выдала прежняя версия этой модели. Работа освещения в кадре стала акцентированной, и это выглядит нарочито.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 74 токена.

Фотопортрет

Итоги генерации. Репортажная портретная фотография имитирована хорошо.

Лучший результат.

Постер

Итоги генерации. То же самое, что было у прежней версии. Цветовое решение неудачное. Лица те же.

Лучший результат.

GPT Image-1.5

Новая версия (о GPT Image-1 см. выше) генеративной модели OpenAI, выпущенная в декабре 2025 г. Скорость генерации выросла почти в четыре раза, модель стала точнее следовать промптам. В рейтинге Image Arena опередила со значительным отрывом Flux.2 и Gemini 3 Pro Image (Nano Banana Pro). GPT Image 1.5 меняет только то, что просит пользователь, сохраняя освещение, композицию и внешность людей. Это позволяет, например, «примерять» прически и одежду, не искажая лицо.

Прототипом может служить только референс картинки.

Стоимость генерации

Качество	2:3 (1024×1536)	1:1 (1024×1024)	3:2 (1536×1024)
Low	20	13	20
Medium	57	38	57
High	206	137	206

Стоимость генерации четырех изображений — 228 токенов. Работы одни из наиболее реалистичных, композиции — из наиболее удачных.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 25 токенов.

Фотопортрет

Итоги генерации. Реализм на высоте, но все лица одинаковые.

Лучший результат.

Постер

Итоги генерации. Композиционно удачные решения.

Лучший результат.

Lucid Origin

Новый стандарт генерации изображений Leonardo.AI, ориентированный на высокую детализацию и фотографическую точность. Создает изображения с богатой палитрой и выразительной визуальной глубиной. Разрешение на выходе в формате Full HD для максимальной четкости. Легко переключается между стилями от гиперреализма до рисованной графики. Качественно раскладывает текст, макет и брендированный контент. Адекватно интерпретирует запросы и выдает предсказуемые результаты.

Прототипом могут служить референсы стиля и контента.

Доступны 3:1, 2:1, 16:9, 3:2, 4:3, 5:4, 6:5, 1:1, 4:5, 5:6, 3:4, 2:3, 9:16, 1:2, 1:3.

Можно выбрать один из двух режимов генерации.

		Small	Medium	Large
Fast (быстро)	Разрешение	1376×768	1600×896	1920×1088
Fast (быстро)	Стоимость	8	11	17
Ultra (качественно)	Разрешение	2752×1536	3200×1792	3840×2176
Ultra (качественно)	Стоимость	25	34	50

Выбираем Ultra Medium.

Стоимость генерации четырех изображений — 138 токенов. Решения с глазом неудачные. То же ситуация, что и при работе с моделью Lucid Realism. Проработка деталей ока явно не удалась.

Лучший результат.

Апскейл лучшего результата. Стоимость операции — 74 токена.

Фотопортрет

Итоги генерации. Лица решены удачно, но цвет и светотональные решения сомнительные.

Лучший результат.

Постер

Итоги генерации. Варианты интересные, композиция неплоха. Текст нигде не мешается. Фактура поверхности кожи на лицах избыточно подчеркнута.

Лучший результат.

Итог

Нам с самого начала не хотелось выступать здесь со своими суждениями и рекомендациями. В изобразительном искусстве (даже если этот оборот кажется ироничным применительно к нейросетевой генерации) основное значение имеют личные предпочтения и индивидуальные вкусы. Мы предоставляем читателю право самому судить о пригодности моделей для решения тех или иных задач. Следует отметить главное: до сего момента даже наиболее продвинутые генеративные средства не избавляют созданные ими картинки от привкуса искусственности и нарочитости. Их едва ли можно принять за настоящие фотографии, полученные в реальных условиях. Впрочем, окончательный и бесповоротный триумф ИИ в таком деле — это вопрос времени. Ведь за каких-нибудь три года в этой области совершен рывок небывалого масштаба, и скоро придет время настоящих чудес.

Экскурсия по нейросети Leonardo.AI и сравнительные испытания моделей для генерации изображений

Оглавление

Инструментальный набор

Blueprints

Video

Upscaler

Image

Flow State

Сравнение моделей

Phoenix 0.9

Phoenix 1.0

Flux Schnell

Flux Dev

Flux.1 Kontext

Flux.1 Kontext Max

GPT Image-1

Ideogram 3.0

Flux.2 Pro

Lucid Realism

Nano Banana

Seedream 4.0

Gemini 3 Pro Image (Nano Banana Pro)

Seedream 4.5

GPT Image-1.5

Lucid Origin

Итог