10 актуальных ИИ-моделей для генерации изображений, которые стоит иметь на своём компьютере в 2024

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

CivitAI превратилась в настоящую сокровищницу ИИ для создания изображений. Тысячи бесплатных моделей, каждая со своими уникальными особенностями и возможностями, позволяют воплотить в жизнь практически любую творческую задумку. Однако в таком многообразии легко потеряться даже опытному пользователю.

Я решил поделиться списком из десяти моделей, которые активно использую в своей работе. Каждая из них занимает особую нишу и решает определённый спектр задач — от создания фотореалистичных портретов до стилизованных иллюстраций. Давайте рассмотрим каждую из них подробнее и разберёмся, какие преимущества они могут предложить современному художнику, дизайнеру или вебмастеру.


Flux Dev

Пример генерации
Автор: LeVK

Flux Dev по праву занимает первое место в списке, представляя собой настоящий прорыв в технологии генерации изображений. В отличие от предшественников, модель способна работать с обычными текстовыми описаниями без необходимости использования специальных тегов и ключевых слов. Достаточно написать обычный описательный абзац текста на английском, и Flux Dev превратит его в визуальный образ с впечатляющей точностью.

Главное преимущество модели заключается в поддержке высоких разрешений — до 2048 пикселей по сумме осей, что открывает широкие возможности для создания детализированных изображений. Кроме того, весьма полезна уникальная способность модели корректно интегрировать текст из промпта в изображение, избегая типичных для других моделей искажений и нечитаемых символов.

К сожалению, такая мощь требует соответствующих аппаратных ресурсов. Для работы с Flux Dev необходимо минимум 12 гигабайт видеопамяти при 32 гигабайтах оперативной памяти. На практике понадобится видеокарта уровня RTX 4070/4080m или выше. При использовании менее мощных GPU время генерации одного изображения может превышать минуту, хотя результат, безусловно, стоит ожидания.

SDXL

Пример генерации
Автор: LeVK

SDXL остаётся золотым стандартом среди моделей на базе Stable Diffusion. Несмотря на появление множества специализированных решений, именно SDXL предлагает оптимальный баланс между качеством, универсальностью и требованиями к оборудованию.

Модель обладает обширной базой знаний, хорошо следует инструкциям в промптах и досконально изучена сообществом — для неё существуют тысячи готовых надстроек, дополнений и инструкций. Особенно важно, что SDXL способна работать на видеокартах с 8 гигабайтами памяти, хотя и находится на пределе их возможностей.

Стабильность работы и предсказуемость результатов делают SDXL идеальной основой для экспериментов и повседневного использования. Модель прекрасно подходит как для создания художественных работ, так и для генерации фотореалистичных изображений.

SDXL-Turbo

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

SDXL-Turbo — оптимизированная версия классического SDXL, предлагающая впечатляющий прирост производительности. Вместо привычных 20-32 шагов генерации, необходимых для получения качественного изображения, модели достаточно всего 2-4 итерации для создания сопоставимого результата.

Основным ограничением SDXL-Turbo выступает лицензия, допускающая исключительно некоммерческое использование. Данное условие существенно сужает область применения модели, делая её подходящей только для личных проектов и экспериментов. При этом качество генерации находится на уровне базового SDXL, что делает модель привлекательным выбором для быстрого прототипирования и тестирования идей.


Pony Diffusion

Пример генерации
Автор: LeVK

Pony Diffusion — первая в нашем списке модель, созданная сообществом с чистого листа. Основанная на архитектуре SDXL, она получила принципиально новый датасет, ориентированный на создание мультипликационных изображений и антропоморфных персонажей.

Уникальность Pony Diffusion заключается в способности генерировать широчайший спектр стилизованных персонажей — от мультипликации до аниме. Модель прекрасно справляется с созданием оригинальных дизайнов, сохраняя при этом узнаваемые черты выбранного художественного стиля.

Благодаря специализированному обучению модель демонстрирует поразительную стабильность при работе с мультипликационными стилями, устойчиво превосходя универсальные решения в данной нише. При этом Pony Diffusion сохраняет все преимущества архитектуры SDXL, включая поддержку сравнительно высоких разрешений и относительно простой промптинг.

Protogen X5.3

Пример генерации
Автор: LeVK

Protogen X5.3 — один из немногих деривативов SD 1.5, сохранивших актуальность в 2024 году. Модель выделяется впечатляющим разнообразием поддерживаемых стилей и стабильно высоким качеством генерации, несмотря на относительно устаревшую базовую архитектуру.

Ключевая особенность модели — экстремально низкие системные требования. При правильной оптимизации Protogen X5.3 способен работать всего с 2-3 гигабайтами видеопамяти, а на более мощных конфигурациях генерирует «веер» из 4-8 изображений за считанные секунды. Рекомендуется использовать VAE Anything-v4.0.vae.pt для достижения оптимальных результатов.

Главный недостаток модели — ограничение по разрешению (максимум 1024x768 пикселей без потери стабильности) и высокая требовательность к качеству промптов. Однако при должном опыте работы Protogen X5.3 способен создавать изображения, мало уступающие результатам более современных моделей, причём делает это значительно быстрее.

RMSDXL

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

RMSDXL — уникальный комплект специализированных моделей, каждая из которых оптимизирована под конкретную задачу. В пакет входят отдельные модели для создания художественных работ, фотореалистичных изображений и иллюстраций различных стилей.

Благодаря узкой специализации каждой подмодели, RMSDXL достигает выдающихся результатов в своих нишах. Особенно впечатляет способность корректно встраивать текст в изображения — редкая возможность для моделей на базе SDXL.

Однако у RMSDXL есть существенный недостаток — пакет основан на архитектуре SDXL-Turbo и распространяется под некоммерческой лицензией. Все сгенерированные изображения могут использоваться только в личных и некоммерческих проектах, что ограничивает профессиональное применение модели.

Flux Schnell

Пример генерации
Автор: LeVK

Flux Schnell — младший брат Flux Dev, предлагающий похожие возможности при значительно большей скорости работы. Модель унаследовала главные преимущества старшей версии: понимание естественного языка, способность встраивать текст в изображения и коммерческую лицензию без ограничений.

Основное преимущество Flux Schnell — скорость работы. Модели достаточно 3-5 шагов для создания качественного изображения, что сопоставимо с показателями SDXL-Turbo. При этом, в отличие от последней, все права на сгенерированные изображения принадлежат пользователю.

К недостаткам можно отнести высокие системные требования (рекомендуется минимум 12 ГБ видеопамяти), несколько сниженное по сравнению с Flux Dev качество и слабую поддержку со стороны сообщества. Количество доступных LoRA также оставляет желать лучшего.

Cheyenne

Пример генерации
Автор: LeVK

Cheyenne, построенная на архитектуре SDXL, демонстрирует выдающиеся результаты в создании книжных и комиксовых иллюстраций. Модель одинаково уверенно справляется как с цветными, так и с чёрно-белыми работами.

Особая обработка датасета позволила добиться характерной стилистики, напоминающей работы профессиональных иллюстраторов. Модель прекрасно подходит для оформления книг, комиксов и графических новелл.

Realistic Vision V5.1

Пример генерации
Автор: LeVK

Realistic Vision V5.1 раскрывает предельные возможности архитектуры Stable Diffusion 1.5 в области фотореализма. Несмотря на определённые ограничения и необходимость глубокого понимания принципов промптинга, модель предлагает впечатляющее соотношение качества и системных требований.

Низкие требования к оборудованию и активная поддержка сообщества делают модель отличным выбором для быстрого прототипирования идей. Встроенный VAE избавляет от необходимости дополнительной настройки, а высокая скорость работы позволяет генерировать большое количество вариантов за короткое время.

RealVisXL V5.0

Пример генерации
Автор: LeVK

RealVisXL V5.0 представляет собой вершину фотореализма, достижимую на архитектуре SDXL. Созданная и обученная сообществом, модель демонстрирует исключительное качество генерации фотореалистичных изображений, хотя и требует серьёзных навыков промптинга.

В сравнении с базовой SDXL, RealVisXL V5.0 показывает заметно более высокое качество детализации и естественность освещения. Однако улучшения даются ценой определённой нестабильности результатов — модель может быть капризной и требует тщательного подбора параметров.

Для пользователей, которые не могут или не хотят использовать более требовательные решения вроде Flux Dev (из-за системных требований или неготовности ждать), RealVisXL V5.0 предлагает отличную альтернативу в нише фотореалистичной генерации. Модель особенно хорошо проявляет себя при создании портретов и пейзажей.


• • •

Мир генеративного ИИ развивается стремительными темпами, и уместить все достойные внимания модели в десять позиций практически невозможно. Каждая из описанных моделей имеет свои сильные стороны и области применения, и выбор конкретного инструмента всегда зависит от поставленных задач.

В моей повседневной работе я регулярно использую значительно больше моделей, чем вошло в этот список.

Моделей много не бывает, да…
Автор: Microsoft

Тем не менее, представленная десятка отражает текущее состояние индустрии и демонстрирует разнообразие доступных инструментов — от универсальных решений до узкоспециализированных моделей.

Начинающим пользователям я рекомендую освоить хотя бы половину из представленных моделей. Такой набор инструментов позволит решать большинство типовых задач и заложит прочный фундамент для дальнейшего развития в сфере ИИ-генерации изображений.

P.S. Все примеры генерации были созданы без точного «допила» промта и выбора лучших среди десятков. Это сделано, дабы меня не обвиняли в предвзятости — лучшее, на что способна каждая из представленных выше моделей можно найти в их карточках на «цивитке».

Читайте также

Новости

Публикации