10 актуальных ИИ-моделей для генерации изображений, которые стоит иметь на своём компьютере в 2024

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Тематическая подборка | ИИ, сервисы и приложения

CivitAI превратилась в настоящую сокровищницу ИИ для создания изображений. Тысячи бесплатных моделей, каждая со своими уникальными особенностями и возможностями, позволяют воплотить в жизнь практически любую творческую задумку. Однако в таком многообразии легко потеряться даже опытному пользователю.

Я решил поделиться списком из десяти моделей, которые активно использую в своей работе. Каждая из них занимает особую нишу и решает определённый спектр задач — от создания фотореалистичных портретов до стилизованных иллюстраций. Давайте рассмотрим каждую из них подробнее и разберёмся, какие преимущества они могут предложить современному художнику, дизайнеру или вебмастеру.

Flux Dev

Пример генерации
Автор: LeVK

Flux Dev по праву занимает первое место в списке, представляя собой настоящий прорыв в технологии генерации изображений. В отличие от предшественников, модель способна работать с обычными текстовыми описаниями без необходимости использования специальных тегов и ключевых слов. Достаточно написать обычный описательный абзац текста на английском, и Flux Dev превратит его в визуальный образ с впечатляющей точностью.

Главное преимущество модели заключается в поддержке высоких разрешений — до 2048 пикселей по сумме осей, что открывает широкие возможности для создания детализированных изображений. Кроме того, весьма полезна уникальная способность модели корректно интегрировать текст из промпта в изображение, избегая типичных для других моделей искажений и нечитаемых символов.

К сожалению, такая мощь требует соответствующих аппаратных ресурсов. Для работы с Flux Dev необходимо минимум 12 гигабайт видеопамяти при 32 гигабайтах оперативной памяти. На практике понадобится видеокарта уровня RTX 4070/4080m или выше. При использовании менее мощных GPU время генерации одного изображения может превышать минуту, хотя результат, безусловно, стоит ожидания.

SDXL

Пример генерации
Автор: LeVK

SDXL остаётся золотым стандартом среди моделей на базе Stable Diffusion. Несмотря на появление множества специализированных решений, именно SDXL предлагает оптимальный баланс между качеством, универсальностью и требованиями к оборудованию.

Модель обладает обширной базой знаний, хорошо следует инструкциям в промптах и досконально изучена сообществом — для неё существуют тысячи готовых надстроек, дополнений и инструкций. Особенно важно, что SDXL способна работать на видеокартах с 8 гигабайтами памяти, хотя и находится на пределе их возможностей.

Стабильность работы и предсказуемость результатов делают SDXL идеальной основой для экспериментов и повседневного использования. Модель прекрасно подходит как для создания художественных работ, так и для генерации фотореалистичных изображений.

SDXL-Turbo

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

SDXL-Turbo — оптимизированная версия классического SDXL, предлагающая впечатляющий прирост производительности. Вместо привычных 20-32 шагов генерации, необходимых для получения качественного изображения, модели достаточно всего 2-4 итерации для создания сопоставимого результата.

Основным ограничением SDXL-Turbo выступает лицензия, допускающая исключительно некоммерческое использование. Данное условие существенно сужает область применения модели, делая её подходящей только для личных проектов и экспериментов. При этом качество генерации находится на уровне базового SDXL, что делает модель привлекательным выбором для быстрого прототипирования и тестирования идей.

Pony Diffusion

Пример генерации
Автор: LeVK

Pony Diffusion — первая в нашем списке модель, созданная сообществом с чистого листа. Основанная на архитектуре SDXL, она получила принципиально новый датасет, ориентированный на создание мультипликационных изображений и антропоморфных персонажей.

Уникальность Pony Diffusion заключается в способности генерировать широчайший спектр стилизованных персонажей — от мультипликации до аниме. Модель прекрасно справляется с созданием оригинальных дизайнов, сохраняя при этом узнаваемые черты выбранного художественного стиля.

Благодаря специализированному обучению модель демонстрирует поразительную стабильность при работе с мультипликационными стилями, устойчиво превосходя универсальные решения в данной нише. При этом Pony Diffusion сохраняет все преимущества архитектуры SDXL, включая поддержку сравнительно высоких разрешений и относительно простой промптинг.

Protogen X5.3

Пример генерации
Автор: LeVK

Protogen X5.3 — один из немногих деривативов SD 1.5, сохранивших актуальность в 2024 году. Модель выделяется впечатляющим разнообразием поддерживаемых стилей и стабильно высоким качеством генерации, несмотря на относительно устаревшую базовую архитектуру.

Ключевая особенность модели — экстремально низкие системные требования. При правильной оптимизации Protogen X5.3 способен работать всего с 2-3 гигабайтами видеопамяти, а на более мощных конфигурациях генерирует «веер» из 4-8 изображений за считанные секунды. Рекомендуется использовать VAE Anything-v4.0.vae.pt для достижения оптимальных результатов.

Главный недостаток модели — ограничение по разрешению (максимум 1024x768 пикселей без потери стабильности) и высокая требовательность к качеству промптов. Однако при должном опыте работы Protogen X5.3 способен создавать изображения, мало уступающие результатам более современных моделей, причём делает это значительно быстрее.

RMSDXL

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

RMSDXL — уникальный комплект специализированных моделей, каждая из которых оптимизирована под конкретную задачу. В пакет входят отдельные модели для создания художественных работ, фотореалистичных изображений и иллюстраций различных стилей.

Благодаря узкой специализации каждой подмодели, RMSDXL достигает выдающихся результатов в своих нишах. Особенно впечатляет способность корректно встраивать текст в изображения — редкая возможность для моделей на базе SDXL.

Однако у RMSDXL есть существенный недостаток — пакет основан на архитектуре SDXL-Turbo и распространяется под некоммерческой лицензией. Все сгенерированные изображения могут использоваться только в личных и некоммерческих проектах, что ограничивает профессиональное применение модели.

Flux Schnell

Пример генерации
Автор: LeVK

Flux Schnell — младший брат Flux Dev, предлагающий похожие возможности при значительно большей скорости работы. Модель унаследовала главные преимущества старшей версии: понимание естественного языка, способность встраивать текст в изображения и коммерческую лицензию без ограничений.

Основное преимущество Flux Schnell — скорость работы. Модели достаточно 3-5 шагов для создания качественного изображения, что сопоставимо с показателями SDXL-Turbo. При этом, в отличие от последней, все права на сгенерированные изображения принадлежат пользователю.

К недостаткам можно отнести высокие системные требования (рекомендуется минимум 12 ГБ видеопамяти), несколько сниженное по сравнению с Flux Dev качество и слабую поддержку со стороны сообщества. Количество доступных LoRA также оставляет желать лучшего.

Cheyenne

Пример генерации
Автор: LeVK

Cheyenne, построенная на архитектуре SDXL, демонстрирует выдающиеся результаты в создании книжных и комиксовых иллюстраций. Модель одинаково уверенно справляется как с цветными, так и с чёрно-белыми работами.

Особая обработка датасета позволила добиться характерной стилистики, напоминающей работы профессиональных иллюстраторов. Модель прекрасно подходит для оформления книг, комиксов и графических новелл.

Realistic Vision V5.1

Пример генерации
Автор: LeVK

Realistic Vision V5.1 раскрывает предельные возможности архитектуры Stable Diffusion 1.5 в области фотореализма. Несмотря на определённые ограничения и необходимость глубокого понимания принципов промптинга, модель предлагает впечатляющее соотношение качества и системных требований.

Низкие требования к оборудованию и активная поддержка сообщества делают модель отличным выбором для быстрого прототипирования идей. Встроенный VAE избавляет от необходимости дополнительной настройки, а высокая скорость работы позволяет генерировать большое количество вариантов за короткое время.

RealVisXL V5.0

Пример генерации
Автор: LeVK

RealVisXL V5.0 представляет собой вершину фотореализма, достижимую на архитектуре SDXL. Созданная и обученная сообществом, модель демонстрирует исключительное качество генерации фотореалистичных изображений, хотя и требует серьёзных навыков промптинга.

В сравнении с базовой SDXL, RealVisXL V5.0 показывает заметно более высокое качество детализации и естественность освещения. Однако улучшения даются ценой определённой нестабильности результатов — модель может быть капризной и требует тщательного подбора параметров.

Для пользователей, которые не могут или не хотят использовать более требовательные решения вроде Flux Dev (из-за системных требований или неготовности ждать), RealVisXL V5.0 предлагает отличную альтернативу в нише фотореалистичной генерации. Модель особенно хорошо проявляет себя при создании портретов и пейзажей.

• • •

Мир генеративного ИИ развивается стремительными темпами, и уместить все достойные внимания модели в десять позиций практически невозможно. Каждая из описанных моделей имеет свои сильные стороны и области применения, и выбор конкретного инструмента всегда зависит от поставленных задач.

В моей повседневной работе я регулярно использую значительно больше моделей, чем вошло в этот список.

Моделей много не бывает, да…
Автор: Microsoft

Тем не менее, представленная десятка отражает текущее состояние индустрии и демонстрирует разнообразие доступных инструментов — от универсальных решений до узкоспециализированных моделей.

Начинающим пользователям я рекомендую освоить хотя бы половину из представленных моделей. Такой набор инструментов позволит решать большинство типовых задач и заложит прочный фундамент для дальнейшего развития в сфере ИИ-генерации изображений.

P.S. Все примеры генерации были созданы без точного «допила» промта и выбора лучших среди десятков. Это сделано, дабы меня не обвиняли в предвзятости — лучшее, на что способна каждая из представленных выше моделей можно найти в их карточках на «цивитке».

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Наношу добро, причиняю пользу, благодарен за лайки и содержательные (дополняющие статьи) комментарии.

17 комментариев

Добавить комментарий

Pchelkin
Если бы я мог позволить себе комп с таким железом, то наверное воспользовался бы. А так, пользую то, что есть.
LeVK
А что мешает селфхостить, если денег на железо «в руках» нет? Сейчас арендовать инстанс с 4080 на борту можно за 20-40 рублей в час. Сконнектился по RDP, развернул фордж из облака и вперед.
B
Я так полагаю, как раз каждый раз час будет уходить на настройку, а это уже далеко не 20-40 рублей, да и трудозатратно.
LeVK
Конфиги автоматиковский WebUI хранит как два JSON-файла, которые вполне можно развернуть из того же облака скриптом вместе с моделями. А настройка самого webui на новой системе — тупо update.bat->run.bat, 30 секунд на все про все включая распаковку.
B
Вы забываете, что даже на шустром интернете загрузка модулей питона занимает далеко не 5 минут.
LeVK
В том и прелесть форджа, что он поставляется уже как AIO-пакет со всем необходимым в двухгигабайтном архиве. Загрузить ему надо только апдейты, плюс самое большее пара минут на то, чтобы развернуть локальную среду.
Mercoff
Вообще не надо это диво. Оно изначально было кривое и таким всегда останется. Даже хуже: оно еще и деградирует, потому что учится на своих же результатах, которые выполнены с ошибками. Мне ни разу не пригодился «ии», хотя по идее я должен его юзать каждый день, отвечая за наполнение сайта инфой. Попытался. Раз, два, три… Посмеялся и послал нафик.
ИИ — это просто пузырь, в который кому-то выгодно вдувать бабло.
LeVK
А я, например, имею диаметрально противоположные результаты. ИИ помогает быстрее писать (хотя автора не заменит ещё скоро, но взять на себя редактуру — совсем не то же, что втупую набивать килознаки), генерировать иллюстрации в разных стилях, фейковые, но неотличимые от реальности фото...
Просто, как и с любым инструментом, его надо уметь готовить. То есть — разбираться в теме, в промтинге и том, какие «крутилки панели космолета» нужны в этом конкретном случае.
P.S. При этом, по моим ощущениям, ИИ за эти годы стал кратно лучше. Сравнить оригинальный 1.5 с протогеном, его с SDXL, а его с Flux — таки небо и земля.
s
Да это аналог фотожабы, иногда пригождается, как концепты в нем можно нагенерить, но точное качество без косяков не получить, потому оно и будет всегда где то в сторонке. Хотя иногда можно сделать что то стоящее, вместо поиска нужного фото. Но это узкая направленность под нужды, а какой комп ей требуется, вряд ли займёт профессиональную позицию, к тому же бывает заказчик скажет давай тоже самое но сумочку другого цвета, и что ты сделаешь, будешь мучатся и генерить похожую сумочку на первый вариант.
LeVK
Если заказчик скажет про сумочку, я её просто инпейнтну с контролнетом (точнее, если нужна такая же, с двумя — на сам инпейнт и на контур).
s
но он не нарисует тоже самое, я даже в фотошопе экспериментировал с яблоком на столе, каждый раз по разному делает то форма не та, то цвет, то тени, это чистый рандом, потому и бесит работа с нейронкой, она не предсказуема, если заказчик хочет какие то конкретные мелочи от нейронки невозможно этого добиться и проще ручками сделать, она слишком абстрактная для проф работы, то есть зака надо сразу предупреждать о таких исходах.
LeVK
То в фотошопе. ControlNet для того и придумали, чтобы позволить менее грубое вмешательство в картинку — например, только ручку переделать, или поиграться с паттерном кожи в той же форме. А если нужно «просто перекрасить», без смены формы вообще, то для этого можно натравить отдельную нейронку, заведующую именно цветом без замены самих пикселей (забыл как называется, в экстеншнах автоматика есть).
SedayaNoch
300 Гиг это ещё мало у всех под 500 гиг получается… но для баловства замусоривать SSD пол терабайтом да нафиг надо…
s
Это какой-то софт который компилирует локальный запрос пользователя из приложения на ПК, отправляет его в сеть на серверы производителя и получает оттуда изображение? Или это программа которая работает локально используя ресурсы пк пользователя и никакой доступ в сеть ей не нужен?
LeVK
Нет, все полностью локально, доступ в сеть не нужен.
S
А как у них с цензурой?
LeVK
Зависит от конкретной модели. В подборке все SFW, кроме поней и протогена, если надо NSFW — велком на ту же цивитку, моделей для этого там тоже вагон.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Многопортовое зарядное устройство Ugreen Gan Desktop Fast Charger 100W (X765)

Очень удобно когда от одной розетки можно зарядить сразу 6 разных устройств. Причём даже мощных. Но для этого нужно многопортовое зарядное устройство. И одним из интересных вариантов является...

Почему дайверам нельзя смотреть на рыб: человеческий взгляд как эволюционная угроза

В поведенческой биологии доминирует четкое разделение видов по уровню их социального интеллекта. Считается, что способность отслеживать чужой взгляд и понимать намерения другого...

Зачем русские кавалеристы носили на плечах кавказскую бурку, как у горцев

Кавказская бурка — один из знаковых элементов экипировки русских казаков и кавалеристов, который на протяжении веков сочетал в себе практичность, защиту и большое символическое значение....

Как куркума разобщила кулинаров и филологов: секрет слова, ударение в котором вы точно ставите не туда

Если вы хоть раз покупали приправу в супермаркете или смотрели кулинарные шоу, вы наверняка заметили, что повара, продавцы, да и большинство из нас произносят «куркума» с ударением на последний слог.

Почему ИИ ставит под угрозу появление новых языков программирования

Сегодня современные большие языки программирования (Python, JavaScript, Java, Go, Rust и т. д.) переживают беспрецедентный период доминирования. Их позиции укрепляются не только за счёт огромного...

5 рыб из СССР, которые раньше были в каждом магазине, а сегодня почти исчезли

Иногда такие списки кажутся чуть надуманными… пока не начинаешь разбираться, откуда вообще бралась рыба на советских прилавках. И тут внезапно всплывает целая система: океанический флот,...