10 актуальных ИИ-моделей для генерации изображений, которые стоит иметь на своём компьютере в 2024

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Тематическая подборка | ИИ, сервисы и приложения

CivitAI превратилась в настоящую сокровищницу ИИ для создания изображений. Тысячи бесплатных моделей, каждая со своими уникальными особенностями и возможностями, позволяют воплотить в жизнь практически любую творческую задумку. Однако в таком многообразии легко потеряться даже опытному пользователю.

Я решил поделиться списком из десяти моделей, которые активно использую в своей работе. Каждая из них занимает особую нишу и решает определённый спектр задач — от создания фотореалистичных портретов до стилизованных иллюстраций. Давайте рассмотрим каждую из них подробнее и разберёмся, какие преимущества они могут предложить современному художнику, дизайнеру или вебмастеру.

Flux Dev

Пример генерации
Автор: LeVK

Flux Dev по праву занимает первое место в списке, представляя собой настоящий прорыв в технологии генерации изображений. В отличие от предшественников, модель способна работать с обычными текстовыми описаниями без необходимости использования специальных тегов и ключевых слов. Достаточно написать обычный описательный абзац текста на английском, и Flux Dev превратит его в визуальный образ с впечатляющей точностью.

Главное преимущество модели заключается в поддержке высоких разрешений — до 2048 пикселей по сумме осей, что открывает широкие возможности для создания детализированных изображений. Кроме того, весьма полезна уникальная способность модели корректно интегрировать текст из промпта в изображение, избегая типичных для других моделей искажений и нечитаемых символов.

К сожалению, такая мощь требует соответствующих аппаратных ресурсов. Для работы с Flux Dev необходимо минимум 12 гигабайт видеопамяти при 32 гигабайтах оперативной памяти. На практике понадобится видеокарта уровня RTX 4070/4080m или выше. При использовании менее мощных GPU время генерации одного изображения может превышать минуту, хотя результат, безусловно, стоит ожидания.

SDXL

Пример генерации
Автор: LeVK

SDXL остаётся золотым стандартом среди моделей на базе Stable Diffusion. Несмотря на появление множества специализированных решений, именно SDXL предлагает оптимальный баланс между качеством, универсальностью и требованиями к оборудованию.

Модель обладает обширной базой знаний, хорошо следует инструкциям в промптах и досконально изучена сообществом — для неё существуют тысячи готовых надстроек, дополнений и инструкций. Особенно важно, что SDXL способна работать на видеокартах с 8 гигабайтами памяти, хотя и находится на пределе их возможностей.

Стабильность работы и предсказуемость результатов делают SDXL идеальной основой для экспериментов и повседневного использования. Модель прекрасно подходит как для создания художественных работ, так и для генерации фотореалистичных изображений.

SDXL-Turbo

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

SDXL-Turbo — оптимизированная версия классического SDXL, предлагающая впечатляющий прирост производительности. Вместо привычных 20-32 шагов генерации, необходимых для получения качественного изображения, модели достаточно всего 2-4 итерации для создания сопоставимого результата.

Основным ограничением SDXL-Turbo выступает лицензия, допускающая исключительно некоммерческое использование. Данное условие существенно сужает область применения модели, делая её подходящей только для личных проектов и экспериментов. При этом качество генерации находится на уровне базового SDXL, что делает модель привлекательным выбором для быстрого прототипирования и тестирования идей.

Pony Diffusion

Пример генерации
Автор: LeVK

Pony Diffusion — первая в нашем списке модель, созданная сообществом с чистого листа. Основанная на архитектуре SDXL, она получила принципиально новый датасет, ориентированный на создание мультипликационных изображений и антропоморфных персонажей.

Уникальность Pony Diffusion заключается в способности генерировать широчайший спектр стилизованных персонажей — от мультипликации до аниме. Модель прекрасно справляется с созданием оригинальных дизайнов, сохраняя при этом узнаваемые черты выбранного художественного стиля.

Благодаря специализированному обучению модель демонстрирует поразительную стабильность при работе с мультипликационными стилями, устойчиво превосходя универсальные решения в данной нише. При этом Pony Diffusion сохраняет все преимущества архитектуры SDXL, включая поддержку сравнительно высоких разрешений и относительно простой промптинг.

Protogen X5.3

Пример генерации
Автор: LeVK

Protogen X5.3 — один из немногих деривативов SD 1.5, сохранивших актуальность в 2024 году. Модель выделяется впечатляющим разнообразием поддерживаемых стилей и стабильно высоким качеством генерации, несмотря на относительно устаревшую базовую архитектуру.

Ключевая особенность модели — экстремально низкие системные требования. При правильной оптимизации Protogen X5.3 способен работать всего с 2-3 гигабайтами видеопамяти, а на более мощных конфигурациях генерирует «веер» из 4-8 изображений за считанные секунды. Рекомендуется использовать VAE Anything-v4.0.vae.pt для достижения оптимальных результатов.

Главный недостаток модели — ограничение по разрешению (максимум 1024x768 пикселей без потери стабильности) и высокая требовательность к качеству промптов. Однако при должном опыте работы Protogen X5.3 способен создавать изображения, мало уступающие результатам более современных моделей, причём делает это значительно быстрее.

RMSDXL

Для иллюстрации использован обычный SDXL из-за ограничений лицензии
Автор: LeVK

RMSDXL — уникальный комплект специализированных моделей, каждая из которых оптимизирована под конкретную задачу. В пакет входят отдельные модели для создания художественных работ, фотореалистичных изображений и иллюстраций различных стилей.

Благодаря узкой специализации каждой подмодели, RMSDXL достигает выдающихся результатов в своих нишах. Особенно впечатляет способность корректно встраивать текст в изображения — редкая возможность для моделей на базе SDXL.

Однако у RMSDXL есть существенный недостаток — пакет основан на архитектуре SDXL-Turbo и распространяется под некоммерческой лицензией. Все сгенерированные изображения могут использоваться только в личных и некоммерческих проектах, что ограничивает профессиональное применение модели.

Flux Schnell

Пример генерации
Автор: LeVK

Flux Schnell — младший брат Flux Dev, предлагающий похожие возможности при значительно большей скорости работы. Модель унаследовала главные преимущества старшей версии: понимание естественного языка, способность встраивать текст в изображения и коммерческую лицензию без ограничений.

Основное преимущество Flux Schnell — скорость работы. Модели достаточно 3-5 шагов для создания качественного изображения, что сопоставимо с показателями SDXL-Turbo. При этом, в отличие от последней, все права на сгенерированные изображения принадлежат пользователю.

К недостаткам можно отнести высокие системные требования (рекомендуется минимум 12 ГБ видеопамяти), несколько сниженное по сравнению с Flux Dev качество и слабую поддержку со стороны сообщества. Количество доступных LoRA также оставляет желать лучшего.

Cheyenne

Пример генерации
Автор: LeVK

Cheyenne, построенная на архитектуре SDXL, демонстрирует выдающиеся результаты в создании книжных и комиксовых иллюстраций. Модель одинаково уверенно справляется как с цветными, так и с чёрно-белыми работами.

Особая обработка датасета позволила добиться характерной стилистики, напоминающей работы профессиональных иллюстраторов. Модель прекрасно подходит для оформления книг, комиксов и графических новелл.

Realistic Vision V5.1

Пример генерации
Автор: LeVK

Realistic Vision V5.1 раскрывает предельные возможности архитектуры Stable Diffusion 1.5 в области фотореализма. Несмотря на определённые ограничения и необходимость глубокого понимания принципов промптинга, модель предлагает впечатляющее соотношение качества и системных требований.

Низкие требования к оборудованию и активная поддержка сообщества делают модель отличным выбором для быстрого прототипирования идей. Встроенный VAE избавляет от необходимости дополнительной настройки, а высокая скорость работы позволяет генерировать большое количество вариантов за короткое время.

RealVisXL V5.0

Пример генерации
Автор: LeVK

RealVisXL V5.0 представляет собой вершину фотореализма, достижимую на архитектуре SDXL. Созданная и обученная сообществом, модель демонстрирует исключительное качество генерации фотореалистичных изображений, хотя и требует серьёзных навыков промптинга.

В сравнении с базовой SDXL, RealVisXL V5.0 показывает заметно более высокое качество детализации и естественность освещения. Однако улучшения даются ценой определённой нестабильности результатов — модель может быть капризной и требует тщательного подбора параметров.

Для пользователей, которые не могут или не хотят использовать более требовательные решения вроде Flux Dev (из-за системных требований или неготовности ждать), RealVisXL V5.0 предлагает отличную альтернативу в нише фотореалистичной генерации. Модель особенно хорошо проявляет себя при создании портретов и пейзажей.

• • •

Мир генеративного ИИ развивается стремительными темпами, и уместить все достойные внимания модели в десять позиций практически невозможно. Каждая из описанных моделей имеет свои сильные стороны и области применения, и выбор конкретного инструмента всегда зависит от поставленных задач.

В моей повседневной работе я регулярно использую значительно больше моделей, чем вошло в этот список.

Моделей много не бывает, да…
Автор: Microsoft

Тем не менее, представленная десятка отражает текущее состояние индустрии и демонстрирует разнообразие доступных инструментов — от универсальных решений до узкоспециализированных моделей.

Начинающим пользователям я рекомендую освоить хотя бы половину из представленных моделей. Такой набор инструментов позволит решать большинство типовых задач и заложит прочный фундамент для дальнейшего развития в сфере ИИ-генерации изображений.

P.S. Все примеры генерации были созданы без точного «допила» промта и выбора лучших среди десятков. Это сделано, дабы меня не обвиняли в предвзятости — лучшее, на что способна каждая из представленных выше моделей можно найти в их карточках на «цивитке».

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Наношу добро, причиняю пользу, благодарен за лайки и содержательные (дополняющие статьи) комментарии.

17 комментариев

Добавить комментарий

Pchelkin
Если бы я мог позволить себе комп с таким железом, то наверное воспользовался бы. А так, пользую то, что есть.
LeVK
А что мешает селфхостить, если денег на железо «в руках» нет? Сейчас арендовать инстанс с 4080 на борту можно за 20-40 рублей в час. Сконнектился по RDP, развернул фордж из облака и вперед.
B
Я так полагаю, как раз каждый раз час будет уходить на настройку, а это уже далеко не 20-40 рублей, да и трудозатратно.
LeVK
Конфиги автоматиковский WebUI хранит как два JSON-файла, которые вполне можно развернуть из того же облака скриптом вместе с моделями. А настройка самого webui на новой системе — тупо update.bat->run.bat, 30 секунд на все про все включая распаковку.
B
Вы забываете, что даже на шустром интернете загрузка модулей питона занимает далеко не 5 минут.
LeVK
В том и прелесть форджа, что он поставляется уже как AIO-пакет со всем необходимым в двухгигабайтном архиве. Загрузить ему надо только апдейты, плюс самое большее пара минут на то, чтобы развернуть локальную среду.
Mercoff
Вообще не надо это диво. Оно изначально было кривое и таким всегда останется. Даже хуже: оно еще и деградирует, потому что учится на своих же результатах, которые выполнены с ошибками. Мне ни разу не пригодился «ии», хотя по идее я должен его юзать каждый день, отвечая за наполнение сайта инфой. Попытался. Раз, два, три… Посмеялся и послал нафик.
ИИ — это просто пузырь, в который кому-то выгодно вдувать бабло.
LeVK
А я, например, имею диаметрально противоположные результаты. ИИ помогает быстрее писать (хотя автора не заменит ещё скоро, но взять на себя редактуру — совсем не то же, что втупую набивать килознаки), генерировать иллюстрации в разных стилях, фейковые, но неотличимые от реальности фото...
Просто, как и с любым инструментом, его надо уметь готовить. То есть — разбираться в теме, в промтинге и том, какие «крутилки панели космолета» нужны в этом конкретном случае.
P.S. При этом, по моим ощущениям, ИИ за эти годы стал кратно лучше. Сравнить оригинальный 1.5 с протогеном, его с SDXL, а его с Flux — таки небо и земля.
s
Да это аналог фотожабы, иногда пригождается, как концепты в нем можно нагенерить, но точное качество без косяков не получить, потому оно и будет всегда где то в сторонке. Хотя иногда можно сделать что то стоящее, вместо поиска нужного фото. Но это узкая направленность под нужды, а какой комп ей требуется, вряд ли займёт профессиональную позицию, к тому же бывает заказчик скажет давай тоже самое но сумочку другого цвета, и что ты сделаешь, будешь мучатся и генерить похожую сумочку на первый вариант.
LeVK
Если заказчик скажет про сумочку, я её просто инпейнтну с контролнетом (точнее, если нужна такая же, с двумя — на сам инпейнт и на контур).
s
но он не нарисует тоже самое, я даже в фотошопе экспериментировал с яблоком на столе, каждый раз по разному делает то форма не та, то цвет, то тени, это чистый рандом, потому и бесит работа с нейронкой, она не предсказуема, если заказчик хочет какие то конкретные мелочи от нейронки невозможно этого добиться и проще ручками сделать, она слишком абстрактная для проф работы, то есть зака надо сразу предупреждать о таких исходах.
LeVK
То в фотошопе. ControlNet для того и придумали, чтобы позволить менее грубое вмешательство в картинку — например, только ручку переделать, или поиграться с паттерном кожи в той же форме. А если нужно «просто перекрасить», без смены формы вообще, то для этого можно натравить отдельную нейронку, заведующую именно цветом без замены самих пикселей (забыл как называется, в экстеншнах автоматика есть).
SedayaNoch
300 Гиг это ещё мало у всех под 500 гиг получается… но для баловства замусоривать SSD пол терабайтом да нафиг надо…
s
Это какой-то софт который компилирует локальный запрос пользователя из приложения на ПК, отправляет его в сеть на серверы производителя и получает оттуда изображение? Или это программа которая работает локально используя ресурсы пк пользователя и никакой доступ в сеть ей не нужен?
LeVK
Нет, все полностью локально, доступ в сеть не нужен.
S
А как у них с цензурой?
LeVK
Зависит от конкретной модели. В подборке все SFW, кроме поней и протогена, если надо NSFW — велком на ту же цивитку, моделей для этого там тоже вагон.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор профессионального блендера RAWMID RPB-05: 4 литра смузи за 15 секунд не хотите?

RAWMID RPB-05 — блендер создан для настоящих нагрузок. В нём сразу чувствуется промышленный масштаб: огромный резервуар на 4 литра позволяет готовить коктейли на целую компанию или...

Синдром отложенной жизни: почему стратегия начинать жизнь с понедельника никогда не работает

Вы наверняка хоть раз ловили себя на мысли, что надо менять что-то в жизни, но откладывали эти самые изменения до более благоприятной или просто удобной даты. С понедельника ведь удобнее считать...

Многопортовое зарядное устройство Ugreen Gan Desktop Fast Charger 100W (X765)

Очень удобно когда от одной розетки можно зарядить сразу 6 разных устройств. Причём даже мощных. Но для этого нужно многопортовое зарядное устройство. И одним из интересных вариантов является...

Почему дайверам нельзя смотреть на рыб: человеческий взгляд как эволюционная угроза

В поведенческой биологии доминирует четкое разделение видов по уровню их социального интеллекта. Считается, что способность отслеживать чужой взгляд и понимать намерения другого...

Зачем русские кавалеристы носили на плечах кавказскую бурку, как у горцев

Кавказская бурка — один из знаковых элементов экипировки русских казаков и кавалеристов, который на протяжении веков сочетал в себе практичность, защиту и большое символическое значение....

Как куркума разобщила кулинаров и филологов: секрет слова, ударение в котором вы точно ставите не туда

Если вы хоть раз покупали приправу в супермаркете или смотрели кулинарные шоу, вы наверняка заметили, что повара, продавцы, да и большинство из нас произносят «куркума» с ударением на последний слог.