Нейросеть Сбера Kandinsky 2.1: главные особенности и где ей пользоваться

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

С момента запуска Kandinsky от Сбера прошло около 10 месяцев. В этом материале я решил кратко разобраться в особенностях отечественного аналога нейросети для генерации изображений, а также рассмотреть основные платформы, где сейчас им можно пользоваться.

Особенности нейросети Kandinsky 2.1

На данный момент Kandinsky 2.1 является одной из самых продвинутых нейросетей среди продуктов российских IT-компаний. Актуальная версия ИИ от Сбера имеет около 3.3 млрд параметров, основанных на 170 миллионах изображений с их описанием. Далее предлагаю разобраться в ключевых отличиях Kandinsky от более известных иностранных аналогов.

Исходный код

Одним из главных преимуществ является открытый исходный код нейросети, который позволяет сторонним разработчикам реализовывать ИИ в самых различных интерфейсах. На данный момент попробовать Kandinsky 2.1 можно сразу на 3 разных платформах:

1. Fusion Brain

Наиболее популярная платформа с «user-friendly» интерфейсом. Здесь нейросеть имеет удобную и понятную панель с основными инструментами для работы: строка для введения промптов (описания); окно для выбора стилистики. Всего имеется 23 стиля: от известного художника до фотореализма и 3D рендера. Всё это можно вписать и через промпт, однако такой подход несколько упрощает работу для начинающих пользователей.

Соотношение сторон здесь фиксированное — 1:1. Разрешение же можно регулировать, начиная от 128x128 и заканчивая 768x768. Не так много, зато есть функция расширения и дополнительной генерации, где максимальное разрешение общей композиции почти не ограничено.

Имеется и возможность работы с собственными изображениями. Для этого здесь реализован инструмент «Маска». Это тот же ластик, которым вы можете удалять отдельные области и генерировать их заново. Так можно удалить или наоборот добавить в изображение какие-либо объекты. Если ошиблись — ничего страшного: здесь также есть функция возвращения к предыдущему шагу. Есть возможность экспорта изображения на устройство. В общем, инструментов не так много, но все полезные, что лишь упрощает процесс работы.

2. ruDALL-E

Менее популярная платформа, которая к тому же лишена визуального интерфейса и возможности обработки собственных изображений. Параметры генерации задаются в 3-х разделах:

  1. Промпт;
  2. Выбор разрешения (плавной регулировки здесь нет, зато есть более гибкое соотношение сторон — 1:1, 1.5:1 и 2:1 как горизонтальном, так и вертикальном положении);
  3. Стиль (всего 19 вариаций, которые, впрочем, можно тоже расширить через промпты).

При этом нельзя сказать, что казуальный интерфейс упрощает работу с нейросетью. Скорее наоборот: для отправки запроса и начала генерации нужно пройти капчу, а затем постоянно обновлять панель, пока не придёт ответ от сервера. Результат можно можно скачать.

Ещё хочу, отметить, что сама модель нейросети, по словам разработчиков, поддерживает 101 язык, однако разные платформы как будто имеют разную степень понимания. Возможно это зависит от разработчиков самого ресурса, но в этом плане версия от ruDALL-E справляется лучше, по крайнем мере при тесте на китайском языке. Английский и русский одинаково качественно распознаются на всех платформах.

3. Телеграм-бот

Формат бота отлично подойдёт для работы со смартфонов и других портативных устройств. Разрешение и соотношение сторон здесь всегда одинаковое — 768x768. Имеется всего 3 встроенных стиля (artstation, 4k и anime), поэтому данный параметр в основном вводится промптом.

Помимо генерации изображения через текст, имеется возможность смешивания изображений, дополнение готовой картинки с помощью текста, а также переработки имеющегося примера.

Ещё бот обладает функцией «/profmode», которая позволяет задавать значимость (вес) изображений при их смешивании.

Подведём итоги

Kandinsky 2.1 хоть и имеет неплохое качество генерации, однако вряд ли сможет превзойти крупные генеративные модели, наподобие Midjourney или Stable Diffusion. Главными особенностями этой нейросети является открытый код, позволяющий реализовывать Kandinsky в различных интерфейсах, а также поддержка русского языка, что несколько упрощает взаимодействие для локальных пользователей.

Для тех, кто думал приобрести помощника робота-пылесоса, видеорегистратор для машины или телевизор, рекомендую посмотреть наши подборки:

Здесь точно найдете подарок для себя, а то и близким.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Cooperation for product reviews:
  • Почта: articlesinfohub@gmail.com
  • Telegram: @ImMaksims

Для предложений по сотрудничеству пишите на почту или в Telegram.

2 комментария

k
Круто, что российские компании тоже развивают свои ИИ) Отключат от всего, хоть будет, чем поиграться, а кому-то и работать, да и а русском они явно будут лучше понимать)
Vesennaya
Да, то что с переводчиком ковыряться больше не нужно и англоязычные промты запоминать, это здорово.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Почему храм в Бутане на высоте в 800 метров зовут Гнездом тигрицы и почему до него стоит добраться

Такцанг-лакханг это буддийский храм, глядя на который так и хочется пропеть строчки из песни «Короля и шута». Разбежавшись, прыгну со скалы… Прыгать, конечно, не стоит, но вот полюбоваться...

A4TECH Fstyler FM50S Plus — обзор оптической проводной «офисно-игровой» мышки

Недавно подарил племяннице свой старый компьютер в полной комплектации, но, как оказалось, моя проверенная годами мышь X7 от A4Tech ей слишком велика. Считая эту мышку отличной по соотношению...

Антикризисная сборка игрового ПК за 50 000 рублей в 2026 году

Из-за глобального повышения цен на оперативную память и геополитической напряжённости собрать игровой ПК за 50 000 рублей в 2026 году — задача на первый взгляд практически невозможная. Однако если

Тестирование и обзор высокоскоростной карты памяти ADATA Premier One UHS-II на 64 ГБ

С развитием цифровой техники требования к портативным носителям меняются. Съёмка видео в 4K с высокой плотностью потока стала привычной, а в беззеркальных камерах, дронах и экшен-устройствах всё...

Уксус, соль и лимонная кислота против сорняков на плитке — работает, но не так, как вам кажется

Популярный рецепт из уксуса, соли и лимонной кислоты действительно выжигает сорняки, но ценой вашей плитки. Как «бесплатный» народный метод превращает бетон в труху и на годы отравляет почву.