Нейросеть Сбера Kandinsky 2.1: главные особенности и где ей пользоваться

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

С момента запуска Kandinsky от Сбера прошло около 10 месяцев. В этом материале я решил кратко разобраться в особенностях отечественного аналога нейросети для генерации изображений, а также рассмотреть основные платформы, где сейчас им можно пользоваться.

Особенности нейросети Kandinsky 2.1

На данный момент Kandinsky 2.1 является одной из самых продвинутых нейросетей среди продуктов российских IT-компаний. Актуальная версия ИИ от Сбера имеет около 3.3 млрд параметров, основанных на 170 миллионах изображений с их описанием. Далее предлагаю разобраться в ключевых отличиях Kandinsky от более известных иностранных аналогов.

Исходный код

Одним из главных преимуществ является открытый исходный код нейросети, который позволяет сторонним разработчикам реализовывать ИИ в самых различных интерфейсах. На данный момент попробовать Kandinsky 2.1 можно сразу на 3 разных платформах:

1. Fusion Brain

Наиболее популярная платформа с «user-friendly» интерфейсом. Здесь нейросеть имеет удобную и понятную панель с основными инструментами для работы: строка для введения промптов (описания); окно для выбора стилистики. Всего имеется 23 стиля: от известного художника до фотореализма и 3D рендера. Всё это можно вписать и через промпт, однако такой подход несколько упрощает работу для начинающих пользователей.

Соотношение сторон здесь фиксированное — 1:1. Разрешение же можно регулировать, начиная от 128x128 и заканчивая 768x768. Не так много, зато есть функция расширения и дополнительной генерации, где максимальное разрешение общей композиции почти не ограничено.

Имеется и возможность работы с собственными изображениями. Для этого здесь реализован инструмент «Маска». Это тот же ластик, которым вы можете удалять отдельные области и генерировать их заново. Так можно удалить или наоборот добавить в изображение какие-либо объекты. Если ошиблись — ничего страшного: здесь также есть функция возвращения к предыдущему шагу. Есть возможность экспорта изображения на устройство. В общем, инструментов не так много, но все полезные, что лишь упрощает процесс работы.

2. ruDALL-E

Менее популярная платформа, которая к тому же лишена визуального интерфейса и возможности обработки собственных изображений. Параметры генерации задаются в 3-х разделах:

  1. Промпт;
  2. Выбор разрешения (плавной регулировки здесь нет, зато есть более гибкое соотношение сторон — 1:1, 1.5:1 и 2:1 как горизонтальном, так и вертикальном положении);
  3. Стиль (всего 19 вариаций, которые, впрочем, можно тоже расширить через промпты).

При этом нельзя сказать, что казуальный интерфейс упрощает работу с нейросетью. Скорее наоборот: для отправки запроса и начала генерации нужно пройти капчу, а затем постоянно обновлять панель, пока не придёт ответ от сервера. Результат можно можно скачать.

Ещё хочу, отметить, что сама модель нейросети, по словам разработчиков, поддерживает 101 язык, однако разные платформы как будто имеют разную степень понимания. Возможно это зависит от разработчиков самого ресурса, но в этом плане версия от ruDALL-E справляется лучше, по крайнем мере при тесте на китайском языке. Английский и русский одинаково качественно распознаются на всех платформах.

3. Телеграм-бот

Формат бота отлично подойдёт для работы со смартфонов и других портативных устройств. Разрешение и соотношение сторон здесь всегда одинаковое — 768x768. Имеется всего 3 встроенных стиля (artstation, 4k и anime), поэтому данный параметр в основном вводится промптом.

Помимо генерации изображения через текст, имеется возможность смешивания изображений, дополнение готовой картинки с помощью текста, а также переработки имеющегося примера.

Ещё бот обладает функцией «/profmode», которая позволяет задавать значимость (вес) изображений при их смешивании.

Подведём итоги

Kandinsky 2.1 хоть и имеет неплохое качество генерации, однако вряд ли сможет превзойти крупные генеративные модели, наподобие Midjourney или Stable Diffusion. Главными особенностями этой нейросети является открытый код, позволяющий реализовывать Kandinsky в различных интерфейсах, а также поддержка русского языка, что несколько упрощает взаимодействие для локальных пользователей.

Для тех, кто думал приобрести помощника робота-пылесоса, видеорегистратор для машины или телевизор, рекомендую посмотреть наши подборки:

Здесь точно найдете подарок для себя, а то и близким.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Cooperation for product reviews:
  • Почта: articlesinfohub@gmail.com
  • Telegram: @ImMaksims

Для предложений по сотрудничеству пишите на почту или в Telegram.

2 комментария

k
Круто, что российские компании тоже развивают свои ИИ) Отключат от всего, хоть будет, чем поиграться, а кому-то и работать, да и а русском они явно будут лучше понимать)
Vesennaya
Да, то что с переводчиком ковыряться больше не нужно и англоязычные промты запоминать, это здорово.

Добавить комментарий

Сейчас на главной

Новости

Публикации

ЗИС-127: как авиационные стандарты и двухтактный дизель изменили междугороднее сообщение

В начале 1950-х годов средняя скорость автомобильного сообщения между крупными городами СССР не превышала 40 км/ч. Существовавший автобусный парк, состоявший преимущественно из моделей ЗИС-155,...

Акустическая архитектура оттепели: как Рижский радиозавод создал ламповый гаджет поколения

В середине 1960-х годов советские квартиры переживали эстетическую перестройку. Тяжелую громоздкую мебель сталинского ампира сменял лаконичный скандинавский минимализм. Именно в этот момент Рижский...

5 видов грибов, которые лучше не жарить: после сковороды вкус может неприятно удивить

  • Тематическая подборка
  • Оффтопик
Кажется, что с грибами всё просто: почистил, бросил на сковородку, добавил лук — и ужин готов. Но именно здесь многих кулинаров ждет жесткое разочарование. Одни грибы после термической...

Как замедлить ход времени в собственной голове: раскрыт биологический механизм растягивания воспоминаний

Механическое время всегда идет с одной скоростью. Но человеческий мозг устроен иначе: наше внутреннее ощущение времени крайне изменчиво. Бывает так, что один день, наполненный событиями, кажется...

Микроавтобус «Старт» 1963 года: техническая изнанка советского композитного эксперимента

В 1963 году на дорогах СССР появился автомобиль, который выглядел чужеродно среди угловатых советских грузовиков и консервативных «Волг». Микроавтобус «Старт» с плавными обводами, обратным наклоном...

Как самое тяжелое здание мира строили всей Румынией, да не достроили

По центру румынской столицы Бухареста стоит монументальное здание парламента. Даже на снимках с высоты птичьего полета можно понять, какая это на самом деле махина. По размеру это административное...