Нейросеть Сбера Kandinsky 2.1: главные особенности и где ей пользоваться

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | ИИ, сервисы и приложения

С момента запуска Kandinsky от Сбера прошло около 10 месяцев. В этом материале я решил кратко разобраться в особенностях отечественного аналога нейросети для генерации изображений, а также рассмотреть основные платформы, где сейчас им можно пользоваться.

Особенности нейросети Kandinsky 2.1

На данный момент Kandinsky 2.1 является одной из самых продвинутых нейросетей среди продуктов российских IT-компаний. Актуальная версия ИИ от Сбера имеет около 3.3 млрд параметров, основанных на 170 миллионах изображений с их описанием. Далее предлагаю разобраться в ключевых отличиях Kandinsky от более известных иностранных аналогов.

Исходный код

Одним из главных преимуществ является открытый исходный код нейросети, который позволяет сторонним разработчикам реализовывать ИИ в самых различных интерфейсах. На данный момент попробовать Kandinsky 2.1 можно сразу на 3 разных платформах:

1. Fusion Brain

Наиболее популярная платформа с «user-friendly» интерфейсом. Здесь нейросеть имеет удобную и понятную панель с основными инструментами для работы: строка для введения промптов (описания); окно для выбора стилистики. Всего имеется 23 стиля: от известного художника до фотореализма и 3D рендера. Всё это можно вписать и через промпт, однако такой подход несколько упрощает работу для начинающих пользователей.

Соотношение сторон здесь фиксированное — 1:1. Разрешение же можно регулировать, начиная от 128x128 и заканчивая 768x768. Не так много, зато есть функция расширения и дополнительной генерации, где максимальное разрешение общей композиции почти не ограничено.

Имеется и возможность работы с собственными изображениями. Для этого здесь реализован инструмент «Маска». Это тот же ластик, которым вы можете удалять отдельные области и генерировать их заново. Так можно удалить или наоборот добавить в изображение какие-либо объекты. Если ошиблись — ничего страшного: здесь также есть функция возвращения к предыдущему шагу. Есть возможность экспорта изображения на устройство. В общем, инструментов не так много, но все полезные, что лишь упрощает процесс работы.

2. ruDALL-E

Менее популярная платформа, которая к тому же лишена визуального интерфейса и возможности обработки собственных изображений. Параметры генерации задаются в 3-х разделах:

  1. Промпт;
  2. Выбор разрешения (плавной регулировки здесь нет, зато есть более гибкое соотношение сторон — 1:1, 1.5:1 и 2:1 как горизонтальном, так и вертикальном положении);
  3. Стиль (всего 19 вариаций, которые, впрочем, можно тоже расширить через промпты).

При этом нельзя сказать, что казуальный интерфейс упрощает работу с нейросетью. Скорее наоборот: для отправки запроса и начала генерации нужно пройти капчу, а затем постоянно обновлять панель, пока не придёт ответ от сервера. Результат можно можно скачать.

Ещё хочу, отметить, что сама модель нейросети, по словам разработчиков, поддерживает 101 язык, однако разные платформы как будто имеют разную степень понимания. Возможно это зависит от разработчиков самого ресурса, но в этом плане версия от ruDALL-E справляется лучше, по крайнем мере при тесте на китайском языке. Английский и русский одинаково качественно распознаются на всех платформах.

3. Телеграм-бот

Формат бота отлично подойдёт для работы со смартфонов и других портативных устройств. Разрешение и соотношение сторон здесь всегда одинаковое — 768x768. Имеется всего 3 встроенных стиля (artstation, 4k и anime), поэтому данный параметр в основном вводится промптом.

Помимо генерации изображения через текст, имеется возможность смешивания изображений, дополнение готовой картинки с помощью текста, а также переработки имеющегося примера.

Ещё бот обладает функцией «/profmode», которая позволяет задавать значимость (вес) изображений при их смешивании.

Подведём итоги

Kandinsky 2.1 хоть и имеет неплохое качество генерации, однако вряд ли сможет превзойти крупные генеративные модели, наподобие Midjourney или Stable Diffusion. Главными особенностями этой нейросети является открытый код, позволяющий реализовывать Kandinsky в различных интерфейсах, а также поддержка русского языка, что несколько упрощает взаимодействие для локальных пользователей.

Для тех, кто думал приобрести помощника робота-пылесоса, видеорегистратор для машины или телевизор, рекомендую посмотреть наши подборки:

Здесь точно найдете подарок для себя, а то и близким.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Cooperation for product reviews:
  • Почта: articlesinfohub@gmail.com
  • Telegram: @ImMaksims

Для предложений по сотрудничеству пишите на почту или в Telegram.

2 комментария

k
Круто, что российские компании тоже развивают свои ИИ) Отключат от всего, хоть будет, чем поиграться, а кому-то и работать, да и а русском они явно будут лучше понимать)
Vesennaya
Да, то что с переводчиком ковыряться больше не нужно и англоязычные промты запоминать, это здорово.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Чтобы рисовать, как ребенок, надо повзрослеть, или прогулка по «Бумажному саду» Сергея Макарова

Примерно раз в месяц галереи Винзавода обновляют экспозиции, и до 24 мая Totibadze Gallery будет демонстрировать серию работ «Бумажный сад» современного художника Сергея Макарова.

Для чего в горлышке бутылки подсолнечного масла есть прорези

Если внимательно посмотреть внутрь бутылки с подсолнечным маслом, можно заметить странные пластиковые «лепестки» или прорези в горлышке. Многие воспринимают их как элемент дизайна или думают, что...

Откуда берутся звездопады: как Солнце разрушает астероиды и формирует новые метеорные потоки на пути Земли

Наблюдая за ночным небом, люди часто видят метеоры — яркие вспышки, возникающие при сгорании космических частиц в атмосфере Земли. Астрономия связывает происхождение большинства...

Почему на некоторых зарядных кабелях есть утолщение

Если посмотреть на кабели разных зарядных устройств, часто, почти у самого штекера, можно заметить небольшое утолщение. Многие воспринимают его как элемент дизайна или просто не обращают внимания....

Вулкан, который работает как насос: как Этна выкачивает магму с 80-километровой глубины

Вулкан Этна, расположенный на восточном побережье Сицилии, остается одним из самых сложных объектов для геологического моделирования. Будучи самым активным вулканом Европы, он демонстрирует...

Шондонг: как нашли целую экосистему в сводах самой большой пещеры мира

В научной фантастике любят придумывать подземные миры, но один такой имеется в реальности на нашей Земле. Ниже я расскажу, как существует экосистема в сводах самой большой пещеры мира, как так...