Сравниваем нейросети Kandinsky 2.1 Сбера и «Шедеврум» Яндекса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | ИИ, сервисы и приложения

Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.

Но сначала — немного о самих нейросетях

Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями. И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.

«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.

Первый запрос — попугай сидит на ветке

Первый шаг за Kandinsky 2.1:

Вариант голубя от Kandinsky 2.1

Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.

Теперь очередь «Шедеврум».

А это уже вариант от «Шедеврум»

Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более-менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.

Дам «Шедевруму» еще один шанс.

Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.

В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.

Второй запрос — 3 кошки стоят перед красной дверью

Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.

Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек трое и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.

Теперь очередь за «Шедеврум».

Первый блин опять комом

Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.

Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.

Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.

Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».

Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.

Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.

В общем, здесь 0:0.

Третий запрос — космический корабль в виде летающей тарелки летит на луну

Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.

Первым отвечает Kandinsky:

Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.

Теперь очередь за «Шедеврум».

У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.

В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.

Посмотрим, что из этого промпта сделает Kandinsky.

Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.

Что в итоге

Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Коммерческий автор, пишу о бизнесе, финансах, инвестициях и IT. Рассказываю о нейросетях в диджитале. Больше интересного контента о нейросетях в телеграм-канале «Нейроцех»

31 комментарий

k
То, что птичка «сидит» на ветке фактически стоя на ногах, нейросети знают. А вот как они понимают «стоящую» кошку, вызывает удивление. По первому запросу я бы сказал, что все кошки сидят, а не стоят. Только на одной картине именно стоят, но там кошки получились вообще странные, только с задними лапами.
С тарелкой у Кандинского вроде и не плохо, но вот логика тоже хромает. На первой картинке пропала половина луны (по идее должна виднеться и ниже тарелки). Да еще и непонятно откуда лишние спутники земли появились. :)
mikeshu
Да, с кошками специально написал «стоят». Хотел проверить, нарисуют ли они дословно. Но, нужно было уточнять, что они стоят на задних лапах.
С тарелкой согласен: в общем все выглядит неплохо, но если присмотреться…
k
Не пробовала от СБЕРА, Шедеврум классная штука, но судя по статье ИИ от Сбера лучше, хочу попробовать теперь)
mikeshu
Да, попробуйте обязательно) Она бесплатная
108326616531308500839@google
Бесит когда я, неуч, бешусь из-за грамматики автора статьи. Та йопт твою медь. Других авторов у вас для нас нет? Сижу смотрю Ютуб ихбт — пошел в туалет почитать статью — уже и Ютуб так себе смотреть. Ну йопт твою… Оверы сдохли, тут тоже качество начало страдать. Что читать?
mikeshu
Подскажите, пожалуйста, в каких местах есть ошибки? Я подправлю.
108326616531308500839@google
Дочитал до очередного «ться» не там, где надо и дальше не читал
Equa
Зато сразу видно, что человек писал, а не сетка ))
a
Сетка сама будет делать ошибки для маскировки под «обычного неуча».
b
«Первый запрос — попугай сидит на ветке» — пока писали статью забыли про что речь и дальше все про голубей?
Но не совсем )) На картинке текст «Голудь сидит на ветке». Кто такой голудь? Удивительно что нейросеть вас поняла.
mikeshu
Точно! А я совсем не заметил.
108326616531308500839@google
Извиняюсь за то, что мое сообщение могло выглядеть как агрессия, приятно когда автор реагирует.
mikeshu
Ничего страшного. Любая обратная связь всегда хороша;)
A
Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чему авторав статистик статье.
A
Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чем у автора в статье.
Vladicus Magnus
Точно! А я совсем не заметил.

Мрачняк. Я думал, тут сейчас будут пытать Канди на умение распознавания некорректных запросов. Но нет ))) Это Михаил чутка ошибся ))) Ну, на самом деле, не страшно)))
Спасибо за статью.
mikeshu
Пожалуйста!
Некорректные запросы пока что не трогаю))
Vladicus Magnus
К слову, вне темы (можно сказать оффтопик) — довольно забавная нейронка https://bratgpt.com/ — «злой ИИ». С огромным ЧСВ и прочее. Очень хорошо если хочешь кого то обматерить ))) Позволяет отлично спустить пар, и натренироваться игнорить жирных троллей )))
И да, это к некорректным запросам тоже относится, он весьма едко на эту тему высказался «на уровне» — «я то завтра трезвый буду, а ты так уродом и останешься» )))
mikeshu
Читал о нем, но сам еще не пользовался))
Спасибо за ссылочку
Vladicus Magnus
Рекомендую. Практической пользы от него — ну только то, что я выше написал… Но забавный до чёртиков.
Абсолютно не за что. Считайте маленькой оплатой за вашу статью. )
106682819239395286102@google
На самом деле, Шедеврум со временем прогружает картинки в хорошем качестве, но для этого надо «опубликовать» одну из 4, и подождать несколько минут
mikeshu
Да, становится лучше. Но в Kandinsky все равно получаются более детализированные картинки.
Vesennaya
Круто, что наши так быстро на таком хорошем уровне «рисовать» стали, лапки у птичек корявые, но думаю еще немножко обучения и все будет ок.
mikeshu
Да, сейчас дело в небольшой базе, на которой обучают нейросети. Надеюсь, что Kandinsky 2.2 сможет придти к уровню midjorney 5.
Роман Зуев
Да, Midjorney 5 использовала большие объемы данных, включая огромное количество изображений и видео, собранных на протяжении нескольких лет, речь идет о сотнях миллионов образцов, так что у наших еще все впереди, главное, чтоб не вперде)))
Y
«Kandinsky 2.1… ее дообучили на 170 млн картинок
«Шедеврум»… картинок у него меньше: 240 млн»
Для полной логики не хватает понимания, сколько же картинок потребовалось для обучения Кандинского в итоге.
mikeshu
Она обучена на 3,3 млрд.
Y
Вы уверены, что объём датасета и количество параметров- это одно и то же?
1
Судя по тем картинкам что вы показали Шедеврум намного интереснее композиционное мышление. Почему то у Кандинский очень банальные неинтересные картинки выходят. Так что мне захотелось попробовать Шедеврум. Спасибо за интересную, полезную статью.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Обзор ручной хинкальницы: как быстро лепить хинкали дома

Популярное грузинское блюдо — хинкали — знакомо многим, ведь его готовят во множестве кафе и ресторанов. Но как сформировать хинкали красивой традиционной формы, если у вас...

Почему Италия управляет кусочками Швейцарии, а Швейцария — кусочками Италии

Иногда смотришь на карту Альп и ловишь себя на странном ощущении: границы здесь выглядят так, будто их рисовал не государственный картограф, а упрямый художник, которому нравилось оставлять...

Что такое Jolla Phone и как он решил вернуться: история компании с корнями Nokia

Финская компания Jolla представила новое поколение собственного смартфона, наследника оригинальной модели 2013 года. Чем же фирма занималась все эти 12 лет и с чего вообще начиналась её история?

Осторожно, говорят «да»! Как не стать жертвой телефонных мошенников

  • Тематическая подборка
  • Оффтопик
Звонок с незнакомого номера может показаться обычным событием, но за приветливым голосом на другом конце провода может скрываться опасность. Телефонные мошенники придумывают всё более изощрённые...

ЮАР – единственная страна мира с тремя равноправными столицами. Как так получилось и для чего это нужно

Большинство стран мира довольствуются одной столицей. Иногда их две, как в Боливии или Нидерландах. А вот Южно-Африканская Республика пошла дальше всех и официально имеет сразу три.

Как выбрать живую ёлку для дома?

  • Тематическая подборка
  • Оффтопик
Запах хвои, смолистые иголки, настоящая лесная красавица в углу гостиной — живая ёлка создаёт ту самую новогоднюю магию, которую не заменит никакой пластик. Но как выбрать дерево,...