Сравниваем нейросети Kandinsky 2.1 Сбера и «Шедеврум» Яндекса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | Программы, сервисы и сайты

Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.

Но сначала — немного о самих нейросетях

Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями. И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.

«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.

Первый запрос — попугай сидит на ветке

Первый шаг за Kandinsky 2.1:

Вариант голубя от Kandinsky 2.1

Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.

Теперь очередь «Шедеврум».

А это уже вариант от «Шедеврум»

Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более-менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.

Дам «Шедевруму» еще один шанс.

Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.

В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.

Второй запрос — 3 кошки стоят перед красной дверью

Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.

Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек трое и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.

Теперь очередь за «Шедеврум».

Первый блин опять комом

Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.

Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.

Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.

Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».

Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.

Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.

В общем, здесь 0:0.

Третий запрос — космический корабль в виде летающей тарелки летит на луну

Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.

Первым отвечает Kandinsky:

Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.

Теперь очередь за «Шедеврум».

У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.

В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.

Посмотрим, что из этого промпта сделает Kandinsky.

Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.

Что в итоге

Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Коммерческий автор, пишу о бизнесе, финансах, инвестициях и IT. Рассказываю о нейросетях в диджитале. Больше интересного контента о нейросетях в моем телеграм-канале «Миша, давай по новой»

31 комментарий

k
То, что птичка «сидит» на ветке фактически стоя на ногах, нейросети знают. А вот как они понимают «стоящую» кошку, вызывает удивление. По первому запросу я бы сказал, что все кошки сидят, а не стоят. Только на одной картине именно стоят, но там кошки получились вообще странные, только с задними лапами.
С тарелкой у Кандинского вроде и не плохо, но вот логика тоже хромает. На первой картинке пропала половина луны (по идее должна виднеться и ниже тарелки). Да еще и непонятно откуда лишние спутники земли появились. :)
112250469659394019554@google
Да, с кошками специально написал «стоят». Хотел проверить, нарисуют ли они дословно. Но, нужно было уточнять, что они стоят на задних лапах.
С тарелкой согласен: в общем все выглядит неплохо, но если присмотреться…
k
Не пробовала от СБЕРА, Шедеврум классная штука, но судя по статье ИИ от Сбера лучше, хочу попробовать теперь)
112250469659394019554@google
Да, попробуйте обязательно) Она бесплатная
108326616531308500839@google
Бесит когда я, неуч, бешусь из-за грамматики автора статьи. Та йопт твою медь. Других авторов у вас для нас нет? Сижу смотрю Ютуб ихбт — пошел в туалет почитать статью — уже и Ютуб так себе смотреть. Ну йопт твою… Оверы сдохли, тут тоже качество начало страдать. Что читать?
112250469659394019554@google
Подскажите, пожалуйста, в каких местах есть ошибки? Я подправлю.
108326616531308500839@google
Дочитал до очередного «ться» не там, где надо и дальше не читал
104434162084689035276@google
Зато сразу видно, что человек писал, а не сетка ))
A
Сетка сама будет делать ошибки для маскировки под «обычного неуча».
b
«Первый запрос — попугай сидит на ветке» — пока писали статью забыли про что речь и дальше все про голубей?
Но не совсем )) На картинке текст «Голудь сидит на ветке». Кто такой голудь? Удивительно что нейросеть вас поняла.
112250469659394019554@google
Точно! А я совсем не заметил.
108326616531308500839@google
Извиняюсь за то, что мое сообщение могло выглядеть как агрессия, приятно когда автор реагирует.
112250469659394019554@google
Ничего страшного. Любая обратная связь всегда хороша;)
A
Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чему авторав статистик статье.
A
Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чем у автора в статье.
Vladicus Magnus
Точно! А я совсем не заметил.

Мрачняк. Я думал, тут сейчас будут пытать Канди на умение распознавания некорректных запросов. Но нет ))) Это Михаил чутка ошибся ))) Ну, на самом деле, не страшно)))
Спасибо за статью.
112250469659394019554@google
Пожалуйста!
Некорректные запросы пока что не трогаю))
Vladicus Magnus
К слову, вне темы (можно сказать оффтопик) — довольно забавная нейронка https://bratgpt.com/ — «злой ИИ». С огромным ЧСВ и прочее. Очень хорошо если хочешь кого то обматерить ))) Позволяет отлично спустить пар, и натренироваться игнорить жирных троллей )))
И да, это к некорректным запросам тоже относится, он весьма едко на эту тему высказался «на уровне» — «я то завтра трезвый буду, а ты так уродом и останешься» )))
112250469659394019554@google
Читал о нем, но сам еще не пользовался))
Спасибо за ссылочку
Vladicus Magnus
Рекомендую. Практической пользы от него — ну только то, что я выше написал… Но забавный до чёртиков.
Абсолютно не за что. Считайте маленькой оплатой за вашу статью. )
106682819239395286102@google
На самом деле, Шедеврум со временем прогружает картинки в хорошем качестве, но для этого надо «опубликовать» одну из 4, и подождать несколько минут
112250469659394019554@google
Да, становится лучше. Но в Kandinsky все равно получаются более детализированные картинки.
Vesennaya
Круто, что наши так быстро на таком хорошем уровне «рисовать» стали, лапки у птичек корявые, но думаю еще немножко обучения и все будет ок.
112250469659394019554@google
Да, сейчас дело в небольшой базе, на которой обучают нейросети. Надеюсь, что Kandinsky 2.2 сможет придти к уровню midjorney 5.
Роман Зуев
Да, Midjorney 5 использовала большие объемы данных, включая огромное количество изображений и видео, собранных на протяжении нескольких лет, речь идет о сотнях миллионов образцов, так что у наших еще все впереди, главное, чтоб не вперде)))
Y
«Kandinsky 2.1… ее дообучили на 170 млн картинок
«Шедеврум»… картинок у него меньше: 240 млн»
Для полной логики не хватает понимания, сколько же картинок потребовалось для обучения Кандинского в итоге.
112250469659394019554@google
Она обучена на 3,3 млрд.
Y
Вы уверены, что объём датасета и количество параметров- это одно и то же?
О
Судя по тем картинкам что вы показали Шедеврум намного интереснее композиционное мышление. Почему то у Кандинский очень банальные неинтересные картинки выходят. Так что мне захотелось попробовать Шедеврум. Спасибо за интересную, полезную статью.

Добавить комментарий

Сейчас на главной

Новости

Публикации

Новая звезда в созвездии Северной Короны: когда и как наблюдать?

Ночное небо — это не застывшая картина, а динамичный театр, где разворачиваются драмы галактического масштаба. Иногда эти драмы настолько грандиозны, что становятся видны даже...

Мобильный тепловизор для смартфона TOOLTOP T7: 25 Гц, разрешение 256х192 за $115

Мобильные приставки для смартфонов продолжаются развиваться семимильными шагами. После увеличения разрешения до крайне высокого значения (несколько лет назад за тепловизор с разрешением 256х192...

Механическая, электронная или сенсорная: как определиться с выбором панели управления духовки

Практичный духовой шкаф, это не только понятные программы, множество режимов и опций, но и удобная панель управления. Зачастую мы смотрим на дизайн прибора, габариты и мощность, но не обращаем...

Почему самолёты чинят скотчем: халатность и экономия, или расчет инженеров

Время от времени в сети появляются шокирующие на первый взгляд кадры, сделанные пассажирами авиалайнеров, которые через иллюминатор снимают картину, как техник буквально чинит самолёт при помощи...

Искусственный интеллект в атомной энергетике: амбициозный (читать безрассудный) план США

В современном мире, где энергетическая безопасность и экологическая устойчивость становятся ключевыми вопросами, поиск инновационных решений приобретает первостепенное значение. Искусственный...