Для работы проектов iXBT.com нужны файлы cookie и сервисы аналитики. Продолжая посещать сайты проектов вы соглашаетесь с нашей Политикой в отношении файлов cookie

Сравниваем нейросети Kandinsky 2.1 Сбера и «Шедеврум» Яндекса

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com

10 мая 2023, 09:02 | Обзор | ИИ, сервисы и приложения

Чтобы поиграться с генеративными нейросетями, необязательно идти в Midjourney или Stable Diffusion. В России есть свои нейросети, которые тоже неплохо рисуют: Kandinsky от Сбера и «Шедеврум» от Яндекса. Разбираемся, какая из них работает лучше и генерирует круче.

Но сначала — немного о самих нейросетях

Kandinsky 2.1 — это улучшенная версия предыдущей модели. Она стала умнее, потому что ее дообучили на 170 млн картинок с подписями. И если в Kandinsky 2.0 было 2 млрд параметров, то в Kandinsky 2.1 их 3,3 млрд.

«Шедеврум» использует в работе каскадную диффузию. Это значит, что сначала он генерирует картинку в виде пикселей, а потом детализирует ее и улучшает в качестве. База картинок у него меньше: 240 млн с подписями. Поэтому «Шедевруму» я буду давать иногда несколько попыток, все-таки база у него меньше, поэтому и картинки могут не получаться с первого раза.

Первый запрос — попугай сидит на ветке

Первый шаг за Kandinsky 2.1:

Выглядит очень неплохо: детализированный голубь, хороший задний фон и ветка под лапами. Жаль, что с лапами у голубя какая-то беда. А так было бы вообще без вопросов.

Теперь очередь «Шедеврум».

Сразу скажу, что «Шедеврум» заметно уступает Kandinsky. Но при этом на третьей картинке все выглядит неплохо: птица достаточно детализированная, у нее видны перья и даже лапа получилась более-менее. А про четвертую картинку я промолчу — добро пожаловать в игры 2008-2010 годов.

Дам «Шедевруму» еще один шанс.

Теперь все стало куда круче. Особенно, на третьей картинке. Здесь и лапки смотряться неплохо, и перья стали лучше. Правда, глаз выглядит неестественно.

В общем, тут ставлю 1:1. Обе нейросети выдали неплохие результаты. Теперь усложним задачу.

Второй запрос — 3 кошки стоят перед красной дверью

Этот запрос сложнее, потому что в нем есть конкретное число и больше деталей.

Кошек, конечно, жизнью потрепало. Но, Kandinsky почти справился с задачей: кошек трое и они стоят перед красной дверью. Жаль, что не получилось сгенерировать красивые мордашки.

Теперь очередь за «Шедеврум».

Тут нейросеть почти везде нарисовала красную дверь, но с кошками совсем беда: их больше и кошками назвать их трудно. Дадим «Шедевруму» еще одну попытку.

Стало получше, особенно на последней картинке: красная дверь и три кошки есть, мордашки и глаза почти нормальные. Но балл все равно отдам Kandinsky — у него все выглядит лучше.

Бонус сравнение. Решил добавить в промпт в «Шедевруме» подсказок, которая рекомендует сама нейросеть. Вот, какие выбрал: реалистично, высокое разрешение, красиво. Заодно посмотрим, как на эти уточнения отреагирует Kandinsky.

Вот обновленный промпт: три кошки стоят перед красной дверью, реалистично, высокое разрешение, красиво. Теперь первым отдувается «Шедеврум».

Мне не нравится ни одна из картинок. Без уточнений было лучше. Посмотрим, что получится у Kandinsky.

Здесь тоже почти без изменений: стала лучше шерсть и одного кота нейросеть зачем-то покрасила.

В общем, здесь 0:0.

Третий запрос — космический корабль в виде летающей тарелки летит на луну

Здесь я решил чуть-чуть запутать запрос и дать побольше подробностей.

Первым отвечает Kandinsky:

Как по мне, здесь полное совпадение: космический корабль в виде летающей тарелки и луна.

Теперь очередь за «Шедеврум».

У него тоже получилось неплохо, на двух картинках (2 и 4) полное совпадение с запросом. Жаль, что все пиксельное. Но я опять попробую это исправить дополнительным запросом: космический корабль в виде летающей тарелки летит на луну, реалистично, 4К, высокое разрешение, высокая детализация, мягкое освещение.

В целом, получилось лучше. Но изображение так и не стало в высоком и 4K-разрешении.

Посмотрим, что из этого промпта сделает Kandinsky.

Вот здесь стало действительно лучше. Поэтому еще один балл в копилку Kandinsky.

Что в итоге

Обе нейросети — хороший вариант попробовать новые технологии. Но серьезно использовать их в работе я бы не стал: у Stable Diffusion и Midjourney получается генерировать изображения куда лучше. Но если хочется просто попробовать — рекомендую обе. Иногда получаются прикольные варианты.

А как считаете вы, какая из нейросетей лучше? Пишите свои мнения в комментарии.

31 комментарий

Добавить комментарий

То, что птичка «сидит» на ветке фактически стоя на ногах, нейросети знают. А вот как они понимают «стоящую» кошку, вызывает удивление. По первому запросу я бы сказал, что все кошки сидят, а не стоят. Только на одной картине именно стоят, но там кошки получились вообще странные, только с задними лапами.
С тарелкой у Кандинского вроде и не плохо, но вот логика тоже хромает. На первой картинке пропала половина луны (по идее должна виднеться и ниже тарелки). Да еще и непонятно откуда лишние спутники земли появились. :)

Ответить

Да, с кошками специально написал «стоят». Хотел проверить, нарисуют ли они дословно. Но, нужно было уточнять, что они стоят на задних лапах.
С тарелкой согласен: в общем все выглядит неплохо, но если присмотреться…

Ответить

Не пробовала от СБЕРА, Шедеврум классная штука, но судя по статье ИИ от Сбера лучше, хочу попробовать теперь)

Ответить

Да, попробуйте обязательно) Она бесплатная

Ответить

Бесит когда я, неуч, бешусь из-за грамматики автора статьи. Та йопт твою медь. Других авторов у вас для нас нет? Сижу смотрю Ютуб ихбт — пошел в туалет почитать статью — уже и Ютуб так себе смотреть. Ну йопт твою… Оверы сдохли, тут тоже качество начало страдать. Что читать?

Ответить

Подскажите, пожалуйста, в каких местах есть ошибки? Я подправлю.

Ответить

Дочитал до очередного «ться» не там, где надо и дальше не читал

Ответить

Зато сразу видно, что человек писал, а не сетка ))

Ответить

Сетка сама будет делать ошибки для маскировки под «обычного неуча».

Ответить

«Первый запрос — попугай сидит на ветке» — пока писали статью забыли про что речь и дальше все про голубей?
Но не совсем )) На картинке текст «Голудь сидит на ветке». Кто такой голудь? Удивительно что нейросеть вас поняла.

Ответить

Точно! А я совсем не заметил.

Ответить

Извиняюсь за то, что мое сообщение могло выглядеть как агрессия, приятно когда автор реагирует.

Ответить

Ничего страшного. Любая обратная связь всегда хороша;)

Ответить

Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чему авторав статистик статье.

Ответить

Да уж. А ты сам грамотей ещё тот. В одном этом предположении ошибок больше, чем у автора в статье.

Ответить

Ты себе пишешь?

Ответить

Точно! А я совсем не заметил.

Мрачняк. Я думал, тут сейчас будут пытать Канди на умение распознавания некорректных запросов. Но нет ))) Это Михаил чутка ошибся ))) Ну, на самом деле, не страшно)))
Спасибо за статью.

Ответить

Пожалуйста!
Некорректные запросы пока что не трогаю))

Ответить

К слову, вне темы (можно сказать оффтопик) — довольно забавная нейронка https://bratgpt.com/ — «злой ИИ». С огромным ЧСВ и прочее. Очень хорошо если хочешь кого то обматерить ))) Позволяет отлично спустить пар, и натренироваться игнорить жирных троллей )))
И да, это к некорректным запросам тоже относится, он весьма едко на эту тему высказался «на уровне» — «я то завтра трезвый буду, а ты так уродом и останешься» )))

Ответить

Читал о нем, но сам еще не пользовался))
Спасибо за ссылочку

Ответить

Рекомендую. Практической пользы от него — ну только то, что я выше написал… Но забавный до чёртиков.
Абсолютно не за что. Считайте маленькой оплатой за вашу статью. )

Ответить

На самом деле, Шедеврум со временем прогружает картинки в хорошем качестве, но для этого надо «опубликовать» одну из 4, и подождать несколько минут

Ответить

Да, становится лучше. Но в Kandinsky все равно получаются более детализированные картинки.

Ответить

Круто, что наши так быстро на таком хорошем уровне «рисовать» стали, лапки у птичек корявые, но думаю еще немножко обучения и все будет ок.

Ответить

Да, сейчас дело в небольшой базе, на которой обучают нейросети. Надеюсь, что Kandinsky 2.2 сможет придти к уровню midjorney 5.

Ответить

Да, Midjorney 5 использовала большие объемы данных, включая огромное количество изображений и видео, собранных на протяжении нескольких лет, речь идет о сотнях миллионов образцов, так что у наших еще все впереди, главное, чтоб не вперде)))

Ответить

Согласен))

Ответить

«Kandinsky 2.1… ее дообучили на 170 млн картинок
«Шедеврум»… картинок у него меньше: 240 млн»
Для полной логики не хватает понимания, сколько же картинок потребовалось для обучения Кандинского в итоге.

Ответить

Она обучена на 3,3 млрд.

Ответить

Вы уверены, что объём датасета и количество параметров- это одно и то же?

Ответить

Судя по тем картинкам что вы показали Шедеврум намного интереснее композиционное мышление. Почему то у Кандинский очень банальные неинтересные картинки выходят. Так что мне захотелось попробовать Шедеврум. Спасибо за интересную, полезную статью.

Ответить

Добавить комментарий

Сейчас на главной

Новости

Dimensity 9500, батарея на 8000 мАч и LTPO до 144 Гц: смартфон iQOO 15T представлен официально

Смартфоны и телефоны
6 минут назад
0

Эффект отцовства: ученые зафиксировали масштабную трансформацию мужского мозга после рождения ребенка

Наука и космос
30 минут назад
0

iQOO представила беспроводные наушники TWS 5i с задержкой 42 мс

Аудио и звук
43 минуты назад
0

LucidSound выпустила игровую гарнитуру LS500 для консолей Xbox и PlayStation

Компактный смартфон из далекого прошлого: Ulefone Note 22 представлен официально

Публикации

Заложники гигантомании: почему мировая логистика больше не справляется с мегасудами

Мнение
6 минут назад
Оффтопик

Морская контейнерная перевозка давно стала артерией глобальной торговли. Более 80% мировой торговли по объёму перемещается по морю, и в последние десятилетия отрасль пережила настоящую революцию...

Почему школьная химия не работает в вакууме, или как растворители обманывали ученых сто лет

Статья
22 минуты назад
Наука и космос

Каждый, кто изучал органическую химию, сталкивался с понятием индуктивного эффекта. В учебниках его описывают как направленное смещение электронной плотности по цепочке простых химических связей....

Обзор портативной акустики W-KING H330 – 70 Вт RMS, большой корпус и проверка автономности

Обзор
55 минут назад
Аудио и звук

Когда нужна колонка не только для фоновой музыки с телефона, а для более громкого и долгого прослушивания с возможностью работать без розетки, компактные модели быстро упираются в свои ограничения....

10 причин почему стоит попробовать Linux: контроль над системой, стабильность и свобода выбора

Тематическая подборка
1 час назад
ИИ, сервисы и приложения

О Linux часто говорят слишком резко: одни видят в нём сложную систему для энтузиастов, другие превращают его в символ компьютерной свободы. Но за пределами споров Linux оказывается не символом и не...

Почему газовый кратер Дарваза в Туркменистане горит уже больше полувека

Статья
2 часа назад
Путешествия и туризм

И нет, речь пойдет не о Кольской скважине, которая тоже носит столь громкое название. Вообще, когда речь заходит о создании звучного названия, у людей словно разом отключается креативность. Врата в...

Город под одной крышей: как и зачем 241 человек живёт в одном здании на Аляске, не выходя на улицу

Мнение
2 часа назад
Путешествия и туризм

Небольшое поселение Уиттиер, расположенное на территории Аляски, представляет собой уникальный пример урбанистического устройства. Согласно данным World Population Review, по состоянию на 2026 год...