Deepfloyd IF: новая нейросеть, которая умеет генерировать картинки с текстом. И при этом совсем бесплатно

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Обзор | Программы, сервисы и сайты

Deepfloyd — новая нейросеть от StabilityAI с открытым исходным кодом, которая умеет генерировать картинки с текстом внутри. И это бесплатно: просто вставляете запрос с текстовым описанием будущей работы и получаете 4 варианта картинок через несколько секунд. Но есть ограничение: она умеет писать только на английском.

Промпт: a photo of a violet baseball cap with yellow text: "deep floyd". 50mm lens, photo realism, cine lens. violet baseball cap says "deep floyd". reflections, render. yellow stitch text "deep floyd"

Как пользоваться 

В самом интерфейсе нейросети есть два поля: для промпта и для негативного промпта.

В поле с обычным промптом нужно вписать тот запрос, который вы хотите нарисовать. А в негативный — те вещи, объекты и т.д., которые вы не хотите видеть после генерации.

Для примера попросим нейросеть нарисовать футболку с надписью IXBT. Но зададим ограничение — красные и белые футболки.

Сами футболки видны плохо. Но понятно одно: белых и красных нет.

Второй шаг после того, как вы получили картинки — кликнуть на понравившуюся и нажать Upscale. 

После этого нейросеть увеличит ваше фото до размера 1024 х 1024. Например, вот, что она сделала из второго варианта.

Футболка получилась довольно качественной и реалистичной.

У нейросети есть и другие, дополнительные функции.

Эти параметры отвечают за качество и детализацию картинки.

Seed показывает, чем нейросеть будет руководствоваться при генерации картинок. Разные значения — разные стартовые точки для генерации каждой из картинок. Если вы не хотите генерировать похожие картинки, ставьте значение минус 1. Так каждая картинка будет уникальной. А если вам нужно улучшить свой текстовый запрос, то зафиксируйте какое-то конкретное стартовое число и не меняйте его.

Guidance Scale показывает, насколько нейросеть будет придерживаться вашему запросу. Здесь есть своя градация: 

  • 2–6 — нейронка рисует, что хочет; 
  • 7–11 — нейронка обрабатывает только половину запроса, а вторую половину додумает;
  • 12–15 — постарается учесть почти весь запрос;
  • 16+ — будет следовать только запросу. 

В Stable diffusion по умолчанию рекомендуют использовать значение 8. А если вы точно уверены в том, что получите, ставьте 12. Здесь можно придерживаться таких же значений.

Важно! Рекомендую брать в кавычки тот текст, который вы хотите нарисовать. Например, не IXBT, а «IXBT». Так нейронка сгенерирует буквы лучше.

Вариант генерации с текстом в кавычках: только одна картинка не в тему

Вариант генерации с текстом без кавычек: две картинки с неправильным текстом

Что умеет нейросеть

А теперь настало время примеров, которые я смог создать совместно с нейросетью.

Вы посмотрите на эту кепку: буквы такие, будто бы их действительно вышили.Идем дальше.

Промпт: a subway train's digital sign saying "open source", vsco preset, 35mm photo, film grain, in a dim subway station

Здесь слились буквы «u» и «r» но картинка все равно выглядит реалистично. 

Теперь пройдемся по еде.

Промпт: word «diet» from vegetables on a plate

Не знаю, что это за овощи, но выглядит даже аппетитно.

Попробуем сгенерировать какое-нибудь животное.

Промпт: a wide angle photo of a very happy dog in a hat giving a thumb up to the camera while holding a coffee cup and wearing a shirt reading "This is fine" in front of burning servers, servers in flames in the background, sharp focus, intricate details, ultra detailed, 8k

Здесь, конечно, нейросеть отразила не все, что я хотел: нет стаканчика кофе, неправильно написано выражение и у собаки нет рубашки. Но выглядит это все равно круто.

А это — второй вариант собаки с тем же промптом. Здесь все намного круче и эпичнее, только выражение снова написано с ошибкой.

Где попробовать

Модель представлена в виде открытого исходного кода, который лежит на GitHub

Но саму нейросеть можно попробовать на сайте Hugging Face.

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Коммерческий автор, пишу о бизнесе, финансах, инвестициях и IT. Рассказываю о нейросетях в диджитале. Больше интересного контента о нейросетях в моем телеграм-канале «Миша, давай по новой»

2 комментария

grebnebo
Интересно, как русским удалось обучить модель без поддержки русского языка...
Our research band: Mikhail Konstantinov,Alex Shonenkov,Daria Bakshandaeva,Ksenia Ivanova.
https://github.com/deep-floyd/IF
112250469659394019554@google
Да, самому интересно стало))
Ну, скорее всего, базу иностранную просто использовали (SD ведь на ней и обучена)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Госдума приняла два закона о регистрации авто, которые облегчат жизнь водителям: что изменится

Вскоре грядут перемены в регистрации автомобилей, и это определённо можно назвать хорошей новостью. Изменения коснутся перечня документов для регистрации и перерегистрации авто в ГИБДД, а также...

Обзор систем жидкостного охлаждения ID-Cooling SL360 и ID-Cooling SL360 XE

В августе 2023 года, компания ID-Cooling представила новую серию своих СЖО, в лице Space LCD. В рамках серии были представлены две модели радиатора разных размеров — 240 и 360 мм, каждая...

Датчики и типы навигации в роботах-пылесосах. Какой вид навигации выбрать?

Робот-пылесос — это умное устройство, которое стало незаменимым помощником в уборке дома. Инновационные модели роботов-пылесосов оснащены различными датчиками и типами навигации,...

Обзор субфлагмана HONOR 200 Pro: Snapdragon 8s Gen 3, сенсор H9000 и портретный режим от Harcourt

В сегодняшнем обзоре мы познакомимся со смартфоном HONOR 200 Pro — топовая модель серии HONOR 200 и субфлагман в модельном ряду 2024 года. Данный смартфон выделяется флагманской камерой...

Какой режим выбрать, чтобы не испортить вещи в стиральной машине

Количество программ современной стиральной машинки поражает воображение: легко насчитать 15-20 режимов для стирки вещей и белья из различных тканей. Но все ли они нужны, мы ведь обычно...

Обзор винилового проигрывателя Reproductor RP-LP2XBT — откройте для себя магию виниловых пластинок

Виниловые пластинки вновь обретают популярность среди меломанов, стремящихся к аутентичному звучанию. И если вы тоже решили окунуться в мир аналогового звука, то вам понадобится качественный...