Deepfloyd IF: новая нейросеть, которая умеет генерировать картинки с текстом. И при этом совсем бесплатно
Deepfloyd — новая нейросеть от StabilityAI с открытым исходным кодом, которая умеет генерировать картинки с текстом внутри. И это бесплатно: просто вставляете запрос с текстовым описанием будущей работы и получаете 4 варианта картинок через несколько секунд. Но есть ограничение: она умеет писать только на английском.

Как пользоваться
В самом интерфейсе нейросети есть два поля: для промпта и для негативного промпта.
В поле с обычным промптом нужно вписать тот запрос, который вы хотите нарисовать. А в негативный — те вещи, объекты и т.д., которые вы не хотите видеть после генерации.

Для примера попросим нейросеть нарисовать футболку с надписью IXBT. Но зададим ограничение — красные и белые футболки.

Сами футболки видны плохо. Но понятно одно: белых и красных нет.
Второй шаг после того, как вы получили картинки — кликнуть на понравившуюся и нажать Upscale.

После этого нейросеть увеличит ваше фото до размера 1024 х 1024. Например, вот, что она сделала из второго варианта.

Футболка получилась довольно качественной и реалистичной.
У нейросети есть и другие, дополнительные функции.

Эти параметры отвечают за качество и детализацию картинки.
Seed показывает, чем нейросеть будет руководствоваться при генерации картинок. Разные значения — разные стартовые точки для генерации каждой из картинок. Если вы не хотите генерировать похожие картинки, ставьте значение минус 1. Так каждая картинка будет уникальной. А если вам нужно улучшить свой текстовый запрос, то зафиксируйте какое-то конкретное стартовое число и не меняйте его.
Guidance Scale показывает, насколько нейросеть будет придерживаться вашему запросу. Здесь есть своя градация:
- 2–6 — нейронка рисует, что хочет;
- 7–11 — нейронка обрабатывает только половину запроса, а вторую половину додумает;
- 12–15 — постарается учесть почти весь запрос;
- 16+ — будет следовать только запросу.
В Stable diffusion по умолчанию рекомендуют использовать значение 8. А если вы точно уверены в том, что получите, ставьте 12. Здесь можно придерживаться таких же значений.
Важно! Рекомендую брать в кавычки тот текст, который вы хотите нарисовать. Например, не IXBT, а «IXBT». Так нейронка сгенерирует буквы лучше.

Вариант генерации с текстом в кавычках: только одна картинка не в тему

Вариант генерации с текстом без кавычек: две картинки с неправильным текстом
Что умеет нейросеть
А теперь настало время примеров, которые я смог создать совместно с нейросетью.
Вы посмотрите на эту кепку: буквы такие, будто бы их действительно вышили.Идем дальше.

Здесь слились буквы «u» и «r» но картинка все равно выглядит реалистично.
Теперь пройдемся по еде.

Не знаю, что это за овощи, но выглядит даже аппетитно.
Попробуем сгенерировать какое-нибудь животное.

Здесь, конечно, нейросеть отразила не все, что я хотел: нет стаканчика кофе, неправильно написано выражение и у собаки нет рубашки. Но выглядит это все равно круто.

А это — второй вариант собаки с тем же промптом. Здесь все намного круче и эпичнее, только выражение снова написано с ошибкой.
Где попробовать
Модель представлена в виде открытого исходного кода, который лежит на GitHub.
Но саму нейросеть можно попробовать на сайте Hugging Face.
2 комментария
Добавить комментарий
Our research band: Mikhail Konstantinov,Alex Shonenkov,Daria Bakshandaeva,Ksenia Ivanova.
https://github.com/deep-floyd/IF
Ну, скорее всего, базу иностранную просто использовали (SD ведь на ней и обучена)
Добавить комментарий