Как DALL-E 2 и Midjourney, только лучше: создана нейросеть Make-A-Video, которая генерирует видео по текстовому описанию

Разработчики из компании Meta* представили новую нейросеть под названием Make-A-Video. Она умеет генерировать видеоролики по текстовому описанию. Это похоже на работу других нейросетей, которые создают изображения аналогичным способом, но там всё ограничивается одним изображением, а не несколькими.

Разработчики опубликовали несколько видео, чтобы показать возможности новой системы. Пока что Make-A-Video умеет создавать ролики не более 5 секунд с плохим качеством и без звука. Однако это громадный шаг вперёд на фоне того, что уже есть. Примеры можно увидеть ниже.

Сейчас доступа к технологии нет даже по приглашениям. Однако, похоже, в будущем такая возможность появится, ведь уже есть форма регистрации.

В техническом плане система работает так: при анализе текстового запроса Make-A-Video генерирует 16 кадров видео с разрешением 64 на 64 пикселя каждый. После этого их увеличивают с помощью другой ИИ-системы. Как утверждается, нейросеть обучали на миллионах видеороликов, в том числе стоковых.

Ранее сообщалось, что нейросеть DALL-E 2 стала доступна в некоторых странах без приглашений.

* Meta признана экстремистской организацией на территории РФ

Как DALL-E 2 и Midjourney, только лучше: создана нейросеть Make-A-Video, которая генерирует видео по текстовому описанию

Хотя качество пока низкое