Google Research представляет VideoPoet — революция в генерации видео и аудио

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Новость | ИИ, сервисы и приложения

Недавно команда Google Research представила новую разработку в области искусственного интеллекта — VideoPoet. Это крупномасштабная языковая модель, задача которой — преодолеть сложности, возникающие при создании видеоконтента.

Особенности VideoPoet

  • Мультизадачность. Модель рассчитана на выполнение множества задач, от преобразования текста в видео до изменения стилей и ремастеринга существующих видео. Также она способна преобразовывать изображения в видео и даже создавать аудио.
  • Инновационный подход. В отличие от классических диффузионных моделей, VideoPoet интегрирует все эти функции в одну языковую модель, обеспечивая более высокий уровень интеграции и способность к обучению.
  • Тренировка на различных модальностях. VideoPoet обучается с использованием нескольких токенизаторов — MAGVIT V2 для видео и изображений и SoundStream для аудио — чтобы овладеть знаниями в разных областях, таких, как видео, изображения, аудио и текст.
Автор: Нейросеть DALL-E 3

VideoPoet демонстрирует впечатляющие способности в создании контента. Например, он может генерировать видео различной длины на основе текстовых подсказок или превращать статические изображения в анимированные видео. Модель также может стилизовать видео, добавляя уникальные визуальные эффекты и даже создавать аудиодорожки.

Источник: www.chinaz.com

Для оценки эффективности VideoPoet использовались различные методики. В сравнении с другими моделями, VideoPoet выделяется своей способностью следовать текстовым подсказкам: в 24-35% случаев люди предпочитали его результаты конкурентам. Также, диапазон предпочтения для видео с интересными движениями составил 41-54% против 11-21% у конкурентов.

Источник: www.chinaz.com

VideoPoet, как крупномасштабная языковая модель, интегрирующая различные задачи по созданию видео, открывает новые горизонты для генерации видеоконтента «с нуля». Это открывает перспективы для художественного творчества, кинопроизводства и других творческих областей, где ценится инновационный подход.

Источник: chinaz

Автор не входит в состав редакции iXBT.com (подробнее »)
Об авторе
Я занимаюсь техническими обзорами. Тестирую разные устройства — от смартфонов и планшетов до пылесосов, видеорегистраторов, инструмента и бытовой электроники. Всё, что проходит через руки, проверяю на практике: включаю, разбираюсь, измеряю, фиксирую реальные параметры, сравниваю с тем, что заявлено.Все обзоры делаю сам, опираясь на реальный опыт. Техникой пользуюсь дома, в обычных условиях — как это делают большинство пользователей. Такой подход позволяет понять, как устройство ведёт себя в жизни, и будет особенно полезен тем, кто привык разбираться в процессе, а не по инструкции.

Мои основные каналы публикации:

  • YouTube — видеоролики с тестами, разбором функций, сценариями использования
  • Dzen — статьи, подборки и обзоры с уклоном в практику
  • VK — посты, анонсы, общение с подписчиками
  • TikTok — короткие обзоры и сравнения
  • RuTube — дубль видеоматериалов для тех, кто предпочитает российские платформы

E-mail: badmadsam@mail.ru

Сейчас на главной

Новости

Публикации

За что его так любят? Обзор популярного GAN зарядного устройства UGREEN CD224 65W

Зарядное устройство Ugreen CD224 с технологией GAN имеет выходную мощность 65 Вт, 4 USB‑порта и компактные размеры. На момент написания статьи его стоимость в официальном магазине производителя на...

От камерофонов до больших аккумулуляторов: 10 смартфонов с ценой от 20 до 30 тысяч рублей (осень 2025)

В сегодняшней подборке я собрал для вас десять разных смартфонов с ценником от 20 до 30 тысяч рублей. Как и обычно, список поделён на условные «номинации», чтобы каждый из читателей смог найти...

✦ ИИ  Почему мы мгновенно замечаем знакомое лицо в толпе или опечатку в тексте? Исследование объясняет работу древнего механизма внимания

Каждый день ваш мозг выполняет сложнейшую по своей сути задачу. Он отсеивает гигабайты визуальной информации, чтобы вы мгновенно заметили знакомое лицо в толпе, опечатку в тексте или хищника,...

Расширение Вселенной не ускоряется, а замедляется: почему Нобелевское открытие последних 20 лет может быть основано на ошибке

Более двадцати лет мы живем с концепцией о том, что расширение нашей Вселенной ускоряется. Это открытие, удостоенное Нобелевской премии в 2011 году, стало основой современной космологии. Отсюда...

✦ ИИ  Физики смоделировали облик кротовой норы: она похожа на гусеницу

Одна из самых интересных гипотез в теоретической физике гласит: ER = EPR. Эта формула постулирует, что две фундаментальные концепции — кротовые норы (мосты Эйнштейна-Розена, ER) и...

Аудиокабель за 70 000 рублей звучит как кабель за 700 рублей? Разбираемся, почему дорогой кабель — это не главное

Когда вы приходите в специализированный магазин электроники или смотрите профессиональные аудиофильские форумы, вам неизбежно встречаются кабели стоимостью в несколько тысяч рублей. Продавцы...