Швейцарские учёные создали систему SVI для генерации длительных видео без потери качества
Исследователи из лаборатории визуального интеллекта для транспорта (VITA) Федеральной политехнической школы Лозанны разработали систему Stable Video Infinity (SVI), способную генерировать связные видеоролики продолжительностью несколько минут.
Существующие модели генерации видео ограничены созданием коротких фрагментов длительностью от 5 до 20 секунд. Причина этого ограничения — эффект дрейфа, при котором сцены и персонажи постепенно теряют исходные характеристики, а видео утрачивает визуальную согласованность. Большинство современных моделей начинают давать сбои уже после 30 секунд генерации.
Для устранения этой проблемы команда VITA применила метод «переобучения с использованием повторяющихся ошибок». Принцип работы заключается в том, что возникающие в процессе генерации искажения и деформации намеренно возвращаются в модель для дополнительного обучения. Профессор Александр Алахи, руководитель лаборатории, описывает подход как тренировку пилота в условиях турбулентности вместо идеальной погоды. Модель учится распознавать собственные ошибки и корректировать их в реальном времени, что обеспечивает стабильность при длительной генерации.
Дополнительно команда представила инструмент LayerSync, предназначенный для синхронизации внутренней логики нейросети при создании видео, изображений и аудио. Метод позволяет модели согласовывать работу различных слоёв в процессе генерации мультимедийного контента.
Система SVI распространяется с открытым исходным кодом. Репозиторий проекта на GitHub получил более 2000 звёзд от разработчиков. Результаты исследования были представлены на Международной конференции по изучению представлений (ICLR) 2026 года.
Источник: Notebookcheck





0 комментариев
Добавить комментарий
Добавить комментарий