Alibaba выпустила ИИ-модель Wan2.2-S2V для преобразования фото в видео с синхронизацией речи
Китайский технологический гигант Alibaba Group представил 27 августа 2025 года новую модель искусственного интеллекта Wan2.2-S2V, способную трансформировать статичные изображения в высококачественные видеоролики с синхронизацией движений персонажей под аудиодорожку.
Модель Wan2.2-S2V является частью семейства Wan2.2, анонсированного компанией в июле 2025 года. Ключевой особенностью технологии стала архитектура Mixture-of-Experts (MoE), позволяющая эффективно обрабатывать сложные аудиовизуальные данные. Система обучена на обширном наборе данных, специально адаптированных для кинематографического и телевизионного производства.
Технология позволяет создавать реалистичные анимации персонажей, включая естественные диалоги и музыкальные выступления. Особенно примечательна способность модели одновременно обрабатывать несколько персонажей в одной сцене, сохраняя синхронизацию их движений с аудиодорожкой.
Alibaba Cloud позиционирует Wan2.2-S2V как инструмент для профессиональных создателей контента, позволяющий получать точные визуальные представления в соответствии с конкретными требованиями к повествованию и дизайну. Модель доступна для загрузки на популярных платформах для разработчиков, включая HuggingFace и GitHub, а также в сообществе ModelScope от Alibaba Cloud.
Выпуск Wan2.2-S2V с открытым исходным кодом отражает стратегию китайских технологических компаний по сокращению отставания от американских конкурентов в области генеративного ИИ. Открытый доступ к исходному коду позволяет сторонним разработчикам не только использовать модель, но также модифицировать и распространять её, что потенциально ускоряет развитие технологии.
Источник: SCMP





0 комментариев
Добавить комментарий