VASA-1: Когда фото запели. Искусственный интеллект Microsoft оживляет изображения

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Наука и космос

С давних времен человечество стремилось запечатлеть мгновения жизни, остановить бег времени, заключив его в рамки картин и фотографий. Но что, если бы эти застывшие образы могли заговорить, оживить свои истории, подарить миру эмоции, скрытые за непроницаемой маской холста или фотобумаги? Именно эту смелую идею воплощает в жизнь VASA-1 — новейшая разработка исследователей из Microsoft Research Asia.

Автор: Designer

VASA-1 — это не просто технологический прорыв, это шаг в сторону слияния искусства и науки, стирания грани между статикой и динамикой. Система, основанная на искусственном интеллекте, способна вдохнуть жизнь в любое изображение, будь то шедевр эпохи Возрождения или селфи, сделанное на смартфон. Достаточно предоставить аудиозапись — песню, речь, диалог, — и искусственный разум, словно дирижер, оживит черты лица, синхронизировав мимику с интонациями голоса, ритмом и смыслом произносимых слов.

В основе этого волшебства лежит сложный процесс обучения. VASA-1, подобно студенту-искусствоведу, изучила тысячи изображений с разнообразными выражениями лица, постигая тонкости человеческой мимики, её связь с эмоциями и речью. Результат — поразительная реалистичность анимаций, где каждое движение губ, каждый взгляд, каждое поднятие брови находятся в идеальной гармонии с произносимыми словами.

Получив одно портретное изображение, аудиоклип с речью и, по желанию, набор других управляющих сигналов, подход создает высококачественное реалистичное видео говорящего лица с разрешением 512x512 со скоростью до 40 кадров в секунду. Метод является универсальным и надежным, а сгенерированные говорящие лица могут точно имитировать человеческую мимику и движения головы, достигая высокого уровня реализма и живости. (Все фотореалистичные портретные изображения являются виртуальными, несуществующими личностями)
Автор: Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research Asia arxiv:2404.10667 [cs.CV] https://doi.org/10.48550/arXiv.2404.10667 Источник: arxiv.org

Представьте: Мона Лиза, с её загадочной улыбкой, вдруг начинает читать рэп, а суровый портрет средневекового рыцаря оживает, декламируя стихи о любви. VASA-1 стирает границы между эпохами и жанрами, позволяя нам взглянуть на знакомые образы под новым, неожиданным углом. (Посмотреть примеры работ можно на странице с исследованием Microsoft)

Однако возможности VASA-1 выходят далеко за рамки развлекательного контента. Эта технология открывает двери в мир интерактивного обучения, где исторические личности могут лично поведать о своих достижениях, а литературные герои — сойти со страниц книг, чтобы поделиться своими переживаниями. Представьте себе музей, где картины не просто висят на стенах, а ведут диалог с посетителями, рассказывая о своей эпохе и создателе.

Вместе с тем, разработчики VASA-1 осознают и этические аспекты своей технологии. В руках недобросовестных пользователей она может стать инструментом для создания фальшивых видео, способных ввести в заблуждение общественность. Поэтому на данный момент VASA-1 не доступна для широкого использования.

VASA-1 — это не просто технология, это приглашение к диалогу о будущем искусства и науки, о границах реальности и воображения. Это инструмент, который, подобно кисти художника, способен создавать новые миры, оживлять прошлое и дарить голос тем, кто был лишен его веками.

1 комментарий

107730199923922391507@google
На зубы обратите внимание в примерах на оригинальном сайте. Можно еще отличить, но это уже на уровень выше, чем Смута :)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Стоит ли отпускать домашних кошек на улицу: мнение экспертов и личный опыт

В то время как для домашних собак ежедневные прогулки являются базовой необходимостью, в отношении кошек единого мнения, к сожалению, нет. Как владелец двух котов, могу смело на своём опыте...

✦ ИИ  Как выбрать настоящий квас в магазине: изучаем этикетку, обращаем внимание на тару и условия хранения

Настоящий квас или сладкая газировка выдающая себя за квас? Как не ошибиться при выборе кваса в магазине. Какие ингредиенты должны быть в составе и каких добавок в настоящем квасе быть не должно.

Как 1,7 миллиона новых спутников на орбите изменят яркость ночного неба и усложнят работу телескопов

Эффективность работы оптических телескопов напрямую зависит от уровня фонового свечения ночного неба. При проведении астрономических наблюдений ключевым параметром является отношение сигнала к...

Проводные наушники в 2026 году: есть ли в них смысл? Обзор наушников TINHiFi C3 со сменным витым кабелем

Проводные наушники и по сей день не сдают позиций, особенно в сегменте HiRes-звука, остаются выбором тех, кто ценит отсутствие задержек и максимальное качество звука за свои деньги. А в паре с...

Игровой монитор Titan Army: обзор модели C34A1R с изогнутым экраном 34" и 2К разрешением

Монитор подойдёт тем, кто ищет сбалансированное решение для игр и повседневной работы, но не готов переплачивать за дорогостоящие OLED модели. Эта модель больше ориентирована на геймеров с...

Что сделало деревья возможными? Биологи доказали, что древесина появилась для защиты от засухи

Высота некоторых современных деревьев превышает сто метров. С инженерной точки зрения стабильное снабжение такого высокого организма водой представляет собой сложнейшую задачу. Физические...