VASA-1: Когда фото запели. Искусственный интеллект Microsoft оживляет изображения

Пост опубликован в блогах iXBT.com, его автор не имеет отношения к редакции iXBT.com
| Мнение | Наука и космос

С давних времен человечество стремилось запечатлеть мгновения жизни, остановить бег времени, заключив его в рамки картин и фотографий. Но что, если бы эти застывшие образы могли заговорить, оживить свои истории, подарить миру эмоции, скрытые за непроницаемой маской холста или фотобумаги? Именно эту смелую идею воплощает в жизнь VASA-1 — новейшая разработка исследователей из Microsoft Research Asia.

Автор: Designer

VASA-1 — это не просто технологический прорыв, это шаг в сторону слияния искусства и науки, стирания грани между статикой и динамикой. Система, основанная на искусственном интеллекте, способна вдохнуть жизнь в любое изображение, будь то шедевр эпохи Возрождения или селфи, сделанное на смартфон. Достаточно предоставить аудиозапись — песню, речь, диалог, — и искусственный разум, словно дирижер, оживит черты лица, синхронизировав мимику с интонациями голоса, ритмом и смыслом произносимых слов.

В основе этого волшебства лежит сложный процесс обучения. VASA-1, подобно студенту-искусствоведу, изучила тысячи изображений с разнообразными выражениями лица, постигая тонкости человеческой мимики, её связь с эмоциями и речью. Результат — поразительная реалистичность анимаций, где каждое движение губ, каждый взгляд, каждое поднятие брови находятся в идеальной гармонии с произносимыми словами.

Получив одно портретное изображение, аудиоклип с речью и, по желанию, набор других управляющих сигналов, подход создает высококачественное реалистичное видео говорящего лица с разрешением 512x512 со скоростью до 40 кадров в секунду. Метод является универсальным и надежным, а сгенерированные говорящие лица могут точно имитировать человеческую мимику и движения головы, достигая высокого уровня реализма и живости. (Все фотореалистичные портретные изображения являются виртуальными, несуществующими личностями)
Автор: Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo. VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time. Microsoft Research Asia arxiv:2404.10667 [cs.CV] https://doi.org/10.48550/arXiv.2404.10667 Источник: arxiv.org

Представьте: Мона Лиза, с её загадочной улыбкой, вдруг начинает читать рэп, а суровый портрет средневекового рыцаря оживает, декламируя стихи о любви. VASA-1 стирает границы между эпохами и жанрами, позволяя нам взглянуть на знакомые образы под новым, неожиданным углом. (Посмотреть примеры работ можно на странице с исследованием Microsoft)

Однако возможности VASA-1 выходят далеко за рамки развлекательного контента. Эта технология открывает двери в мир интерактивного обучения, где исторические личности могут лично поведать о своих достижениях, а литературные герои — сойти со страниц книг, чтобы поделиться своими переживаниями. Представьте себе музей, где картины не просто висят на стенах, а ведут диалог с посетителями, рассказывая о своей эпохе и создателе.

Вместе с тем, разработчики VASA-1 осознают и этические аспекты своей технологии. В руках недобросовестных пользователей она может стать инструментом для создания фальшивых видео, способных ввести в заблуждение общественность. Поэтому на данный момент VASA-1 не доступна для широкого использования.

VASA-1 — это не просто технология, это приглашение к диалогу о будущем искусства и науки, о границах реальности и воображения. Это инструмент, который, подобно кисти художника, способен создавать новые миры, оживлять прошлое и дарить голос тем, кто был лишен его веками.

1 комментарий

107730199923922391507@google
На зубы обратите внимание в примерах на оригинальном сайте. Можно еще отличить, но это уже на уровень выше, чем Смута :)

Добавить комментарий

Сейчас на главной

Новости

Публикации

Синтезатор Поливокс: как советская радиоэлектроника вошла в мировую историю звукозаписи

Советский аналоговый синтезатор Поливокс, производившийся на Качканарском радиозаводе «Форманта» с 1982 по 1991 год, занимает обособленное место в истории электронной схемотехники. Разработанный...

Вселенная состоит из «пикселей»: как отказ от непрерывной математики решает главные парадоксы квантовой физики

В своих знаменитых лекциях Ричард Фейнман неоднократно подчеркивал, что квантовая интерференция — это единственная настоящая загадка квантовой механики. Из этого явления прямо или...

Суперкорабль Архимеда: какой была Сиракузия и зачем её строили

Если вы думаете, что круизные лайнеры со спортзалами, бассейнами и библиотеками — это достижение последних ста лет, то познакомьтесь с кораблём, который опередил своё время примерно на...

Почему автомобиль Lotus Seven продавали вместе с руководством по его разборке

В середине двадцатого века британская автомобильная промышленность переживала период активной трансформации. На фоне послевоенного восстановления экономики инженеры и конструкторы искали способы...

Почему «OK» стало универсальным словом согласия на всех языках мира

В современном мире трудно найти человека, который бы не понимал слово «OK». Две короткие буквы используются в чатах и деловых переговорах. Его можно услышать в любой точке планеты. Оно...

Как колодец в Индии стал архитектурным чудом и почему сейчас из него нельзя пить

Ну вообще-то назвать Чанд-Баори обычным колодцем всё равно что обозвать египетские пирамиды всего лишь каменными горками. Да, технически его построили для сбора воды. Но, как часто бывает с людьми,...