Робот EMO научился самостоятельно синхронизировать движения губ при разговоре
Исследователи из Лаборатории творческих машин Колумбийского университета представили робота EMO, способного самостоятельно обучаться синхронизации движений губ с произносимыми словами. Разработку возглавили аспирант Юхан Ху и профессор Ход Липсон.
Конструктивно EMO представляет собой роботизированную голову с 26 миниатюрными моторчиками, расположенными под гибкой силиконовой оболочкой лица. Различные комбинации активации моторчиков позволяют формировать мимику и изменять положение губ.
Процесс обучения робота проходил в два этапа. На первом этапе EMO располагался перед зеркалом и совершал тысячи случайных движений лицевыми мышцами, одновременно наблюдая за результатом. Таким образом система установила связь между командами двигательным механизмам и визуальными изменениями. Этот метод относится к категории языковых моделей VLA — «от видения к действию».
На втором этапе робот проанализировал многочасовые видеозаписи с YouTube, на которых люди разговаривают и поют. Это позволило выявить закономерности между звуками речи и соответствующими движениями губ. Искусственный интеллект EMO объединил полученные данные с результатами зеркального обучения и научился формировать артикуляцию для слов, воспроизводимых синтетическим голосовым модулем.
На текущем этапе разработки робот испытывает трудности с воспроизведением отдельных звуков, в частности «B» и «W». По словам Юхана Ху, интеграция технологии с диалоговыми системами искусственного интеллекта, такими как ChatGPT или Gemini, позволит роботу вести контекстно-зависимые беседы и воспроизводить соответствующие мимические жесты.
Источник: New Atlas





0 комментариев
Добавить комментарий
Добавить комментарий