Ученые из Колумбийской школы инженерии разработали робота, научившегося синхронизировать движение губ с речью и пением благодаря обучению с обратной связью. Робот первоначально исследовал возможности своих 26 лицевых двигателей, наблюдая за собой в зеркале, после чего проанализировал видеозаписи людей с YouTube, выявляя корреляцию между произносимыми звуками и соответствующими движениями губ. Такой подход позволил ему воспроизводить речь на различных языках и исполнить композицию из собственного искусственного музыкального сборника.
Достижение решает две главные проблемы: высокую технологическую сложность управления многоконтурным лицом и задачу точной синхронизации быстро меняющихся фонем с мимическими движениями. Несмотря на небольшие трудности с некоторыми звуками, такими как "Б" и "В", система демонстрирует потенциал постоянного совершенствования через машинное обучение. Ученые отмечают, что достоверная мимика является ключевым элементом для формирования доверительных отношений между человеком и роботом, особенно в сфере помощи пожилым, образовании и медицинских сервисах.
Новый подход также приближает нас к преодолению «эффекта зловещей долины» — психологического эффекта, возникающего при почти человеческом, но нереалистичном поведении роботов. Исследователи представляют будущее, где роботы с естественной невербальной коммуникацией станут частью повседневной жизни, однако настоятельно рекомендуют развивать эту технологию ответственно и с учетом этических норм, поскольку она способна оказывать сильное влияние на человеческие эмоции.
Результаты работы опубликованы в журнале Science Robotics.
Изображение: Джейн Ниссельсон/Инженерный факультет Колумбийского университета


