Розробники представили нейромережу TANGO, здатну генерувати реалістичні відео з рухами всього тіла, що точно відповідають звуковому супроводу. Цей інструмент не лише синхронізує міміку та рухи губ із аудіо, а й забезпечує природні жести та рухи всього тіла.
Унікальність TANGO полягає в її системі генерації «карти рухів». Після завантаження короткого референсного відео нейромережа аналізує можливі пози тіла та переходи між ними. На основі цих даних система обирає оптимальні рухи для відповідності ритму та інтонації завантаженого аудіо. Завершальний етап — створення плавних перехідних кадрів, які забезпечують природність рухів та їхню точну відповідність аудіо.
Технологічні особливості
Основою TANGO є ієрархічне моделювання аудіо та рухів у поєднанні з алгоритмами дифузійної інтерполяції. Це дає змогу системі точно розпізнавати характеристики голосу та синхронізувати їх із жестами. Використання дифузійної інтерполяції забезпечує плавність переходів між різними рухами, уникаючи різких змін, що поліпшує загальний досвід користувача.
TANGO має широкий спектр застосувань — від освіти та створення контенту до анімації та віртуальних аватарів. Інтерфейс цієї нейромережі є простим у використанні: користувачеві достатньо завантажити аудіофайл, щоб отримати відповідне відео. Це значно спрощує процес створення мультимедійного контенту та робить його доступним для широкого кола користувачів.
Технологія вже доступна на платформі Hugging Face, що дає змогу розробникам інтегрувати її у власні проєкти та вдосконалювати функціонал.
Раніше ми писали, що українське проєкційне шоу United in Light перемогло на фестивалі в Німеччині