InterAct: A Large-Scale Dataset of Dynamic, Expressive and Interactive Activities between Two People in Daily Scenarios

2509.05747v1 cs.CV, cs.AI, cs.LG, cs.MA, cs.RO, I.5.4 2025-09-10
Авторы:

Leo Ho, Yinghao Huang, Dafei Qin, Mingyi Shi, Wangpok Tse, Wei Liu, Junichi Yamagishi, Taku Komura

Резюме на русском

## Контекст В целях повышения качества распознавания и изучения динамичных интерактивных поведений между двумя людьми, авторы проводят исследования в области моделирования и предсказания человеческих механизмов коммуникации. Основной проблемой является учет сложных интерактивных ситуаций, которые включают в себя движения, выражения лица и звуковые сигналы, развивающиеся в течение длительного времени. Традиционные модели часто ограничиваются моделированием одного человека или разговорных жестов двух людей, не учитывая изменения ориентации и позиции тела в процессе взаимодействия. Мотивация для данного исследования заключается в разработке более точных методов моделирования дважды параллельно — индивидуальных движений каждого участника и их взаимодействия. ## Метод Для решения вышеуказанных вопросов был разработан метод, основанный на моделировании динамических и семантически точных взаимодействий. Для этого был создан новый датасет InterAct, включающий в себя 241 последовательностей движений двух участников, которые выполняют задачи или взаимодействуют в реальных сценариях. Основная особенность датасета — полная модель взаимодействия: аудио, телесные движения и выражения лица каждого участника записываются в течение одной минуты или дольше. Для моделирования разработана методика, основанная на методах распространения (diffusion-based methods), при которой движения тела регрессируются по шагам и улучшаются с помощью механизма гибкой файн-тюнинга для более точных выражений лица. ## Результаты Результаты исследования показали высокую точность в предсказании движений и выражений лица в интерактивных сценариях. Данные из датасета InterAct демонстрируют перспективу в развитии методов моделирования интерактивных поведений, недоступных ранее. Регрессия движений в два этапа позволила повысить точность и консистентность моделей. Также была продемонстрирована возможность адаптации модели к уточнению выражений лица, что улучшило точность воспроизведения лица в течение длительного времени. ## Значимость Полученные результаты имеют широкие практические приложения в разработке систем видеоанализа, синтеза глубокого значения и виртуальных актеров. Модель InterAct может быть применена в области видеоигр, развития систем виртуальных реальности и видеоредактирования. Особенностью данного подхода является то, что он позволяет моделировать не только телесные движения, но и выражения лица и звуковые сигналы, что делает результаты более реалистичными и информативными. ## Выводы Исследование показало, что InterAct — это первый датасет, который полностью модели

Abstract

We address the problem of accurate capture of interactive behaviors between two people in daily scenarios. Most previous works either only consider one person or solely focus on conversational gestures of two people, assuming the body orientation and/or position of each actor are constant or barely change over each interaction. In contrast, we propose to simultaneously model two people's activities, and target objective-driven, dynamic, and semantically consistent interactions which often span longer duration and cover bigger space. To this end, we capture a new multi-modal dataset dubbed InterAct, which is composed of 241 motion sequences where two people perform a realistic and coherent scenario for one minute or longer over a complete interaction. For each sequence, two actors are assigned different roles and emotion labels, and collaborate to finish one task or conduct a common interaction activity. The audios, body motions, and facial expressions of both persons are captured. InterAct contains diverse and complex motions of individuals and interesting and relatively long-term interaction patterns barely seen before. We also demonstrate a simple yet effective diffusion-based method that estimates interactive face expressions and body motions of two people from speech inputs. Our method regresses the body motions in a hierarchical manner, and we also propose a novel fine-tuning mechanism to improve the lip accuracy of facial expressions. To facilitate further research, the data and code is made available at https://hku-cg.github.io/interact/ .

Ссылки и действия