InterAct: A Large-Scale Dataset of Dynamic, Expressive and Interactive Activities between Two People in Daily Scenarios
2509.05747v1
cs.CV, cs.AI, cs.LG, cs.MA, cs.RO, I.5.4
2025-09-10
Авторы:
Leo Ho, Yinghao Huang, Dafei Qin, Mingyi Shi, Wangpok Tse, Wei Liu, Junichi Yamagishi, Taku Komura
Резюме на русском
## Контекст
В целях повышения качества распознавания и изучения динамичных интерактивных поведений между двумя людьми, авторы проводят исследования в области моделирования и предсказания человеческих механизмов коммуникации. Основной проблемой является учет сложных интерактивных ситуаций, которые включают в себя движения, выражения лица и звуковые сигналы, развивающиеся в течение длительного времени. Традиционные модели часто ограничиваются моделированием одного человека или разговорных жестов двух людей, не учитывая изменения ориентации и позиции тела в процессе взаимодействия. Мотивация для данного исследования заключается в разработке более точных методов моделирования дважды параллельно — индивидуальных движений каждого участника и их взаимодействия.
## Метод
Для решения вышеуказанных вопросов был разработан метод, основанный на моделировании динамических и семантически точных взаимодействий. Для этого был создан новый датасет InterAct, включающий в себя 241 последовательностей движений двух участников, которые выполняют задачи или взаимодействуют в реальных сценариях. Основная особенность датасета — полная модель взаимодействия: аудио, телесные движения и выражения лица каждого участника записываются в течение одной минуты или дольше. Для моделирования разработана методика, основанная на методах распространения (diffusion-based methods), при которой движения тела регрессируются по шагам и улучшаются с помощью механизма гибкой файн-тюнинга для более точных выражений лица.
## Результаты
Результаты исследования показали высокую точность в предсказании движений и выражений лица в интерактивных сценариях. Данные из датасета InterAct демонстрируют перспективу в развитии методов моделирования интерактивных поведений, недоступных ранее. Регрессия движений в два этапа позволила повысить точность и консистентность моделей. Также была продемонстрирована возможность адаптации модели к уточнению выражений лица, что улучшило точность воспроизведения лица в течение длительного времени.
## Значимость
Полученные результаты имеют широкие практические приложения в разработке систем видеоанализа, синтеза глубокого значения и виртуальных актеров. Модель InterAct может быть применена в области видеоигр, развития систем виртуальных реальности и видеоредактирования. Особенностью данного подхода является то, что он позволяет моделировать не только телесные движения, но и выражения лица и звуковые сигналы, что делает результаты более реалистичными и информативными.
## Выводы
Исследование показало, что InterAct — это первый датасет, который полностью модели
Abstract
We address the problem of accurate capture of interactive behaviors between
two people in daily scenarios. Most previous works either only consider one
person or solely focus on conversational gestures of two people, assuming the
body orientation and/or position of each actor are constant or barely change
over each interaction. In contrast, we propose to simultaneously model two
people's activities, and target objective-driven, dynamic, and semantically
consistent interactions which often span longer duration and cover bigger
space. To this end, we capture a new multi-modal dataset dubbed InterAct, which
is composed of 241 motion sequences where two people perform a realistic and
coherent scenario for one minute or longer over a complete interaction. For
each sequence, two actors are assigned different roles and emotion labels, and
collaborate to finish one task or conduct a common interaction activity. The
audios, body motions, and facial expressions of both persons are captured.
InterAct contains diverse and complex motions of individuals and interesting
and relatively long-term interaction patterns barely seen before. We also
demonstrate a simple yet effective diffusion-based method that estimates
interactive face expressions and body motions of two people from speech inputs.
Our method regresses the body motions in a hierarchical manner, and we also
propose a novel fine-tuning mechanism to improve the lip accuracy of facial
expressions. To facilitate further research, the data and code is made
available at https://hku-cg.github.io/interact/ .