What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset
2508.09428v1
cs.CV, cs.AI
2025-08-15
Авторы:
Yuxiao Wang, Yu Lei, Wolin Liang, Weiying Xue, Zhenao Wei, Nan Zhuang, Qi Liu
Резюме на русском
## Контекст
Проблема понимания действий человека многоуровневой и включает в себя распознавание характера действия и его географической локализации. Несмотря на развитие методов визуального распознавания, существуют трудности в одновременном моделировании действий и их контекста. Отсутствие интегрированных подходов, которые бы моделировали действия и контактные точки в пространстве, является основной проблемой. Наша мотивация заключается в создании метода, который моделирует действия и их контактные точки в рамках единой модели, обеспечивая более точное и комплексное понимание.
## Метод
Мы предлагаем разработать платформу **PaIR-Net**, которая состоит из трех основных модулей: Contact Prior Aware Module (CPAM), Prior-Guided Concat Segmenter (PGCS) и Interaction Inference Module (IIM). CPAM отвечает за распознавание контактных точек на теле человека. PGCS используется для пиксельного сегментационного разделения контактных точек. IIM интегрирует глобальные взаимодействия для повышения точности. Данные для обучения и тестирования были собраны в нашем новом датасете PaIR, который включает 13 979 изображений, 654 действия, 80 категорий объектов и 17 частей тела. Это датасет позволяет обучить модель, которая может предсказывать как высокоуровневые действия, так и точные контактные регионы.
## Результаты
Мы провели эксперименты, сравнивая нашу модель с другими подходами на датасете PaIR. Наши результаты показали, что **PaIR-Net** превосходит базовые подходы в точности распознавания действий и локализации контактных точек. Ablation studies показали, что каждый модуль (CPAM, PGCS, IIM) вносит существенный вклад в улучшение точности модели. Эти результаты подтверждают то, что наш подход предлагает значительные улучшения в области визуального распознавания действий и контактных точек.
## Значимость
Полученный подход может иметь широкое применение в различных областях, таких как робототехника, видеонаблюдение, обозначение действий. Наш подход позволит роботам более точно распознавать действия и их контекст, что может применяться в системах автоматизации, сервисных роботах и реалитах AR/VR. Одним из основных преимуществ является улучшенная точность в распознавании действий и их контекста, что может повысить эффективность и надежность систем визуального распознавания.
## Выводы
Мы представили **PaIR-Net**, новую модель для объединенного распознавания действий и контактных точек. Разработанный датасет и модель демонстрируют высокую точность в распознавании действий и контактных точек. Будущие работы будут сконцентрированы на улучшении модели для более сложных сценариев и расширении датасета для более широко
Abstract
People control their bodies to establish contact with the environment. To
comprehensively understand actions across diverse visual contexts, it is
essential to simultaneously consider \textbf{what} action is occurring and
\textbf{where} it is happening. Current methodologies, however, often
inadequately capture this duality, typically failing to jointly model both
action semantics and their spatial contextualization within scenes. To bridge
this gap, we introduce a novel vision task that simultaneously predicts
high-level action semantics and fine-grained body-part contact regions. Our
proposed framework, PaIR-Net, comprises three key components: the Contact Prior
Aware Module (CPAM) for identifying contact-relevant body parts, the
Prior-Guided Concat Segmenter (PGCS) for pixel-wise contact segmentation, and
the Interaction Inference Module (IIM) responsible for integrating global
interaction relationships. To facilitate this task, we present PaIR (Part-aware
Interaction Representation), a comprehensive dataset containing 13,979 images
that encompass 654 actions, 80 object categories, and 17 body parts.
Experimental evaluation demonstrates that PaIR-Net significantly outperforms
baseline approaches, while ablation studies confirm the efficacy of each
architectural component. The code and dataset will be released upon
publication.
Ссылки и действия
Дополнительные ресурсы: