What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset

2508.09428v1 cs.CV, cs.AI 2025-08-15

Авторы:

Yuxiao Wang, Yu Lei, Wolin Liang, Weiying Xue, Zhenao Wei, Nan Zhuang, Qi Liu

Резюме на русском

## Контекст Проблема понимания действий человека многоуровневой и включает в себя распознавание характера действия и его географической локализации. Несмотря на развитие методов визуального распознавания, существуют трудности в одновременном моделировании действий и их контекста. Отсутствие интегрированных подходов, которые бы моделировали действия и контактные точки в пространстве, является основной проблемой. Наша мотивация заключается в создании метода, который моделирует действия и их контактные точки в рамках единой модели, обеспечивая более точное и комплексное понимание. ## Метод Мы предлагаем разработать платформу **PaIR-Net**, которая состоит из трех основных модулей: Contact Prior Aware Module (CPAM), Prior-Guided Concat Segmenter (PGCS) и Interaction Inference Module (IIM). CPAM отвечает за распознавание контактных точек на теле человека. PGCS используется для пиксельного сегментационного разделения контактных точек. IIM интегрирует глобальные взаимодействия для повышения точности. Данные для обучения и тестирования были собраны в нашем новом датасете PaIR, который включает 13 979 изображений, 654 действия, 80 категорий объектов и 17 частей тела. Это датасет позволяет обучить модель, которая может предсказывать как высокоуровневые действия, так и точные контактные регионы. ## Результаты Мы провели эксперименты, сравнивая нашу модель с другими подходами на датасете PaIR. Наши результаты показали, что **PaIR-Net** превосходит базовые подходы в точности распознавания действий и локализации контактных точек. Ablation studies показали, что каждый модуль (CPAM, PGCS, IIM) вносит существенный вклад в улучшение точности модели. Эти результаты подтверждают то, что наш подход предлагает значительные улучшения в области визуального распознавания действий и контактных точек. ## Значимость Полученный подход может иметь широкое применение в различных областях, таких как робототехника, видеонаблюдение, обозначение действий. Наш подход позволит роботам более точно распознавать действия и их контекст, что может применяться в системах автоматизации, сервисных роботах и реалитах AR/VR. Одним из основных преимуществ является улучшенная точность в распознавании действий и их контекста, что может повысить эффективность и надежность систем визуального распознавания. ## Выводы Мы представили **PaIR-Net**, новую модель для объединенного распознавания действий и контактных точек. Разработанный датасет и модель демонстрируют высокую точность в распознавании действий и контактных точек. Будущие работы будут сконцентрированы на улучшении модели для более сложных сценариев и расширении датасета для более широко

Abstract

People control their bodies to establish contact with the environment. To comprehensively understand actions across diverse visual contexts, it is essential to simultaneously consider \textbf{what} action is occurring and \textbf{where} it is happening. Current methodologies, however, often inadequately capture this duality, typically failing to jointly model both action semantics and their spatial contextualization within scenes. To bridge this gap, we introduce a novel vision task that simultaneously predicts high-level action semantics and fine-grained body-part contact regions. Our proposed framework, PaIR-Net, comprises three key components: the Contact Prior Aware Module (CPAM) for identifying contact-relevant body parts, the Prior-Guided Concat Segmenter (PGCS) for pixel-wise contact segmentation, and the Interaction Inference Module (IIM) responsible for integrating global interaction relationships. To facilitate this task, we present PaIR (Part-aware Interaction Representation), a comprehensive dataset containing 13,979 images that encompass 654 actions, 80 object categories, and 17 body parts. Experimental evaluation demonstrates that PaIR-Net significantly outperforms baseline approaches, while ablation studies confirm the efficacy of each architectural component. The code and dataset will be released upon publication.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Dual-Stream Spectral Decoupling Distillation for Remote Sensing Object Detection

Explainable Parkinsons Disease Gait Recognition Using Multimodal RGB-D Fusion an...

GuidNoise: Single-Pair Guided Diffusion for Generalized Noise Synthesis

PhyVLLM: Physics-Guided Video Language Model with Motion-Appearance Disentanglem...

Detection of Intoxicated Individuals from Facial Video Sequences via a Recurrent...

Навигация