QueryCraft: Transformer-Guided Query Initialization for Enhanced Human-Object Interaction Detection
2508.08590v1
cs.CV, cs.HC
2025-08-14
Авторы:
Yuxiao Wang, Wolin Liang, Yu Lei, Weiying Xue, Nan Zhuang, Qi Liu
Резюме на русском
#### Контекст
Human-Object Interaction (HOI) detection — это задача, которая предполагает локализацию пар человек-объект на изображении и идентификацию их взаимодействий. Несмотря на то, что DETR-based методы стали новым стандартом в этой области, они еще не решили основную проблему: случайно инициализированные запросы не имеют явных семантических признаков, что приводит к неэффективности в поиске и распознавании. Это ставит достаточно серьезные ограничения на качество детектирования HOI. QueryCraft предлагается как решение этой проблемы, обеспечивая семантические признаки и улучшенное обучение при помощи transformer-guided query initialization.
#### Метод
QueryCraft — это новая plug-and-play HOI detection система, которая использует transformer-based query initialization для повышения точности. Ее центральная часть — **ACTOR** (Aсtion-aware Crosse-modal Tгansformer), который объединяет визуальные регионы и текстовые стимулы для создания признаков, относящихся к действию. Отличительная черта ACTOR заключается в том, что он использует языковую направленность для выявления семантики взаимодействия и формирования семантически значимых запросов. Для более точной инициализации объектных запросов, мы предлагаем **PDQD** (Perceptual Distilled Query Decoder), который использует предварительно обученный детектор для добавления категорий объектов в запросы. Эти два механизма обеспечивают более интерпретируемый и эффективный поиск HOI.
#### Результаты
Мы проводили эксперименты на двух наборах данных: HICO-Det и V-COCO. Результаты показывают, что QueryCraft превосходит существующие методы в поиске HOI, показывая более высокую точность и стабильность. Эти результаты достигнуты благодаря значительному повышению точности интерпретации взаимодействий с помощью transformer-guided initialization. Эксперименты также подтверждают широкую общину нашего подхода к различным условиям детекции.
#### Значимость
QueryCraft может применяться в различных областях, где требуется точное распознавание взаимодействий между людьми и объектами, таких как видеонаблюдение, автоматизация и системы помощи. Он предлагает существенные преимущества в том числе повышение точности, более оптимальное использование ресурсов и улучшение общей эффективности HOI-систем. Будущие исследования будут уделять большее внимание добавлению динамических признаков и усовершенствованию обучения на больших данных.
#### Выводы
QueryCraft достигает нового состояния искусства в HOI detection, с помощью transformer-guided query initialization. Этот подход не только улучшает точность, но и обеспечивает лучшую интерпретируемость результатов. В будущем, мы будем работать над улучшением обучения на больших данных и выявлением динамических признаков для дальнейшего повышения эффективности.
Abstract
Human-Object Interaction (HOI) detection aims to localize human-object pairs
and recognize their interactions in images. Although DETR-based methods have
recently emerged as the mainstream framework for HOI detection, they still
suffer from a key limitation: Randomly initialized queries lack explicit
semantics, leading to suboptimal detection performance. To address this
challenge, we propose QueryCraft, a novel plug-and-play HOI detection framework
that incorporates semantic priors and guided feature learning through
transformer-based query initialization. Central to our approach is
\textbf{ACTOR} (\textbf{A}ction-aware \textbf{C}ross-modal
\textbf{T}ransf\textbf{OR}mer), a cross-modal Transformer encoder that jointly
attends to visual regions and textual prompts to extract action-relevant
features. Rather than merely aligning modalities, ACTOR leverages
language-guided attention to infer interaction semantics and produce
semantically meaningful query representations. To further enhance object-level
query quality, we introduce a \textbf{P}erceptual \textbf{D}istilled
\textbf{Q}uery \textbf{D}ecoder (\textbf{PDQD}), which distills object category
awareness from a pre-trained detector to serve as object query initiation. This
dual-branch query initialization enables the model to generate more
interpretable and effective queries for HOI detection. Extensive experiments on
HICO-Det and V-COCO benchmarks demonstrate that our method achieves
state-of-the-art performance and strong generalization. Code will be released
upon publication.
Ссылки и действия
Дополнительные ресурсы: