D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference

2509.09747v1 cs.LG, cs.AI, cs.RO 2025-09-16

Авторы:

Leen Daher, Zhaobo Wang, Malcolm Mielle

Резюме на русском

#### Контекст Современные системы сенсорного восприятия часто используют многомодальный подход для обеспечения точности и надежности в распознавании активности. Однако, существуют ситуации, когда доступ к полному набору сенсоров ограничен техническими или экономическими причинами. Например, в системах роботизированного взаимодействия или домашних систем автоматизации может быть невозможно подключить все необходимые сенсоры из-за узких возможностей финансирования или технологических ограничений. Это приводит к снижению точности и надежности моделей классификации. Из этой проблемы возникает потребность в разработке методов, позволяющих передавать знания между модальностями сенсоров для улучшения классификации в условиях ограниченного доступа к сенсорам. #### Метод Мы предлагаем **Decoupled Cross-Attention Transfer (D-CAT)**, фреймворк для передачи кросс-модального знания между модальностями без необходимости их параллельной работы во время обучения или тестирования. Фреймворк состоит из двух основных компонентов: **сингулярного само-восприятия (self-attention)** для извлечения функций от каждой модальности и **кросс-восприятия (cross-attention)** для установления взаимосвязи между модальностями. Особенностью D-CAT является то, что он не требует взаимодействия между модальностями во время выполнения. Решение использует архитектуру, в которой модальности обучаются независимо друг от друга, но затем подключаются с помощью кросс-аттенционного модуля, чтобы улучшить классификацию в случае отсутствия данных из другой модальности. #### Результаты Мы проверили D-CAT на трех многомодальных наборах данных для распознавания активности (IMU, видео, аудио). В сценарии **in-distribution**, где тренировочные и тестовые данные имеют аналогичные свойства, D-CAT показал до 10% увеличения F1-score в сравнении с унимодальными моделями при передаче знаний от высокоэффективных модальностей (например, видео к IMU). В **out-of-distribution** сценарии, когда тренировочные данные от одной модальности используются для классификации другой, D-CAT также показал улучшения в точности, даже если целевая модальность была плохо обучена. Это указывает на то, что D-CAT может обеспечить улучшение классификации даже в условиях несовпадения тренировочных и тестовых данных. #### Значимость D-CAT может быть применен в сценариях, где ресурсы ограничены, например, в создании систем ассистированного взаимодействия и домашних автоматизированных систем. Он позволяет уменьшить требования к оборудованию, поддерживая высокую точность классификации. Помимо этого, D-CAT может быть использован в ситуациях, когда необходимо переключаться м

Abstract

Cross-modal transfer learning is used to improve multi-modal classification models (e.g., for human activity recognition in human-robot collaboration). However, existing methods require paired sensor data at both training and inference, limiting deployment in resource-constrained environments where full sensor suites are not economically and technically usable. To address this, we propose Decoupled Cross-Attention Transfer (D-CAT), a framework that aligns modality-specific representations without requiring joint sensor modality during inference. Our approach combines a self-attention module for feature extraction with a novel cross-attention alignment loss, which enforces the alignment of sensors' feature spaces without requiring the coupling of the classification pipelines of both modalities. We evaluate D-CAT on three multi-modal human activity datasets (IMU, video, and audio) under both in-distribution and out-of-distribution scenarios, comparing against uni-modal models. Results show that in in-distribution scenarios, transferring from high-performing modalities (e.g., video to IMU) yields up to 10% F1-score gains over uni-modal training. In out-of-distribution scenarios, even weaker source modalities (e.g., IMU to video) improve target performance, as long as the target model isn't overfitted on the training data. By enabling single-sensor inference with cross-modal knowledge, D-CAT reduces hardware redundancy for perception systems while maintaining accuracy, which is critical for cost-sensitive or adaptive deployments (e.g., assistive robots in homes with variable sensor availability). Code is available at https://github.com/Schindler-EPFL-Lab/D-CAT.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Forecasting in Offline Reinforcement Learning for Non-stationary Environments

Leveraging LLMs for reward function design in reinforcement learning control tas...

Are LLMs The Way Forward? A Case Study on LLM-Guided Reinforcement Learning for ...

Harnessing Bounded-Support Evolution Strategies for Policy Refinement

Dynamic Sparsity: Challenging Common Sparsity Assumptions for Learning World Mod...

Навигация