D-CAT: Decoupled Cross-Attention Transfer between Sensor Modalities for Unimodal Inference
2509.09747v1
cs.LG, cs.AI, cs.RO
2025-09-16
Авторы:
Leen Daher, Zhaobo Wang, Malcolm Mielle
Резюме на русском
#### Контекст
Современные системы сенсорного восприятия часто используют многомодальный подход для обеспечения точности и надежности в распознавании активности. Однако, существуют ситуации, когда доступ к полному набору сенсоров ограничен техническими или экономическими причинами. Например, в системах роботизированного взаимодействия или домашних систем автоматизации может быть невозможно подключить все необходимые сенсоры из-за узких возможностей финансирования или технологических ограничений. Это приводит к снижению точности и надежности моделей классификации. Из этой проблемы возникает потребность в разработке методов, позволяющих передавать знания между модальностями сенсоров для улучшения классификации в условиях ограниченного доступа к сенсорам.
#### Метод
Мы предлагаем **Decoupled Cross-Attention Transfer (D-CAT)**, фреймворк для передачи кросс-модального знания между модальностями без необходимости их параллельной работы во время обучения или тестирования. Фреймворк состоит из двух основных компонентов: **сингулярного само-восприятия (self-attention)** для извлечения функций от каждой модальности и **кросс-восприятия (cross-attention)** для установления взаимосвязи между модальностями. Особенностью D-CAT является то, что он не требует взаимодействия между модальностями во время выполнения. Решение использует архитектуру, в которой модальности обучаются независимо друг от друга, но затем подключаются с помощью кросс-аттенционного модуля, чтобы улучшить классификацию в случае отсутствия данных из другой модальности.
#### Результаты
Мы проверили D-CAT на трех многомодальных наборах данных для распознавания активности (IMU, видео, аудио). В сценарии **in-distribution**, где тренировочные и тестовые данные имеют аналогичные свойства, D-CAT показал до 10% увеличения F1-score в сравнении с унимодальными моделями при передаче знаний от высокоэффективных модальностей (например, видео к IMU). В **out-of-distribution** сценарии, когда тренировочные данные от одной модальности используются для классификации другой, D-CAT также показал улучшения в точности, даже если целевая модальность была плохо обучена. Это указывает на то, что D-CAT может обеспечить улучшение классификации даже в условиях несовпадения тренировочных и тестовых данных.
#### Значимость
D-CAT может быть применен в сценариях, где ресурсы ограничены, например, в создании систем ассистированного взаимодействия и домашних автоматизированных систем. Он позволяет уменьшить требования к оборудованию, поддерживая высокую точность классификации. Помимо этого, D-CAT может быть использован в ситуациях, когда необходимо переключаться м
Abstract
Cross-modal transfer learning is used to improve multi-modal classification
models (e.g., for human activity recognition in human-robot collaboration).
However, existing methods require paired sensor data at both training and
inference, limiting deployment in resource-constrained environments where full
sensor suites are not economically and technically usable. To address this, we
propose Decoupled Cross-Attention Transfer (D-CAT), a framework that aligns
modality-specific representations without requiring joint sensor modality
during inference. Our approach combines a self-attention module for feature
extraction with a novel cross-attention alignment loss, which enforces the
alignment of sensors' feature spaces without requiring the coupling of the
classification pipelines of both modalities. We evaluate D-CAT on three
multi-modal human activity datasets (IMU, video, and audio) under both
in-distribution and out-of-distribution scenarios, comparing against uni-modal
models. Results show that in in-distribution scenarios, transferring from
high-performing modalities (e.g., video to IMU) yields up to 10% F1-score gains
over uni-modal training. In out-of-distribution scenarios, even weaker source
modalities (e.g., IMU to video) improve target performance, as long as the
target model isn't overfitted on the training data. By enabling single-sensor
inference with cross-modal knowledge, D-CAT reduces hardware redundancy for
perception systems while maintaining accuracy, which is critical for
cost-sensitive or adaptive deployments (e.g., assistive robots in homes with
variable sensor availability). Code is available at
https://github.com/Schindler-EPFL-Lab/D-CAT.
Ссылки и действия
Дополнительные ресурсы: