RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings
2509.14383v1
cs.RO, cs.CV
2025-09-20
Авторы:
Yuhong Lu
Резюме на русском
## Контекст
Область исследования связана с развитием универсальных многосенсорных систем перцепции, которые объединяют визуальные, аудио и другие сенсорные данные в качестве основы для безопасного и эффективного работы роботов. Несмотря на потенциал таких систем, особенно в сферах навигации, манипуляции и автономного управления, их развитие сталкивается с сильными вызовами, связанными с уязвимостью к адверсарных и естественным помехам. Наиболее распространенные подходы, такие как CLIP-стильные алгоритмы, стремятся улучшить универсальные показатели, но часто не достаточно эффективны в обеспечении устойчивости, особенно при нагрузке на жизнеобеспечение. Эта проблема требует развития систем, которые обеспечивают кросс-модальную корреляцию и улучшение обобщающих способностей, не уменьшая уровень точности.
## Метод
Метод RLBind представляет собой двухступенчатый подход к созданию устойчивых кросс-модальных представлений. В первой стадии проводится неуправлянное онтономирование, целью которого является укрепление способности визуального энкодера справляться с адверсарными и естественными помехами. Во второй стадии используется кросс-модальная корреляция, где обучение стремится свести к минимуму различия между чистыми и адверсарными признаками, взаимодейстав с текстовым ядром, и применять класс-специфическую распределенную коррекцию. Это позволяет обеспечить кросс-модальный анализ, при этом сохранив гибкость и устойчивость в различных условиях.
## Результаты
Разработанный подход был протестирован на обширных наборах данных, включая изображения, аудио, термические снимки и видео. Эксперименты показали, что RLBind превосходит стандартные подходы, включая LanguageBind и основные методы основанные на CLIP, как по чистым показателям, так и по методам устойчивости к адверсарным помехам. Особенно важно отметить, что RLBind показал сильный показатель увеличения точности при оставании при этом сплоченным с кросс-модальными соотношениями. Этого достигнуто благодаря использованию методов согласования распределений и минимизации разброса между чистыми и адверсарными признаками.
## Значимость
Предложенный подход предлагает широкие возможности в области многосенсорных систем для безопасного и эффективного использования в автоматизированных системах, в том числе в навигации, манипуляции и других автономных действиях. Его преимущество в том, что он обеспечивает не только робастность к адверсарным и естественным помехам, но также сохраняет уровень общих способностей. Эти достижения имеют потенциал для повышения уровня б
Abstract
Unified multi-modal encoders that bind vision, audio, and other sensors into
a shared embedding space are attractive building blocks for robot perception
and decision-making. However, on-robot deployment exposes the vision branch to
adversarial and natural corruptions, making robustness a prerequisite for
safety. Prior defenses typically align clean and adversarial features within
CLIP-style encoders and overlook broader cross-modal correspondence, yielding
modest gains and often degrading zero-shot transfer. We introduce RLBind, a
two-stage adversarial-invariant cross-modal alignment framework for robust
unified embeddings. Stage 1 performs unsupervised fine-tuning on
clean-adversarial pairs to harden the visual encoder. Stage 2 leverages
cross-modal correspondence by minimizing the discrepancy between
clean/adversarial features and a text anchor, while enforcing class-wise
distributional alignment across modalities. Extensive experiments on Image,
Audio, Thermal, and Video data show that RLBind consistently outperforms the
LanguageBind backbone and standard fine-tuning baselines in both clean accuracy
and norm-bounded adversarial robustness. By improving resilience without
sacrificing generalization, RLBind provides a practical path toward safer
multi-sensor perception stacks for embodied robots in navigation, manipulation,
and other autonomy settings.
Ссылки и действия
Дополнительные ресурсы: