RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings

2509.14383v1 cs.RO, cs.CV 2025-09-20

Авторы:

Yuhong Lu

Резюме на русском

## Контекст Область исследования связана с развитием универсальных многосенсорных систем перцепции, которые объединяют визуальные, аудио и другие сенсорные данные в качестве основы для безопасного и эффективного работы роботов. Несмотря на потенциал таких систем, особенно в сферах навигации, манипуляции и автономного управления, их развитие сталкивается с сильными вызовами, связанными с уязвимостью к адверсарных и естественным помехам. Наиболее распространенные подходы, такие как CLIP-стильные алгоритмы, стремятся улучшить универсальные показатели, но часто не достаточно эффективны в обеспечении устойчивости, особенно при нагрузке на жизнеобеспечение. Эта проблема требует развития систем, которые обеспечивают кросс-модальную корреляцию и улучшение обобщающих способностей, не уменьшая уровень точности. ## Метод Метод RLBind представляет собой двухступенчатый подход к созданию устойчивых кросс-модальных представлений. В первой стадии проводится неуправлянное онтономирование, целью которого является укрепление способности визуального энкодера справляться с адверсарными и естественными помехами. Во второй стадии используется кросс-модальная корреляция, где обучение стремится свести к минимуму различия между чистыми и адверсарными признаками, взаимодейстав с текстовым ядром, и применять класс-специфическую распределенную коррекцию. Это позволяет обеспечить кросс-модальный анализ, при этом сохранив гибкость и устойчивость в различных условиях. ## Результаты Разработанный подход был протестирован на обширных наборах данных, включая изображения, аудио, термические снимки и видео. Эксперименты показали, что RLBind превосходит стандартные подходы, включая LanguageBind и основные методы основанные на CLIP, как по чистым показателям, так и по методам устойчивости к адверсарным помехам. Особенно важно отметить, что RLBind показал сильный показатель увеличения точности при оставании при этом сплоченным с кросс-модальными соотношениями. Этого достигнуто благодаря использованию методов согласования распределений и минимизации разброса между чистыми и адверсарными признаками. ## Значимость Предложенный подход предлагает широкие возможности в области многосенсорных систем для безопасного и эффективного использования в автоматизированных системах, в том числе в навигации, манипуляции и других автономных действиях. Его преимущество в том, что он обеспечивает не только робастность к адверсарным и естественным помехам, но также сохраняет уровень общих способностей. Эти достижения имеют потенциал для повышения уровня б

Abstract

Unified multi-modal encoders that bind vision, audio, and other sensors into a shared embedding space are attractive building blocks for robot perception and decision-making. However, on-robot deployment exposes the vision branch to adversarial and natural corruptions, making robustness a prerequisite for safety. Prior defenses typically align clean and adversarial features within CLIP-style encoders and overlook broader cross-modal correspondence, yielding modest gains and often degrading zero-shot transfer. We introduce RLBind, a two-stage adversarial-invariant cross-modal alignment framework for robust unified embeddings. Stage 1 performs unsupervised fine-tuning on clean-adversarial pairs to harden the visual encoder. Stage 2 leverages cross-modal correspondence by minimizing the discrepancy between clean/adversarial features and a text anchor, while enforcing class-wise distributional alignment across modalities. Extensive experiments on Image, Audio, Thermal, and Video data show that RLBind consistently outperforms the LanguageBind backbone and standard fine-tuning baselines in both clean accuracy and norm-bounded adversarial robustness. By improving resilience without sacrificing generalization, RLBind provides a practical path toward safer multi-sensor perception stacks for embodied robots in navigation, manipulation, and other autonomy settings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

RLBind: Adversarial-Invariant Cross-Modal Alignment for Unified Robust Embeddings

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Generated Human Videos to Physically Plausible Robot Trajectories

Sign Language Recognition using Bidirectional Reservoir Computing

FOM-Nav: Frontier-Object Maps for Object Goal Navigation

Opening the Sim-to-Real Door for Humanoid Pixel-to-Action Policy Transfer

Estimation of Kinematic Motion from Dashcam Footage

Навигация