Fidelity-Aware Data Composition for Robust Robot Generalization

2509.24797v1 cs.RO, cs.AI, cs.LG 2025-10-01
Авторы:

Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao

Резюме на русском

## Контекст Общая цель исследования заключается в улучшении общей устойчивости роботов в условиях непредвиденных условий. Это связано с проблемой **shortcut learning**, когда робот опирается на локальные характеристики в тренировочных данных, а не на общие принципы. Это приводит к снижению качества при работе с неизвестными входными данными (out-of-distribution, OOD). Основная проблема, изученная в данной работе, заключается в том, что добавление разнообразия с помощью генеративных методов часто приводит к **коррупции значимости данных**. Таким образом, необходимо разработать методы, которые сочетают разнообразие и целостность информации. ## Метод Методология исследования основывается на создании **fidelity-aware data composition**, которая использует **Coherent Information Fidelity Tuning (CIFT)**. Это процесс, тренирующийся на оценке информационной целостности данных. Основополагающим элементом является **feature-space geometry**, который позволяет определять точку, когда стабильность обучения начинает падать — **Decoherence Point**. Для синтеза разнообразия используется **Multi-View Video Augmentation (MVAug)**, которая синтезирует потоки видео с различных перспектив, избегая нежелательной корреляции между подходами. Таким образом, весь процесс является **optimization-driven** и оперирует не только с точностью, но и с целостностью данных. ## Результаты Эксперименты проводились на политиках $\pi_0$ и Diffusion Policy. Использовались различные генеративные модели для синтеза данных, включая MVAug. Основные показатели: OOD success rate. Было показано, что применение CIFT увеличивает OOD success rate на более чем **54%** в сравнении с традиционными методами. Это указывает на то, что **fidelity-aware composition** является ключевым фактором для улучшения устойчивости общей модели. Кроме того, наблюдалась повышенная стабильность обучения в процессе. ## Значимость Результаты имеют большое значение для **робототехники** и **визуальных роботов**, работающих в нестандартных условиях. Например, в сфере **autonomous driving**, **manufacturing** и **domestic robots**. Основные преимущества: - **Увеличение устойчивости OOD** в различных сценариях. - Мотивация для развития **fidelity-aware методологий** в обзоре данных. - Возможность применения в различных областях, где роботы должны работать вне тренировочных условий. ## Выводы Основной вывод заключается в том, что **fidelity-aware data composition** является не менее важным, чем сам процесс генеративного синтеза данных. Общий подход, используемый в CIFT, может быть расширен для других подобных задач, включая **multimodal data composition** и **dynamic scene understanding**. Дальнейшие исследования будут фокусироваться на расширении этого фреймворка для более сложных областей, таких как **тактическое взаимодействие** с роботом в реальном времени.

Abstract

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that robust generalization depends on principled, fidelity-aware data composition. We introduce Coherent Information Fidelity Tuning (CIFT), a framework that treats data composition as an optimization problem. CIFT uses a practical proxy for Information Fidelity based on the feature-space geometry of a dataset. This enables the identification of a phase transition, termed the Decoherence Point, where training stability degrades. The framework includes a generative engine, Multi-View Video Augmentation (MVAug), to synthesize a causally disentangled data spectrum for this tuning process. Applying CIFT to policy architectures such as $\pi_0$ and Diffusion Policy improves OOD success rates by over 54\%. These results indicate that fidelity-aware composition, beyond data synthesis alone, is an important component for developing robust, general-purpose robots.

Ссылки и действия