Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance
2509.03889v1
cs.RO, cs.AI, cs.LG
2025-09-06
Авторы:
Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez
Резюме на русском
## Контекст
Манипулирование одеждой представляет собой сложную задачу из-за сложной структуры и динамики материала, частых самостоятельных скрытий (self-occlusion) и высокой непредсказуемости. До сих пор, существующие системы часто прибегают к раздражительной простотой, либо предполагают доступность ключевых черт. Наша работа предлагает двойной-рукой (dual-arm) систему с визуотактильным подходом, которая объединяет подходы визуальной корреляции (correspondence) с учитывающей навыки тактильного восприятия (visuotactile affordance). Данная модель позволяет работать с существенно складированными и висующими одежными элементами, обеспечивая более гибкость и достоверность.
## Метод
Наша система основана на двойном использовании сенсоров, которые объединяют визуальное и тактильное восприятие. Модель визуальной корреляции воспроизводится на симулированной высокоточной выборке данных, используя распределительный потери (distributional loss), который ловит симметрии ткани и формирует надежные оценки вероятности визуальной корреляции. Эти оценки помогают реактивному менеджеру (reactive state machine) адаптировать свою стратегию корректировки в зависимости от уровня неопределенности оптического восприятия. Одновременно, модель визуально-тактильного сжимания (visuotactile grasp affordance), самостоятельно учитаемая (self-supervised) используя высокоразрешенные тактильные данные, определяет регионы для безопасного захвата. Такой же классификатор используется во время выполнения задач для непосредственного валидации захвата. Благодаря этому подходу, модель может отложить действия в условиях нехватки уверенности, что позволяет ей справляться с высоко-оккультными (highly occluded) ситуациями, такими как работа над столовыми поверхностями и в воздухе.
## Результаты
Мы проверили нашу модель на задачах складирования и висания одежды. Наши модели визуальной корреляции и визуально-тактильных захватов показали высокую точность в выполнении задач. В симуляции, а также в реальном мире, наши системы продемонстрировали эффективность в обработке сложных конфигураций одежды, включая складирование на столе и висание на гардеробе. Данные вычисления позволяют нам говорить о достаточной общей способности модели к различным задачам манипулирования одеждой.
## Значимость
Мы видим возможности применения нашей модели в различных областях, таких как автоматизация домашних задач, роботизированная модная промышленность или роботизированная помощь лицам с ограниченными физическими возможностями. Наш подход предоставляет несколько преимуществ, включая высокую точность, ус
Abstract
Manipulating clothing is challenging due to complex configurations, variable
material dynamics, and frequent self-occlusion. Prior systems often flatten
garments or assume visibility of key features. We present a dual-arm
visuotactile framework that combines confidence-aware dense visual
correspondence and tactile-supervised grasp affordance to operate directly on
crumpled and suspended garments. The correspondence model is trained on a
custom, high-fidelity simulated dataset using a distributional loss that
captures cloth symmetries and generates correspondence confidence estimates.
These estimates guide a reactive state machine that adapts folding strategies
based on perceptual uncertainty. In parallel, a visuotactile grasp affordance
network, self-supervised using high-resolution tactile feedback, determines
which regions are physically graspable. The same tactile classifier is used
during execution for real-time grasp validation. By deferring action in
low-confidence states, the system handles highly occluded table-top and in-air
configurations. We demonstrate our task-agnostic grasp selection module in
folding and hanging tasks. Moreover, our dense descriptors provide a reusable
intermediate representation for other planning modalities, such as extracting
grasp targets from human video demonstrations, paving the way for more
generalizable and scalable garment manipulation.
Ссылки и действия
Дополнительные ресурсы: