Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

2509.03889v1 cs.RO, cs.AI, cs.LG 2025-09-06

Авторы:

Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez

Резюме на русском

## Контекст Манипулирование одеждой представляет собой сложную задачу из-за сложной структуры и динамики материала, частых самостоятельных скрытий (self-occlusion) и высокой непредсказуемости. До сих пор, существующие системы часто прибегают к раздражительной простотой, либо предполагают доступность ключевых черт. Наша работа предлагает двойной-рукой (dual-arm) систему с визуотактильным подходом, которая объединяет подходы визуальной корреляции (correspondence) с учитывающей навыки тактильного восприятия (visuotactile affordance). Данная модель позволяет работать с существенно складированными и висующими одежными элементами, обеспечивая более гибкость и достоверность. ## Метод Наша система основана на двойном использовании сенсоров, которые объединяют визуальное и тактильное восприятие. Модель визуальной корреляции воспроизводится на симулированной высокоточной выборке данных, используя распределительный потери (distributional loss), который ловит симметрии ткани и формирует надежные оценки вероятности визуальной корреляции. Эти оценки помогают реактивному менеджеру (reactive state machine) адаптировать свою стратегию корректировки в зависимости от уровня неопределенности оптического восприятия. Одновременно, модель визуально-тактильного сжимания (visuotactile grasp affordance), самостоятельно учитаемая (self-supervised) используя высокоразрешенные тактильные данные, определяет регионы для безопасного захвата. Такой же классификатор используется во время выполнения задач для непосредственного валидации захвата. Благодаря этому подходу, модель может отложить действия в условиях нехватки уверенности, что позволяет ей справляться с высоко-оккультными (highly occluded) ситуациями, такими как работа над столовыми поверхностями и в воздухе. ## Результаты Мы проверили нашу модель на задачах складирования и висания одежды. Наши модели визуальной корреляции и визуально-тактильных захватов показали высокую точность в выполнении задач. В симуляции, а также в реальном мире, наши системы продемонстрировали эффективность в обработке сложных конфигураций одежды, включая складирование на столе и висание на гардеробе. Данные вычисления позволяют нам говорить о достаточной общей способности модели к различным задачам манипулирования одеждой. ## Значимость Мы видим возможности применения нашей модели в различных областях, таких как автоматизация домашних задач, роботизированная модная промышленность или роботизированная помощь лицам с ограниченными физическими возможностями. Наш подход предоставляет несколько преимуществ, включая высокую точность, ус

Abstract

Manipulating clothing is challenging due to complex configurations, variable material dynamics, and frequent self-occlusion. Prior systems often flatten garments or assume visibility of key features. We present a dual-arm visuotactile framework that combines confidence-aware dense visual correspondence and tactile-supervised grasp affordance to operate directly on crumpled and suspended garments. The correspondence model is trained on a custom, high-fidelity simulated dataset using a distributional loss that captures cloth symmetries and generates correspondence confidence estimates. These estimates guide a reactive state machine that adapts folding strategies based on perceptual uncertainty. In parallel, a visuotactile grasp affordance network, self-supervised using high-resolution tactile feedback, determines which regions are physically graspable. The same tactile classifier is used during execution for real-time grasp validation. By deferring action in low-confidence states, the system handles highly occluded table-top and in-air configurations. We demonstrate our task-agnostic grasp selection module in folding and hanging tasks. Moreover, our dense descriptors provide a reusable intermediate representation for other planning modalities, such as extracting grasp targets from human video demonstrations, paving the way for more generalizable and scalable garment manipulation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Autonomous Reinforcement Learning Robot Control with Intel's Loihi 2 Neuromorphi...

Real-World Reinforcement Learning of Active Perception Behaviors

Real-World Robot Control by Deep Active Inference With a Temporally Hierarchical...

Learning Sim-to-Real Humanoid Locomotion in 15 Minutes

Phase-Adaptive LLM Framework with Multi-Stage Validation for Construction Robot ...

Навигация