FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
2508.05153v1
cs.RO, cs.AI, I.2.9; I.2.6; I.4.8
2025-08-09
Авторы:
Mohammed Daba, Jing Qiu
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Роботизированная манипуляция текстильных изделий, такая как двуручное выравнивание (bimanual smoothing), представляет собой значительную проблему в области робототехники. Эта задача характеризуется высокой размерностью, сложностью динамики и внутрикатегорийными различиями, что делает ее одной из наиболее сложных для решения. Существующие подходы либо переобучаются на визуальных признаках для конкретного экземпляра, либо, несмотря на общую категорийную перцептивную универсальность, не могут точно предсказывать эффективность синергических двуручных действий. Это ограничивает их применимость в реальных условиях.
Для достижения успешного выравнивания гардеробных предметов необходимо решать две ключевые проблемы: общую категорийную обобщенность и точность предсказания эффективности двуручных действий. В настоящее время многие методы используют визуальные данные, но страдают от переобучения на конкретные экземпляры или не могут эффективно обобщаться на невиденные ранее объекты. Это особенно актуально в контексте высокой сложности и динамических изменений текстильных материалов.
Предлагаемый подход, основанный на обработке 3D-точечных облаков, предназначен для преодоления этих проблем, обеспечивая устойчивость к внутрикатегорийным изменениям и повышая эффективность двуручного выравнивания.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Разработанная модель, Feature-Conditioned Bimanual Value Network (FCBV-Net), основывается на обработке 3D-точечных облаков для улучшения общей категорийной обобщенности в задаче выравнивания гардеробных предметов. Основная идея FCBV-Net заключается в кондиционировании предсказания значений двуручных действий (bimanual action value) на основе предварительно обученных и замороженных плотных геометрических признаков. Эти признаки обеспечивают высокую устойчивость к внутрикатегорийным различиям гардеробных изделий.
Архитектура FCBV-Net состоит из двух основных компонентов: статических геометрических фильтров и обучаемых компонентов, отвечающих за конкретную политику. Предварительно обученные геометрические фильтры позволяют эффективно извлекать ключевые геометрические характеристики из 3D-точечных облаков, не требуя дополнительного обучения. Затем, обучаемые компоненты используют эти признаки для предсказания оптимальных двуручных действий, что обеспечивает высокую эффективность и категорийную обобщенность.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности FCBV-Net проведены эксперименты в симуляторе GarmentLab с использованием датасета CLOTH3D. Результаты демонстрируют значительное превосходство FCBV-Net по отношению к существующим подходам.
В частности, FCBV-Net показала только 11,5% потерь в эффективности (Steps80) на невиденных ранее изделиях, в то время как 2D-базовая модель испытала 96,2% потерь. Также, FCBV-Net достигла 89% финального покрытия (coverage), превосходя 83% покрытия, достигнутого 3D-моделью на основе предопределенных примитивов.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенная модель имеет широкое применение в области робототехники, особенно в сфере автоматической обработки и выравнивания текстильных изделий. Её преимущества включают высокую категорийную обобщенность, устойчивость к изменениям формы и структуры текстильных материалов, а также эффективность в решении сложных двуручных задач.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
FCBV-Net представляет собой важный шаг вперед в области роботизированной манипуляции текстильными изделиями. Её успех заключается в декуплировании геометрического понимания от обучения политик действий, что обеспечивает лучшую категорийную обобщенность. В будущем предлагается расширить этот подход на более широкий класс задач роботизированной манипуляции и исследовать его применимость в реальных условиях.
Abstract
Category-level generalization for robotic garment manipulation, such as
bimanual smoothing, remains a significant hurdle due to high dimensionality,
complex dynamics, and intra-category variations. Current approaches often
struggle, either overfitting with concurrently learned visual features for a
specific instance or, despite category-level perceptual generalization, failing
to predict the value of synergistic bimanual actions. We propose the
Feature-Conditioned Bimanual Value Network (FCBV-Net), operating on 3D point
clouds to specifically enhance category-level policy generalization for garment
smoothing. FCBV-Net conditions bimanual action value prediction on pre-trained,
frozen dense geometric features, ensuring robustness to intra-category garment
variations. Trainable downstream components then learn a task-specific policy
using these static features. In simulated GarmentLab experiments with the
CLOTH3D dataset, FCBV-Net demonstrated superior category-level generalization.
It exhibited only an 11.5% efficiency drop (Steps80) on unseen garments
compared to 96.2% for a 2D image-based baseline, and achieved 89% final
coverage, outperforming an 83% coverage from a 3D correspondence-based baseline
that uses identical per-point geometric features but a fixed primitive. These
results highlight that the decoupling of geometric understanding from bimanual
action value learning enables better category-level generalization.