You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

2508.14965v1 cs.CV, cs.RO 2025-08-23

Авторы:

Hakjin Lee, Junghoon Seo, Jaehoon Sim

Резюме на русском

#### Контекст Определение точного 9-двухфакторного положения (pose) объекта из одного RGB-изображения является важной задачей в сфере робототехники и автоматизации. Несмотря на развитие методов, большинство существующих решений все еще зависят от псевдоглубины, моделей CAD или многоэтапных подходов, которые разделяют 2D-обнаружение и 9-DoF-оценку. Это приводит к сложности и высокому расходу ресурсов. Мы исследуем возможность создания простого, RGB-только решения, которое бы способствовало категориальному уровню 9-DoF-оценки без дополнительных данных. #### Метод Мы представляем **YOPO** (You Only Pose Once), простой, с одним этапом, сеть, которая решает задачу 9-DoF-оценки категориального уровня. Модель уделяет особое внимание внедрению трансформера для обнаружения объектов с внедренным легким модулем для позиционирования. Мы представляем **6D-aware Hungarian matching cost**, который лучше учитывает зависимости между объектами. Модель обучается только с помощью RGB-изображений и меток 9-DoF-позиции категорий. Это упрощенное и эффективное решение позволяет объединить обнаружение и оценку позиции в категориальном контексте. #### Результаты Мы проводим эксперименты на REAL275 и других трех наборах данных. YOPO достигает результата 79.6% $\rm{IoU}_{50}$ и 54.1% в показателе $10^\circ$$10{\rm{cm}}$, превосходя предыдущие RGB-только методы и приближаясь к методам, использующим RGB-D. Эти результаты показывают, что YOPO не только превосходит ранее существующие решения, но и устанавливает новый стандарт в области категориальной 9-DoF-оценки. #### Значимость Наше решение может быть применено в сферах, требующих точной категориальной 9-DoF-оценки, таких как робототехника, автомобильная отрасль, интерьерные модели и другие. За счет своего простого, категориального подхода, YOPO снижает сложность и улучшает эффективность обнаружения и оценки позиции. Это делает его привлекательным для реальных приложений, где необходима высокая точность с минимальными ресурсами. #### Выводы Мы демонстрируем, что YOPO подтверждает возможность объединения 2D-обнаружения и 9-DoF-оценки в категориях только с помощью RGB-данных, без дополнительных моделей или псевдоглубины. Наша работа открывает путь для будущих исследований в повышении точности и эффективности категориальных методов позиционирования в 3D.

Abstract

Accurately recovering the full 9-DoF pose of unseen instances within specific categories from a single RGB image remains a core challenge for robotics and automation. Most existing solutions still rely on pseudo-depth, CAD models, or multi-stage cascades that separate 2D detection from pose estimation. Motivated by the need for a simpler, RGB-only alternative that learns directly at the category level, we revisit a longstanding question: Can object detection and 9-DoF pose estimation be unified with high performance, without any additional data? We show that they can with our method, YOPO, a single-stage, query-based framework that treats category-level 9-DoF estimation as a natural extension of 2D detection. YOPO augments a transformer detector with a lightweight pose head, a bounding-box-conditioned translation module, and a 6D-aware Hungarian matching cost. The model is trained end-to-end only with RGB images and category-level pose labels. Despite its minimalist design, YOPO sets a new state of the art on three benchmarks. On the REAL275 dataset, it achieves 79.6% $\rm{IoU}_{50}$ and 54.1% under the $10^\circ$$10{\rm{cm}}$ metric, surpassing prior RGB-only methods and closing much of the gap to RGB-D systems. The code, models, and additional qualitative results can be found on our project.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

FASTer: Toward Efficient Autoregressive Vision Language Action Modeling via neur...

Object Reconstruction under Occlusion with Generative Priors and Contact-induced...

Image Generation as a Visual Planner for Robotic Manipulation

TrajDiff: End-to-end Autonomous Driving without Perception Annotation

SwiftVLA: Unlocking Spatiotemporal Dynamics for Lightweight VLA Models at Minima...

Навигация