You Only Pose Once: A Minimalist's Detection Transformer for Monocular RGB Category-level 9D Multi-Object Pose Estimation
2508.14965v1
cs.CV, cs.RO
2025-08-23
Авторы:
Hakjin Lee, Junghoon Seo, Jaehoon Sim
Резюме на русском
#### Контекст
Определение точного 9-двухфакторного положения (pose) объекта из одного RGB-изображения является важной задачей в сфере робототехники и автоматизации. Несмотря на развитие методов, большинство существующих решений все еще зависят от псевдоглубины, моделей CAD или многоэтапных подходов, которые разделяют 2D-обнаружение и 9-DoF-оценку. Это приводит к сложности и высокому расходу ресурсов. Мы исследуем возможность создания простого, RGB-только решения, которое бы способствовало категориальному уровню 9-DoF-оценки без дополнительных данных.
#### Метод
Мы представляем **YOPO** (You Only Pose Once), простой, с одним этапом, сеть, которая решает задачу 9-DoF-оценки категориального уровня. Модель уделяет особое внимание внедрению трансформера для обнаружения объектов с внедренным легким модулем для позиционирования. Мы представляем **6D-aware Hungarian matching cost**, который лучше учитывает зависимости между объектами. Модель обучается только с помощью RGB-изображений и меток 9-DoF-позиции категорий. Это упрощенное и эффективное решение позволяет объединить обнаружение и оценку позиции в категориальном контексте.
#### Результаты
Мы проводим эксперименты на REAL275 и других трех наборах данных. YOPO достигает результата 79.6% $\rm{IoU}_{50}$ и 54.1% в показателе $10^\circ$$10{\rm{cm}}$, превосходя предыдущие RGB-только методы и приближаясь к методам, использующим RGB-D. Эти результаты показывают, что YOPO не только превосходит ранее существующие решения, но и устанавливает новый стандарт в области категориальной 9-DoF-оценки.
#### Значимость
Наше решение может быть применено в сферах, требующих точной категориальной 9-DoF-оценки, таких как робототехника, автомобильная отрасль, интерьерные модели и другие. За счет своего простого, категориального подхода, YOPO снижает сложность и улучшает эффективность обнаружения и оценки позиции. Это делает его привлекательным для реальных приложений, где необходима высокая точность с минимальными ресурсами.
#### Выводы
Мы демонстрируем, что YOPO подтверждает возможность объединения 2D-обнаружения и 9-DoF-оценки в категориях только с помощью RGB-данных, без дополнительных моделей или псевдоглубины. Наша работа открывает путь для будущих исследований в повышении точности и эффективности категориальных методов позиционирования в 3D.
Abstract
Accurately recovering the full 9-DoF pose of unseen instances within specific
categories from a single RGB image remains a core challenge for robotics and
automation. Most existing solutions still rely on pseudo-depth, CAD models, or
multi-stage cascades that separate 2D detection from pose estimation. Motivated
by the need for a simpler, RGB-only alternative that learns directly at the
category level, we revisit a longstanding question: Can object detection and
9-DoF pose estimation be unified with high performance, without any additional
data? We show that they can with our method, YOPO, a single-stage, query-based
framework that treats category-level 9-DoF estimation as a natural extension of
2D detection. YOPO augments a transformer detector with a lightweight pose
head, a bounding-box-conditioned translation module, and a 6D-aware Hungarian
matching cost. The model is trained end-to-end only with RGB images and
category-level pose labels. Despite its minimalist design, YOPO sets a new
state of the art on three benchmarks. On the REAL275 dataset, it achieves 79.6%
$\rm{IoU}_{50}$ and 54.1% under the $10^\circ$$10{\rm{cm}}$ metric, surpassing
prior RGB-only methods and closing much of the gap to RGB-D systems. The code,
models, and additional qualitative results can be found on our project.
Ссылки и действия
Дополнительные ресурсы: