RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching
2509.14966v1
cs.CV, cs.AI, cs.RO
2025-09-20
Авторы:
Xingwu Zhang, Guanxuan Li, Zhuocheng Zhang, Zijun Long
Резюме на русском
## Контекст
В последние годы, прогресс в области электронной коммерции привел к появлению большого количества товаров и вариантов упаковки, что сильно усложнило процесс автоматизированной упаковки в складах. Это связано с необходимостью распознавать визуально схожие или редкие товары, а также с увеличением частоты изменения точек зрения, катастрофическим влиянием окклюзий и сложностью распознавания в условиях большого разнообразия упаковок. Традиционные подходы, ориентированные только на 2D-изображения, часто сталкиваются с коллизиями и неточностями, что приводит к значительной потере точности. Данная проблема требует развития новых подходов, которые бы улучшили точность распознавания в условиях высокой разнообразия и сложности.
## Метод
Разработанный RoboEye предлагает двухэтапный подход, который объединяет 2D-и 3D-признаки для улучшения точности распознавания. В первом этапе, используется большой объем 2D-данных, извлекаемый с помощью широкого модели, для генерирования кандидатских рейтингов. Далее, легковесный модуль осознания 3D-признаков оценивает качество 3D-данных и определяет, необходимо ли использовать второй этап. Если да, то второй этап включает трансформер Robot 3D Retrieval, который анализирует 3D-геометрические признаки с помощью динамического матчинга ключевых точек. Ключевая особенность этого подхода заключается в использовании RGB-изображений без явного ввода 3D-данных, что позволяет уменьшить накладные расходы на развертывание и увеличить скорость.
## Результаты
Проведенные эксперименты показали, что RoboEye превосходит предыдущий состояние искусства RoboLLM на 7.1% в Recall@1. Этот результат был достигнут благодаря эффективному использованию 3D-признаков, которые позволили улучшить достоверность распознавания в сложных условиях. Благодаря легковесной архитектуре, RoboEye работает с ограниченными 3D-данными, что сокращает издержки на развертывание. Также, эксперименты подтвердили высокую скорость и точность работы в условиях различных сценариев упаковки и разных точек зрения.
## Значимость
RoboEye может быть применен в сферах автоматизированной упаковки, систем распознавания для электронной коммерции и интеллектуальных складов. Его преимущество в том, что он улучшает точность и скорость распознавания, используя только 2D-данные, что снижает требования к вычислительным ресурсам и упрощает развертывание. Это может привести к значительной экономии затрат и улучшению производительности в складских условиях.
## Выводы
Результаты показывают
Abstract
The rapidly growing number of product categories in large-scale e-commerce
makes accurate object identification for automated packing in warehouses
substantially more difficult. As the catalog grows, intra-class variability and
a long tail of rare or visually similar items increase, and when combined with
diverse packaging, cluttered containers, frequent occlusion, and large
viewpoint changes-these factors amplify discrepancies between query and
reference images, causing sharp performance drops for methods that rely solely
on 2D appearance features. Thus, we propose RoboEye, a two-stage identification
framework that dynamically augments 2D semantic features with domain-adapted 3D
reasoning and lightweight adapters to bridge training deployment gaps. In the
first stage, we train a large vision model to extract 2D features for
generating candidate rankings. A lightweight 3D-feature-awareness module then
estimates 3D feature quality and predicts whether 3D re-ranking is necessary,
preventing performance degradation and avoiding unnecessary computation. When
invoked, the second stage uses our robot 3D retrieval transformer, comprising a
3D feature extractor that produces geometry-aware dense features and a
keypoint-based matcher that computes keypoint-correspondence confidences
between query and reference images instead of conventional cosine-similarity
scoring. Experiments show that RoboEye improves Recall@1 by 7.1% over the prior
state of the art (RoboLLM). Moreover, RoboEye operates using only RGB images,
avoiding reliance on explicit 3D inputs and reducing deployment costs. The code
used in this paper is publicly available at:
https://github.com/longkukuhi/RoboEye.
Ссылки и действия
Дополнительные ресурсы: