RoboEye: Enhancing 2D Robotic Object Identification with Selective 3D Geometric Keypoint Matching

2509.14966v1 cs.CV, cs.AI, cs.RO 2025-09-20
Авторы:

Xingwu Zhang, Guanxuan Li, Zhuocheng Zhang, Zijun Long

Резюме на русском

## Контекст В последние годы, прогресс в области электронной коммерции привел к появлению большого количества товаров и вариантов упаковки, что сильно усложнило процесс автоматизированной упаковки в складах. Это связано с необходимостью распознавать визуально схожие или редкие товары, а также с увеличением частоты изменения точек зрения, катастрофическим влиянием окклюзий и сложностью распознавания в условиях большого разнообразия упаковок. Традиционные подходы, ориентированные только на 2D-изображения, часто сталкиваются с коллизиями и неточностями, что приводит к значительной потере точности. Данная проблема требует развития новых подходов, которые бы улучшили точность распознавания в условиях высокой разнообразия и сложности. ## Метод Разработанный RoboEye предлагает двухэтапный подход, который объединяет 2D-и 3D-признаки для улучшения точности распознавания. В первом этапе, используется большой объем 2D-данных, извлекаемый с помощью широкого модели, для генерирования кандидатских рейтингов. Далее, легковесный модуль осознания 3D-признаков оценивает качество 3D-данных и определяет, необходимо ли использовать второй этап. Если да, то второй этап включает трансформер Robot 3D Retrieval, который анализирует 3D-геометрические признаки с помощью динамического матчинга ключевых точек. Ключевая особенность этого подхода заключается в использовании RGB-изображений без явного ввода 3D-данных, что позволяет уменьшить накладные расходы на развертывание и увеличить скорость. ## Результаты Проведенные эксперименты показали, что RoboEye превосходит предыдущий состояние искусства RoboLLM на 7.1% в Recall@1. Этот результат был достигнут благодаря эффективному использованию 3D-признаков, которые позволили улучшить достоверность распознавания в сложных условиях. Благодаря легковесной архитектуре, RoboEye работает с ограниченными 3D-данными, что сокращает издержки на развертывание. Также, эксперименты подтвердили высокую скорость и точность работы в условиях различных сценариев упаковки и разных точек зрения. ## Значимость RoboEye может быть применен в сферах автоматизированной упаковки, систем распознавания для электронной коммерции и интеллектуальных складов. Его преимущество в том, что он улучшает точность и скорость распознавания, используя только 2D-данные, что снижает требования к вычислительным ресурсам и упрощает развертывание. Это может привести к значительной экономии затрат и улучшению производительности в складских условиях. ## Выводы Результаты показывают

Abstract

The rapidly growing number of product categories in large-scale e-commerce makes accurate object identification for automated packing in warehouses substantially more difficult. As the catalog grows, intra-class variability and a long tail of rare or visually similar items increase, and when combined with diverse packaging, cluttered containers, frequent occlusion, and large viewpoint changes-these factors amplify discrepancies between query and reference images, causing sharp performance drops for methods that rely solely on 2D appearance features. Thus, we propose RoboEye, a two-stage identification framework that dynamically augments 2D semantic features with domain-adapted 3D reasoning and lightweight adapters to bridge training deployment gaps. In the first stage, we train a large vision model to extract 2D features for generating candidate rankings. A lightweight 3D-feature-awareness module then estimates 3D feature quality and predicts whether 3D re-ranking is necessary, preventing performance degradation and avoiding unnecessary computation. When invoked, the second stage uses our robot 3D retrieval transformer, comprising a 3D feature extractor that produces geometry-aware dense features and a keypoint-based matcher that computes keypoint-correspondence confidences between query and reference images instead of conventional cosine-similarity scoring. Experiments show that RoboEye improves Recall@1 by 7.1% over the prior state of the art (RoboLLM). Moreover, RoboEye operates using only RGB images, avoiding reliance on explicit 3D inputs and reducing deployment costs. The code used in this paper is publicly available at: https://github.com/longkukuhi/RoboEye.

Ссылки и действия