📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PASG: A Closed-Loop Framework for Automated Geometric Primitive Extraction and Semantic Anchoring in Robotic Manipulation

2025-08-12

Авторы:

Zhihao Zhu, Yifan Zheng, Siyu Pan, Yaohui Jin, Yao Mu

## Контекст Одной из основных проблем в области робототехники является фрагментация между высокоуровневыми задачами (semantic tasks) и низкоуровневыми геометрическими примитивами. Актуальной задачей является создание модели, которая бы связывала эти два уровня и динамически формировала семантические привязки для понимания объектов в робототехнических системах. Несмотря на продвижение визуально-языковых моделей (Vision-Language Models, VLMs) в генерировании отклика-ориентированных визуальных представлений, они страдают от недостатка семантического управления в канонических пространствах и зависимости от ручных аннотаций. Эти ограничения снижают возможность эффективного понимания динамических семантико-поддерживающих связях. Мы предлагаем Primitive-Aware Semantic Grounding (PASG), фреймворк, который автоматизирует выделение геометрических примитивов и динамически связывает их с семантическими привязками. ## Метод PASG представляет собой замкнутую циклическую систему, включающую два основных модуля: автоматическое выделение примитивов и семантическое привязывание. Алгоритм использует геометрическую агрегацию для выделения геометрических примитивов, таких как ключевые точки (keypoints) и оси. Для семантического дублирования используется визуально-языковая модель (VLM), которая динамически связывает эти примитивы с их поддерживающими функциями и задачами. Мы также разработали бенчмарк для специальных тестов в области распознавания примитивов и семантического сопоставления. Для оптимизации процесса, мы использовали улучшенную версию модели Qwen2.5VL, названную Qwen2.5VL-PA, которая используется для уточненного семантического управления. ## Результаты Мы проводили эксперименты в различных робототехнических сценариях, включая обработку объектов с различными степенями сложности. Модель PASG показала высокую точность в выявлении геометрических примитивов и семантических привязок, даже при отсутствии ручных аннотаций. Наши результаты показывают, что PASG сопоставима с ручными аннотациями по точности и быстродействию. Мы также проверили то, как модель выполняет работу в различных условиях, включая те, которые требуют высокой реакции и точности. Эти результаты подтверждают эффективность PASG в реальных робототехнических задачах. ## Значимость PASG может применяться в различных робототехнических задачах, таких как автоматическая сборка, пикап-and-place операции и другие активности, требующие точного понимания геометрии и семантики объектов. Основным преимуществом является то, что PASG устанавливает современный парадигму семантического понимания, которая св

Annotation:

The fragmentation between high-level task semantics and low-level geometric features remains a persistent challenge in robotic manipulation. While vision-language models (VLMs) have shown promise in generating affordance-aware visual representations, the lack of semantic grounding in canonical spaces and reliance on manual annotations severely limit their ability to capture dynamic semantic-affordance relationships. To address these, we propose Primitive-Aware Semantic Grounding (PASG), a closed...

ID: 2508.05976v1 cs.CV, cs.RO

arXiv PDF

📄 GMF-Drive: Gated Mamba Fusion with Spatial-Aware BEV Representation for End-to-End Autonomous Driving

2025-08-12

Авторы:

Jian Wang, Chaokang Jiang, Haitao Xu

#### Контекст Исследование автоматизированных систем управления транспортными средствами находится в сердце развития технологий в области робототехники и искусственного интеллекта. Нейронные сети, адаптированные для энд-то-энд автономного вождения, становятся важным инструментом для обработки геометрических данных и принятия решений во время движения. Однако существуют значительные проблемы, связанные с недостаточной скоростью обработки, сложностью математических моделей и неэффективностью использования ресурсов. Одной из основных проблем является неэффективность преобразователей в контексте Bird's Eye View (BEV) представлений, которые требуют высокой вычислительной сложности и не полностью используют возможности специфических требований к пространственной структуре. #### Метод GMF-Drive представляет собой новую модель энд-то-энд автономного вождения, основанную на Gated Mamba Fusion (GM-Fusion). Метод заменяет обычные transformer-based модели на более эффективную структуру, использующую state-space models (SSM) с динамической адаптивной структурой для BEV-репрезентаций. Модель использует новое представление LiDAR-данных в формате pillars с геометрическими и статистическими признаками. Эта архитектура позволяет эффективно обрабатывать данные, сохраняя пространственную структуру и уменьшая вычислительные затраты. Благодаря использованию новых кодировок и адаптивных методов объединения, GMF-Drive эффективно моделирует и захватывает длинные зависимости в 3D-представлении. #### Результаты Исследователи проводили эксперименты на NAVSIM benchmark, показав значительное превосходство GMF-Drive над DiffusionDrive и другими современными моделями. Модель GMF-Drive показала существенное улучшение в обработке BEV-данных и решении задач движения в тяжелых условиях. Особое внимание уделено абляционным исследованиям, которые подтвердили эффективность каждого компонента модели. Например, SSM показал лучший результат по сравнению с transformer-based моделями в области эффективности и точности. #### Значимость GMF-Drive может быть применено в различных сценариях автономного вождения, включая системы навигации, системы замедления водительских решений и системы безопасности. Основное преимущество GMF-Drive заключается в своей высокой эффективности и точности, которая достигается благодаря инновационной архитектуре и применению SSMs. Это может привести к уменьшению ресурсоемкости моделей, улучшению времени реакции и увеличению безопасности в автотранспорте. #### Выводы GMF-Drive достигает рекордных результатов в области энд-то-энд автономного вождения, превзойдя ранее применявшиеся модели.

Annotation:

Diffusion-based models are redefining the state-of-the-art in end-to-end autonomous driving, yet their performance is increasingly hampered by a reliance on transformer-based fusion. These architectures face fundamental limitations: quadratic computational complexity restricts the use of high-resolution features, and a lack of spatial priors prevents them from effectively modeling the inherent structure of Bird's Eye View (BEV) representations. This paper introduces GMF-Drive (Gated Mamba Fusion...

ID: 2508.06113v1 cs.CV, cs.RO

arXiv PDF

📄 Graph-based Robot Localization Using a Graph Neural Network with a Floor Camera and a Feature Rich Industrial Floor

2025-08-12

Авторы:

Dominik Brämer, Diana Kleingarn, Oliver Urbann

#### Контекст Навигация роботов является ключевым вопросом в искусственном интеллекте и автоматизации. Одна из самых трудных задач в этой области — точное определение положения робота в пространстве. Для этого широко используются методы, такие как LiDAR, QR-коды и зеркальные системы. Однако, эти системы имеют ограниченную масштабируемость и адаптивность, особенно в сложных пространственных средах. Это приводит к увеличению сложности и затрат при их применении. В настоящей работе предлагается инновационный подход, основанный на графовых представлениях и графных нейронных сетях (Graph Convolutional Networks, GCN), чтобы улучшить точность и эффективность локализации. #### Метод Предлагаемая методология основывается на использовании графовых представлений для описания особенностей пола в пространстве. Именно фотограмметрические свойства пола (например, расположение плит и рисунки) используются для генерации графа, где каждая вершина — это отдельная фича, а рёбра — их связи. Эти графы затем обрабатываются с помощью GCN, чтобы вычислить положение робота в реальном времени. Чтобы повысить точность, особенности каждого кадра из видеопотока действующей камеры используются в качестве входных данных для сети. Эта архитектура позволяет уменьшить ошибку локализации до 0.64 см, что значительно превосходит показатели традиционных систем. #### Результаты В экспериментах использовались данные с робота, оснащенного индустриальным полом с высоким разрешением и фотограмметрическими характеристиками. Для обучения и тестирования GCN использовалась выборка из нескольких тысяч кадров. Результаты показали, что алгоритм достиг точности локализации в 0.64 см, что значительно превышает достижения других методов. Более того, система успешно решала проблему «kidnapped robot problem», что означает точное определение положения в каждом кадре без дополнительных фильтрационных процессов. #### Значимость Предложенный подход может быть применен в различных областях, таких как промышленная автоматизация, помощь незрячим и военной локализации. Одним из основных преимуществ является то, что система может работать в реальном времени без дорогостоящих и сложных фильтрационных процессов. Это открывает новые возможности для более точного, надежного и стойкого к окружению роботов. Будущие исследования будут направлены на улучшение скорости работы, снижение потребления ресурсов и расширение применений в различных типах сред. #### Выводы В итоге, предложенный графовый подход к локализации роботов доказал свою эффективность и превосходство над традиционными методами. Он позволяет повысить точность

Annotation:

Accurate localization represents a fundamental challenge in robotic navigation. Traditional methodologies, such as Lidar or QR-code based systems, suffer from inherent scalability and adaptability con straints, particularly in complex environments. In this work, we propose an innovative localization framework that harnesses flooring characteris tics by employing graph-based representations and Graph Convolutional Networks (GCNs). Our method uses graphs to represent floor features, which ...

ID: 2508.06177v1 cs.CV, cs.RO

arXiv PDF

📄 Depth Jitter: Seeing through the Depth

2025-08-12

Авторы:

Md Sazidur Rahman, David Cabecinhas, Ricard Marxer

## Контекст В компьютерном зрении, особенно в области углубленного обучения, depth-aware augmentations играют ключевую роль в повышении точности и устойчивости моделей. Однако существующие методы часто игнорируют отдельную обработку depth-aware transformations, что приводит к узкому покрытию набора ситуаций в реальной жизни. Для оценки и моделирования глубины в изображениях существуют сложности, такие как отсутствие высококачественных данных, ненадежность данных измерительных приборов, и их разброс в разных условиях. Эта проблема значимого влияет на области, такие как автономная навигация, underwater imaging, и robotics. Мы предлагаем Depth-Jitter, новую depth-aware augmentation метод, который адаптивно регулирует depth offsetting, чтобы улучшить общую устойчивость моделей в различных условиях глубины. ## Метод Depth-Jitter работает на основе adaptive depth offsetting, применяя depth variance thresholds для генерации synthetic depth perturbations. Мы используем depth variance thresholds для определения границы глубины, позволяя генерировать depth perturbations, которые сохраняют структурную целостность и реалистичность. Алгоритм оптимизируется для добавления глубины в изображения без вызывания представления нежелательных геометрических растров. Мы используем процесс, который сохраняет depth-aware контекст, чтобы модели могли быть более устойчивы в реальных дептивных условиях. ## Результаты Мы проводили эксперименты на двух benchmark datasets, FathomNet и UTDAC2020, чтобы оценить эффективность Depth-Jitter. Наши результаты показывают, что Depth-Jitter улучшает модельную стабильность и общую generalization в сравнении с традиционными augmentation методами, такими как ColorJitter. Измерения показали, что Depth-Jitter не всегда превосходит ColorJitter в absolute performance, но он постоянно повышает модельную stability, которая ключева для depth-sensitive applications. Мы также произвели подробный анализ различных learning rates, encoders, и loss functions, чтобы понять, как Depth-Jitter влияет на различные аспекты обучения. ## Значимость Depth-Jitter может применяться в областях, таких как autonomous navigation, underwater imaging, и robotics, где depth information является критическим для accuracy. Этот метод улучшает model generalization, что позволяет моделям быть более устойчивыми в различных depth conditions. Our approach предоставляет новую горизонтальную линию развития для depth-aware augmentations, призванную наполнять лакуны в существующих depth augmentation techniques. Эти положительные результаты могут помочь в развитии более стабильных и точных моделей в depth-sensitive областях. ## Выводы Depth-Jitter представляет собой прорыв в depth-aware augmentation, предоставляя более устойчивые модели в depth-sensitive областях. Мы планируем расширить исследования, чтобы проверить эффективность наших методов на более широком наборе данных и применений. Мы также планируем изучить возможности для adaptive depth thresholding, чтобы сделать Depth-Jitter еще более flexible и эффективным.

Annotation:

Depth information is essential in computer vision, particularly in underwater imaging, robotics, and autonomous navigation. However, conventional augmentation techniques overlook depth aware transformations, limiting model robustness in real world depth variations. In this paper, we introduce Depth-Jitter, a novel depth-based augmentation technique that simulates natural depth variations to improve generalization. Our approach applies adaptive depth offsetting, guided by depth variance threshold...

ID: 2508.06227v1 cs.CV, cs.RO

arXiv PDF

📄 An Event-based Fast Intensity Reconstruction Scheme for UAV Real-time Perception

2025-08-09

Авторы:

Xin Dong, Yiwei Zhang, Yangjie Cui, Jinwu Xiang, Daochun Li, Zhan Tu

Эвент-камеры, известные своей высокой температурной разрешаемостью, широким динамическим диапазоном и иммунитетом к моторному размазыванию, широко применяются в условиях низкого освещения и быстрых движений. Однако их синхронный характер ограничивает их возможности в реальном времени. Мы предлагаем евент-базский метод моментальной реконструкции интенсивности, Event-Based Single Integration (ESI), для решения этих проблем. ESI гарантирует качественное реализацию обычных фрейм-базированных методов видения в эвент-базовых сценариях, сохраняя их преимущества. Метод строит изображения интенсивности, выполнив одновременное интегрирование эвент-потока с улучшенным декрементным алгоритмом, что позволяет достичь высокой скорости работы, до 100 FPS. Этот подход успешно применяется для реального времени в UAV-применениях в тяжелых условиях видимости. Наши эксперименты показали, что ESI превосходит современные алгоритмы по скорости, качеству и эффективности, особенно в условиях низкого освещения (2-10 Лкс). Таким образом, ESI значительно повышает возможности реального времени для UAV-применений в трудновидимых условиях.

Annotation:

Event cameras offer significant advantages, including a wide dynamic range, high temporal resolution, and immunity to motion blur, making them highly promising for addressing challenging visual conditions. Extracting and utilizing effective information from asynchronous event streams is essential for the onboard implementation of event cameras. In this paper, we propose a streamlined event-based intensity reconstruction scheme, event-based single integration (ESI), to address such implementation...

ID: 2508.02238v1 cs.CV, cs.RO

arXiv PDF

📄 Correspondence-Free Fast and Robust Spherical Point Pattern Registration

2025-08-09

Авторы:

Anik Sarker, Alan T. Asbeck

Работа предлагает новый подход к решению задачи регистрации сферических точек в задаче без соотнесений (correspondence-free), которую можно свести к задаче опорных векторов (Wahba problem) для 3D-векторов. В отличие от существующих подходов, основывающихся на сферических функциях, авторы предлагают представлять сферические точки как дискретные 3D-множества на единичной сфере. Это позволяет использовать геометрический подход к решению проблемы. Разработаны три алгоритма: SPMC (Spherical Pattern Matching by Correlation), FRS (Fast Rotation Search) и их комбинация SPMC+FRS. Эти методы используются для регистрации сферических точек в $\mathbb{S}^2$-домене. Эксперименты показали, что предложенные методы работают 10 раз быстрее и 10 раз точнее, чем существующие стандарты, даже при высокой загрязненности данных выбросами. Работа была проверена на новом датасете Robust Vector Alignment Dataset и применена к решению двух реальных задач: Point Cloud Registration (PCR) и оценки ориентации для сферических изображений.

Annotation:

Existing methods for rotation estimation between two spherical ($\mathbb{S}^2$) patterns typically rely on spherical cross-correlation maximization between two spherical function. However, these approaches exhibit computational complexities greater than cubic $O(n^3)$ with respect to rotation space discretization and lack extensive evaluation under significant outlier contamination. To this end, we propose a rotation estimation algorithm between two spherical patterns with linear time complexity...

ID: 2508.02339v1 cs.CV, cs.RO

arXiv PDF

📄 MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming

2025-08-09

Авторы:

Shuo Wang, Yongcai Wang, Wanting Li, Yucheng Wang, Maiyue Chen, Kaihui Wang, Zhizhong Su, Xudong Cai, Yeying Jin, Deying Li, Zhaoxin Fan

**Резюме** В Vision-Language Navigation (VLN) задачах широко используются panoramic RGB-D сенсоры для построения точных моделей среды. Однако, эти сенсоры требуют высоких затрат и не всегда доступны в реальных условиях. Недавние модели на основе Vision-Language Action (VLA) построены на monocular RGB входах, но всё ещё отстают от panoramic-based алгоритмов по эффективности. Мы предлагаем MonoDream — легковесную VLA-фреймворк с Unified Navigation Representation (UNR), которая объединяет в себе навигационные визуальные признаки (например, глобальный слой, глубина, футуристические сигналы) и языково-ориентированные действия. Для того, чтобы обучить UNR, MonoDream вводит Latent Panoramic Dreaming (LPD) задачи, которые позволяют предсказать latent features panoramic RGB-D наблюдений в текущих и будущих шагах, используя только monocular информацию. Наши эксперименты показали, что MonoDream повышает производительность monocular VLN на нескольких бенчмарках, существенно сокращая разрыв с panoramic-based моделями.

Annotation:

Vision-Language Navigation (VLN) tasks often leverage panoramic RGB and depth inputs to provide rich spatial cues for action planning, but these sensors can be costly or less accessible in real-world deployments. Recent approaches based on Vision-Language Action (VLA) models achieve strong results with monocular input, yet they still lag behind methods using panoramic RGB-D information. We present MonoDream, a lightweight VLA framework that enables monocular agents to learn a Unified Navigation ...

ID: 2508.02549v1 cs.CV, cs.RO

arXiv PDF

📄 COFFEE: A Shadow-Resilient Real-Time Pose Estimator for Unknown Tumbling Asteroids using Sparse Neural Networks

2025-08-09

Авторы:

Arion Zimmermann, Soon-Jo Chung, Fred Hadaegh

Одной из самых вызовов в космических миссиях является точное определение положения и ориентации неизвестных объектов в пространстве, включая астероиды и дебри. Наличие высокой оптической опасности, вызванной самопроизвольной сменой ориентации и существенной скрытостью объекта от источника света, усложняет поиск и оценку ориентации. Данная работа предлагает решение — COFFEE (Celestial Occlusion Fast FEature Extractor), алгоритм реального времени для оценки положения, основанный на небольшом количестве инвариантных к движению тени фичей, обнаруженных с использованием спарсейных нейронных сетей. Алгоритм использует внешнюю информацию о сдвиге солнца, обычно доступной на космических аппаратах, для определения ориентации. На основе синтетических данных и моделей астероида Apophis показано, что COFFEE обеспечивает точные результаты, независимые от затенения, и значительно быстрее существующих подходов.

Annotation:

The accurate state estimation of unknown bodies in space is a critical challenge with applications ranging from the tracking of space debris to the shape estimation of small bodies. A necessary enabler to this capability is to find and track features on a continuous stream of images. Existing methods, such as SIFT, ORB and AKAZE, achieve real-time but inaccurate pose estimates, whereas modern deep learning methods yield higher quality features at the cost of more demanding computational resource...

ID: 2508.03132v1 cs.CV, cs.RO

arXiv PDF

📄 LRDDv2: Enhanced Long-Range Drone Detection Dataset with Range Information and Comprehensive Real-World Challenges

2025-08-09

Авторы:

Amirreza Rouhi, Sneh Patel, Noah McCarthy, Siddiqa Khan, Hadi Khorsand, Kaleb Lefkowitz, David K. Han

Активное развитие Управляемых Летательных Аппаратов (УЛА) создает новые вызовы для обеспечения безопасности, особенно в условиях плотного городского населения. Наша работа посвящена усовершенствованию систем детектирования УЛА на большие расстояния, чтобы обеспечить безопасность и эффективность их эксплуатации. Мы представляем Long Range Drone Detection Dataset v2 (LRDDv2), который включает 39,516 аннотированных изображений, расширенный в предыдущую версию LRDD. Особенностью LRDDv2 является добавление информации о дальности (range) для более чем 8,000 изображений, что позволяет развивать алгоритмы для оценки дистанции до объектов. Изображения в LRDDv2 характеризуются низким разрешением (до 50 пикселей в 1080p), что репрезентативно для реальных условий дальнего детектирования. Эта работа демонстрирует возможности датасета для развития инновационных решений в области дальнего поиска и детектирования УЛА.

Annotation:

The exponential growth in Unmanned Aerial Vehicles (UAVs) usage underscores the critical need of detecting them at extended distances to ensure safe operations, especially in densely populated areas. Despite the tremendous advances made in computer vision through deep learning, the detection of these small airborne objects remains a formidable challenge. While several datasets have been developed specifically for drone detection, the need for a more extensive and diverse collection of drone imag...

ID: 2508.03331v1 cs.CV, cs.RO

arXiv PDF

📄 OmniShape: Zero-Shot Multi-Hypothesis Shape and Pose Estimation in the Real World

2025-08-09

Авторы:

Katherine Liu, Sergey Zakharov, Dian Chen, Takuya Ikeda, Greg Shakhnarovich, Adrien Gaidon, Rares Ambrus

Оценивание полной формы и положения объектов на основе единственного наблюдения — это сложная задача в реальном мире, особенно когда неизвестен 3D-модель или категория объекта. В статье предлагается OmniShape, первая методика, позволяющая выполнять нулевой-слотное оценивание положения и полной формы объекта. OmniShape основывается на осознании, что завершение формы может рассматриваться как двухмодальные распределения: одно следует из проекций на стандартный ссылочный референс объектов в наборе, а другое — из предшествующего распределения объектных геометрий, описываемых трипланарными нейронными полями. Отдельной условными диффузионными моделями обучаются обе эти многомодальные распределения, что позволяет использовать вероятностные модели для генерации множества гипотез по положению и форме. Эксперименты показывают, что OmniShape выдает высокую точность при оценке реальных данных. Это решение наделяет методов новыми возможностями внедрения в реальные приложения.

Annotation:

We would like to estimate the pose and full shape of an object from a single observation, without assuming known 3D model or category. In this work, we propose OmniShape, the first method of its kind to enable probabilistic pose and shape estimation. OmniShape is based on the key insight that shape completion can be decoupled into two multi-modal distributions: one capturing how measurements project into a normalized object reference frame defined by the dataset and the other modelling a prior o...

ID: 2508.03669v1 cs.CV, cs.RO

arXiv PDF

Показано 231 - 240 из 246 записей