📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation

2025-08-28

Авторы:

Hao Shi, Bin Xie, Yingfei Liu, Lin Sun, Fengrong Liu, Tiancai Wang, Erjin Zhou, Haoqiang Fan, Xiangyu Zhang, Gao Huang

## Контекст Роботическая манипуляция является ключевым заданием в области искусственного интеллекта и робототехники, особенно при выполнении сложных, непрерывных задач. Такие задачи часто требуют учета временного контекста и зависимости от прошлого, что ставит перед моделями Vision-Language-Action (VLA) трудности в обработке немарковских ситуаций. Несмотря на прогресс в области VLA-моделей, текущие подходы либо не учитывают временного контекста, либо слабо справляются с задачами, требующими длительного горизонта времени. Это приводит к ошибкам в выборе действий и нехватке семантического понимания. Существует необходимость в моделях, которые могут эффективно учитывать временный контекст, основываясь на предметных данных и сигналах. Наша модель MemoryVLA предлагает решение для этих проблем, используя идеи из когнитивной науки о рабочей памяти и эпизодической памяти. ## Метод MemoryVLA — это перспективное Cognition-Memory-Action фреймворк, использующее pretrained Vision-Language Model (VLM) для преобразования входных данных в perceptual и cognitive tokens. Эти токены формируют рабочую память, хранящую релевантные для задачи сигналы. Для решения проблем, связанных с длительным горизонтом, мы вводим Perceptual-Cognitive Memory Bank, которая способна хранить и обрабатывать как низкоуровневые детали, так и высокоуровневые семантические сведения. Working memory адаптивно извлекает и объединяет токены из Memory Bank, чтобы обеспечить лучшие решения. Для генерации действий мы вводим Memory-Conditioned Diffusion Action Expert, предсказывающий долгосрочные последовательности действий. Этот подход позволяет MemoryVLA принимать решения с учетом временного контекста. ## Результаты Мы оценили MemoryVLA на более чем 150 симуляционных и реальных задачах, используя три разных робота. На SimplerEnv-Bridge, Fractal и LIBERO-5 она показала 71.9%, 72.7% и 96.5% успеха соответственно, превзойдя состояние технологии CogACT и pi-0 с приростом +14.6. Также были проведены 12 реальных экспериментов, где MemoryVLA достигла 84.0% успеха, показав прирост +26 в задачах с длительным горизонтом времени в сравнении с CogACT. Наши результаты показывают, что MemoryVLA не только выполняет задачи с высокой точностью, но и демонстрирует значительный прогресс в обработке сложных задач, требующих учета временного развития. ## Значимость MemoryVLA может быть применена в различных сферах, где требуется высокая точность в манипуляциях и учет временных зависимостей. Это включает в себя медицину, промышленность, а также домашние и офисные роботы. Метод предлагает значительные преимущества, такие как уменьшение ошибок, повышение эффективности и более естественное взаимодействие с окружением. Это может привести

Annotation:

Temporal context is essential for robotic manipulation because such tasks are inherently non-Markovian, yet mainstream VLA models typically overlook it and struggle with long-horizon, temporally dependent tasks. Cognitive science suggests that humans rely on working memory to buffer short-lived representations for immediate control, while the hippocampal system preserves verbatim episodic details and semantic gist of past experience for long-term memory. Inspired by these mechanisms, we propose ...

ID: 2508.19236v1 cs.RO, cs.CV

arXiv PDF

📄 SEBVS: Synthetic Event-based Visual Servoing for Robot Navigation and Manipulation

2025-08-27

Авторы:

Krishna Vinod, Prithvi Jai Ramesh, Pavan Kumar B N, Bharatesh Chakravarthi

#### Контекст Область исследований, охватывающая динамические и реального времени задачи управления роботами, широко распространена в современных робототехнических системах. Одним из ключевых аспектов этой области является создание эффективных методов визуального сервирования (visual servoing) для обеспечения точного и реактивного управления. Роботы, оперирующие в реальном времени, должны быть высокоточными в понимании и реагировании на свое окружение. Это становится особенно важно при работе в условиях, которые могут быть нестандартными — таких как быстрые изменения освещения, моторный шум или цензурные препятствия. Одним из самых обещающих подходов для решения этих проблем являются event-based vision системы. Эти системы используют event cameras, которые предлагают микросекундную задержку, высокую динамику диапазона и низкое энергопотребление. Однако, несмотря на эти преимущества, использование event cameras в области robotic policy learning и synthetic event-based vision все еще остается необоснованным в многих стандартных робототехнических симуляторах. Это ограничение существенно снижает возможность проверки и оптимизации event-driven политик в реальном времени. #### Метод В данной работе представлен SEBVS (Synthetic Event-based Visual Servoing) — современный подход к синтетическому event-based vision, ориентированный на поддержку robotic policy learning. SEBVS является открытым исходным кодом и является основополагающим пакетом для ROS (Robot Operating System) в симуляторе Gazebo. Он позволяет генерировать event streams из RGB-камер, что делает его идеальным инструментом для моделирования и экспериментирования с event-based systems в реальном времени. Этот подход предоставляет платфоrmу для тренировки, оценки и оптимизации event-driven политик в различных сценариях — от обычного обнаружения и слежения за объектом до более сложного обнаружения, захвата и манипулирования. SEBVS также поддерживает поведенческое копирование (behavior cloning) для тренировки transformer-based event-driven политик. Этот подход позволяет создавать эффективные модели для обработки event-based сигналов и их интеграции в роботские системы. #### Результаты Для оценки эффективности SEBVS и event-driven политик были проведены ряд экспериментов в симуляторе Gazebo. Были созданы две основные сценарии: (1) **mobile robot object following** и (2) **robotic manipulator object detection and grasping**. В качестве тестовых данных использовались event streams, сгенерированные SEBVS из RGB-камер. Эти сигналы были использованы для тренировки transformer-based event-driven политик с помощью поведенческого копирования (behavior cloning). Эксперименты показали, что event-driven политики показывают высокую точность и реактивность, даже при условиях изменения освещения, моторного шума и затухания. Эти политики также постоянно демонстрируют высокую эффективность по сравнению с RGB-based политиками. #### Значимость Результаты эк

Annotation:

Event cameras offer microsecond latency, high dynamic range, and low power consumption, making them ideal for real-time robotic perception under challenging conditions such as motion blur, occlusion, and illumination changes. However, despite their advantages, synthetic event-based vision remains largely unexplored in mainstream robotics simulators. This lack of simulation setup hinders the evaluation of event-driven approaches for robotic manipulation and navigation tasks. This work presents an...

ID: 2508.17643v1 cs.RO, cs.CV

arXiv PDF

📄 Egocentric Instruction-oriented Affordance Prediction via Large Multimodal Model

2025-08-27

Авторы:

Bokai Ji, Jie Gu, Xiaokang Ma, Chu Tang, Jingmin Chen, Guangxia Li

## Контекст Интеллектуальные роботы, работающие в средах с новыми объектами, должны распознавать и использовать информацию о взаимодействиях с объектами. Одной из ключевых компонент этой возможности является понятие "affordance", то есть возможность объекта для определенных действий. Довольно часто этот аспект игнорируется в существующих моделях, в которых действия производятся без учета контекста или инструкций. Это приводит к ограниченной точности и релевантности при принятии решений. Мы утверждаем, что affordance должно быть зависимым от задачи и инструкций, чтобы обеспечить более точную и практичную обработку объектов. Эта идея мотивирует нас создать новую модель, которая бы способствовала более точному и динамическому пониманию affordance в контексте различных задач и условий. ## Метод Мы предлагаем новую модель, основывающуюся на "search against verifiers" (SAV), для обучения large multimodal models (LMMs) с целью выполнения инструкционно-зависимого affordance prediction. Модель работает по принципу последовательного поиска и проверки. LMM последовательно предсказывает регион и направление manipulation, а затем эти предсказания тестируются в соответствии с имеющимся контекстом и инструкциями. Затем LMM использует полученные ответы для уточнения своих предсказаний. Данный подход позволяет модели учитывать контекст и инструкции, чтобы сформировать более точные и релевантные предсказания. Мы используем прототипную среду с 15 000 сценами, где каждый объект задается вместе с определенной инструкцией и соответствующим affordance. ## Результаты Мы проверили нашу модель на новой dataset, содержащей 15 000 объектов-инструкции-affordance тройки, с выполнением широкого спектра экспериментов для оценки точности и надежности. Модель показала высокую точность в предсказании affordance в зависимости от контекста и инструкций. Например, для одного и того же объекта, но с разными инструкциями, модель предсказывала разные регионы и направления manipulation. Это демонстрирует способность модели учитывать контекст и инструкции, что является ключевым отличием от большинства предыдущих моделей. Также, мы провели валидацию на различных объектах и сценах, чтобы продемонстрировать широкую применяемость нашего подхода. ## Значимость Наш подход имеет многочисленные применения в областях, где роботы должны взаимодействовать с объектами в реальном мире, например, в сфере умных домов, автоматизированного производства и medical robotics. Одним из основных преимуществ является то, что модель может быть использована для точного предсказания affordance в разных сценариях, включая новые объекты и инструкции, без предварительной обучения на этих сценариях. Благодаря это

Annotation:

Affordance is crucial for intelligent robots in the context of object manipulation. In this paper, we argue that affordance should be task-/instruction-dependent, which is overlooked by many previous works. That is, different instructions can lead to different manipulation regions and directions even for the same object. According to this observation, we present a new dataset comprising fifteen thousand object-instruction-affordance triplets. All scenes in the dataset are from an egocentric view...

ID: 2508.17922v1 cs.RO, cs.CV

arXiv PDF

📄 A holistic perception system of internal and external monitoring for ground autonomous vehicles: AutoTRUST paradigm

2025-08-27

Авторы:

Alexandros Gkillas, Christos Anagnostopoulos, Nikos Piperigkos, Dimitris Tsiktsiris, Theofilos Christodoulou, Theofanis Siamatras, Dimitrios Triantafyllou, Christos Basdekis, Theoktisti Marinopoulou, Panagiotis Lepentsiotis, Elefterios Blitsis, Aggeliki Zacharaki, Nearchos Stylianidis, Leonidas Katelaris, Lamberto Salvan, Aris S. Lalos, Christos Laoudias, Antonios Lalas, Konstantinos Votis

## Контекст Применение автономных транспортных средств становится все более актуальным в связи с ростом требований к безопасности, эффективности и удобству транспортных систем. Однако их развитие сталкивается с рядовыми проблемами, включая несостоятельную зрелость систем периферийного видения, ограниченную возможность адаптации к нестандартным ситуациям и нехватку достоверных моделей данных для обучения AI-систем. Эти проблемы приводят к неэффективности внешнего мониторинга, нехватке удобства и безопасности для пассажиров и водителей. Мотивацией для разработки полногабаритной системы мониторинга является необходимость обеспечить безопасность, удобство и эффективность в транспортных системах, учитывая требования современных самоуправляемых транспортных средств. ## Метод Разработанная система AutoTRUST представляет собой широкомасштабную архитектуру мониторинга, включающую в себя внутренний и внешний мониторинг. Внутренняя система основывается на мульти-камерном комплексе, который использует глубокое обучение для распознавания лиц и воспроизведения говорения в качестве виртуального помощника. Кроме того, в ней входят смарт-сенсоры для измерения качества воздуха и анализа теплового комфорта. Внешняя система, в свою очередь, задействует LiDAR-сенсорную сеть для обработки 3D-точечных сетей. Методы семантической сегментации и супер-разрешения используются для преобразования низкокачественных данных в высококачественные. Архитектура представляет собой модульную систему с адаптивными алгоритмами, обеспечивающими эффективность и надёжность. ## Результаты Проведенные эксперименты показали, что система AutoTRUST обеспечивает высокую точность распознавания лиц, точность в семантической сегментации и эффективность в преобразовании разрешения точечных сетей. Использовались реальные данные, полученные в ходе экспериментов на реальном электромобиле, предоставленном компанией ALKE. Эксперименты проводились на территории центра Joint Research Centre в Ипсре, Италия. Результаты оценивались с помощью метрик, таких как Precision, Recall и F1-score, показавших высокую эффективность системы в различных условиях окружающей среды. ## Значимость Разработанный подход может быть применён в различных сферах, включая автоматизацию транспортных систем, мониторинг безопасности и удобства внутри автомобилей. Он демонстрирует преимущества в области безопасности, эффективности и комфорта для пользователей. Благодаря модульной структуре и адаптивным алгоритмам, система может быть легко наст

Annotation:

This paper introduces a holistic perception system for internal and external monitoring of autonomous vehicles, with the aim of demonstrating a novel AI-leveraged self-adaptive framework of advanced vehicle technologies and solutions that optimize perception and experience on-board. Internal monitoring system relies on a multi-camera setup designed for predicting and identifying driver and occupant behavior through facial recognition, exploiting in addition a large language model as virtual assi...

ID: 2508.17969v1 cs.RO, cs.CV

arXiv PDF

📄 Scene-Agnostic Traversability Labeling and Estimation via a Multimodal Self-supervised Framework

2025-08-27

Авторы:

Zipeng Fang, Yanbo Wang, Lei Zhao, Weidong Chen

## Контекст Траверсируемость оценки является ключевым аспектом для обеспечения эффективного взаимодействия роботов с различными типами местности и окружающих условий. Однако существующие самостоятельно обучающиеся методы часто не удается точно охарактеризовать зоны, не подходящие для движения. Кроме того, большинство работ фокусируются на работе с одной сенсорной моделью, недостаточно используя потенциал синергетического использования мультимодальных данных для более достоверных оценок. Наша мотивация заключается в разработке мультимодального самостоятельно обучающегося подхода для эффективной оценки траверсируемости. ## Метод Мы предлагаем расширенную методологию, включающую в себя многошаговый пайплайн автоматической разметки. В нем способствуют совместному использованию данных по шагам, LiDAR-данных и изображений камеры, чтобы формировать метки траверсируемости, которые учитывают как семантические, так и геометрические признаки. Для оценки мы используем двухпоточную сеть, которая обучается с использованием мультимодальных меток. Для того чтобы преодолеть недостатки в псевдомарках, мы внедрили поддержку LiDAR. Мы проверяем нашу модель на различных типах ландшафтов, таких как городские, природные и университетские территории. ## Результаты Проведенные эксперименты показали, что наш подход достигает коэффициента ИоУ (IoU) около 88% при проведении разметки. В сравнении с другими самостоятельно обучающимися методами, наше решение показало значительное увеличение производительности, оцениваясь на 1.6-3.5% в более высокой точности оценки траверсируемости по всем примерным данным. Это указывает на эффективность использования мультимодального подхода и интегрированного носителя LiDAR-данных. ## Значимость Наша разработка может применяться в сценариях, требующих роботов для работы в условиях сложных местностей, например, в системах поисково-спасательных операций, доставке, а также в агротехнологиях. Основное преимущество — улучшенная точность оценки в различных условиях, повышение надежности системы, и возможность интегрировать несколько типов сенсоров для повышения общей эффективности. Это может способствовать развитию робототехники в области автономного движения. ## Выводы Мы представили мультимодальный самостоятельно обучающийся подход для траверсируемости, который позволяет повысить точность и надежность оценки траверсируемости. Наши результаты показывают перспективу использования мультимодальных меток для улучшения систем автономного взаимодействия с окружением. Мы планируем дальнейшие

Annotation:

Traversability estimation is critical for enabling robots to navigate across diverse terrains and environments. While recent self-supervised learning methods achieve promising results, they often fail to capture the characteristics of non-traversable regions. Moreover, most prior works concentrate on a single modality, overlooking the complementary strengths offered by integrating heterogeneous sensory modalities for more robust traversability estimation. To address these limitations, we propose...

ID: 2508.18249v1 cs.RO, cs.CV

arXiv PDF

📄 UnPose: Uncertainty-Guided Diffusion Priors for Zero-Shot Pose Estimation

2025-08-26

Авторы:

Zhaodong Jiang, Ashish Sinha, Tongtong Cao, Yuan Ren, Bingbing Liu, Binbin Xu

## Контекст Оценка 6D-позы новых объектов является важной задачей в робототехнике, но требует доступа к CAD-моделям, которые могут быть дорогостоящими и непрактичными в получении. Существующие подходы пытаются обойти эту проблему с использованием мощных предварительно обученных диффузионных моделей для реконструкции объектов из одного или нескольких видов изображений. Однако, эти подходы часто требуют дополнительного обучения или приводят к халтурной геометрии. Было предложено UnPose — новый фреймворк для нулевого-сна-позиционирования 6D-позы и реконструкции 3D-модели, который использует 3D-признаки и оценки неопределенности, полученные от предварительно обученной диффузионной модели. ## Метод UnPose начинает с построения исходной 3D-модели с использованием 3D-гауссовского размытия (3DGS) на основе одного RGB-D-фрейма. Затем, этот 3DGS-репрезентация обновляется с использованием дополнительных видов изображений, при помощи 3D-гауссовского моделирования, которое использует оценки неопределенности, изданных диффузионной моделью. Этот процесс повторяется для каждого нового вида, чтобы построить конечный 3DGS-поле. Чтобы обеспечить глобальную консистентность, все виды изображений и их оценки неопределенности графически организованы в структуру позы и оптимизируются вместе. Этот подход позволяет достичь высокой точности позиционирования и качества реконструкции. ## Результаты Исследования показали, что UnPose значительно превосходит другие подходы в точности 6D-позиционирования и качестве реконструкции 3D-модели. Эксперименты проводились на стандартных датасетах, и результаты демонстрируют значительную улучшенность в сравнении с текущими методами. Также, UnPose продемонстрировал свою эффективность в реальных задачах робототехники, таких как рукоподъемные операции. ## Значимость UnPose может быть применен в различных областях, включая робототехнику, виртуальную реальность и глубокое обучение. Он предлагает преимущества, такие как необходимость не обучать модели заново и получение качественной 3D-реконструкции. Это может открыть новые возможности для 6D-позиционирования в реальном времени и для широкого диапазона задач, требующих точного понимания среды. ## Выводы UnPose представляет собой новый подход к 6D-позиционированию и 3D-реконструкции, который не требует дополнительных обучающих данных и обеспечивает высокую точность и качество. Он демонстрирует перспективы для решения задач робототехники, а также для других областей, где необходима точная реконструкция и

Annotation:

Estimating the 6D pose of novel objects is a fundamental yet challenging problem in robotics, often relying on access to object CAD models. However, acquiring such models can be costly and impractical. Recent approaches aim to bypass this requirement by leveraging strong priors from foundation models to reconstruct objects from single or multi-view images, but typically require additional training or produce hallucinated geometry. To this end, we propose UnPose, a novel framework for zero-shot, ...

ID: 2508.15972v1 cs.RO, cs.CV

arXiv PDF

📄 GelSLAM: A Real-time, High-Fidelity, and Robust 3D Tactile SLAM System

2025-08-26

Авторы:

Hung-Jui Huang, Mohammad Amin Mirzaee, Michael Kaess, Wenzhen Yuan

## Контекст Тактильное восприятие (трогание) является ключевым инструментом для точного удержания и манипулирования объектами. Оно предоставляет преимущества в точности и устойчивости к затенению по сравнению с визуальными методами. Однако использование тактильных данных для построения трехмерных моделей и слежения за движением объектов в пространстве оставалось недостаточно развитым. Это ограничивает возможности тактильных систем в долгосрочной манипуляции с объектами. Многие существующие системы тактильного SLAM (системы ориентирования и картирования) полагаются на точечные облака, которые нередко имеют нестабильность и высокую ошибку в долгосрочном слежении. Наша мотивация заключается в развитии системы, которая будет использовать тактильные данные для достижения высокой точности и долгосрочной стабильности в ориентировании и картировании. ## Метод GelSLAM — это система трехмерного SLAM, основанная на тактильном восприятии, которая получает свои данные из гелевого материала, образующего контакт с объектом. Мы использовали кривую Гесса и нормали к поверхности, извлеченные из тактильных данных, для оценки соответствующих компонент движения. Ключевым элементом стабильности является наш подход к замыканию циклов, который использует наблюдаемые изменения на поверхности для точного восстановления движения даже при низкой текстурности объектов. Архитектура GelSLAM включает в себя модуль, оценивающий компоненты смещения и поворота на основе изменений в плоскости и геометрии объекта, а также модуль для глобального построения карты пространства. Мы тестировали систему на различных материалах, включая низкотекстурные объекты, и получили стабильные и точные результаты. ## Результаты Мы провели ряд экспериментов, которые показали, что GelSLAM обеспечивает реальное время (работает в 30 кадрах в секунду), высокую точность и устойчивость в ориентировании и картировании. Мы сравнили ее с традиционными точечными облаками и доказали, что GelSLAM предлагает значительно лучшую точность при оценке движения и восстановлении формы объекта. Например, для низкотекстурных объектов, таких как деревянные инструменты, GelSLAM показала ошибку менее 0,5 миллиметра в восстановлении формы, что значительно превосходит результаты существующих систем. Мы также продемонстрировали способность GelSLAM следить за движением и восстанавливать форму объекта в реальном времени. ## Значимость Помимо того, что GelSLAM может использоваться для традиционных тактильных задач, таких как восстановление формы и ориентирование, она расширяет возможности тактильного восприятия, обеспечивая долгосрочну

Annotation:

Accurately perceiving an object's pose and shape is essential for precise grasping and manipulation. Compared to common vision-based methods, tactile sensing offers advantages in precision and immunity to occlusion when tracking and reconstructing objects in contact. This makes it particularly valuable for in-hand and other high-precision manipulation tasks. In this work, we present GelSLAM, a real-time 3D SLAM system that relies solely on tactile sensing to estimate object pose over long period...

ID: 2508.15990v1 cs.RO, cs.CV

arXiv PDF

📄 A Vision-Based Shared-Control Teleoperation Scheme for Controlling the Robotic Arm of a Four-Legged Robot

2025-08-23

Авторы:

Murilo Vinicius da Silva, Matheus Hipolito Carvalho, Juliano Negri, Thiago Segreto, Gustavo J. G. Lahr, Ricardo V. Godoy, Marcelo Becker

#### Контекст Роботизированные системы играют ключевую роль в решении задач в опасных и удаленных окружениях, где требуется высокая точность и безопасность. Одним из таких систем являются роботы-четвероногие роботы с кинематическими руками, обладающие мобильностью и гибкостью для выполнения сложных операций. Однако, управление такими системами во время телеоперации сопряжено с рядом трудностей. В частности, недостаток интегрированных систем детектирования препятствий и неудобство интуитивного управления роботской рукой чревато увеличением риска коллизий в узких или динамически изменяющихся рабочих местах. Это вынуждает операторов использовать квалифицированные системы управления, которые требуют высоких навыков и имеют высокий когнитивный нагрузку. #### Метод Для решения этих проблем предлагается инновационный взгляд на телеоперацию, основанный на визуальной оценке положения руки оператора, преобразованной в команды для роботской руки. Алгоритм построения траектории обеспечивает безопасность, предотвращая коллизии с препятствиями и самой рукой. Модель визуального определения положения воспользовалась методами машинного обучения для точного выявления положения руки. Этот подход позволяет реализовать интуитивное управление, уменьшив когнитивный нагрузку на оператора и улучшив эффективность процесса. #### Результаты Набор экспериментов был проведен с использованием реального робота в условиях удаленного управления. Результаты показали, что система обеспечивает точную и быструю реагирование на команды оператора, даже в условиях жесткого временного ограничения. Особое внимание уделено избежанию коллизий и сохранению безопасности во время операций. Эксперименты подтвердили, что подход хорошо подходит для индустриальных приложений, где необходима обеспеченность, точность и простота управления. #### Значимость Предложенный подход может быть использован в различных областях, включая промышленность, где требуется безопасность и точность, а также в сфере медицины и поисковых операций в пушечных пространствах. Он обеспечивает удобство в управлении, повышает точность и сокращает риск коллизий. Будущие исследования будут направлены на улучшение модели положения руки и расширение функций для более сложных сред. #### Выводы Предложенная система телеоперации, основанная на визуальном определении положения руки, является эффективным решением для управления роботской рукой в реальном времени. Она обеспечивает безопасность и точность, упрощает управление и может быть использована в различных ин

Annotation:

In hazardous and remote environments, robotic systems perform critical tasks demanding improved safety and efficiency. Among these, quadruped robots with manipulator arms offer mobility and versatility for complex operations. However, teleoperating quadruped robots is challenging due to the lack of integrated obstacle detection and intuitive control methods for the robotic arm, increasing collision risks in confined or dynamically changing workspaces. Teleoperation via joysticks or pads can be n...

ID: 2508.14994v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Lang2Lift: A Framework for Language-Guided Pallet Detection and Pose Estimation Integrated in Autonomous Outdoor Forklift Operation

2025-08-23

Авторы:

Huy Hoang Nguyen, Johannes Huemer, Markus Murschitz, Tobias Glueck, Minh Nhat Vu, Andreas Kugi

## Контекст Логистический и строительный секторы сталкиваются с трудностями в автоматизации работ, связанных с обработкой поддонов, особенно в условиях внешней среды. Эти трудности включают в себя нестандартные размеры и качество поддонов, хаотичные окружающие условия и нехватку трудовых ресурсов. Такие условия способствуют высоким рискам для безопасности и низкой эффективности. Целью данной работы является разработка системы, позволяющей облегчить задачи по поддоновой грузоподъемности, используя естественный язык для определения и распознавания поддонов, а также их положения в пространстве. ## Метод Lang2Lift — это рам hayworkkфреймворк, который объединяет несколько современных технологий. Используется Florence-2 и SAM-2 для осуществления языкового связывания с разделением сцены, а FoundationPose для точного распознавания положения поддона в многоподдонных сценах. Результаты распознавания используются для построения маршрутов для автономного движения форклифта. Основной мотивацией является создание решения, которое может быть интегрировано в существующие системы логистики и строительства, обеспечивая безопасность и эффективность в работе. ## Результаты Работа проводилась на базе автономного форклифта ADAPT. На реальных данных была получена точность распознавания поддонов 0.76 mIoU. Эксперименты показали высокую устойчивость системы к различным условиям освещения и размерам поддонов. Анализ ошибок и времени работы подтвердил хорошую скорость реакции и устойчивость системы к различным обстоятельствам. Результаты демонстрируются в видео формате. ## Значимость Lang2Lift может быть применено в различных сферах, включая логистику, строительство и производство. Он облегчает работу операторов, повышает безопасность и эффективность работы. Также он может быть использован для решения проблемы нехватки трудовых ресурсов и улучшения производительности в условиях сложных окружающих условий. ## Выводы Разработанный фреймворк Lang2Lift продемонстрировал свою эффективность в автоматизации работы с поддонами в условиях внешней среды. Он может стать ключевым элементом в интеграции естественного языка в системы автоматизации. Будущие исследования будут сконцентрированы на увеличении точности распознавания и расширении области применения системы.

Annotation:

The logistics and construction industries face persistent challenges in automating pallet handling, especially in outdoor environments with variable payloads, inconsistencies in pallet quality and dimensions, and unstructured surroundings. In this paper, we tackle automation of a critical step in pallet transport: the pallet pick-up operation. Our work is motivated by labor shortages, safety concerns, and inefficiencies in manually locating and retrieving pallets under such conditions. We presen...

ID: 2508.15427v1 cs.RO, cs.CV

arXiv PDF

📄 ROVER: Robust Loop Closure Verification with Trajectory Prior in Repetitive Environments

2025-08-21

Авторы:

Jingwen Yu, Jiayi Yang, Anjun Hu, Jiankun Wang, Ping Tan, Hong Zhang

## Контекст Локальное отображение и ориентация (SLAM) является ключевым подходом для построения карт и ориентации в неизвестных окружениях. Одной из важнейших задач в рамках SLAM является локальное замыкание цикла (loop closure), которое позволяет избежать сдвигов и достичь глобальной стабильности определения положения. Однако в репетитивных окружениях, где объекты и сцены имеют высокую схожесть, появление ложноположительных замыканий циклов становится серьезной проблемой. Подтверждение локального замыкания цикла (loop closure verification) является критическим для исключения таких ошибок. Несмотря на то, что существующие методы стараются применять обучение с подкреплением и извлекать внешпецифичные признаки внедряемости, они часто игнорируют природу движения робота и его траекторию. ROVER предлагает новый подход к этой проблеме, используя траекторию как ограничение для эффективного отсева ложноположительных замыканий циклов. ## Метод ROVER предлагает использовать траекторию как ограничение для верификации локальных замыканий циклов. Сначала система использует позиционно-графовую оптимизацию для оценки траектории робота. Затем эта траектория сравнивается со свойствами траектории без замыкания цикла (траектория-признак) для оценки соответствия. Если траектория с замыканием цикла не соответствует траектории-признаку, то цикл считается ложноположительным и отклоняется. Данная методика использует траекторию как сильный признак для отсева ложных циклов в репетитивных окружениях. Компоненты ROVER включают вычисление траектории, сравнение с признаком, и оценку соответствия. Архитектура системы легко встраивается в существующие SLAM-системы, обеспечивая эффективность и точность. ## Результаты ROVER проверен на стандартных бенчмарк-данных, таких как TartanAir и KITTI, а также на собственном самостоятельно собранном датасете. На проверках показал высокую эффективность в отсеве ложных замыканий циклов, особенно в репетитивных окружениях. Общая точность и скорость работы показали преимущества перед существующими методами. Также проведены эксперименты на реальных роботах, подтвердив эффективность ROVER в реальных условиях сложных сред. Интеграция ROVER в современные SLAM-системы показала значительное повышение устойчивости и точности. ## Значимость ROVER предлагает новый подход к верификации локальных замыканий циклов, используя траекторию как признак. Это позволяет эффективно отсеивать ложноположительные замыкания в репетитивных окружениях. Это демонстрирует значительный потенциал для улучшения роботов в таких областях, как автоматиз

Annotation:

Loop closure detection is important for simultaneous localization and mapping (SLAM), which associates current observations with historical keyframes, achieving drift correction and global relocalization. However, a falsely detected loop can be fatal, and this is especially difficult in repetitive environments where appearance-based features fail due to the high similarity. Therefore, verification of a loop closure is a critical step in avoiding false positive detections. Existing works in loop ...

ID: 2508.13488v1 cs.RO, cs.CV

arXiv PDF

1
2
18
19
20
21
22
23

Показано 191 - 200 из 225 записей