📚 Саммари научных статей из arXiv

Найдено 225 результатов по запросу 'cs.RO, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Designing Latent Safety Filters using Pre-Trained Vision Models

2025-09-20

Авторы:

Ihab Tabbara, Yuxuan Yang, Ahmad Hamzeh, Maxwell Astafyev, Hussein Sibai

#### Контекст В последние годы визуальные системы управления получили распространение во многих областях робототехники и автоматизации. Однако, обеспечение их безопасности в критических условиях остается вызовом. Безопасность визуальных систем управления часто зависит от добавления безопасности, защищающий систему от нежелательных действий в ситуациях, когда основная система управления не может обеспечить безопасность. Хотя безопасности в базовых системах уже описано, визуальные системы функционируют в значительно более сложной среде, где необходимо учитывать сложные структуры области и сложную взаимосвязь между системами. В этой работе мы исследуем возможности использования предварительно обученных визуальных моделей (PVRs) для создания эффективных безопасности визуальных систем управления. Наша мотивация заключается в том, чтобы использовать выгоды PVRs в предметных областях, не требующих полного обучения моделей, чтобы создать модели безопасности, которые могут быть успешно применены в критических средах. #### Метод Мы применяем предварительно обученные визуальные модели в качестве бэкбонов для различных задач, связанных с безопасностью визуальных систем управления. Мы рассматриваем три основных подхода: использование PVRs для классификации состояний, определяющих сети небезопасности; применение PVRs в моделях гамильтона-Джакоби (HJ) для вычисления решений безопасности; и использование PVRs для моделирования среды (world models). Для каждого подхода мы исследуем различные подходы к обучению моделей, включая обучение от начала (training from scratch), fine-tuning и заморозку моделей (freezing). Мы также проводим эксперименты, сравнивая эффективность PVRs в каждом подходе, и исследуем практические аспекты, такие как выбор модели для работы в ресурсораспределенных системах. #### Результаты Мы проводим эксперименты с популярными PVRs, такими как Vision Transformers (ViTs) и ResNet, и сравниваем их эффективность в различных задачах безопасности. Мы проверяем, насколько эффективно PVRs работают в качестве классификаторов для задач определения небезопасных состояний, а также их моделирование мировых процессов в визуальных системах управления. Мы также сравниваем результаты при использовании разных подходов к обучению (training from scratch, fine-tuning и freezing) и определяем, какая модель показывает лучший результат в каждом конкретном случае. Наши результаты показывают, что PVRs могут быть эффективными для создания безопасности визуальных систем, однако их выбор и настройка зависят от конкретных задач и ресурсов. #### Значимость Наши результаты показывают, что использование PVRs для создания б

Annotation:

Ensuring safety of vision-based control systems remains a major challenge hindering their deployment in critical settings. Safety filters have gained increased interest as effective tools for ensuring the safety of classical control systems, but their applications in vision-based control settings have so far been limited. Pre-trained vision models (PVRs) have been shown to be effective perception backbones for control in various robotics domains. In this paper, we are interested in examining the...

ID: 2509.14758v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Semantic 3D Reconstructions with SLAM for Central Airway Obstruction

2025-09-19

Авторы:

Ayberk Acar, Fangjie Li, Hao Li, Lidia Al-Zogbi, Kanyifeechukwu Jane Oguine, Susheela Sharma Stern, Jesse F. d'Almeida, Robert J. Webster III, Ipek Oguz, Jie Ying Wu

## Контекст Центральная атриозная обструкция (CAO) — жизнеугрожающее состояние, характеризующееся блокировкой центральных респираторных путей из-за опухолей внутри или за пределами легких. Традиционные методы лечения, такие как бронхоскопия и электрокаутеризация, позволяют удалить опухоль, однако носят высокий риск осложнений. Новые технологии, такие как роботизированные интервенции, снижают риск и позволяют применять более точные методы. Однако необходимо создание систем, которые могут реально времени анализировать зоны обструкции и обеспечивать навигацию во время операции. Целью этого исследования является разработка метода, который объединяет семантическую сегментацию с реального времени построением трёхмерных моделей аэротракта. ## Метод Наша методология основывается на интеграции модели семантической сегментации с модулем DROID-SLAM для построения точечных трёхмерных моделей. Модель сегментации обучается на изображениях, которые идентифицируют обструктивные ткани внутри легких. DROID-SLAM используется для расчёта трёхмерной геометрии среды в реальном времени. Маски сегментации используются для анотирования точечных трёхмерных моделей, позволяющих выделить области, требующие внимания. Этот подход позволяет создавать карты легких с выделенными областями, нуждающихся в большем внимании. ## Результаты Мы проводили эксперименты на большом объёме данных, включающих образцы, симуляции и реальные операции. Мы использовали для этих целей изображения, полученные с помощью бронхоскопии. Результаты показали, что трёхмерные модели, построенные нашей системой, демонстрируют высокую точность в сравнении с реальными трёхмерными скандами, полученными через CT-сканирование. Мы измерили расстояние Chamfer и получили значение 0.62 мм, что говорит о высокой точности. Благодаря интеграции семантической сегментации, мы можем в реальном времени выделять и отмечать области потенциальных рисков, что повышает точность и безопасность процедур. ## Значимость Наша разработка может быть применена в медицинских ситуациях, требующих точности в операциях, включая лечение CAO. Одним из основных преимуществ является модульность: наша система может быть адаптирована к другим типам операций и телам, не требуя значительных изменений. Этот подход позволяет автоматизировать процессы, которые раньше требовали ручного вмешательства, и даёт возможность применения в стратегии будущих роботизированных интервенций. ## Выводы Мы представили первую работу, которая интегрирует сем

Annotation:

Central airway obstruction (CAO) is a life-threatening condition with increasing incidence, caused by tumors in and outside of the airway. Traditional treatment methods such as bronchoscopy and electrocautery can be used to remove the tumor completely; however, these methods carry a high risk of complications. Recent advances allow robotic interventions with lesser risk. The combination of robot interventions with scene understanding and mapping also opens up the possibilities for automation. We...

ID: 2509.13541v1 cs.RO, cs.CV

arXiv PDF

📄 Object Pose Estimation through Dexterous Touch

2025-09-19

Авторы:

Amir-Hossein Shahidzadeh, Jiyue Zhu, Kezhou Chen, Sha Yi, Cornelia Fermüller, Yiannis Aloimonos, Xiaolong Wang

## Контекст Распознавание позы объектов является ключевым элементом для выполнения манипуляций и взаимодействий в робототехнике, особенно в условиях недостатка визуальной информации или при наличии факторов, способствующих ошибкам определения, таких как световые условия, помехи или изменения внешнего вида объектов. Тактильные сенсоры, несмотря на свою точность в локальном сенсорном восприятии, часто не могут обеспечить полное восприятие объекта из-за ограниченности их данных. Данная работа адресует эти проблемы, используя сенсорно-моторное исследование, которое активно контролирует движения руки робота для взаимодействия с объектом. Такая подход позволяет сформировать трехмерные данные, используемые для точного построения модели объекта и определения его позы. ## Метод Методология основывается на использовании многоруких роботов, где одна рука стабилизирует объект, а другая производит активное исследование. Тактильные данные, собираемые в процессе, обрабатываются с помощью методов машинного обучения, в том числе Реинфорсментного Обучения (RL). Это позволяет роботу выявлять ключевые особенности позы объекта и улучшать свою модель в течение взаимодействия. Архитектура метода включает в себя интеграцию трехмерных точек, собранных сенсорами, с глубоким обучением для построения точной модели и определения позы. ## Результаты Эксперименты проводились на широком спектре объектов, в том числе сложных форм и нестандартных конфигураций. Метод показал высокую точность в определении позы в условиях существующих помех и изменений внешнего вида. Использование трёхмерных точек, полученных в результате сенсорного исследования, позволяет обеспечить высокую точность и устойчивость в определении координат. Эта модель демонстрирует способность активно изучать неизвестные объекты, оптимизировав свой подход в процессе взаимодействия. ## Значимость Предложенный подход может быть применен в различных областях, включая автоматизированные системы сборки, робототехнические системы для домашних целей и медицинские приложения. Основные преимущества заключаются в том, что данный подход не требует предварительного знания объекта, обладает высокой устойчивостью к изменениям окружения и может адаптироваться к новым задачам. Потенциально, он может существенно улучшить точность и надежность роботов в различных интерактивных сценариях. ## Выводы Результаты демонстрируют эффективность метода в распознавании позы объекта с использованием тактильных данных и многоручного взаимодействия. Будущие исследования будут сфокализованы

Annotation:

Robust object pose estimation is essential for manipulation and interaction tasks in robotics, particularly in scenarios where visual data is limited or sensitive to lighting, occlusions, and appearances. Tactile sensors often offer limited and local contact information, making it challenging to reconstruct the pose from partial data. Our approach uses sensorimotor exploration to actively control a robot hand to interact with the object. We train with Reinforcement Learning (RL) to explore and c...

ID: 2509.13591v1 cs.RO, cs.CV

arXiv PDF

📄 InterKey: Cross-modal Intersection Keypoints for Global Localization on OpenStreetMap

2025-09-19

Авторы:

Nguyen Hoang Khoi Tran, Julie Stephany Berrio, Mao Shan, Stewart Worrall

#### Контекст Автоматизированная навигация в автомобилях требует надежной глобальной локализации, особенно в условиях пониженной эффективности систем ГЛОНАССа или их отсутствии, например, в городских узких проездах или в туннелях. Топографические карты, такие как HD-карты, обеспечивают точные предварительные данные, но их создание и поддержание стоит дорого, что ограничивает масштабируемость. OpenStreetMap (OSM) предлагает бесплатный и доступный всем мировому сообществу вариант, однако отсутствие деталей в его абстрактной модели создает проблемы при сопоставлении с данными из сенсоров. Мы предлагаем InterKey, фреймворк, использующий перекрестные точки дорог как уникальные метки для глобальной локализации. Этот подход объединяет анализ данных сенсоров и OSM, создавая эффективные бинарные описания для ключевых точек. Метод также включает стратегии для устранения различий между модальностями, определения ориентации и учета масштаба, чтобы обеспечить точность и надежность. #### Метод InterKey основывается на кросс-модальном подходе, который объединяет данные сенсоров и OSM для создания уникальных ключевых точек. Мы используем структурные точки данных, такие как здания и дороги, для построения бинарных описаний. Чтобы устранить различия в модальностях, реализованы три главных стратегии: 1) методы для устранения различий в модальностях, 2) определение ориентации для точного сопоставления, и 3) равномерное выборение областей для уменьшения разброса данных. Эти элементы обеспечивают надежность и масштабируемость фреймворка, даже при работе с неточными данными. #### Результаты Мы провели эксперименты на данных KITTI для оценки точности InterKey. Метод показал себя лучше, чем актуальные алгоритмы глобальной локализации, показывая высокую точность в задаче сопоставления между данными сенсоров и OSM. Мы также проверили работу наших методов на разных сенсорах, которые могут генерировать достоверные структурные точки, подтвердив многообразие и масштабируемость InterKey. #### Значимость Наш фреймворк может использоваться в различных автоматизированных системах, в том числе в роботов, где требуется стабильная локализация в реальном времени. Особенно проявляется значимость InterKey в случаях, когда GNSS недоступен, что часто встречается в городских условиях. Метод предлагает существенные преимущества в скорости работы, стоимости как для построения карт, так и для навигационных систем. #### Выводы Мы представили InterKey, новый метод глобальной локализации, который использует перекрестные точки дорог и OSM для построения надежных описаний. Этот подход демонстрирует высокую точность и м

Annotation:

Reliable global localization is critical for autonomous vehicles, especially in environments where GNSS is degraded or unavailable, such as urban canyons and tunnels. Although high-definition (HD) maps provide accurate priors, the cost of data collection, map construction, and maintenance limits scalability. OpenStreetMap (OSM) offers a free and globally available alternative, but its coarse abstraction poses challenges for matching with sensor data. We propose InterKey, a cross-modal framework ...

ID: 2509.13857v1 cs.RO, cs.CV

arXiv PDF

📄 MetricNet: Recovering Metric Scale in Generative Navigation Policies

2025-09-19

Авторы:

Abhijeet Nayak, Débora N. P. Oliveira, Samiran Gode, Cordelia Schmid, Wolfram Burgard

#### Контекст Generative navigation policies являются перспективным подходом к улучшению контроля движения в подвижном роботе. Они позволяют обучаться на широком спектре задач, превращая входные данные в действия, необходимые для достижения целей. Однако данная технология имеет важные ограничения. Траектории, создаваемые такими политиками, не имеют метрического основания, что приводит к неточностям в определении расстояний и положений. Более того, подход, ориентированный на движение по отдельным waypoints, лишён полного представления о пути и может приводить к небезопасным действиям, таким как перемещение в направлении препятствий. Эти проблемы критичны для реального применения, требующего точности и безопасности в ходе подвижного робота. Для привнесения метрического основания в данные политики и создания более безопасных, эффективных стратегий, мы предлагаем MetricNet. #### Метод MetricNet использует нейронные сети с конвейерным оптимизатором для предсказания метрической дистанции между точками на пути. Оно интегрируется в оригинальные сети для построения траекторий, создавая векторные представления, которые учитывают метрические свойства пространства. Базовая архитектура основывается на последовательном обучении, где нейронная сеть преобразует узлы в массив векторов расстояний. Мы используем данные симуляционного окружения для обучения, позволяя модели учиться на реалистичных сценариях. Для оценки точности и эффективности MetricNet мы разработали новую систему бенчмаркинга, которая позволяет проверить улучшения в поведении и качестве траекторий. #### Результаты Эксперименты показали, что MetricNet существенно повышает точность и безопасность траекторий в симуляционных условиях. Мы сравнивали данный подход с традиционными методами, продемонстрировав значительное снижение частоты столкновений и увеличение пройденного расстояния. Использование MetricNet также демонстрирует значительное улучшение в обнаружении и избежании препятствий. Эти результаты подтверждаются в реальных экспериментах, где робот с использованием MetricNet отобразил лучший результат в сравнении с существующими стратегиями. #### Значимость Метод MetricNet может быть применен в различных сценариях, где необходима точная навигация, например, в сфере робототехники, приборостроения или даже в системах видеонаблюдения. Он обеспечивает более точное представление пространства, повышая эффективность и безопасность. Данная технология также может стать основой для развития дальнейших исследований в области нейросетевых моделей для навигации. #### Выводы Результаты показывают, что MetricNet значительно улучшает метрическое

Annotation:

Generative navigation policies have made rapid progress in improving end-to-end learned navigation. Despite their promising results, this paradigm has two structural problems. First, the sampled trajectories exist in an abstract, unscaled space without metric grounding. Second, the control strategy discards the full path, instead moving directly towards a single waypoint. This leads to short-sighted and unsafe actions, moving the robot towards obstacles that a complete and correctly scaled path ...

ID: 2509.13965v1 cs.RO, cs.CV

arXiv PDF

📄 MCGS-SLAM: A Multi-Camera SLAM Framework Using Gaussian Splatting for High-Fidelity Mapping

2025-09-19

Авторы:

Zhihao Cao, Hanyu Wu, Li Wa Tang, Zizhou Luo, Zihan Zhu, Wei Zhang, Marc Pollefeys, Martin R. Oswald

#### Контекст Современные системы SLAM (Simultaneous Localization and Mapping), основанные на RGB-данных, часто страдают от ограниченного поля зрения и недостаточной точности. Эти ограничения становятся критичными в задачах безопасной автономной операции, где необходима охватная и точная картина окружающей среды. Недостаток трёхмерной геометрической обработки в многокамерных системах также приводит к ограниченному доступу к плотной информации о среде. Многокамерные системы могут преодолеть эти ограничения, но требуют сложных механизмов для обработки нескольких потоков данных. Это создаёт мотивацию для разработки систем, которые могут объединить преимущества многокамерных подходов с точностью и надежностью. #### Метод MCGS-SLAM (Multi-Camera Gaussian Splatting SLAM) — первая система SLAM, основанная на 3D Gaussian Splatting, построенная исключительно на RGB-данных. Метод использует несколько камер для построения плотной карты с использованием 3D Gaussian Splatting, а не спарсевых моделей или внешних сенсоров, как в многих предыдущих решениях. В центре системы лежит метод потокового оптимизации, сливающий RGB-данные в единую модель. Многокамерный пакетная коррекция (MCBA) используется для оптимизации траекторий и глубины на основе фотометрических и геометрических несоответствий. Для обеспечения метрической согласованности система использует модуль консистентности масштаба на основе низкоранговых приближений. MCGS-SLAM поддерживает реальное время и работает с RGB-данными. #### Результаты Система была проверена на синтетических данных и реальных наборах данных. Она показала свою эффективность в построении точных траекторий и насыщенных, фотореалистичных реконструкций. Эксперименты показали, что MCGS-SLAM не только превосходит монокамерные системы, но и демонстрирует значительные улучшения в реконструкции боковых областей, которые обычно упускаются монокамерами. Это важно для приложений в области безопасной автономной операции, таких как автомобили без водителя. #### Значимость MCGS-SLAM имеет широкие применения в сферах автоматизированного производства, автомобильных технологий, робототехники и туризма. Он предлагает преимущества в точности, объёмности и реальном времени. Особое внимание уделяется возможности использования широкого поля зрения, что повышает безопасность и эффективность в сложных средах. Будущие исследования будут сконцентрированы на расширении точности, оптимизации ресурсов и расширении многокамерных подходов к другим областям. #### Выводы MCGS-SLAM доказывает, что многокамерные подходы, основанные на 3D Gaussian Splatting, могут значительно повысить качество карт и траекторий в сравнени

Annotation:

Recent progress in dense SLAM has primarily targeted monocular setups, often at the expense of robustness and geometric coverage. We present MCGS-SLAM, the first purely RGB-based multi-camera SLAM system built on 3D Gaussian Splatting (3DGS). Unlike prior methods relying on sparse maps or inertial data, MCGS-SLAM fuses dense RGB inputs from multiple viewpoints into a unified, continuously optimized Gaussian map. A multi-camera bundle adjustment (MCBA) jointly refines poses and depths via dense p...

ID: 2509.14191v1 cs.RO, cs.CV

arXiv PDF

📄 TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning

2025-09-18

Авторы:

Jiacheng Liu, Pengxiang Ding, Qihang Zhou, Yuxuan Wu, Da Huang, Zimian Peng, Wei Xiao, Weinan Zhang, Lixin Yang, Cewu Lu, Donglin Wang

#### Контекст Проблема ограниченной доступности высококачественных демонстраций все еще остается значимым препятствием для обучения эффективных моделей Vision-Language-Action (VLA) в робототехнике. Эта проблема усложняется при работе с бипедными роботами, так как для их применения требуется большое количество качественных данных. Многие существующие модели, в том числе визуально-языковые модели, способны работать в разных средах, но страдают от неэффективности при переносе на новые роботы. Это способствует необходимости создания универсальных методов, позволяющих эффективно переносить модели между различными роботами с минимальными изменениями. #### Метод TrajBooster представляет собой модель, которая использует многочисленные данные, собранные на большом количестве бипедных роботов, для повышения производительности моделей VLA. Основная идея заключается в использовании траекторий конечных действительностей (end-effector trajectories) в качестве морфологически независимого интерфейса. Для этого TrajBooster (i) извлекает 6D траектории конечных действительностей двух рук с большого количества данных, собранных у бипедных роботов, (ii) переносит эти траектории в симулятор, используя целевой робот Unitree G1 с внедренным цельным центральным управляющим устройством, который может выравнивать недостаточное количество данных в достаточное для задания целей, и (iii) создает гетерогенные тройки, объединяющие исходные данные визуальных и языковых сигналов с робото-совместимыми действиями, чтобы обучить модель VLA. Этот подход позволяет существенно снизить необходимость в ограниченных данных для целевого робота, увеличивая продолжительность первоначального этапа обучения. #### Результаты После применения TrajBooster к Unitree G1 было получено улучшение производительности моделей VLA в сравнении с текущими подходами. Эта модель была успешно развернута на Unitree G1, где она удовлетворительно выполняла задачи в бытовой среде, включая квадрупиду, перекрытие высоты и организацию целей. Эксперименты показали, что TrajBooster не только существенно улучшил уровень общности и надёжности, но и позволил значительно сократить необходимость в ручном управлении роботом в ходе обучения. Эта модель позволила повысить производительность бипедных роботов в сравнении с другими методами, используя только небольшое количество данных. #### Значимость Метод TrajBooster имеет широкие применения в сфере робототехники, в том числе в бытовой робототехнике, бытовой робототехнике с производственными целями, а также в сфере здравоохранения. Он может быть использован для улучшения представления роботов во время заданий, предоставляя более точные и надёжные

Annotation:

Recent Vision-Language-Action models show potential to generalize across embodiments but struggle to quickly align with a new robot's action space when high-quality demonstrations are scarce, especially for bipedal humanoids. We present TrajBooster, a cross-embodiment framework that leverages abundant wheeled-humanoid data to boost bipedal VLA. Our key idea is to use end-effector trajectories as a morphology-agnostic interface. TrajBooster (i) extracts 6D dual-arm end-effector trajectories from ...

ID: 2509.11839v2 cs.RO, cs.CV

arXiv PDF

📄 Unleashing the Power of Discrete-Time State Representation: Ultrafast Target-based IMU-Camera Spatial-Temporal Calibration

2025-09-18

Авторы:

Junlin Song, Antoine Richard, Miguel Olivares-Mendez

#### Контекст Улучшение точности систем визуально-инерциального сервера (VI) является ключевым фактором для развития интеллектуальных и автономных приложений, таких как навигация роботов, поддержка реальности увеличенной (AR) и автопилотирование транспортных средств. Основной проблемой этих систем является точность калибровки спато-временных смещений между инерциальным устройством (IMU) и камерой. Несмотря на то, что существующие методы калибровки, основанные на непрерывном времени и B-spline, обеспечивают высокую точность, они требуют высокой вычислительной нагрузки. Это ограничивает применение этих методов в реальном времени и массовом применении. #### Метод Мы предлагаем новый алгоритм калибровки, основанный на дискретном времени, который обеспечивает эффективность и точность. Метод использует дискретную репрезентацию времени для спато-временных смещений, сокращая вычислительный вес и улучшая скорость выполнения. Мы используем многокамерные системы и IMU для получения точных спато-временных данных. Наши архитектурные решения включают производительные вычисления в реальном времени и интеллектуальную оптимизацию матриц для уменьшения необходимого времени калибровки. #### Результаты Мы провели эксперименты с помощью наших данных и сравнили результаты с другими методами. Наш алгоритм показал существенное сокращение времени калибровки — на до 50% по сравнению с существующими методами. Мы также проанализировали точность наших результатов, показав, что они соответствуют высоким стандартам качества. Для проверки практического применения метода, мы использовали несколько наборов данных, включая динамические сцены, и достигли высокой эффективности. #### Значимость Наш метод может быть применен в различных областях, включая навигацию роботов, системы AR, автоматизированные системы управления транспортными средствами. Несмотря на то, что наш алгоритм нацелен на эффективность, он сохраняет высокую точность, что делает его привлекательным для промышленности. Это также позволяет сэкономить огромное количество времени на калибровке миллионов устройств, что является критически важным для массового применения. #### Выводы Мы успешно развили и проверили новый алгоритм калибровки, основанный на дискретном времени. Этот подход не только сокращает время калибровки, но и улучшает его точность. В будущем мы планируем провести больше экспериментов на различных платформах и расширить возможности нашего кода, чтобы он мог быть полезен как для научных исследований, так и для промышленных приложений.

Annotation:

Visual-inertial fusion is crucial for a large amount of intelligent and autonomous applications, such as robot navigation and augmented reality. To bootstrap and achieve optimal state estimation, the spatial-temporal displacements between IMU and cameras must be calibrated in advance. Most existing calibration methods adopt continuous-time state representation, more specifically the B-spline. Despite these methods achieve precise spatial-temporal calibration, they suffer from high computational ...

ID: 2509.12846v1 cs.RO, cs.CV

arXiv PDF

📄 Nav-R1: Reasoning and Navigation in Embodied Scenes

2025-09-17

Авторы:

Qingxiang Liu, Ting Huang, Zeyu Zhang, Hao Tang

#### Контекст В сфере embodied AI, наиболее вызовущим задачам являются embodied navigation и reasoning. Эти задачи требуют комплексного интегрированного подхода, включающего в себя перцепцию, навигацию, и возможность принимать решения на основе доказательств. Традиционные методы сталкиваются с проблемами несогласованности в решениях, стабильностью принятия решений, а также сложностью в балансировке между долгосрочными семантическими задачами и мгновенными реакциями в реальном времени. Новый подход Nav-R1 предназначен для решения этих проблем, стабилизируя и улучшая общую эффективность в различных сценариях. #### Метод Nav-R1 представляет собой объединение различных современных архитектур и методологий. Он использует Nav-CoT-110K, большую коллекцию шаговых Chains-of-Thought (CoT), для настройки модели. Решение включает три основных компонента: градиентный фреймворк под названием GRPO, который реализует three-reward-system (format, understanding, navigation) для обеспечения структурированности, семантической грандировки и фидельности маршрута. Кроме того, в нем используется Fast-in-Slow Reasoning, которое разделяет долгосрочное семантическое раздувание от быстрых реакций в реальном времени. #### Результаты Данные получены на Nav-CoT-110K и последующих тестированиях. Модель прошла ряд экспериментов на embodied AI benchmarks, включая проверку принципов согласованности, семантической грандировки и маршрутизации. Она показала высокую производительность, получив более 8% улучшение в общей эффективности по сравнению с соревнующими моделями. Тестирование на реальном мобильном роботе показало, что модель работает надежно даже при ограниченных ресурсах на борту. #### Значимость Nav-R1 может использоваться в различных областях, включая автоматизированные системы, интеллектуальные дома, и виртуальные иммерсивные реалия. Он предоставляет значительные преимущества по сравнению с другими моделями, такими как улучшенная стабильность, более высокая точность в навигации и семантическом распознавании. Его применение может положительно сказаться на развитии embodied AI, улучшая возможности роботов в реальном мире. #### Выводы Nav-R1 достигает значительных улучшений в области embodied navigation и reasoning, показывая стабильность и эффективность в различных сценариях. Будущие исследования будут сосредоточены на улучшении моделей Fast-in-Slow Reasoning, а также на исследовании ее применения в более сложных и реалистичных сценариях.

Annotation:

Embodied navigation requires agents to integrate perception, reasoning, and action for robust interaction in complex 3D environments. Existing approaches often suffer from incoherent and unstable reasoning traces that hinder generalization across diverse environments, and difficulty balancing long-horizon semantic reasoning with low-latency control for real-time navigation. To address these challenges, we propose Nav-R1, an embodied foundation model that unifies reasoning in embodied environment...

ID: 2509.10884v1 cs.RO, cs.CV

arXiv PDF

📄 ManiVID-3D: Generalizable View-Invariant Reinforcement Learning for Robotic Manipulation via Disentangled 3D Representations

2025-09-17

Авторы:

Zheng Li, Pei Qu, Yufei Jia, Shihui Zhou, Haizhou Ge, Jiahang Cao, Jinni Zhou, Guyue Zhou, Jun Ma

## Контекст Одна из основных проблем в области визуального управления роботами заключается в том, что политики, обученные в условиях фиксированного камерного перспективного представления, часто неэффективны при перемещении камеры. Это становится критично в реальных условиях, где расположение датчиков трудно контролировать. Таким образом, необходимо создать методы, которые бы учитывали эту сложность, обеспечивая стабильность и надежность во время выполнения манипуляций. ## Метод Мы предлагаем ManiVID-3D, новый 3D-RL-архитектура, ориентированная на обучение view-invariant (независимых от точки зрения) представлений с использованием самостоятельного обучения (self-supervised) и дисентгрализации признаков. Центральной частью этого подхода является ViewNet, модуль, который автоматически выравнивает точечные облака наблюдений в едином пространстве координат, не требуя внешней калибровки. Для ускорения обучения мы также разработали GPU-акселерацию, обрабатывающую более 5000 кадров в секунду, что позволяет развивать 3D-визуальные модели с повышенной скоростью. ## Результаты Мы провели эксперименты на 10 симуляторных и 5 реальных задачах, сравнив ManiVID-3D с другими подходами. Наши результаты показали выигрыш в 44.7% в условиях перемены точки зрения, при этом используя 80% меньше параметров. Это подтверждает эффективность нового подхода в обучении роботов в условиях сильных перспективных перемен. ## Значимость Метод ManiVID-3D может использоваться в реальном мире для улучшения визуально-рефорсментной системы управления роботами. Он предлагает высокую скорость тренировки, высокую устойчивость к переменам точки зрения и высокую степень универсальности. Это открывает новые возможности для общей робототехники, а также для систем, работающих в нестандартных условиях. ## Выводы Мы доказали, что ManiVID-3D значительно улучшает стабильность и эффективность роботов в различных условиях. Наша работа открывает новые пути для исследований в области обучения роботам в нестандартных условиях, включая улучшение обработки точечных облаков и развитие универсальных RL-политик. Мы планируем расширить применение этой модели к более сложным задачам и ситуациям в реальном мире.

Annotation:

Deploying visual reinforcement learning (RL) policies in real-world manipulation is often hindered by camera viewpoint changes. A policy trained from a fixed front-facing camera may fail when the camera is shifted--an unavoidable situation in real-world settings where sensor placement is hard to manage appropriately. Existing methods often rely on precise camera calibration or struggle with large perspective changes. To address these limitations, we propose ManiVID-3D, a novel 3D RL architecture...

ID: 2509.11125v1 cs.RO, cs.CV

arXiv PDF

1
2
14
15
16
17
18
22
23

Показано 151 - 160 из 225 записей