📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 CEDex: Cross-Embodiment Dexterous Grasp Generation at Scale from Human-like Contact Representations

2025-10-01

Авторы:

Zhiyuan Wu, Rolandos Alexandros Potamias, Xuyang Zhang, Zhongqun Zhang, Jiankang Deng, Shan Luo

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cross-embodiment dexterous grasp synthesis refers to adaptively generating and optimizing grasps for various robotic hands with different morphologies. This capability is crucial for achieving versatile robotic manipulation in diverse environments and requires substantial amounts of reliable and diverse grasp data for effective model training and robust generalization. However, existing approaches either rely on physics-based optimization that lacks human-like kinematic understanding or require ...

ID: 2509.24661v1 cs.RO, cs.CV

arXiv PDF

📄 DRCP: Diffusion on Reinforced Cooperative Perception for Perceiving Beyond Limits

2025-10-01

Авторы:

Lantao Li, Kang Yang, Rui Song, Chen Sun

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cooperative perception enabled by Vehicle-to-Everything communication has shown great promise in enhancing situational awareness for autonomous vehicles and other mobile robotic platforms. Despite recent advances in perception backbones and multi-agent fusion, real-world deployments remain challenged by hard detection cases, exemplified by partial detections and noise accumulation which limit downstream detection accuracy. This work presents Diffusion on Reinforced Cooperative Perception (DRCP),...

ID: 2509.24903v1 cs.RO, cs.CV, eess.IV

arXiv PDF

📄 MASt3R-Fusion: Integrating Feed-Forward Visual Model with IMU, GNSS for High-Functionality SLAM

2025-09-30

Авторы:

Yuxuan Zhou, Xingxing Li, Shengyu Li, Zhuohao Yan, Chunxi Xia, Shaoquan Feng

## Контекст Визуальная SLAM (Simultaneous Localization and Mapping) является ключевым методом в проектировании роботов, транспортных систем с автономным управлением и расширенной реальности (XR). Однако классические системы визуальной SLAM часто сталкиваются с проблемами, такими как неэффективность в низкотекстурных средах, амбигуитуды масштаба и ухудшение работы в трудных условиях визуального восприятия. Недавние разработки, основанные на функциональных моделях глубокого обучения, показали потенциал в повышении точности регрессии точечных карт в 3D-пространстве, используя специально обученные пространственные предпосылки. Несмотря на это, многие из этих моделей лишаются потенциала применения многомодульной информационной функциональности, которая широко обоснована в классических подходах SLAM. ## Метод MASt3R-Fusion представляет собой инновационный подход к визуальной SLAM, который сочетает в себе функциональные модели глубокого обучения с многомодульным сенсорным вводом. Основной компонент — глубокая точечная регрессия, интегрируемая с инерциальными входами и GNSS-данными. Для эффективной информационной фускионации вводится новый метод Sim(3)-based visual alignment constraints, который работает в гессианской форме. Факторная графовая архитектура разработана таким образом, чтобы поддерживать оптимизацию в реальном времени с помощью вспомогательного слайдинг-окна, а также глобальную оптимизацию с агрессивными зонациями луков. Это позволяет добиться реального времени для позиционирования, величинных оценок и консистентных структурных карт. ## Результаты На основе известных бенчмарков и самостоятельно собранных данных, мы проверили эффективность MASt3R-Fusion. Замеры показали существенное улучшение точности и надежности в сравнении с традиционными визуально-сенсорными SLAM-системами. Мы также демонстрируем, что наша программа может эффективно работать в трудных условиях визуального восприятия, таких как низкотекстурные среды и разные масштабные амбигуитеты. ## Значимость MASt3R-Fusion может применяться в различных областях, включая робототехнику, самоуправляемые транспортные системы и XR. Он обеспечивает значительные преимущества, такие как улучшенная точность, эффективность в низкотекстурных средах и глобальная консистентность карт. Его потенциал включает в себя улучшение производительности в сложных средах и открытие новых возможностей в приложениях, требующих высокого качества SLAM. ## Выводы MASt3R-Fusion устанавливает новый стандарт для визуальных SLAM-систем, сочетая выгоды глубокого обучения с

Annotation:

Visual SLAM is a cornerstone technique in robotics, autonomous driving and extended reality (XR), yet classical systems often struggle with low-texture environments, scale ambiguity, and degraded performance under challenging visual conditions. Recent advancements in feed-forward neural network-based pointmap regression have demonstrated the potential to recover high-fidelity 3D scene geometry directly from images, leveraging learned spatial priors to overcome limitations of traditional multi-vi...

ID: 2509.20757v2 cs.RO, cs.CV

arXiv PDF

📄 RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation

2025-09-30

Авторы:

Enguang Liu, Siyuan Liang, Liming Lu, Xiyu Zeng, Xiaochun Cao, Aishan Liu, Shuchao Pang

## Контекст Обеспечение безопасности и надежности роботов с роботом-мировоззрением (embodied agents) зависит от точности и нейтральности визуального восприятия. Несмотря на развитие существующих бенчмарков, которые фокусируются на генерализации и устойчивости под воздействием помех, нет универсального подхода к систематической оценке визуального баса. Это ограничивает понимание влияния визуальных факторов на стабильность решений. Мы предлагаем **RoboView-Bias**, первый бенчмарк, специально разработанный для систематической оценки визуального баса в робототехнических задачах с применением принципа изоляции факторов. Он позволяет тщательно изучить влияние отдельных визуальных факторов и их взаимодействий. ## Метод Мы создали RoboView-Bias, используя разнообразие задач и факторов визуального восприятия. Наша методология включает в себя: 1. **Фреймворк по генерации вариантов задач**: этот подход позволяет создавать структурированные сценарии с определенными факторами, такими как цвет, видение и свет. 2. **Протокол валидации с оценкой честности восприятия**: он позволяет измерять точность и нейтральность результатов. 3. **Эксперименты с тремя важными робото-мировоззрениями**: мы представляем системы из разных парадигм и измеряем их восприятие с учетом изолированных факторов и их комбинаций. ## Результаты Используя RoboView-Bias, мы выявили следующие выводы: 1. **Все изучаемые агенты имеют существенные визуальные баги**. Мы обнаружили, что наиболее важным фактором является **угол обзора камеры** (viewpoint). 2. **Наиболее сильное влияние на успешность задач имеют сочетания ярких, высоко-сатюрационных цветов**, что указывает на влияние наследственных предпочтений визуальных систем, основанных на Vision-and-Language Models (VLMs). 3. **Asymmetric Coupling**: визуальный баг, вызванный видом, может сильно усиливать влияние цвета и других факторов. 4. **Семантическое граундинг**: мы проанализировали стратегию семантического граундинга, которая снимает баги на 54.5% в MOCA-benchmark. ## Значимость Наша работа имеет решающее значение для областей, где обеспечение надежности и безопасности роботов с роботом-мировоззрением является ключевым. **Применения**: - Оценка визуальных багов в системах роботов. - Развитие безопасных и надежных роботов-мировоззрения. - Метод позволяет улучшить понимание влияния визуальных факторов на решения роботов. ## Выводы Мы установили, что визуальные баги являются критическим фактором в стабильности роботов-мировоззрения. **Будущие исследова

Annotation:

The safety and reliability of embodied agents rely on accurate and unbiased visual perception. However, existing benchmarks mainly emphasize generalization and robustness under perturbations, while systematic quantification of visual bias remains scarce. This gap limits a deeper understanding of how perception influences decision-making stability. To address this issue, we propose RoboView-Bias, the first benchmark specifically designed to systematically quantify visual bias in robotic manipulat...

ID: 2509.22356v1 cs.RO, cs.CV

arXiv PDF

📄 MINT-RVAE: Multi-Cues Intention Prediction of Human-Robot Interaction using Human Pose and Emotion Information from RGB-only Camera Data

2025-09-30

Авторы:

Farida Mohsen, Ali Safa

## Контекст Область исследования — создание моделей, позволяющих эффективно определять человеческие намерения в контексте Human-Robot Interaction (HRI). Эта задача важна для улучшения взаимодействия между роботами и людьми в различных сферах, включая здравоохранение, промышленность и домашние услуги. Существующие проблемы включают недостаточную точность и скорость распознавания намерений, особенно при использовании ограниченных визуальных данных. Мотивация заключается в развитии моделей, которые могут точно предсказывать намерения на основе RGB-данных, чтобы обеспечить быстрые и точные реакции роботов. ## Метод Мы предлагаем MINT-RVAE — новую методологию, которая использует изображения RGB исключительно для предсказания намерений человека в целях HRI. Метод включает в себя MINT-RVAE, процедуру синтетической последовательностной генерации, а также новые функции потерь и стратегии обучения. Эти компоненты призваны улучшить общую точность модели, когда применяются данные, отличные от обучающей выборки. Архитектура опирается на современные сети рекуррентных нейронов и сверточных нейронных сетей, чтобы обрабатывать кадры RGB и обнаруживать положение человека, его эмоции и намерения в каждый отдельный кадр. ## Результаты Мы проверили MINT-RVAE на реальных данных HRI, включающих в себя RGB-видео. Модель достигла AUROC 0.95, что значительно превосходит предыдущие результаты (AUROC 0.90–0.912). Она также показала точность в распознавании намерений на уровне кадров, что позволяет роботам реагировать быстрее. Мы также открыто распространили новый датасет с разметкой кадров, чтобы помочь дальнейшим исследованиям в этой сфере. ## Значимость Модель MINT-RVAE применима в различных сферах, включая домашние роботы, автоматизированные системы услуг и промышленные роботы. Основные преимущества заключаются в точности, скорости и универсальности, поскольку она работает только с RGB-данными. Это может существенно упростить развертывание роботов и улучшить их взаимодействие с пользователями. Будущие исследования будут фокусироваться на улучшении модели для более сложных сценариев HRI и расширении ее возможностей. ## Выводы MINT-RVAE представляет собой новую модель, в которой используется только RGB-данные для точного предсказания намерений в HRI. Ее выгодно отличают более высокая точность, быстрость реакции и универсальность. Мы открыто предоставили датасет, чтобы помочь дальнейшим исследованиям. Будущие направления исследований будут сконцентрированы на расширении модели для более сложных сценариев HRI и ее применении в реальных ситуациях.

Annotation:

Efficiently detecting human intent to interact with ubiquitous robots is crucial for effective human-robot interaction (HRI) and collaboration. Over the past decade, deep learning has gained traction in this field, with most existing approaches relying on multimodal inputs, such as RGB combined with depth (RGB-D), to classify time-sequence windows of sensory data as interactive or non-interactive. In contrast, we propose a novel RGB-only pipeline for predicting human interaction intent with fram...

ID: 2509.22573v1 cs.RO, cs.CV

arXiv PDF

📄 WoW: Towards a World omniscient World model Through Embodied Interaction

2025-09-30

Авторы:

Xiaowei Chi, Peidong Jia, Chun-Kai Fan, Xiaozhu Ju, Weishi Mi, Kevin Zhang, Zhiyuan Qin, Wanxin Tian, Kuangzhi Ge, Hao Li, Zezhong Qian, Anthony Chen, Qiang Zhou, Yueru Jia, Jiaming Liu, Yong Dai, Qingpo Wuwu, Chengyu Bai, Yu-Kai Wang, Ying Li, Lizhang Chen, Yong Bao, Zhiyuan Jiang, Jiacheng Zhu, Kai Tang, Ruichuan An, Yulin Luo, Qiuxuan Feng, Siyuan Zhou, Chi-min Chan, Chengkai Hou, Wei Xue, Sirui Han, Yike Guo, Shanghang Zhang, Jian Tang

## Контекст В настоящее время развитие ИИ сталкивается с ограничениями в развитии физического понимания у видеомоделей, таких как Sora. Эти модели основываются на пассивной наблюдении, что не позволяет им локализовать физическую причинно-следственную связь. Это привело к гипотезе, что физическое понимание в моделях лучше всего становится реалистичным при постоянных, причинно-следственных взаимодействиях с реальным миром. Данная работа подтверждает эту гипотезу, представив WoW — модель, полученную с помощью 2 млн роботов, обученную на 14 млрд параметров. Эта модель отражает понятие о физической жизни вокруг себя, позволяя визуализировать множественные возможные варианты действий, включая некоторые раннее невидимые. ## Метод Методология WoW основывается на обучении модели в тестовой среде, где робот может взаимодействовать с реальным миром, изучая причинно-следственные связи. Набор данных содержит 2 млн траекторий интеракции. Архитектура WoW — это 14-миллиардный параметровой генеративный модель, который может генерировать видеосцены, симулируя вид и причинно-следственные связи в жизни. Дополнительно используется SOPHIA, которая активно контролирует и перестраивает генерируемые сцены, используя языковые инструкции. ## Результаты Эксперименты показали, что WoW может генерировать видимые видеосцены, включая физически реалистичные действия, такие как движение предметов, столкновения, взаимодействия между предметами. Модель также генерирует несколько возможных вариантов действий, что демонстрирует развитие физической жизни. Еще один эксперимент показал, что модель может быть изменена с помощью SOPHIA под конкретные цели, чтобы сделать сцены более реалистичными. Также данные показали, что модель может быть адаптирована для роботов, чтобы реализовать команды в реальном мире. ## Значимость Результаты WoW могут быть применены в различных областях, включая роботов, оснащенных визуальными моделями, которые могут распознавать физические действия в реальном времени. Также модель может использоваться в сфере видеоредактирования, где можно применять визуальные модели для создания более живых и физически понятных сцен. Благодаря пониманию физических причин-следствий, модель может применяться в обучении новым роботам и в системах, требующих взаимодействия с реальным миром. ## Выводы Исследование WoW подтвердило, что реальное мировое взаимодействие является ключевым фактором для развития физического понимания у моделей. Модель WoW доказала свое превосходство

Annotation:

Humans develop an understanding of intuitive physics through active interaction with the world. This approach is in stark contrast to current video models, such as Sora, which rely on passive observation and therefore struggle with grasping physical causality. This observation leads to our central hypothesis: authentic physical intuition of the world model must be grounded in extensive, causally rich interactions with the real world. To test this hypothesis, we present WoW, a 14-billion-paramete...

ID: 2509.22642v1 cs.RO, cs.CV, cs.MM

arXiv PDF

📄 Pixel Motion Diffusion is What We Need for Robot Control

2025-09-30

Авторы:

E-Ro Nguyen, Yichi Zhang, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo

## Контекст Робототехника становится важной областью для автоматизации и улучшения производительности во многих областях, от промышленности до улучшения жизни. Одна из ключевых проблем в этой области заключается в том, как эффективно перевести высшую цель (мысленное представление действий) в конкретные движущиеся действия робота. Этот процесс становится сложнее, когда требуется учитывать сложности, такие как различные условия в реальной среде и ограниченные возможности робота. Обработка таких задач становится все более важной в сфере роботов. Разработка систем, которые могут устанавливать связь между высшим уровнем мотивации и низкоуровневыми движущимися действиями, является ключевым в этой области. Таким образом, необходимы новые подходы, которые могут объединить эти два уровня для создания более мощных систем для управления роботами. ## Метод Мы предлагаем DAWN (Diffusion is All We Need for robot control), новый рамефр (framework), который использует диффузионные процессы для объединения высшей цели с низкоуровневыми движущимися действиями. Основная идея заключается в том, что оба контроллера (высшего и низкого уровня) описываются как диффузионные процессы, что позволяет создать полностью обучаемую, без шаблонов систему. Это связывает высшие мотивы (например, текстовые команды) с низкими движущимися действиями (например, механическими движениями), чтобы обеспечить более эффективное управление. Этот подход использует структурированную представление пиксельных движущихся представлений, чтобы обеспечить более точную интерпретацию движущихся действий. ## Результаты Мы проверили DAWN на крупном бенчмарке CALVIN, где она достигла среднего показателя на 1.5 раз выше, чем предыдущие модели. Мы также проверили DAWN на MetaWorld для проверки ее мультизадачности и мощности. Несмотря на существующие проблемы с разливом в данных между симуляцией и реальностью, мы продемонстрировали, что модель может быть применена в реальной среде с незначительным тренировком. Это демонстрирует, что диффузионные процессы могут быть эффективно применены в реальных условиях, даже при ограниченных данных. ## Значимость DAWN может быть применена в различных областях, таких как промышленность, домашние роботы и системы помощи для инвалидов. Она предлагает значительные преимущества по сравнению с существующими подходами, такими как точность, передовая мультизадачная способность и гибкость. Благодаря использованию диффузионных процессов, DAWN может обеспечить более стабильное и высококачественное управление, что делает ее привлекательной для многих

Annotation:

We present DAWN (Diffusion is All We Need for robot control), a unified diffusion-based framework for language-conditioned robotic manipulation that bridges high-level motion intent and low-level robot action via structured pixel motion representation. In DAWN, both the high-level and low-level controllers are modeled as diffusion processes, yielding a fully trainable, end-to-end system with interpretable intermediate motion abstractions. DAWN achieves state-of-the-art results on the challenging...

ID: 2509.22652v1 cs.RO, cs.CV

arXiv PDF

📄 Equi-RO: A 4D mmWave Radar Odometry via Equivariant Networks

2025-09-27

Авторы:

Zeyu Han, Shuocheng Yang, Minghan Zhu, Fang Zhang, Shaobing Xu, Maani Ghaffari, Jianqiang Wang

#### Контекст Autonomous vehicles и развитие robots в GPS-denied средах требуют точных систем определения одометрии. LiDAR и камеры часто сталкиваются с ограничениями в тяжелых метеорологических условиях. В этой связи, 4D mmWave radar становится выгодным альтернативным решением благодаря своему устойчивому оперативному производительности вне зависимости от погодных условий и возможности измерения скорости движения. Однако, поиск эффективных алгоритмов обработки данных 4D mmWave radar остается актуальной проблемой. #### Метод Мы предлагаем Equi-RO, алгоритм на основе equivariant networks для 4D radar odometry. Наша методология включает несколько ключевых этапов: предобработка Doppler velocity с помощью создания invariant node и edge features в graph structure, а также использование отдельных network для equivariant и invariant feature processing. Этот подход позволяет повысить точность aggregation sparse radar data, улучшив inter-frame correspondence. Мы также разработали архитектуру graph-based для обеспечения оптимального объединения данных. #### Результаты Мы провели эксперименты на open-source dataset и самостоятельно собранном датасете. Наши результаты показывают, что Equi-RO превосходит state-of-the-art алгоритмы в точности и robustness. Специфически, мы достигли 10.7% и 20.0% relative improvement в translation и rotation accuracy соответственно по сравнению с baseline. Полученные результаты демонстрируют высокую эффективность нашей методологии в решении задач 4D mmWave radar odometry. #### Значимость Этот подход имеет большой потенциал во многих приложениях, включая autonomous driving, mobile robotics, и другие ситуации, требующие надёжной и точной odometry. Наш алгоритм способствует повышению производительности в GPS-denied средах, что может иметь высокую значимость в развитии автономных систем. #### Выводы Мы представили Equi-RO, новый алгоритм для 4D radar odometry, основанный на equivariant networks. Этот метод демонстрирует высокую точность и robustness, превышая состояние техники в open-source dataset. Наше исследование открывает путь для последующих разработок в области одометрии для autonomous vehicles и robots, с целью улучшения performance в challenging environments.

Annotation:

Autonomous vehicles and robots rely on accurate odometry estimation in GPS-denied environments. While LiDARs and cameras struggle under extreme weather, 4D mmWave radar emerges as a robust alternative with all-weather operability and velocity measurement. In this paper, we introduce Equi-RO, an equivariant network-based framework for 4D radar odometry. Our algorithm pre-processes Doppler velocity into invariant node and edge features in the graph, and employs separate networks for equivariant an...

ID: 2509.20674v1 cs.RO, cs.CV

arXiv PDF

📄 RAM-NAS: Resource-aware Multiobjective Neural Architecture Search Method for Robot Vision Tasks

2025-09-27

Авторы:

Shouren Mao, Minghao Qin, Wei Dong, Huajian Liu, Yongzhuo Gao

## Контекст Исследование построения моделей глубокого обучения для задач робототехнического зрения стало важной областью, так как эти модели должны обладать высокой точностью и низким потреблением ресурсов для устройств с ограниченными возможностями. Однако существующие подходы к Neural Architecture Search (NAS) часто не учитывают реальность работы на робототехнических устройствах. Недостаток учета ограничений по ресурсам приводит к моделям, которые неэффективно используются в реальных условиях. Таким образом, необходим подход, который учитывает ресурсы и улучшает процесс поиска моделей для робототехнических задач. ## Метод RAM-NAS является первым resource-aware multi-objective NAS-методом, сочетающим в себе улучшение супернет-предобучения и ресурсно-ориентированность при работе на робототехнических устройствах. Основной инновацией является идея subnets mutual distillation, где все subnets, выбираемые по сандвичному правилу, обмениваются знаниями друг с другом. Также включен Decoupled Knowledge Distillation (DKD) loss для улучшения distillation-based training. Для ускорения поиска с учетом характеристик робототехнических устройств, вводятся Latency Surrogate predictors, основанные на данных с трех типов робототехнического оборудования. Эти модели позволяют приближенно оценивать время выполнения на робототехнических устройствах во время поиска. Это позволяет объединять общие цели — модельную точность и низкую задержку — в единое multi-objective optimization. ## Результаты В экспериментах были проверены методы на задачах обработки изображений, включая сегментацию и распознавание объектов. Модели RAM-NAS достигли топ-1 accuracy от 76.7% до 81.4% на ImageNet. Была проверена эффективность на моделях для робототехнических задач, таких как локализация и окружение, где использовались данные с трех типов робототехнического оборудования. В результате RAM-NAS привело к существенному сокращению latency на всех трех типах устройств, по сравнению с MobileNetv3-based methods. Это подтвердило эффективность в реальных условиях, когда размер модели и производительность имеют решающее значение. ## Значимость Предложенный подход оказался полезным в сферах применения, где требуется быстрая и точная обработка данных на устройствах с ограниченными ресурсами, включая робототехнические системы. Он обеспечивает лучшую эффективность и уменьшает затраты на ресурсы, что критично для применения на робототехнических устройствах. Учтя ресурсы на этапе поиска, RAM-NAS позволяет быстрее и эффективнее находить модели, которые могут быть применены в реальных условиях. ## Выводы Результаты показали, что RAM-NAS является эффективным методом для поиска моделей, которые сочетают высокую точность и низкую задержку для робототе

Annotation:

Neural architecture search (NAS) has shown great promise in automatically designing lightweight models. However, conventional approaches are insufficient in training the supernet and pay little attention to actual robot hardware resources. To meet such challenges, we propose RAM-NAS, a resource-aware multi-objective NAS method that focuses on improving the supernet pretrain and resource-awareness on robot hardware devices. We introduce the concept of subnets mutual distillation, which refers to ...

ID: 2509.20688v1 cs.RO, cs.CV

arXiv PDF

📄 SLAM-Free Visual Navigation with Hierarchical Vision-Language Perception and Coarse-to-Fine Semantic Topological Planning

2025-09-27

Авторы:

Guoyang Zhao, Yudong Li, Weiqing Qi, Kai Zhang, Bonan Liu, Kai Chen, Haoang Li, Jun Ma

## Контекст Основной объект исследования — развитие эффективных методов визуальной навигации для роботов без использования SLAM (Simultaneous Localization and Mapping). Традиционные системы SLAM для роботов с двумя ногами чувствительны к быстрому движению, трудностям калибровки и погрешностям сенсоров. Более того, они ограничены в поддержке целевого поиска и задач-ориентированного исследования. Данная работа предлагает создать новую парадигму, ориентированную на использование визуальных данных и языковых моделей, для более робастной и задачедеривленной навигации. ## Метод Предложенный подход включает в себя несколько ключевых компонентов. Во-первых, **hiеarchical vision-language perception module** объединяет контекст сцены и объектно-уровневые признаки, обеспечивая более надежное понимание среды. Во-вторых, **semantic-probabilistic topological map** поддерживает планирование в два этапа: **global reasoning** с помощью LLM для выбора подцелей и **local planning** для избегания препятствий на основе визуальных данных. Этот подход интегрируется с reinforcement-learning locomotion controllers, что обеспечивает более гибкую и надежную навигацию. ## Результаты Исследование включает эксперименты как в симуляционной, так и в реальной среде. Обучающиеся данные включали сцены с различными препятствиями и задачами. Результаты показали, что предложенная система повышает точность семантического распознавания, улучшает классификацию объектов и увеличивает успешность навигации в сравнении с конкурентными методами. Аблационные эксперименты подтверждают важность как hierarchical perception, так и local planning. ## Значимость Предлагаемый подход может быть применен в различных областях, включая домашнюю автоматизацию, поиск-спасательные операции и исследования в недвижимости. Он предоставляет преимущества в том числе более стабильной навигации, снижении затрат на калибровку и улучшением понимания среды. Данная работа может влиять на развитие робототехники, перенаправив ее от геометрического подхода к более семантически-ориентированному. ## Выводы Работа представляет собой новую парадигму в SLAM-free навигации, основанную на использовании визуальных и языковых моделей. Она устанавливает новый подход к навигации, где роль геометрического зрения заменена на целевой и семантически-ориентированный фреймворк. В будущем планируется расширить исследования на более сложные среды и исследовать возможности интеграции других типов сенсоров для повышения производительности.

Annotation:

Conventional SLAM pipelines for legged robot navigation are fragile under rapid motion, calibration demands, and sensor drift, while offering limited semantic reasoning for task-driven exploration. To deal with these issues, we propose a vision-only, SLAM-free navigation framework that replaces dense geometry with semantic reasoning and lightweight topological representations. A hierarchical vision-language perception module fuses scene-level context with object-level cues for robust semantic in...

ID: 2509.20739v1 cs.RO, cs.CV

arXiv PDF

Показано 121 - 130 из 225 записей