📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion

2025-09-24

Авторы:

Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas

## Контекст Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям. ## Метод Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива. ## Результаты Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач. ## Значимость ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav

Annotation:

This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and ...

ID: 2509.17941v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 M4Diffuser: Multi-View Diffusion Policy with Manipulability-Aware Control for Robust Mobile Manipulation

2025-09-20

Авторы:

Ju Dong, Lei Zhang, Liding Zhang, Yao Ling, Yu Fu, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

## Контекст Мобильная манипуляция представляет собой сложную задачу, требующую одновременного управления мобильной базой и роботом-роботом, а также высокого уровня взаимодействия с окружающим миром. Для эффективного выполнения таких задач необходимы системы, которые объединяют решение задач визуального распознавания, многозначного распознавания и эффективного управления. Несмотря на развитие технологий, существующие подходы часто сталкиваются с ограниченными полями обзора, недостаточной проникновенностью в труднодоступные области и недостаточной универсальностью в нестандартных ситуациях. Также, классические контроллеры, хотя являются стабильными, часто причиняют проблемы с эффективностью и манипулируемостью вблизи сингулярных точек. Данные проблемы требуют развития современных алгоритмов, которые объединяют несколько типов сенсорных данных и могут обеспечить долгосрочную устойчивость и эффективность в нестандартных условиях. ## Метод M4Diffuser представляет собой гибридный фреймворк, который совмещает Multi-View Diffusion Policy (MVDP) с Reduced and Manipulability-aware QP (ReM-QP) контроллером. Многопросмотровой диффузионный политик применяет собственные исходные данные и сведения, полученные с разных камер (относительные и глобальные), для построения целей задач для манипулятора в мировой системе координат. Эти высокоуровневые цели реализуются через ReM-QP, который устраняет ненужные слабые переменные для повышения производительности и включает манипулируемость-связанные предпочтения, чтобы повысить устойчивость вблизи сингулярных точек. Наш подход позволяет получить более оптимальные решения с учетом многообразия ситуаций, обеспечивая эффективность и надежность в любых условиях. ## Результаты Мы проводили обширные эксперименты, используя как симуляционные, так и реальные условия. Наши тестовые сценарии включали задачи мобильной манипуляции в разных условиях, во включая обстановку, требующую совместного управления мобильной базой и роботом-роботом. Результаты показали, что M4Diffuser достигает 7 до 56 процентов выше успешности и уменьшает количество соударений на 3 до 31 процентов в сравнении с базовыми подходами. Это показывает, что наш подход обеспечивает эффективную координацию всего тела системы, высокую универсальность и очень высокую устойчивость в работе с неизвестными задачами. ## Значимость Мы видим применение M4Diffuser в различных областях, включая промышленность, домохозяйство, медицину и прочие сферы, где требуется уверенность и надежность в мобильной манипуляции. Наш подход

Annotation:

Mobile manipulation requires the coordinated control of a mobile base and a robotic arm while simultaneously perceiving both global scene context and fine-grained object details. Existing single-view approaches often fail in unstructured environments due to limited fields of view, exploration, and generalization abilities. Moreover, classical controllers, although stable, struggle with efficiency and manipulability near singularities. To address these challenges, we propose M4Diffuser, a hybrid ...

ID: 2509.14980v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 MAP: End-to-End Autonomous Driving with Map-Assisted Planning

2025-09-19

Авторы:

Huilin Yin, Yiming Kan, Daniel Watzenig

#### Контекст Исследования в области автономного вождения стремятся решить проблему моделирования пространственных задач с помощью современных алгоритмов машинного обучения. Однако существующие подходы часто недостаточно используют семантические данные, доступные в реальном времени. Это приводит к ограниченной эффективности планирования траекторий, особенно в условиях сложности окружающей среды. MAP (Map-Assisted Planning) — это инновационный подход, который ставит перед собой цель использовать карты для оптимизации траекторий в реальном времени, повышая безопасность и точность движения. #### Метод MAP — это комплексный фреймворк, интегрирующий несколько модулей: **Plan-enhancing Online Mapping**, **Ego-status-guided Planning** и **Weight Adapter**. **Plan-enhancing Online Mapping** использует данные о текущем состоянии автомобиля и семантические признаки карты для тонкой настройки плана. **Ego-status-guided Planning** гарантирует соответствие плана органичности движению. **Weight Adapter** адаптирует веса модели в зависимости от текущего состояния автомобиля. Это сочетание модулей обеспечивает рациональное использование семантических данных карт в планировании траекторий. #### Результаты Эксперименты проводились на датасете DAIR-V2X-seq-SPD. MAP показал следующие результаты: **16.6% уменьшение L2-ошибки дисплейции**, **56.2% снижение показателя выезда с дороги** и **44.5% повышение общего результата** по сравнению с базовым подходом UniV2X. Особенно заметный улучшение стабильности и точности планирования. MAP также занял первое место на Track 2 Международного Чемпионата End-to-End Autonomous Driving through V2X Cooperation Challenge @CVPR2025, побив второе место на 39.5%. Эти результаты подтверждают эффективность MAP в использовании карт для улучшения траекторий. #### Значимость MAP может быть применен в различных сценариях автономного вождения, включая городские условия, автоматизированные парковки и системы V2X-совместимости. Он предлагает высокую точность планирования, уменьшает риски аварий и увеличивает эффективность движения. Использование семантических данных карт открывает новые горизонты для развития методологии планирования в автономных системах. #### Выводы MAP доказал свою эффективность в использовании карт для улучшения планирования траекторий. Будущие исследования будут нацелены на расширение модулей, улучшение точности и устойчивости, а также исследование многоканальных сигналов V2X-совместимости для экспансивного использования в реальных условиях.

Annotation:

In recent years, end-to-end autonomous driving has attracted increasing attention for its ability to jointly model perception, prediction, and planning within a unified framework. However, most existing approaches underutilize the online mapping module, leaving its potential to enhance trajectory planning largely untapped. This paper proposes MAP (Map-Assisted Planning), a novel map-assisted end-to-end trajectory planning framework. MAP explicitly integrates segmentation-based map features and t...

ID: 2509.13926v1 cs.RO, cs.AI, cs.CV, I.2.9; I.2.10

arXiv PDF

📄 Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

2025-09-18

Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, порожденные из vision-language models (VLMs), предлагают возможность использования богатых предобученных представлений для создания генерализованных роботов, способных выполнять различные задачи в различных средах. Однако прямое оточечение таких моделей на данные из реального мира часто приводит к искажению предобученных представлений, что существенно ограничивает их общеупотребимость. Наличие этой проблемы вызывает нужды в разработке методов, позволяющих лучше сохранить предобученные представления в процессе оточечения на конкретные задачи. ## Метод Методология предложенного подхода основывается на трех ключевых компонентах. Во-первых, используется дизайн двухмасштабной энкодерной системы: один энкодер (для визуальных данных) остается неизменным, чтобы сохранить предобученные представления, а другой энкодер (для задач) тренируется для адаптации к конкретной задаче. Во-вторых, введена структура порождения действий на основе строк текста, которая преобразует непрерывные действия в последовательности символов, соответствующие предобученной модели. В-третьих, предлагается стратегия совместного обучения (co-training), которая объединяет данные от демонстраций робота и визуально-языковых данных, с фокусом на спатсальном рассуждении и навыках удобства действий. ## Результаты Эксперименты проводились как в симуляционной среде, так и на реальных роботах. Модель демонстрировала значительное улучшение в области устойчивости к визуальным нарушениям, общеупотребимости в новых инструкциях и средах, а также общей эффективности в выполнении задач. Эти результаты сравнивались с базовыми моделями, подтверждая значительную выгоду от применения предложенного подхода. ## Значимость Продемонстрированный подход может быть применен в различных областях, включая робототехнику, автоматизацию производственных процессов и визуальных систем управления. Он обеспечивает значительное увеличение общеупотребимости роботов в различных средах и задачах, предоставляя роботам возможность лучшего понимания инструкций и реагирования на новые условия. Это, в свою очередь, может привести к значительным преимуществам в производительности и удобстве использования в различных приложениях. ## Выводы Предложенная модель продемонстрировала улучшение в области общеупотребимости VLA-моделей, сохранив предобученные представления и при этом адаптируя модель к конкретным задачам. Будущие исследования будут сосредоточены на улучшении эффективности обучения, отказе от тренировочных данных, а также рассмотрении более сложных искусственных и настоящих с

Annotation:

Vision-language-action (VLA) models finetuned from vision-language models (VLMs) hold the promise of leveraging rich pretrained representations to build generalist robots across diverse tasks and environments. However, direct fine-tuning on robot data often disrupts these representations and limits generalization. We present a framework that better preserves pretrained features while adapting them for robot manipulation. Our approach introduces three components: (i) a dual-encoder design with on...

ID: 2509.11417v2 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 ActiveVLN: Towards Active Exploration via Multi-Turn RL in Vision-and-Language Navigation

2025-09-18

Авторы:

Zekai Zhang, Weiye Zhu, Hewei Pan, Xiangchen Wang, Rongtao Xu, Xing Sun, Feng Zheng

#### Контекст Vision-and-Language Navigation (VLN) — это задача, в которой агент должен следовать естественным языковым инструкциям и перемещаться по сложным средам. Эта задача требует сильной интеграции визуальной и языковой информации, а также динамической навигации в условиях неопределенности. Традиционно, методы на основе моделей значительного языкового обучения (MLLM) полагаются на имитационное обучение (IL) и, часто, на пост-тренировочные методы типа DAgger для компенсации проблемы ковариатного отклонения. Хотя эффективны, эти подходы требуют больших затрат на сбор данных и обучения. Альтернативным подходом является использование реинforcement learning (RL), но существующие VLN RL-методы часто ограничены динамическим взаимодействием с серым зоной и приходят к ускорению значительного балла с помощью руководств экспертов. Наша мотивация заключается в разработке метода, который бы стимулировал динамическое и активное исследование среды, увеличивая производительность и гибкость в VLN. #### Метод Мы предлагаем ActiveVLN — рамку для VLN, которая использует многоразовый RL для активного исследования. В первой стадии, маленькая доля экспертных траекторий используется для имитационного обучения, чтобы инициализировать агента. Во второй стадии, агент динамически предсказывает и выполняет действия, автоматически собирает разнообразные траектории, и оптимизирует несколько rollouts с помощью объективного оптимизатора GRPO. Для повышения эффективности RL, мы внедрили динамическую стратегию раннего остановка, чтобы урезать длинные траектории, которые могут привести к неудачам. Эти дополнительные оптимизации позволяют уменьшить время обучения и улучшить качество результатов. #### Результаты Мы провели эксперименты на стандартных данных VLN, таких как R2R и Room-to-Room. Наша система ActiveVLN показала существенное улучшение по сравнению с IL-базированными методами, в том числе с DAgger-based подходами. Мы также достигли состязательной производительности с современными RL-методами, несмотря на то, что использовали меньшую модель. Эксперименты показали, что ActiveVLN эффективно использует активное исследование, чтобы открыть различные и достоверные маршруты, которые могут быть пропущены статическими подходами. #### Значимость Наш подход может быть применен в различных сценариях, где требуется динамическое взаимодействие с средой и быстрое обучение. За счет активного исследования, ActiveVLN может быть применен в задачах, включая интерактивное навигационное пространство, автоматизированные системы помощи и даже в сфере робототехники. Также, наша система пре

Annotation:

The Vision-and-Language Navigation (VLN) task requires an agent to follow natural language instructions and navigate through complex environments. Existing MLLM-based VLN methods primarily rely on imitation learning (IL) and often use DAgger for post-training to mitigate covariate shift. While effective, these approaches incur substantial data collection and training costs. Reinforcement learning (RL) offers a promising alternative. However, prior VLN RL methods lack dynamic interaction with the...

ID: 2509.12618v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Enhancing Generalization in Vision-Language-Action Models by Preserving Pretrained Representations

2025-09-17

Авторы:

Shresth Grover, Akshay Gopalkrishnan, Bo Ai, Henrik I. Christensen, Hao Su, Xuanlin Li

## Контекст Vision-language-action (VLA) модели, полученные путем подгонки от vision-language моделей (VLMs), обладают перспективой использования богатых предварительно обученных представлений для создания общих роботов, способных выполнять разнообразные задачи в различных средах. Однако прямое тюнинге на данных роботов часто приводит к разрушению этих представлений и ограничению их общеприменимости. Задача, стоящая перед нами, заключается в разработке метода, который лучше сохранит предварительно обученные функции при одновременной адаптации моделей к задачам роботов. Мы предлагаем рамку, которая лучше сохраняет предварительно обученные функции, при этом их адаптируя к задачам роботов. Данная рамка может повысить общую устойчивость, улучшить общеприменимость и повысить уровень успеха в выполнении задач. ## Метод Мы предлагаем двухэнкодерную архитектуру, где один из энкодеров заморожен для сохранения предварительно обученных представлений, а другой тренируется для адаптации к конкретным задачам. Для того чтобы сделать модели более работоспособными в сфере роботов, мы предлагаем вводить строковые вектора действий, которые преобразуют непрерывные действия в последовательности из символов, подстраиваясь под домен, в котором производилось предварительное обучение модели. Также мы предлагаем стратегию координированного обучения (co-training), которая объединяет данные с демонстраций роботов с данными визуально-языковых моделей, ориентируясь на спациальное рассуждение и аффорданты. Эта стратегия помогает восстановить предварительно обученные представления, при этом добавляя новые специфические для задач роботов функции. ## Результаты Мы проводим эксперименты в симуляционной среде и на реальных роботах, сравнивая наши результаты с традиционными подходами. Наши эксперименты показали, что наш подход увеличивает устойчивость к визуальным возмущениям, улучшает общие способности моделей к новым командам и средам, а также повышает общую степень успеха в выполнении задач. Мы также измеряли производительность на различных тестовых данных, демонстрируя, что наша методология превосходит базовые модели в целом наборе метрик. ## Значимость Наш подход может быть применен в различных областях, таких как автоматизация производственных процессов, помощь инвалидам, и управление домашними устройствами. Он предлагает несколько преимуществ, таких как улучшение общей устойчивости моделей, повышение общей гибкости и устойчивость к изменениям в задачах и окружении. Мы считаем, что наша работа может способствовать развитию универсальных моделей, способных выполнять различные задачи в разных с

Annotation:

ID: 2509.11417v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 ParaEQsA: Parallel and Asynchronous Embodied Questions Scheduling and Answering

2025-09-17

Авторы:

Haisheng Wang, Weiming Zhi

## Контекст Область исследования, связанная с Embodied Question Answering (EQA), фокусируется на создании роботов и софтверных систем, которые могут отвечать на вопросы, активно исследуя трехмерные пространства. Это проблема чрезвычайно важна для развития интеллектуальных систем, используемых в сферах, таких как управление домашними устройствами, автоматизация производства и помощь в жизненных задачах. Несмотря на успехи, полученные в EQA, существуют значительные ограничения. Традиционно EQA строится на действиях, которые проводятся последовательно и существенно зависят от успешного исследования окружающей среды. Однако в реальных ситуациях, возникают ситуации, когда необходимо обрабатывать множество вопросов, которые могут приходить вне порядка и с разным у deе. Это требует создания новых подходов, которые могут обеспечить эффективность и реагирование на асинхронные запросы. ## Метод Для решения данной проблемы, авторы предлагают формализовать новую задачу, называемую Embodied Questions Answering (EQsA), которая позволяет обрабатывать множество вопросов, включая асинхронные и с разным уровнем приоритета. Для этого разработана система ParaEQsA, которая включает в себя два основных модуля: **групповую память** для уменьшения проверок без добавления новой информации и **модуль планирования приоритетов**, который определяет порядок обработки вопросов в зависимости от их актуальности. Для обучения и оценки алгоритмов разработан бенчмарк, содержащий 40 интерьеров с вопросами, в том числе следующими, которые требуют различных действий и имеют различные веса приоритета. ## Результаты Проведенные эксперименты показали, что ParaEQsA превосходит существующие последовательные системы в обработке асинхронных вопросов, уменьшая суммарное время исследования и повышая точность реагирования. Более того, новая метрика **Direct Answer Rate (DAR)** и **Normalized Urgency-Weighted Latency (NUWL)** позволяет эффективно оценить производительность системы. Результаты показали, что эти метрики измеряют не только точность ответов, но и скорость их получения, что является ключевым фактором в реальных ситуациях. ## Значимость Предложенный подход имеет широкие возможности для применения в сферах, где необходимо обрабатывать множество вопросов в реальном времени, таких как управление домашними роботами, помощь в ситуациях с ограниченными ресурсами, таких как аппараты здравоохранения, или обработка вопросов в центрах обслуживания клиентов. Улучшение эффективности и скорости реагирования в ParaEQsA может значительно повысить удобство и надежность работы систем, обеспечивая улучш

Annotation:

This paper formulates the Embodied Questions Answering (EQsA) problem, introduces a corresponding benchmark, and proposes a system to tackle the problem. Classical Embodied Question Answering (EQA) is typically formulated as answering one single question by actively exploring a 3D environment. Real deployments, however, often demand handling multiple questions that may arrive asynchronously and carry different urgencies. We formalize this setting as Embodied Questions Answering (EQsA) and presen...

ID: 2509.11663v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 ObjectReact: Learning Object-Relative Control for Visual Navigation

2025-09-13

Авторы:

Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории. #### Метод Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента. #### Результаты Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории. #### Значимость Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль

Annotation:

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map,...

ID: 2509.09594v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Quadrotor Navigation using Reinforcement Learning with Privileged Information

2025-09-11

Авторы:

Jonathan Lee, Abhishek Rathod, Kshitij Goel, John Stecklein, Wennie Tabib

## Контекст Квадроторы в широких приложениях, таких как доставка, съемка и поиск-спасание, часто сталкиваются с проблемами навигации вокруг крупных препятствий, таких как стены или грунт. Существующие алгоритмы на основе оптимизации часто не могут эффективно решать эти задачи, в то время как методы на основе увеличения проблем успешно решают проблемы с тесными проходами, но сталкиваются с трудностями при работе в сложных средах. Это свидетельствует о необходимости разработки методов, которые могут обрабатывать широкий спектр сцен навигации. Мотивирует этот подход желание создать более универсальную систему навигации, которая могла бы использоваться в различных условиях. ## Метод Предложенный подход основывается на усиленном обучении (reinforcement learning), который использует симулятор с разностным дифференцированием (differentiable simulation) для эффективного обучения. В качестве дополнительной информации используется время прибытия (time-of-arrival, ToA), которое позволяет системе оценивать время, затраченное на достижение цели. Для решения проблем с якорным расположением (yaw alignment) внедрена новая функция потерь, которая помогает аккуратно направлять квадротор вокруг больших препятствий. Метод оценивается в средах с фотореалистичной симуляцией, включающих крупные препятствия, тупые углы и тупики. Это дает возможность проверить систему в условиях, напоминающих реальность. ## Результаты Эксперименты проводились в средах с фотореалистичной симуляцией, в которых квадротор должен был пройти маршрут, преодолевая крупные препятствия. Алгоритм показал успешность в 86% случаях, что значительно превосходит базовые стратегии, показывающие уровень 52%. Для проверки практической реальности, политика была развернута на квадроторе в реальных условиях. На внешних участках с нагруженной средой были проведены 20 полётов, пройденных на расстоянии 589 метров, без каких-либо коллизий и с максимальной скоростью 4 м/с. Это подтверждает эффективность метода в реальных условиях. ## Значимость Разработанный подход имеет широкие применения в различных областях, включая доставку посылок, поисковые операции и съемку в крупных городах, где наличие больших препятствий является обычным фактором. Он превосходит существующие методы, обеспечивая более высокую точность и надежность в сложных условиях. Это делает его привлекательным для использования в реальной жизни, где эффективность и безопасность являются приоритетными. ## Выводы Результаты показывают, что предложенный подход позволяет более эффективно

Annotation:

This paper presents a reinforcement learning-based quadrotor navigation method that leverages efficient differentiable simulation, novel loss functions, and privileged information to navigate around large obstacles. Prior learning-based methods perform well in scenes that exhibit narrow obstacles, but struggle when the goal location is blocked by large walls or terrain. In contrast, the proposed method utilizes time-of-arrival (ToA) maps as privileged information and a yaw alignment loss to guid...

ID: 2509.08177v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals

2025-09-11

Авторы:

Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обученных контроллерах, что часто требует высоких вычислительных ресурсов и сложности при общей пригодности для различных сред. Однако, существуют ситуации, когда использование 3D-карт или предварительно обученных контроллеров невозможно или неэффективно. Например, в новых и неизвестных окружениях, где недостаточно данных для обучения, или при работе с ограниченными вычислительными ресурсами. Было протестировано множество подходов, ориентированных на решение этих проблем, но они либо требуют доступа к 3D-картам, либо зависят от уже обученных моделей. Данная работа предлагает новую модель, которая объединяет локальный метрический контроль и глобальный топологический планирование, предлагая новый подход к визуальной навигации в открытых средах. ## Метод Метод TANGO (Traversability-Aware Navigation with Local Metric Control for Topological Goals) объединяет глобальное топологическое планирование с локальным метрическим контролем траектории. Глобальный планировщик определяет оптимальный топологический путь к цели, а локальный контроллер управляет метрической траекторией в реальном времени, используя распознавание объектов и оценку траверсабильности. Для снижения вычислительных затрат и повышения универсальности метод использует монокулярное глубинообнаружение и траверсабильность с использованием технологии фундаментальных моделей, что позволяет адаптироваться к новым средам без дополнительного обучения. Также внедрена механика автоматического переключения на базовый контроллер при выявлении нехватки данных или ошибках в планировании. ## Результаты Метод был протестирован в симуляционных и реальных окружениях. Были проведены эксперименты с различными средами, в том числе домашними помещениями и открытыми пространствами. Результаты показали, что TANGO эффективно решает задачи визуальной навигации в открытых средах, превосходя существующие методы по точности, универсальности и реальному развертыванию. Измерения показали, что TANGO обеспечивает высокую точность в достижении топологических целей, даже при неоднородных условиях видимости и объектной среды. ## Значимость Метод TANGO имеет широкое применение в различных областях робототехники, включая домашнюю автоматизацию, поиск и спасение, а также промышленную робототехнику. Его преимущества заключаются в том, что он не требует дополнительного обучения для каждой среды, имеет высокую универсальность и может работать в реальном времени с минимальными вычислительными ресурсами. Этот подход может существенно расширить

Annotation:

Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing...

ID: 2509.08699v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

Показано 61 - 70 из 93 записей