📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 RDD: Retrieval-Based Demonstration Decomposer for Planner Alignment in Long-Horizon Tasks

2025-10-18

Авторы:

Mingxuan Yan, Yuping Wang, Zechun Liu, Jiachen Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

To tackle long-horizon tasks, recent hierarchical vision-language-action (VLAs) frameworks employ vision-language model (VLM)-based planners to decompose complex manipulation tasks into simpler sub-tasks that low-level visuomotor policies can easily handle. Typically, the VLM planner is finetuned to learn to decompose a target task. This finetuning requires target task demonstrations segmented into sub-tasks by either human annotation or heuristic rules. However, the heuristic subtasks can devia...

ID: 2510.14968v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

2025-09-25

Авторы:

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах. ## Метод VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением. ## Результаты В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями. ## Значимость Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах. ## Выводы VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много

Annotation:

Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse tra...

ID: 2509.18592v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 ObjectReact: Learning Object-Relative Control for Visual Navigation

2025-09-13

Авторы:

Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории. #### Метод Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента. #### Результаты Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории. #### Значимость Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль

Annotation:

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map,...

ID: 2509.09594v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals

2025-09-11

Авторы:

Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обученных контроллерах, что часто требует высоких вычислительных ресурсов и сложности при общей пригодности для различных сред. Однако, существуют ситуации, когда использование 3D-карт или предварительно обученных контроллеров невозможно или неэффективно. Например, в новых и неизвестных окружениях, где недостаточно данных для обучения, или при работе с ограниченными вычислительными ресурсами. Было протестировано множество подходов, ориентированных на решение этих проблем, но они либо требуют доступа к 3D-картам, либо зависят от уже обученных моделей. Данная работа предлагает новую модель, которая объединяет локальный метрический контроль и глобальный топологический планирование, предлагая новый подход к визуальной навигации в открытых средах. ## Метод Метод TANGO (Traversability-Aware Navigation with Local Metric Control for Topological Goals) объединяет глобальное топологическое планирование с локальным метрическим контролем траектории. Глобальный планировщик определяет оптимальный топологический путь к цели, а локальный контроллер управляет метрической траекторией в реальном времени, используя распознавание объектов и оценку траверсабильности. Для снижения вычислительных затрат и повышения универсальности метод использует монокулярное глубинообнаружение и траверсабильность с использованием технологии фундаментальных моделей, что позволяет адаптироваться к новым средам без дополнительного обучения. Также внедрена механика автоматического переключения на базовый контроллер при выявлении нехватки данных или ошибках в планировании. ## Результаты Метод был протестирован в симуляционных и реальных окружениях. Были проведены эксперименты с различными средами, в том числе домашними помещениями и открытыми пространствами. Результаты показали, что TANGO эффективно решает задачи визуальной навигации в открытых средах, превосходя существующие методы по точности, универсальности и реальному развертыванию. Измерения показали, что TANGO обеспечивает высокую точность в достижении топологических целей, даже при неоднородных условиях видимости и объектной среды. ## Значимость Метод TANGO имеет широкое применение в различных областях робототехники, включая домашнюю автоматизацию, поиск и спасение, а также промышленную робототехнику. Его преимущества заключаются в том, что он не требует дополнительного обучения для каждой среды, имеет высокую универсальность и может работать в реальном времени с минимальными вычислительными ресурсами. Этот подход может существенно расширить

Annotation:

Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing...

ID: 2509.08699v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Deep Reactive Policy: Learning Reactive Manipulator Motion Planning for Dynamic Environments

2025-09-10

Авторы:

Jiahui Yang, Jason Jingzhou Liu, Yulong Li, Youssef Khaky, Kenneth Shaw, Deepak Pathak

## Контекст Роботизированные манипуляторы, работающие в динамических и частично обозреваемых окружениях, широко применяются в промышленности, науке и быту. Однако создание эффективных систем планирования движений, которые могут реагировать на непредсказуемые изменения окружения, остается сложной задачей. Традиционные методы, такие как классические планиры, требуют полного знания окружения и часто оказываются медленными в динамичных сценариях. Зато новые технологии, основанные на нейронных сетях, могут оперировать непосредственно с данными из сенсоров, обеспечивая более реагирующие и реальности приближенные движения. Однако их универсальность и результаты в трудных сценариях часто остаются недостаточными. Наша мотивация заключается в разработке метода, который объединит точность классических методов с гибкостью и реактивностью новых моделей. ## Метод Мы предлагаем **Deep Reactive Policy (DRP)**, новую нейронную модель планирования движений, основанную на преобразователях (transformer). Для обучения DRP использовались 10 миллионов экспертных траекторий, созданных в симуляционных сценариях с различными условиями. Основной частью DRP является IMPACT — компонент, реализующий motion policy на основе преобразователей. Для повышения качества использовалась итеративная техника teacher-student fine-tuning, что позволило улучшить отклик при предотвращении столкновений с статическими препятствиями. Для реагирования на динамические препятствия во время выполнения использовался DCP-RMP — модуль, рассчитывающий цель движения в реальном времени с учетом взаимодействия с движущимися объектами. Эта модель позволяет DRP реагировать на ситуации в реальном времени и поддерживать высокую стабильность. ## Результаты Мы проверили DRP на серии задач, включающих кластерные сцены, движущиеся препятствия и затруднения в достижении целей. Результаты показали, что DRP достигает высокой успешности в решении этих задач по сравнению с классическими методами и другими моделями на основе нейронных сетей. Особенно выдающимися результатами DRP проявился в ситуациях с частичной наблюдаемостью и большим количеством динамических объектов. Мы также проверяли DRP на реальных роботах, и он показал стабильность и высокую скорость реакции. Данные результаты доступны на сайте проекта: https://deep-reactive-policy.com. ## Значимость DRP может быть применен в различных областях, где требуется высокая реактивность и точность движений в динамических окружениях. Например, в производстве, в сфере домохозяйств или в здравоохранении. Он обладает преимуществами по сравнению с классическими методами, такими как

Annotation:

Generating collision-free motion in dynamic, partially observable environments is a fundamental challenge for robotic manipulators. Classical motion planners can compute globally optimal trajectories but require full environment knowledge and are typically too slow for dynamic scenes. Neural motion policies offer a promising alternative by operating in closed-loop directly on raw sensory inputs but often struggle to generalize in complex or dynamic settings. We propose Deep Reactive Policy (DRP)...

ID: 2509.06953v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Optimizing Grasping in Legged Robots: A Deep Learning Approach to Loco-Manipulation

2025-08-27

Авторы:

Dilermando Almeida, Guilherme Lazzarini, Juliano Negri, Thiago H. Segreto, Ricardo V. Godoy, Marcelo Becker

## Контекст Легкоходные роботы, оборудованные руками, представляют собой мощный инструмент для решения задач в сложных и нестанционарных условиях. Однако достижение точных и адаптивных захватов остается сложной задачей, требующей значительных усилий в области калибровки и предварительной настройки. Эти ограничения существенно сужают потенциал роботов в различных сферах, включая промышленность, поисковые и спасательные операции. Целью настоящего исследования является разработка методологии, позволяющей улучшить точность и адаптивность захвата, используя глубокое обучение и симуляционные модели. ## Метод Разработанная методология основывается на методе sim-to-real, который минимизирует необходимость постоянного применения физических данных. Для этого был создан симуляционный модельный пайплайн в среде Genesis. Модель генерирует набор данных, включающий пиксельно аннотированные карты качества захвата, используя RGB, дебатские карты и другие источники данных. Затем эти данные использовались для тренировки настраиваемой модели CNN с архитектурой U-Net. Эта модель оценивает качество захвата, выдавая графический heatmap с оптимальным точкой захвата. ## Результаты Разработанный подход был протестирован на роботе с четырьмя ногами. Результаты показали, что робот может самостоятельно назначить маршрут к мероприятию, определить позицию объекта с помощью RGB и дебатских карт, сгенерировать оптимальную точку захвата с помощью глубокого обучения, а затем выполнить точный захват. Эксперименты продемонстрировали эффективность разработанной системы в решении сложных задач захвата в реальном мире. ## Значимость Разработанная методология открывает новые возможности для расширения практического применения легкоходных роботов в таких областях, как промышленность, автоматизация, поисковые и спасательные операции. Основное преимущество заключается в своей способности обучаться на симуляционных моделях и применять это в реальном мире, что значительно сокращает время настройки и развитие новых приложений. ## Выводы Результаты исследования подтверждают, что систематическое использование моделей глубокого обучения в сочетании с симуляционными моделями может улучшить возможности захвата легкоходных роботов. Будущие исследования будут направлены на расширение области применения методологии и увеличение точности захвата в различных средах.

Annotation:

Quadruped robots have emerged as highly efficient and versatile platforms, excelling in navigating complex and unstructured terrains where traditional wheeled robots might fail. Equipping these robots with manipulator arms unlocks the advanced capability of loco-manipulation to perform complex physical interaction tasks in areas ranging from industrial automation to search-and-rescue missions. However, achieving precise and adaptable grasping in such dynamic scenarios remains a significant chall...

ID: 2508.17466v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Integrating Vision Foundation Models with Reinforcement Learning for Enhanced Object Interaction

2025-08-12

Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Область исследования, связанная с визуальным распознаванием и искусственным интеллектом, находится в центре внимания в последние годы из-за появления мощных моделей семантического визуального понимания. Однако, несмотря на развитие этих моделей, повышение качества взаимодействия с объектами в симуляционных средах остается вызовом. Обычно, агенты в таких средах сталкиваются с трудностями в распознавании и корректном взаимодействии с объектами из-за ограниченности их представления объектов. Мотивацией для данного исследования является повышение эффективности взаимодействия агента с объектами в симуляционной среде, чтобы позволить им выполнять более сложные задачи. ## Метод Разработанная методология включает в себя интеграцию двух ключевых компонентов: **Segment Anything Model (SAM)** и **YOLOv5** в качестве моделей визуального представления, а также **Proximal Policy Optimization (PPO)** в качестве агента для принятия решений. SAM и YOLOv5 используются для точного распознавания и сегментации объектов в симуляционной среде AI2-THOR. PPO, в свою очередь, оптимизирует поведение агента во время обучения с подкреплением. Основной архитектурой является комбинация этих моделей в одной среде, что позволяет агенту не только распознавать объекты, но и принимать решения о действиях на основе визуальных сигналов. ## Результаты На основе предложенной модели проведены эксперименты в четырех различных индорных кухонных средах. Результаты показали существенные улучшения по сравнению с базовым агентом, не использующим расширенное визуальное представление. Агент, использующий предложенную модель, показал 68% выше средней накопленной награды, 52,5% повышение успешности взаимодействия с объектами и 33% увеличение эффективности навигации. Эти показатели указывают на то, что интеграция визуальных моделей с RL может значительно повысить качество взаимодействия с объектами в симуляционных средах. ## Значимость Предложенный подход имеет широкие применения в сфере робототехники и симуляционных сред, где необходимо точное взаимодействие с объектами. Одним из преимуществ является улучшенная точность распознавания объектов и увеличение эффективности действий в среде. Это может привести к высокой точности и надежности в автоматизированных системах, например, в системах для сервисных роботов, которые должны решать задачи в различных условиях. Будущие исследования могут быть направлены на улучшение моделей визуального понимания и их интеграцию с другими методами задач RL. ## Выводы Предложенный подход, интегрирующий визуальные модели с RL, достиг зна

Annotation:

This paper presents a novel approach that integrates vision foundation models with reinforcement learning to enhance object interaction capabilities in simulated environments. By combining the Segment Anything Model (SAM) and YOLOv5 with a Proximal Policy Optimization (PPO) agent operating in the AI2-THOR simulation environment, we enable the agent to perceive and interact with objects more effectively. Our comprehensive experiments, conducted across four diverse indoor kitchen settings, demonst...

ID: 2508.05838v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY, 68T07, 68T40, 90C40, 93E35, I.2.6; I.2.9; I.2.10

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF