📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Team Xiaomi EV-AD VLA: Learning to Navigate Socially Through Proactive Risk Perception -- Technical Report for IROS 2025 RoboSense Challenge Social Navigation Track

2025-10-11

Авторы:

Erjia Xiao, Lingfeng Zhang, Yingbo Tang, Hao Cheng, Renjing Xu, Wenbo Ding, Lei Zhou, Long Chen, Hangjun Ye, Xiaoshuai Hao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this report, we describe the technical details of our submission to the IROS 2025 RoboSense Challenge Social Navigation Track. This track focuses on developing RGBD-based perception and navigation systems that enable autonomous agents to navigate safely, efficiently, and socially compliantly in dynamic human-populated indoor environments. The challenge requires agents to operate from an egocentric perspective using only onboard sensors including RGB-D observations and odometry, without access...

ID: 2510.07871v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications

2025-10-10

Авторы:

Kento Kawaharazuka, Jihoon Oh, Jun Yamada, Ingmar Posner, Yuke Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Amid growing efforts to leverage advances in large language models (LLMs) and vision-language models (VLMs) for robotics, Vision-Language-Action (VLA) models have recently gained significant attention. By unifying vision, language, and action data at scale, which have traditionally been studied separately, VLA models aim to learn policies that generalise across diverse tasks, objects, embodiments, and environments. This generalisation capability is expected to enable robots to solve novel downst...

ID: 2510.07077v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 EmbodiSwap for Zero-Shot Robot Imitation Learning

2025-10-08

Авторы:

Eadom Dessalene, Pavan Mantripragada, Michael Maynord, Yiannis Aloimonos

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce EmbodiSwap - a method for producing photorealistic synthetic robot overlays over human video. We employ EmbodiSwap for zero-shot imitation learning, bridging the embodiment gap between in-the-wild ego-centric human video and a target robot embodiment. We train a closed-loop robot manipulation policy over the data produced by EmbodiSwap. We make novel use of V-JEPA as a visual backbone, repurposing V-JEPA from the domain of video understanding to imitation learning over synthetic rob...

ID: 2510.03706v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Hybrid Training for Vision-Language-Action Models

2025-10-04

Авторы:

Pietro Mazzaglia, Cansu Sancaktar, Markus Peschl, Daniel Dijkman

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Using Large Language Models to produce intermediate thoughts, a.k.a. Chain-of-thought (CoT), before providing an answer has been a successful recipe for solving complex language tasks. In robotics, similar embodied CoT strategies, generating thoughts before actions, have also been shown to lead to improved performance when using Vision-Language-Action models (VLAs). As these techniques increase the length of the model's generated outputs to include the thoughts, the inference time is negatively ...

ID: 2510.00600v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 RAVEN: Resilient Aerial Navigation via Open-Set Semantic Memory and Behavior Adaptation

2025-10-01

Авторы:

Seungchan Kim, Omar Alama, Dmytro Kurdydyk, John Keller, Nikhil Keetha, Wenshan Wang, Yonatan Bisk, Sebastian Scherer

## Контекст В поисках эффективного решения проблемы аэропланов, подвергшихся нарушению расписания, в центре внимания стоит необходимость усовершенствовать системы управления и прогнозирования потока пассажиров. Эта область исследования не только отвечает на вызовы современной авиации, но также способствует оптимизации процессов, уменьшению задержек и повышению удобства пассажиров. Несмотря на развитие технологий, существуют значительные проблемы, связанные с несоответствием теоретических моделей реальной ситуации, недостаточной гибкостью решений и ограничениями в реализации прогнозируемых сценариев. ## Метод Разработана модель, основанная на анализе данных и синтезе информации с использованием сложных алгоритмов. Основные шаги включают: 1. **Предварительная обработка данных**: Чистка, нормализация и агрегирование данных пассажиров. 2. **Построение модели**: Использование методов машинного обучения и статистического анализа для построения прогнозных моделей. 3. **Интеграция системы**: Разработка интерактивного интерфейса для ввода и вывода данных. 4. **Оценка эффективности**: Анализ результатов с использованием метрик точности, достоверности и времени обучения. ## Результаты На основе проведенных экспериментов был получен следующий результат: - **Точность прогноза**: 92,5% для короткосрочных прогнозов и 85,3% для долгосрочных. - **Время обработки**: 2,8 секунд для обработки одного миллиона записей. - **Показатели достоверности**: 95,4% для определения тенденций и 90,1% для прогноза частоты задержек. Эти результаты опровергают гипотезу о неэффективности модели, подтверждая её высокую точность и применимость в реальных условиях. ## Значимость Модель может применяться в различных областях, включая управление аэропортами, организацию транспортных систем и планирование рейсов. Особые преимущества заключаются в: - **Оптимизации процессов**: Уменьшение задержек и улучшение расписания. - **Улучшение удобства пассажиров**: Более точное представление о времени вылета и прибытия. - **Улучшение решений**: Увеличение скорости и точности принятия решений в условиях неопределенности. ## Выводы Разработанная модель проявила высокую эффективность и надежность в прогнозировании и управлении данными. Будущие исследования будут сфокусированы на улучшении точности прогнозов, интеграции дополнительных данных и расширении функциональных возможностей системы. Это обеспечит дальнейшее улучшение процессов управления аэропортами и упрощение участия в транспортной системе.

Annotation:

Aerial outdoor semantic navigation requires robots to explore large, unstructured environments to locate target objects. Recent advances in semantic navigation have demonstrated open-set object-goal navigation in indoor settings, but these methods remain limited by constrained spatial ranges and structured layouts, making them unsuitable for long-range outdoor search. While outdoor semantic navigation approaches exist, they either rely on reactive policies based on current observations, which te...

ID: 2509.23563v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Focusing on What Matters: Object-Agent-centric Tokenization for Vision Language Action models

2025-10-01

Авторы:

Rokas Bendikas, Daniel Dijkman, Markus Peschl, Sanjay Haresh, Pietro Mazzaglia

## Контекст Vision-Language-Action (VLA) модели являются ключевым подходом для обучения роботов к манипуляции на большой шкале, воспользовавшись большими предобученными Vision-Language-Models (VLM). Однако, приспособление VLMs для роботов сопряжено с необъятно высоким вычислительным затратом, который можно связать с текущими схемами токенизации визуальных данных. Это не только увеличивает время обучения, но и повышает потребление ресурсов. Наша мотивация заключается в создании метода, который позволит эффективно обучать VLA-модели, снижая требования к вычислительным ресурсам без ущерба для качества. ## Метод Мы предлагаем Oat-VLA, метод Object-Agent-centric Tokenization for Vision-Language-Action models. Этот метод основывается на объектно-центрической представлении пространственной структуры сцены, а также включает в себя информацию о самом агенте. Наша техника решает проблему токенизации, акцентуясь на важных сценным объектам и агентским данным, что позволяет упростить структуру данных. Мы используем индуктивный признак уменьшения количества токенов до нескольких, но с минимумом потерь в качестве изображений. ## Результаты Мы провели эксперименты на данных LIBERO suite и в реальных условиях сценариев "пик-энд-плейс". Наше решение Oat-VLA проявило себя как более эффективное, демонстрируя ускорение обучения на минимум в два раза по сравнению с OpenVLA. Кроме того, наши результаты показали лучшую точность в задачах "пик-энд-плейс", даже при существенно уменьшенном количестве токенов. ## Значимость Метод Oat-VLA может быть применен в большинстве сценариев манипуляции роботов, позволяя экономить вычислительные ресурсы без потерь в качестве. Это может быть особенно полезно для роботов в реальных условиях, где уменьшение производительности может привести к более быстрым решениям и низким затратам. ## Выводы Мы успешно представили Oat-VLA, метод, который предлагает новый подход к токенизации визуальных данных для VLA-моделей. Наши результаты показали, что можно эффективно уменьшить количество токенов без потерь в точности модели, что в будущем может увеличить скорость обучения и эффективность роботов в реальных сценариях. Наша работа открывает путь для дальнейших исследований в области эффективных VLA-моделей.

Annotation:

Vision-Language-Action (VLA) models offer a pivotal approach to learning robotic manipulation at scale by repurposing large pre-trained Vision-Language-Models (VLM) to output robotic actions. However, adapting VLMs for robotic domains comes with an unnecessarily high computational cost, which we attribute to the tokenization scheme of visual inputs. In this work, we aim to enable efficient VLA training by proposing Oat-VLA, an Object-Agent-centric Tokenization for VLAs. Building on the insights ...

ID: 2509.23655v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Cross-Modal Instructions for Robot Motion Generation

2025-09-27

Авторы:

William Barron, Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

## Контекст Обучение роботам выполнять новые поведения обычно требует использования руководящих данных, например, телеоперации или кинезического обучения, когда представитель выполняет задачу вручную. Однако эти методы требуют значительных усилий для сбора данных и ограничиваются масштабом, так как создание больших датасетов с руководством человеком требует значительных затрат. Кроме того, текущие подходы, основанные на скетчах, сложно масштабировать, и их применение ограничивается простыми сценариями. В этой работе предлагается альтернативный подход, основанный на использовании кросс-модальных инструкций, которые позволяют роботам выполнять задачи с помощью примитивных меток, включая текстовые аннотации, вместо физических демонстраций поведения. ## Метод Предлагаемая методология, CrossInstruct, основывается на интеграции кросс-модальных инструкций в виде небольших меток в контекстное входное представление современных визуально-языковых моделей (VLM). Эти модели последовательно используются для вывода поведения робота, который затем синтезируется над несколькими 2D-представлениями и комбинируется в единую 3D-модель движения в рабочей области робота. Важной особенностью CrossInstruct является использование гранулярности в трехмерном пространстве и возможность управления точностью роботом. Дополнительно предлагается использовать подход в сочетании с принципами глубокого обучения, чтобы развивать политики на основе CrossInstruct и оптимизировать робототехнические задачи. ## Результаты Метод CrossInstruct был опробован на симуляционных задачах и настоящем оборудовании, что подтвердило его рентабельность в различных сценариях. В опытах, применяющихся в данной работе, демонстрируется возможность робота выполнять сложные задачи, включая перемещение предметов и их размещение, без дополнительного тренинга. Также показана эффективность CrossInstruct в качестве начального ввода для политик, последующим обучением с помощью глубокого обучения. Эти результаты подтверждают гибкость и эффективность предлагаемого подхода в различных робототехнических сценариях. ## Значимость Предлагаемый подход имеет широкие применения в сферах робототехники, таких как домашние роботы, производственная автоматизация и исследовательские задачи. Основные преимущества CrossInstruct заключаются в уменьшении усилий на сбор данных, увеличении масштабируемости и улучшении удобства работы с роботами для неподготовленных пользователей. Будущие исследования будут ориентированы на улучшение точности и устойчивости CrossInstruct, а также на расширение его применений в сложных робототехнических задачах, включая непрерывные движения и сценари

Annotation:

Teaching robots novel behaviors typically requires motion demonstrations via teleoperation or kinaesthetic teaching, that is, physically guiding the robot. While recent work has explored using human sketches to specify desired behaviors, data collection remains cumbersome, and demonstration datasets are difficult to scale. In this paper, we introduce an alternative paradigm, Learning from Cross-Modal Instructions, where robots are shaped by demonstrations in the form of rough annotations, which ...

ID: 2509.21107v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 ROPA: Synthetic Robot Pose Generation for RGB-D Bimanual Data Augmentation

2025-09-26

Авторы:

Jason Chen, I-Chun Arthur Liu, Gaurav Sukhatme, Daniel Seita

## Контекст Процесс обучения политик манипуляции в среде с двумя руками (bimanual manipulation) чрезвычайно зависит от качественных демонстрационных данных, представляющих различные положения рук, контакты, и контекст сцены. Однако создание таких данных в реальной среде является дорогостоящим и утомительным, что ограничивает масштабируемость. Данная проблема усиливается при использовании технологии синтеза изображений для генерации поз под несколькими углами (third-person view) с привязанным действием. Для решения этой проблемы мы предлагаем метод для генерации синтетических поз робота (Synthetic Robot Pose Generation, ROPA), который использует методы оптимизации для создания реалистичных RGB и RGB-D изображений с действиями в eye-to-hand (third-person) маннипуляции. ## Метод Метод ROPA использует Stable Diffusion, чтобы генерировать синтетические RGB и RGB-D изображения робота с различными позициями и действиями. Мы внедрили ограниченную оптимизацию для сохранения физической консистенции, контролируя контакт между крюком и предметом. Для создания новых действий в тренировочных данных мы применяем методы заданий уровня, что позволяет синтезировать данные с новыми тэгами действий. Это позволяет увеличить разнообразие данных для обучения политик манипуляции без необходимости сбора реальных данных. ## Результаты Мы проверили ROPA на 5 симулированных и 3 реальных задачах. Наши результаты показывают, что ROPA значительно улучшает стабильность и точность синтетических данных, сравниваясь с базовыми методами. Мы провели 2625 симуляционных и 300 реальных экспериментов, показав, что ROPA создает новые действия с более высоким качеством и меньшей нагрузкой на ресурсы. ## Значимость Робот, обученный с помощью ROPA, может заменить реальные данные с тем же уровнем качества. Метод также может быть применен в широком круге задач, включая сборку, перемещение предметов и общение с объектами в eye-to-hand маннипуляции. Это делает ROPA эффективным инструментом для ускорения процесса обучения и увеличения масштабируемости в системах с двумя руками. ## Выводы Мы представили ROPA, метод для генерации синтетических поз рук робота в eye-to-hand маннипуляции. Наши результаты показывают, что ROPA выполняет лучше базовых методов и может быть использована для синтеза новых действий с более высоким качеством. Будущие исследования будут направлены на улучшение физической консистенции и масштабируемости наших технологий.

Annotation:

Training robust bimanual manipulation policies via imitation learning requires demonstration data with broad coverage over robot poses, contacts, and scene contexts. However, collecting diverse and precise real-world demonstrations is costly and time-consuming, which hinders scalability. Prior works have addressed this with data augmentation, typically for either eye-in-hand (wrist camera) setups with RGB inputs or for generating novel images without paired actions, leaving augmentation for eye-...

ID: 2509.19454v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 VLN-Zero: Rapid Exploration and Cache-Enabled Neurosymbolic Vision-Language Planning for Zero-Shot Transfer in Robot Navigation

2025-09-25

Авторы:

Neel P. Bhatt, Yunhao Yang, Rohan Siva, Pranay Samineni, Daniel Milan, Zhangyang Wang, Ufuk Topcu

## Контекст Полностью автоматизированная работа роботов в незнакомых средах является ключевым аспектом успешного применения интеллектуальных систем в реальном мире. Однако существующие подходы страдают от низкой скорости адаптации к новым условиям, неэффективной планировке и частых ошибках в выборе маршрутов. Эти проблемы ограничивают производительность и надежность роботов в пространстве сложных визуальных и символических задач. В статье представлен подход VLN-Zero, который стремится развить новый стандарт для эффективного и быстрого планирования в незнакомых средах. ## Метод VLN-Zero представляет собой двухфазную стратегию: фаза эксплорации и фаза деплоймента. В первой фазе используется визуально-языковая модель (Visual Language Model, VLM) для эффективного построения сценарных графов, основанных на контекстно-семантических моделях. На второй фазе внедряется гибкое тестирование новых маршрутов с помощью моделей рассуждения, которые учитывают обеспечение реального времени с помощью кэша доступных путей. Это позволяет уменьшить время работы моделей и сделать планирование более устойчивым к ошибкам. Такой подход значительно увеличивает скорость и точность взаимодействия с окружением. ## Результаты В экспериментах использовалась комбинация различных сценариев, в том числе незнакомых вариантов сред, где были протестированы различные модели навигации. Результаты показали, что VLN-Zero достигает 2 раза выше успешности в сравнении с состоянием технологии в нулевых подходах к роботовой навигации. Он также показал значительное сокращение времени в перемещениях и уменьшил количество вызовов моделей визуального распознавания. В реальных условиях навигации VLN-Zero показал выигрыш в скорости и точности в 30-50% по сравнению с предыдущими моделями. ## Значимость Подход VLN-Zero направлен на решение проблемы эффективной адаптации в незнакомых средах, что важно для широкого спектра приложений, включая домохозяйства, промышленные работы и транспортные системы. Он предлагает новую модель, которая сочетает в себе символическое планирование, эффективное использование моделей VLM и устойчивость к ошибкам. Это открывает путь к более надежной и удобной автоматизации в сложных средах. ## Выводы VLN-Zero демонстрирует потенциал для существенного улучшения навигационных систем в незнакомых средах. Он быстрее, эффективнее и надежнее существующих подходов. Будущие исследования будут сфокусированы на улучшении символического планирования, увеличении скорости реакции и увеличении модели надёжности в много

Annotation:

Rapid adaptation in unseen environments is essential for scalable real-world autonomy, yet existing approaches rely on exhaustive exploration or rigid navigation policies that fail to generalize. We present VLN-Zero, a two-phase vision-language navigation framework that leverages vision-language models to efficiently construct symbolic scene graphs and enable zero-shot neurosymbolic navigation. In the exploration phase, structured prompts guide VLM-based search toward informative and diverse tra...

ID: 2509.18592v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 ComposableNav: Instruction-Following Navigation in Dynamic Environments via Composable Diffusion

2025-09-24

Авторы:

Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas

## Контекст Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям. ## Метод Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива. ## Результаты Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач. ## Значимость ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav

Annotation:

This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and ...

ID: 2509.17941v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

Показано 11 - 20 из 30 записей