📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ViPRA: Video Prediction for Robot Actions

2025-11-15

Авторы:

Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Can we turn a video prediction model into a robot policy? Videos, including those of humans or teleoperated robots, capture rich physical interactions. However, most of them lack labeled actions, which limits their use in robot learning. We present Video Prediction for Robot Actions (ViPRA), a simple pretraining-finetuning framework that learns continuous robot control from these actionless videos. Instead of directly predicting actions, we train a video-language model to predict both future vis...

ID: 2511.07732v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

2025-10-11

Авторы:

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Instruction-following navigation is a key step toward embodied intelligence. Prior benchmarks mainly focus on semantic understanding but overlook systematically evaluating navigation agents' spatial perception and reasoning capabilities. In this work, we introduce the NavSpace benchmark, which contains six task categories and 1,228 trajectory-instruction pairs designed to probe the spatial intelligence of navigation agents. On this benchmark, we comprehensively evaluate 22 navigation agents, inc...

ID: 2510.08173v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

2025-10-07

Авторы:

Sung-Yeon Park, Adam Lee, Juanwu Lu, Can Cui, Luyang Jiang, Rohit Gupta, Kyungtae Han, Ahmadreza Moradipari, Ziran Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Driving scene manipulation with sensor data is emerging as a promising alternative to traditional virtual driving simulators. However, existing frameworks struggle to generate realistic scenarios efficiently due to limited editing capabilities. To address these challenges, we present SIMSplat, a predictive driving scene editor with language-aligned Gaussian splatting. As a language-controlled editor, SIMSplat enables intuitive manipulation using natural language prompts. By aligning language wit...

ID: 2510.02469v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

2025-09-30

Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости

Annotation:

We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...

ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation

2025-09-17

Авторы:

Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE. ## Метод DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром. ## Результаты На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE. ## Значимость Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром. ## Выводы Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.

Annotation:

Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-l...

ID: 2509.11197v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-15

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по

Annotation:

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...

ID: 2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-13

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. #### Метод Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов. #### Результаты Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных. #### Значимость OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач. #### Выводы Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.

Annotation:

ID: 2509.09332v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2025-08-16

Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.

Annotation:

Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a met...

ID: 2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF