📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ViPRA: Video Prediction for Robot Actions

2025-11-15

Авторы:

Sandeep Routray, Hengkai Pan, Unnat Jain, Shikhar Bahl, Deepak Pathak

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Can we turn a video prediction model into a robot policy? Videos, including those of humans or teleoperated robots, capture rich physical interactions. However, most of them lack labeled actions, which limits their use in robot learning. We present Video Prediction for Robot Actions (ViPRA), a simple pretraining-finetuning framework that learns continuous robot control from these actionless videos. Instead of directly predicting actions, we train a video-language model to predict both future vis...

ID: 2511.07732v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision

2025-11-15

Авторы:

Sabrina Patania, Luca Annese, Anita Pellegrini, Silvia Serino, Anna Lambiase, Luca Pallonetto, Silvia Rossi, Simone Colombani, Tom Foulsham, Azzurra Ruggeri, Dimitri Ognibene

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in Large Language Models (LLMs) and multimodal foundation models have significantly broadened their application in robotics and collaborative systems. However, effective multi-agent interaction necessitates robust perspective-taking capabilities, enabling models to interpret both physical and epistemic viewpoints. Current training paradigms often neglect these interactive contexts, resulting in challenges when models must reason about the subjectivity of individual perspectives o...

ID: 2511.08098v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 RepV: Safety-Separable Latent Spaces for Scalable Neurosymbolic Plan Verification

2025-11-04

Авторы:

Yunhao Yang, Neel P. Bhatt, Pranay Samineni, Rohan Siva, Zhanyang Wang, Ufuk Topcu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As AI systems migrate to safety-critical domains, verifying that their actions comply with well-defined rules remains a challenge. Formal methods provide provable guarantees but demand hand-crafted temporal-logic specifications, offering limited expressiveness and accessibility. Deep learning approaches enable evaluation of plans against natural-language constraints, yet their opaque decision process invites misclassifications with potentially severe consequences. We introduce RepV, a neurosymbo...

ID: 2510.26935v1 cs.RO, cs.AI, cs.CL, cs.FL

arXiv PDF

📄 NavSpace: How Navigation Agents Follow Spatial Intelligence Instructions

2025-10-11

Авторы:

Haolin Yang, Yuxing Long, Zhuoyuan Yu, Zihan Yang, Minghan Wang, Jiapeng Xu, Yihan Wang, Ziyan Yu, Wenzhe Cai, Lei Kang, Hao Dong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Instruction-following navigation is a key step toward embodied intelligence. Prior benchmarks mainly focus on semantic understanding but overlook systematically evaluating navigation agents' spatial perception and reasoning capabilities. In this work, we introduce the NavSpace benchmark, which contains six task categories and 1,228 trajectory-instruction pairs designed to probe the spatial intelligence of navigation agents. On this benchmark, we comprehensively evaluate 22 navigation agents, inc...

ID: 2510.08173v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 SIMSplat: Predictive Driving Scene Editing with Language-aligned 4D Gaussian Splatting

2025-10-07

Авторы:

Sung-Yeon Park, Adam Lee, Juanwu Lu, Can Cui, Luyang Jiang, Rohit Gupta, Kyungtae Han, Ahmadreza Moradipari, Ziran Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Driving scene manipulation with sensor data is emerging as a promising alternative to traditional virtual driving simulators. However, existing frameworks struggle to generate realistic scenarios efficiently due to limited editing capabilities. To address these challenges, we present SIMSplat, a predictive driving scene editor with language-aligned Gaussian splatting. As a language-controlled editor, SIMSplat enables intuitive manipulation using natural language prompts. By aligning language wit...

ID: 2510.02469v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Simulation to Rules: A Dual-VLM Framework for Formal Visual Planning

2025-10-07

Авторы:

Yilun Hao, Yongchao Chen, Chuchu Fan, Yang Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision Language Models (VLMs) show strong potential for visual planning but struggle with precise spatial and long-horizon reasoning. In contrast, Planning Domain Definition Language (PDDL) planners excel at long-horizon formal planning, but cannot interpret visual inputs. Recent works combine these complementary advantages by enabling VLMs to turn visual planning problems into PDDL files for formal planning. However, while VLMs can generate PDDL problem files satisfactorily, they struggle to ac...

ID: 2510.03182v1 cs.RO, cs.AI, cs.CL, cs.SC

arXiv PDF

📄 See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

2025-09-30

Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости

Annotation:

We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...

ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving

2025-09-26

Авторы:

Pengxiang Li, Yinan Zheng, Yue Wang, Huimin Wang, Hang Zhao, Jingjing Liu, Xianyuan Zhan, Kun Zhan, Xianpeng Lang

## Контекст Современные автономные системы движения сталкиваются с рядом сложностей в обеспечении безопасности и эффективности поведения в реальном мире. Одним из ключевых аспектов является точная интерпретация информации среды, чтобы сформировать безопасные и оптимальные маршруты. Vision-Language-Action (VLA) модели, основанные на технологиях Vision-Language Models (VLMs), представляют собой отражение этой сложности, которая включает в себя глубокую интеграцию визуального, языкового и действительного пространства. Однако существующие подходы часто страдают от ограниченности имитационного обучения, недостаточной внедрения физических правил и высокой сложности в построении безопасных маршрутов. Наша работа ориентируется на решение этих проблем, особенно в условиях безопасности движения. ## Метод Мы предлагаем ReflectDrive, новую архитектуру, основанную на дискретной диффузии для рефлективного видения-языкового-действительного моделирования. Метод включает в себя несколько ключевых элементов: 1. **Дискретизация действительного пространства**: Мы превращаем двухмерное пространство вокруг автомобиля в кодебук действий, что позволяет использовать прогностические модели языка для планирования. 2. **Отражение (Reflection)**: Мы ввели безопасность-акцентированный механизм, который исправляет потенциальные неточности без необходимости расчетов производных. Этот механизм работает в цикле, применяя самокоррекцию. 3. **Целесообразное траекторирование**: Мы используем условное траекторирование, чтобы обеспечить многомодальность поведения. 4. **Локальный поиск**: Мы применяем локальный поиск для определения небезопасных токенов и используем интерполяцию для исправления. ## Результаты Мы провели эксперименты на NAVSIM, отражающем реальные условия автономного вождения. ReflectDrive показал существенные преимущества в сравнении с другими методами, особенно в сфере безопасности. Мы измерили следующие критерии: - **Безопасность**: ReflectDrive значительно снижает количество небезопасных ситуаций. - **Эффективность**: Метод работает быстрее, чем альтернативы, благодаря использованию дискретных моделей. - **Точность**: Результаты показали значительное улучшение в планировании маршрутов. ## Значимость Выводы данной работы могут быть применены в различных областях, включая автономную транспортную систему, системы безопасности дорог и управление роботами. Основные преимущества: - **Безопасность**: Метод предлагает новую модель для безопасного планирования маршрутов. - **Эффективность**: Использование дискретных моде

Annotation:

End-to-End (E2E) solutions have emerged as a mainstream approach for autonomous driving systems, with Vision-Language-Action (VLA) models representing a new paradigm that leverages pre-trained multimodal knowledge from Vision-Language Models (VLMs) to interpret and interact with complex real-world environments. However, these methods remain constrained by the limitations of imitation learning, which struggles to inherently encode physical rules during training. Existing approaches often rely on ...

ID: 2509.20109v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 HARMONIC: A Content-Centric Cognitive Robotic Architecture

2025-09-18

Авторы:

Sanjay Oruganti, Sergei Nirenburg, Marjorie McShane, Jesse English, Michael K. Roberts, Christian Arndt, Carlos Gonzalez, Mingyo Seo, Luis Sentis

## Контекст Исследование HARMONIC адресовано развитию нового поколения роботов, входящих в состав гуманоидных команд. Основной подход включает в себя развитие моделей, реализующих понимание смысла, осмысленные решения и языковое общение на подобие человеческого. Эти технологии позволяют роботам безопасно и эффективно сотрудничать с людьми в различных сферах, включая транспорт, промышленность, строительство, и улучшают качество жизни человеческого общества. Существующие системы могут оставлять желать лучшего в области безопасности, удобства и быстроты реакции на ситуации. Изучение и решение этих проблем становится ключевым мотивом этого исследования, нацеленного на создание безопасной и зрелой архитектуры роботов, обладающих прозрачностью и доверительным отношением к сотрудничеству. ## Метод HARMONIC архитектура носит семантический характер и состоит из нескольких модулей, которые обеспечивают комплексное понимание окружающей среды, нейро-эвристическое моделирование и нетерминированное поведение. Основные модули: (1) **Perception and Semantic Interpretation**, который обрабатывает значимость входных данных и их контекстуальную интерпретацию; (2) **Reasoning and Decision-Making**, который решает целевые задачи на основе логически-символических и нейронных моделей; (3) **Language Communication**, обеспечивающий логический вывод и языковой интерпретатор для обеспечения человечественного общения. Архитектура разрабатывается как модульная система, позволяющая удобной интеграции в различные модели роботов. ## Результаты Экспериментальные испытания проводились на двух роботизированных платформах: (1) **HARMONIC-based humanoid robot** и (2) **HARMONIC-based manipulator robot**. Эти роботы реализованы в симуляционной среде и на физических платформах, чтобы протестировать их возможности в реальном времени. Результаты показали, что HARMONIC успешно решает задачи понимания смысла, принятия решений и безопасного отношения к сотрудничеству. Эмоциональное моделирование и метакогнитивные возможности также подтвердили качественную работу архитектуры в гуманоидных ситуациях. ## Значимость HARMONIC может быть применена во многих областях, включая транспортное, производственное, здравоохранение, и жилищное хозяйство. Она обеспечивает безопасную и интеллектуальную систему, которая может работать в сложных и непредсказуемых средах. Надежность, доверие и прозрачность HARMONIC позволяют ей стать ключевым инструментом в развитии робототехники. Благодаря интеллектуальной интеграции, она оказывается эффективной для решения проблем нехватки данных и

Annotation:

This paper introduces HARMONIC, a cognitive-robotic architecture designed for robots in human-robotic teams. HARMONIC supports semantic perception interpretation, human-like decision-making, and intentional language communication. It addresses the issues of safety and quality of results; aims to solve problems of data scarcity, explainability, and safety; and promotes transparency and trust. Two proof-of-concept HARMONIC-based robotic systems are demonstrated, each implemented in both a high-fid...

ID: 2509.13279v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 DreamNav: A Trajectory-Based Imaginative Framework for Zero-Shot Vision-and-Language Navigation

2025-09-17

Авторы:

Yunheng Wang, Yuetong Fang, Taowen Wang, Yixiao Feng, Yawen Tan, Shuning Zhang, Peiran Liu, Yiding Ji, Renjing Xu

## Контекст Vision-and-Language Navigation in Continuous Environments (VLN-CE) является одной из ключевых функций для обеспечения взаимодействия облегчённых роботов с реальным миром. Она связывает языковые инструкции с восприятием и действиями в реальной среде. Несмотря на то, что последние годы данная область получила значительный прогресс, существуют трудности, связанные с ограниченным доступом к данным, высокой стоимостью восприятия и неэффективностью планирования. В попытках улучшить эти аспекты, данная работа предлагает инновационный подход, который нацелен на повышение точности и эффективности в VLN-CE. ## Метод DreamNav — это архитектура, основанная на прогностическом планировании, которая включает в себя три основных компонента: (1) **EgoView Corrector** для корректировки нарушений в зрении и улучшения его стабильности, (2) **Trajectory Predictor**, который реализует глобальное планирование на более высоком уровне, чтобы улучшить соответствие активности инструкциям, и (3) **Imagination Predictor**, который добавляет в систему прогностическую способность, позволяющую роботу предполагать дальнейшие действия на более длительные периоды времени. Эти компоненты объединены в единую систему, чтобы обеспечить более эффективное и точное взаимодействие робота с реальным миром. ## Результаты На основе экспериментов на VLN-CE и реальных тестах DreamNav показал выдающиеся результаты. Он завоевал новый zero-shot state-of-the-art (SOTA), повысив результаты по метрикам Success Rate (SR) и Success weighted by Path Length (SPL) на 7.49% и 18.15% соответственно, в сравнении с самым близким конкурентом, использующим дополнительную информацию. Эти результаты отвечают высоким стандартам эффективности и реалистичности в VLN-CE. ## Значимость Данный подход может быть применён в различных областях, включая робототехнику, виртуальную реальность и интеллектуальные системы управления. Он обеспечивает более точное планирование, экономичность в реализации и улучшенную стабильность. Таким образом, он открывает новые возможности для применения в реальном мире, улучшая качество и эффективность взаимодействия роботов с окружающим миром. ## Выводы Разработанная система DreamNav представляет собой новую модель zero-shot VLN, которая стабильно улучшает результаты в многих аспектах. В дальнейшем, авторы планируют расширить возможности данного подхода, ориентируясь на более сложные сценарии и более высокую степень интеграции с окружающим миром.

Annotation:

Vision-and-Language Navigation in Continuous Environments (VLN-CE), which links language instructions to perception and control in the real world, is a core capability of embodied robots. Recently, large-scale pretrained foundation models have been leveraged as shared priors for perception, reasoning, and action, enabling zero-shot VLN without task-specific training. However, existing zero-shot VLN methods depend on costly perception and passive scene understanding, collapsing control to point-l...

ID: 2509.11197v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

Показано 1 - 10 из 17 записей