📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Verifier-free Test-Time Sampling for Vision Language Action Models

2025-10-09

Авторы:

Suhyeok Jang, Dongyoung Kim, Changyeon Kim, Youngsuk Kim, Jinwoo Shin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision-Language-Action models (VLAs) have demonstrated remarkable performance in robot control. However, they remain fundamentally limited in tasks that require high precision due to their single-inference paradigm. While test-time scaling approaches using external verifiers have shown promise, they require additional training and fail to generalize to unseen conditions. We propose Masking Distribution Guided Selection (MG-Select), a novel test-time scaling framework for VLAs that leverages the ...

ID: 2510.05681v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks

2025-10-08

Авторы:

Zheng Xiong, Kang Li, Zilin Wang, Matthew Jackson, Jakob Foerster, Shimon Whiteson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Built upon language and vision foundation models with strong generalization ability and trained on large-scale robotic data, Vision-Language-Action (VLA) models have recently emerged as a promising approach to learning generalist robotic policies. However, a key drawback of existing VLAs is their extremely high inference costs. In this paper, we propose HyperVLA to address this problem. Unlike existing monolithic VLAs that activate the whole model during both training and inference, HyperVLA use...

ID: 2510.04898v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 TGPO: Temporal Grounded Policy Optimization for Signal Temporal Logic Tasks

2025-10-05

Авторы:

Yue Meng, Fei Chen, Chuchu Fan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Learning control policies for complex, long-horizon tasks is a central challenge in robotics and autonomous systems. Signal Temporal Logic (STL) offers a powerful and expressive language for specifying such tasks, but its non-Markovian nature and inherent sparse reward make it difficult to be solved via standard Reinforcement Learning (RL) algorithms. Prior RL approaches focus only on limited STL fragments or use STL robustness scores as sparse terminal rewards. In this paper, we propose TGPO, T...

ID: 2510.00225v1 cs.RO, cs.AI, cs.LG, cs.LO

arXiv PDF

📄 Physics-Informed Neural Controlled Differential Equations for Scalable Long Horizon Multi-Agent Motion Forecasting

2025-10-04

Авторы:

Shounak Sural, Charles Kekeh, Wenliang Liu, Federico Pecora, Mouhacine Benosman

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Long-horizon motion forecasting for multiple autonomous robots is challenging due to non-linear agent interactions, compounding prediction errors, and continuous-time evolution of dynamics. Learned dynamics of such a system can be useful in various applications such as travel time prediction, prediction-guided planning and generative simulation. In this work, we aim to develop an efficient trajectory forecasting model conditioned on multi-agent goals. Motivated by the recent success of physics-g...

ID: 2510.00401v1 cs.RO, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

2025-10-04

Авторы:

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Learning robotic manipulation policies through supervised learning from demonstrations remains challenging when policies encounter execution variations not explicitly covered during training. While incorporating historical context through attention mechanisms can improve robustness, standard approaches process all past states in a sequence without explicitly modeling the temporal structure that demonstrations may include, such as failure and recovery patterns. We propose a Cross-State Transition...

ID: 2510.00726v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 INSIGHT: INference-time Sequence Introspection for Generating Help Triggers in Vision-Language-Action Models

2025-10-04

Авторы:

Ulas Berk Karli, Ziyao Shangguan, Tesca FItzgerald

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent Vision-Language-Action (VLA) models show strong generalization capabilities, yet they lack introspective mechanisms for anticipating failures and requesting help from a human supervisor. We present \textbf{INSIGHT}, a learning framework for leveraging token-level uncertainty signals to predict when a VLA should request help. Using $\pi_0$-FAST as the underlying model, we extract per-token \emph{entropy}, \emph{log-probability}, and Dirichlet-based estimates of \emph{aleatoric and epistemi...

ID: 2510.01389v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 OmniRetarget: Interaction-Preserving Data Generation for Humanoid Whole-Body Loco-Manipulation and Scene Interaction

2025-10-02

Авторы:

Lujie Yang, Xiaoyu Huang, Zhen Wu, Angjoo Kanazawa, Pieter Abbeel, Carmelo Sferrazza, C. Karen Liu, Rocky Duan, Guanya Shi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A dominant paradigm for teaching humanoid robots complex skills is to retarget human motions as kinematic references to train reinforcement learning (RL) policies. However, existing retargeting pipelines often struggle with the significant embodiment gap between humans and robots, producing physically implausible artifacts like foot-skating and penetration. More importantly, common retargeting methods neglect the rich human-object and human-environment interactions essential for expressive locom...

ID: 2509.26633v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Space Robotics Bench: Robot Learning Beyond Earth

2025-10-01

Авторы:

Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

## Контекст Рост интенсивности исследований в области космических поисков и колонизации запускает новые вызовы для развития надежных автономных систем, которые могут эффективно функционировать в необычных и труднопредсказуемых клетных условиях. Одним из ключевых затруднений является недостаточность доступного исследовательского материала, а также высокая стоимость экспериментов в реальных условиях. Наблюдается недостаток системного понимания, каким образом роботы могут учиться в таких условиях, что делает невозможным практическое применение машинного обучения в космических задачах. Для решения этих проблем требуется разработка инструментов, позволяющих создавать и исследовать широкие разнообразия обучающихся распределений для роботов, продемонстрировав способность этих методов к реальной операции. ## Метод Space Robotics Bench представляет собой открытую симуляционную платформу, которая сочетает модульную архитектуру с возможностью процедурного генерирования на запрос и масштабируемым параллельным моделированием. Данная платформа позволяет разработчикам создавать богатые и разнообразные обучающие распределения, которые являются ключевым фактором для развития методов машинного обучения. Также, платформа включает комплект бенчмарков, охватывающих различные аспекты клетных задач, что делает ее идеальной для исследования проблем универсальности, контроля, полностью зрительной обработки и перехода от симуляции к реальному миру. ## Результаты На платформе проводились эксперименты с использованием стандартных алгоритмов машинного обучения, с последующим анализом их результатов. Данные эксперименты становятся основой для определения базовых значений для различных задач, таких как универсальность, конечно-точный метод обучения, адаптивное управление и переход от моделирования к реальной среде. Результаты показали, что методы могут быть успешно применены для развития систем, которые могут оперировать в реальных условиях, при этом освещаются ограничения текущих подходов и возможности их усовершенствования. ## Значимость Space Robotics Bench может быть использована в различных областях, включая разработку автономных систем для космических миссий, в том числе для исследований на луне, Марсе и других планетах. Ее основные преимущества заключаются в том, что она обеспечивает широкий доступ к симулятору, позволяющему проводить эксперименты в условиях мелкого и колоссального разнообразия задач. Это не только способствует продвижению науки в области космических систем, но и способствует созданию более устойчивых и надежных систем, которые могу

Annotation:

The growing ambition for space exploration demands robust autonomous systems that can operate in unstructured environments under extreme extraterrestrial conditions. The adoption of robot learning in this domain is severely hindered by the prohibitive cost of technology demonstrations and the limited availability of data. To bridge this gap, we introduce the Space Robotics Bench, an open-source simulation framework for robot learning in space. It offers a modular architecture that integrates on-...

ID: 2509.23328v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Multi-Modal Manipulation via Multi-Modal Policy Consensus

2025-10-01

Авторы:

Haonan Chen, Jiaming Xu, Hongyu Chen, Kaiwen Hong, Binghao Huang, Chaoqi Liu, Jiayuan Mao, Yunzhu Li, Yilun Du, Katherine Driggs-Campbell

## Контекст Роботическая манипуляция требует эффективного интегрирования различных видов сенсорной информации, чтобы обеспечить стабильность и точность действий. Однако существующие подходы, такие как конкатенация фичей, часто оказываются неэффективными. Доминирующие модальности, такие как визуальная, могут подавлять менее заметные, но критичные сигналы, такие как тактильные. Более того, существующие модели не могут гибко приспособиться к новым модальностям или отсутствию существующих без переучения. Это приводит к неэффективности и нестабильности при мультимодальном манипулировании. Наша модель предлагает решение этой проблемы, используя многомодальную архитектуру, которая разделяет политику на отдельные модели для каждой модальности и использует адаптивный механизм для объединения их вкладов. ## Метод Мы предлагаем мультимодальную модель, основанную на диффузионных моделях, каждая из который отвечает за вывод одной конкретной модальности (например, визуальная или тактильная). Эти модели объединяются с помощью роутера, который вычисляет веса для каждой модальности в зависимости от задачи и условий. Это позволяет модели адаптироваться к новым или отсутствующим модальностям без необходимости переучиваться. Мы также используем аппаратные модели для симуляционных и реальных экспериментов, чтобы проверить эффективность наших подходов. ## Результаты В симуляционных экспериментах на RLBench, наши результаты показывают существенное превосходство над базовыми методами конкатенации фичей, особенно в задачах, требующих мультимодального разума. Мы также провели ряд реальной роботической манипуляции, включая задачи, такие как п selecting objects in clutter, in-hand spoon reorientation, и puzzle insertion. Модель показала высокую устойчивость к физическим помехам и помехам в сенсоре, что демонстрирует надежность в реальных условиях. Был проведен анализ важности модальностей, который показал, что модель адаптирует веса модальностей в зависимости от задачи и условий, чтобы максимально эффективно использовать информацию. ## Значимость Наш подход имеет широкие применения в области роботического манипулирования, особенно в задачах, требующих точности и реагирования на многочисленные сенсорные данные. Он предлагает значительные преимущества, такие как высокая гибкость, эффективность и устойчивость. Мы предоставляем потенциал для перевода этого подхода в промышленность, а также для расширения возможностей в реальном времени для более точного манипулирования, которое может иметь значительный вклад в развитие робототехники. ## Выводы Мы представили многомодальный подход к

Annotation:

Effectively integrating diverse sensory modalities is crucial for robotic manipulation. However, the typical approach of feature concatenation is often suboptimal: dominant modalities such as vision can overwhelm sparse but critical signals like touch in contact-rich tasks, and monolithic architectures cannot flexibly incorporate new or missing modalities without retraining. Our method factorizes the policy into a set of diffusion models, each specialized for a single representation (e.g., visio...

ID: 2509.23468v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Sequence Pathfinder for Multi-Agent Pickup and Delivery in the Warehouse

2025-10-01

Авторы:

Zeyuan Zhao, Chaoran Li, Shao Zhang, Ying Wen

## Контекст Multi-Agent Pickup and Delivery (MAPD) является усложненной формой Multi-Agent Path Finding (MAPF), требующей от агентов выполнять задачи с фиксированными точками подбора и доставки в последовательном порядке. Хотя learning-based методы демонстрируют улучшения в MAPD, они часто сталкиваются с проблемами в сложных средах, таких как хранилища, с узкими проходами и длинными коридорами. Эти окружения требуют сильной связности и глобального видения, но ограниченность локальных сенсоров и точечная связь в локальной модели не позволяют эффективно решить эти проблемы. В настоящей работе мы исследуем возможности применения моделей последовательностей для MAPD и доказываем, что подходы, основанные на sequence modeling, обладают order-invariant optimality, делая их применимыми для MAPD. Этот подход позволяет существенно уменьшить вычислительную сложность и заменить точечную связь на модель связи с широким покрытием. ## Метод Мы предлагаем Sequential Pathfinder (SePar), основанный на Transformer-парадигме, чтобы решить задачу MAPD. Модель SePar использует self-attention механизмы для implicit information exchange, обеспечивая глобальное видение и эффективное дистрибутивное распределение решений. Эта модель преобразует сложность вычислений из экспоненциальной в линейную, ускоряя решение в сложных средах. SePar также включает imitation learning в сложных задачах, таких как warehouse-like среды, что позволяет повысить точность и скорость решения, даже при недостаточном обучении на реальных данных. ## Результаты В экспериментах мы сравнили SePar с другими state-of-the-art методами в MAPD на разных наборах данных. Результаты показали, что SePar постоянно демонстрирует лучшие результаты в MAPD и их вариациях, превосходя другие learning-based методы в скорости и точности. Более того, SePar показал гибкость в общении с новыми, неизвестными средами и выполнении задач, которые приводят к коллизиям в стандартных подходах. ## Значимость Предлагаемый подход может быть применен в различных сложных средах, таких как роботов-дроны, автономные автомобили и warehouse management. Он предлагает существенные преимущества, включая снижение затрат на вычисления, увеличение скорости решения и гибкость в различных окружениях. Это может привести к улучшению производительности в задачах многоагентного управления в робототехнике и логистике. ## Выводы Мы доказали, что sequence modeling является эффективным подходом для MAPD и что SePar может быть значительным шагом в решении MAPD в warehouse-like средах. Наша модель показала лучшие результаты в сравнении с другими методами и обеспечила гибкость в работе с новыми средами. Будущие исследования будут направлены на дальнейшее улучшение модели и ее применение в задачах робототехнического управления.

Annotation:

Multi-Agent Pickup and Delivery (MAPD) is a challenging extension of Multi-Agent Path Finding (MAPF), where agents are required to sequentially complete tasks with fixed-location pickup and delivery demands. Although learning-based methods have made progress in MAPD, they often perform poorly in warehouse-like environments with narrow pathways and long corridors when relying only on local observations for distributed decision-making. Communication learning can alleviate the lack of global inform...

ID: 2509.23778v2 cs.RO, cs.AI, cs.LG, cs.MA

arXiv PDF

Показано 51 - 60 из 104 записей