📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-15

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по

Annotation:

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...

ID: 2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-13

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. #### Метод Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов. #### Результаты Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных. #### Значимость OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач. #### Выводы Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.

Annotation:

ID: 2509.09332v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning

2025-09-13

Авторы:

Haozhan Li, Yuxin Zuo, Jiale Yu, Yuhao Zhang, Zhaohui Yang, Kaiyan Zhang, Xuekai Zhu, Yuchen Zhang, Tianxing Chen, Ganqu Cui, Dehui Wang, Dingxiang Luo, Yuchen Fan, Youbang Sun, Jia Zeng, Jiangmiao Pang, Shanghang Zhang, Yu Wang, Yao Mu, Bowen Zhou, Ning Ding

## Контекст Vision-Language-Action (VLA) модели стали мощным инструментом для проблематики robotic manipulation. Они объединяют в себе способности понимания текста, обработки изображений и реального взаимодействия с окружающим перворостком. Несмотря на успехи, полученные благодаря большим объемам предобучения и настройке под конкретные задачи (SFT), эти модели сталкиваются с двумя основными проблемами: 1. Ограниченность и высокая стоимость больших датасетов траекторий управления, полученных с помощью ручного управления. 2. Ограниченность в общепринятом понятии generalization, что приводит к необходимости стремительного роста размера обучающих данных. Эти проблемы подчеркивают необходимость развития новых подходов к обучению VLA-моделей, которые смогут справляться с этими недостатками. ## Метод SimpleVLA-RL представляет собой развитие идей RL в области обучения VLA-моделей. Существующие техники RL, такие как veRL, были адаптированы с учетом конкретных особенностей VLA-моделей. Набор оптимизаций включает в себя: 1. **Выборка траекторий**: Методы, нацеленные на эффективное получение траекторий, которые затем используются для обучения. 2. **Параллельность**: Распараллеливание процесса выборки траекторий для увеличения эффективности. 3. **Улучшенные стратегии эксплуатации**: Инновационные подходы, позволяющие модели открывать новые траектории и варианты поведения. 4. **Оптимизация вычислений**: Реализация эффективных вычислений для работы с большими датасетами. Эти методы были реализованы в SimleVLA-RL, создав эффективный инструмент для обучения VLA-моделей с учетом их специфики. ## Результаты Проведены эксперименты с применением SimpleVLA-RL к двум известным датасетам: OpenVLA-OFT и RoboTwin. Эти эксперименты подтвердили, что SimpleVLA-RL: 1. Существенно улучшает результаты по сравнению с состоянием технологии (SoTA) на LIBERO. 2. Опережает модели $\pi_0$ на RoboTwin 1.0 и 2.0, благодаря новым стратегиям эксплуатации. При этом модель показала способность находить новые, до этого неизвестные траектории в процессе обучения, что демонстрирует способность к новым, нестандартным решениям. ## Значимость SimpleVLA-RL демонстрирует практическое применение RL в области VLA-моделей, решая ключевые проблемы: 1. Уменьшение зависимости от больших датасетов. 2. Улучшение способности моделей к generalization. 3. Увеличение эффективности реального применения VLA-моделей в сложных сценариях. Эти достижения открывают путь к развитию более надежных и производительных моделей для robotic manipulation. ## Выводы SimpleVLA-RL доказывает, что RL может эффективно решать проблемы обучения VLA-моделей, снижая

Annotation:

Vision-Language-Action (VLA) models have recently emerged as a powerful paradigm for robotic manipulation. Despite substantial progress enabled by large-scale pretraining and supervised fine-tuning (SFT), these models face two fundamental challenges: (i) the scarcity and high cost of large-scale human-operated robotic trajectories required for SFT scaling, and (ii) limited generalization to tasks involving distribution shift. Recent breakthroughs in Large Reasoning Models (LRMs) demonstrate that...

ID: 2509.09674v1 cs.RO, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2025-08-27

Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Annotation:

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...

ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Using Natural Language for Human-Robot Collaboration in the Real World

2025-08-19

Авторы:

Peter Lindes, Kaoutar Skiker

## Контекст Современная технология развивается в графе создания автономных роботов, способных сотрудничать с людьми в процессе выполнения сложных задач в реальном мире. Одна из ключевых задач в этой области – обеспечение надежного естественноязыкового взаимодействия между роботом и человеком. Несмотря на то, что традиционные системы интерактивного обучения заданиям (Interactive Task Learning, ITL) могут обрабатывать некоторые типы задач с помощью ограниченного языкового понимания, их возможности остаются недостаточными для реализации полноценного естественноязыкового взаимодействия. В связи с этим появляется необходимость в развитии систем, использующих роль крупных языковых моделей (LLM), чтобы улучшить понимание естественного языка роботами. Но интеграция таких моделей в системы, работающие в физическом мире, представляет собой сложную задачу. Целью данного исследования является изучение способов создания роботов, способных естественно языковому общению, и оценка потенциальных преимуществ этого подхода. ## Метод Для достижения целей исследования использовался подход, основанный на использовании роботов с центральной системой управления AI Cognitive Agent, которая способствует пониманию естественного языка, взаимодействию с человеком и сбору ситуационного знания во время выполнения задач. Работа системы основывается на использовании LLM, такого как ChatGPT, для разбора и восприятия естественного языка. Основными этапами методологии являются: сбор и анализ данных, разработка методов обработки естественного языка, интеграция LLM в систему управления роботом, и проведение экспериментов для проверки модели. ## Результаты В рамках исследования были проведены несколько простых экспериментов, обосновавших возможность применения LLM для роботов. Например, с использованием ChatGPT было продемонстрировано, что модель может понимать и воспринимать простые команды, отвечать на вопросы, а также взаимодействовать с роботом в логическом порядке. Также были проведены проверки на возможности синтеза естественного языка, чтобы робот мог генерировать ответы на вопросы или команды в доступном формате. Эксперименты показали, что модель LLM может улучшить понимание роботами естественных команд, но требуется продолжительная работа над системой для улучшения точности и реакции на контекст. ## Значимость Результаты работы открывают новые возможности для использования роботов в реальном мире, где естественное взаимодействие с людьми становится ключом к успеху. Использование LLM позволяет роботу не только выполнять задачи, но и общаться с человеком в естественной форме, что увеличивает удобство испо

Annotation:

We have a vision of a day when autonomous robots can collaborate with humans as assistants in performing complex tasks in the physical world. This vision includes that the robots will have the ability to communicate with their human collaborators using language that is natural to the humans. Traditional Interactive Task Learning (ITL) systems have some of this ability, but the language they can understand is very limited. The advent of large language models (LLMs) provides an opportunity to grea...

ID: 2508.11759v1 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 CorrectNav: Self-Correction Flywheel Empowers Vision-Language-Action Navigation Model

2025-08-16

Авторы:

Zhuoyuan Yu, Yuxing Long, Zihan Yang, Chengyan Zeng, Hongwei Fan, Jiyao Zhang, Hao Dong

#### Контекст Визионно-языковое навигационное моделирование (VLA) широко применяется в сегменте развития искусственного интеллекта. Однако существующие модели часто спотыкаются при выполнении инструкций, теряя правильный путь. У них часто недостаточно силы для корректировки ошибок, что приводит к неточности или полной неуспешности выполнения. В этой статье мы рассматриваем эту проблему, сформулируя ее как центральную задачу, и предлагаем новую модель, которая может самостоятельно исправляться в процессе работы. #### Метод Мы предлагаем **Self-correction Flywheel** — пост-тренировочный подход, использующий ошибки модели в качестве ресурса. Данный подход включает в себя методы для определения и анализа ошибочных траекторий модели, а также механизмы для генерирования самокорректирующихся данных, которые улучшают модель при последовательных циклах обучения. Мы разработали модель CorrectNav, основанную на этих принципах. Модель использует монохромные RGB-изображения и получает инструкции на языке, выполняя целевую навигационную задачу. #### Результаты Мы провели эксперименты на двух бенчмарках: R2R-CE и RxR-CE. Наши эксперименты показали, что CorrectNav показывает новые рекорды в успешном навигационном выполнении — 65.1% на R2R-CE и 69.3% на RxR-CE. Эти результаты превосходят предыдущие модели на 8.2% и 16.4% соответственно. Также мы проверили модель на реальном роботе в различных внутренних и внешних средах, где она продемонстрировала значительные достижения в корректировке ошибок, избегании динамических препятствий и долгосрочном следовании инструкциям. #### Значимость Наша модель может быть использована в различных приложениях, таких как управление роботами, автономное перемещение транспортных средств и визуально-языковые приложения. Преимущества включают высокую точность, долгосрочную навигацию и способность самостоятельно корректироваться во время работы. Это может повлиять на развитие более надежных и удобных систем навигации в различных сферах. #### Выводы Мы демонстрируем силу нашего подхода в моделировании VLA и показываем, что он может стать основой для развития будущих моделей. Будущие исследования будут сфокусированы на расширении модели CorrectNav для более сложных и полимодальных задач навигации, а также на изучении ее поведения в более сложных и реальных средах.

Annotation:

Existing vision-and-language navigation models often deviate from the correct trajectory when executing instructions. However, these models lack effective error correction capability, hindering their recovery from errors. To address this challenge, we propose Self-correction Flywheel, a novel post-training paradigm. Instead of considering the model's error trajectories on the training set as a drawback, our paradigm emphasizes their significance as a valuable data source. We have developed a met...

ID: 2508.10416v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

2025-08-09

Авторы:

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Недавние достижения в области multimodal large language models (MLLMs) обеспечили богатый perceptual grounding для generation code policies в embodied agents. Однако, существующие системы часто не имеют эффективных механизмов для адаптивного мониторинга исполнения политик и исправления кода при выполнении задач. В данной работе мы предлагаем HyCodePolicy — гибридную языковую систему управления, которая систематически объединяет code synthesis, geometric grounding, perceptual monitoring и iterative repair в замкнутый цикл программирования для embodied agents. HyCodePolicy декомпозирует натуральные языковые инструкции на subgoals и генерирует исполняемый program, границы которого определяются object-centric geometric primitives. В ходе выполнения в simulation, vision-language model (VLM) идентифицирует и локализует execution failures, интерпретируя их причины. Объединение structured execution traces и VLM-based perceptual feedback позволяет HyCodePolicy исправлять program с минимальным human supervision. Наши результаты показывают, что HyCodePolicy существенно улучшает robustness и sample efficiency manipulation policies, предлагая scalable аппроксимацию multimodal reasoning в autonomous decision-making pipelines.

Annotation:

Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop p...

ID: 2508.02629v2 cs.RO, cs.AI, cs.CL

arXiv PDF

Показано 11 - 17 из 17 записей