📚 Саммари научных статей из arXiv

Найдено 544 результатов по запросу 'cs.RO, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

2025-10-01

Авторы:

Jan Ole von Hartz, Lukas Schweizer, Joschka Boedecker, Abhinav Valada

#### Контекст Роботизированная манипуляция является ключевым аспектом развития интеллектуальных систем, но ее эффективность зависит от качества и эффективности порождающих политик. Одним из основных вызовов является сочетание гибкости и высокой эффективности в использовании данных. Несмотря на развитие подходов, таких как Flow Matching, которые предлагают гибкую генерирующую политику, они часто сталкиваются с проблемой высокой неэффективности при изучении на основе данных. В то же время, объектно-центрированные политики способствуют улучшению эффективности обучения, но не решают проблему с применением в различных сценариях. Мы предлагаем Multi-Stream Generative Policy (MSG) — расширяемую рамку для создания политик, которая объединяет несколько объектно-центрированных политик во время выполнения, чтобы улучшить их общеупотребляемость и эффективность обучения. #### Метод MSG — это модель-агностичная и инференционно-только рамка, которая объединяет несколько объектно-центрированных политик. Основоположником этого подхода является идея обеспечения гибкости при обучении, которая достигается через разделение политики на несколько потоков, каждый из которых отвечает за определенный аспект обучения. Эти потоки могут быть обучены независимо, что позволяет максимально эффективно использовать ресурсы. Затем, во время выполнения, они комбинируются в единую политику, делая ее более гибкой и устойчивой к новым ситуациям. Это решение позволяет улучшить общую точность и уменьшить количество необходимых данных для обучения. #### Результаты Мы проверили MSG на различных симуляционных и реальных задачах, включая задачи по манипуляции предметов. Мы показали, что наша политика может быть обучена из лишь пяти демонстраций, что сокращает необходимое количество данных в 95%. Затем мы сравнили результаты с однопоточными политиками, показав улучшение эффективности почти на 89%. Мы также провели абляционные исследования, исследуя различные стратегии сложения потоков, что позволило нам выявить наиболее эффективную конфигурацию. Эти эксперименты подтвердили, что MSG может генерировать качественные политики с минимальным количеством данных, что делает ее привлекательной для применения в реальной жизни. #### Значимость MSG представляет собой значительный перспективный подход в области порождающих политик, которые используются в роботизированных системах. Его основное преимущество заключается в том, что он может эффективно сочетать политики разных типов, что обеспечивает улучшение общей точности и уменьшает необходимое количество данных для обучения. Это увеличивает его применяемость в различных сценариях, вкл

Annotation:

Generative robot policies such as Flow Matching offer flexible, multi-modal policy learning but are sample-inefficient. Although object-centric policies improve sample efficiency, it does not resolve this limitation. In this work, we propose Multi-Stream Generative Policy (MSG), an inference-time composition framework that trains multiple object-centric policies and combines them at inference to improve generalization and sample efficiency. MSG is model-agnostic and inference-only, hence widely ...

ID: 2509.24956v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 AIRoA MoMa Dataset: A Large-Scale Hierarchical Dataset for Mobile Manipulation

2025-10-01

Авторы:

Ryosuke Takanami, Petr Khrapchenkov, Shu Morikuni, Jumpei Arima, Yuta Takaba, Shunsuke Maeda, Takuya Okubo, Genki Sano, Satoshi Sekioka, Aoi Kadoya, Motonari Kambara, Naoya Nishiura, Haruto Suzuki, Takanori Yoshimoto, Koya Sakamoto, Shinnosuke Ono, Hu Yang, Daichi Yashima, Aoi Horo, Tomohiro Motoda, Kensuke Chiyoma, Hiroshi Ito, Koki Fukuda, Akihito Goto, Kazumi Morinaga, Yuya Ikeda, Riko Kawada, Masaki Yoshikawa, Norio Kosuge, Yuki Noguchi, Kei Ota, Tatsuya Matsushima, Yusuke Iwasawa, Yutaka Matsuo, Tetsuya Ogata

## Контекст Мобильная манипуляция роботов представляет собой ключевую задачу в рамках интеллектуальных систем-роботов, целью которых является полноценное взаимодействие с объектами в неуправляемой среде. Несмотря на успехи в развитии технологий контроля и распознавания объектов, устойчивая манипуляция с использованием силы остается вызовом. Основной проблемой является нехватка данных, которые могли бы помочь в развитии алгоритмов, подходящих для решения реальных задач. Эксперименты показывают, что достижение высокого уровня регистрации изображений, синхронизации данных наборов движений и силовых сигналов является затруднительным, что негативно сказывается на точности и надёжности моделей. Необходима большомасштабная датасет для мобильной манипуляции, который бы позволил развитию роботов с полноценной реагированием на лангуаж и рукопожатия в реальном мире. ## Метод Для получения данных был использован робот **Human Support Robot (HSR)**, который производил различные манипуляции в реальной среде. Данные были собраны с помощью различных сенсоров, включая RGB-камеры, силовые сигналы и сигналы вращения угловых моментов. Для управления роботом использовались сигналы видео, созданные на основе технологии глубокого обучения. Для синхронизации изображений и данных силы использовалась особая методика, позволяющая получать высококачественные данные в реальном времени. Было реализовано два уровня аннотаций: подзадачи и примитивные действия, которые помогают в анализе и оптимизации алгоритмов. Датасет был стандартизирован в формате **LeRobot v2.1**, что обеспечивает единообразие данных и упрощает их использование в разных задачах. ## Результаты Для создания датасета были собраны 25,469 эпизодов, которые составляют примерно 94 часов работы робота в различных условиях. Данные включают RGB-кадры, сигналы наборов движений и сигналы силы, а также внутренние сигналы робота. Аннотации датасета позволяют выделить подзадачи и примитивные действия, что позволяет оценивать точность и надёжность моделей. Результаты экспериментов показали, что данный датасет позволяет существенно повысить точность и надёжность алгоритмов, превращая их в лучшую версию. Результаты получены на основе синхронизации данных и их анализа в реальном времени. ## Значимость Датасет **AIRoA MoMa** имеет широке применение в развитии технологий мобильной манипуляции. Он может быть использован для обучения роботов к работе в реальных условиях, а также для проверки возможностей и ограничений существующих моделей. Особенно важно синхронизированное визуально-силовое

Annotation:

As robots transition from controlled settings to unstructured human environments, building generalist agents that can reliably follow natural language instructions remains a central challenge. Progress in robust mobile manipulation requires large-scale multimodal datasets that capture contact-rich and long-horizon tasks, yet existing resources lack synchronized force-torque sensing, hierarchical annotations, and explicit failure cases. We address this gap with the AIRoA MoMa Dataset, a large-sca...

ID: 2509.25032v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 MimicDreamer: Aligning Human and Robot Demonstrations for Scalable VLA Training

2025-09-30

Авторы:

Haoyun Li, Ivan Zhang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Zhiqin Yang, Zhentao Zhang, Boyuan Wang, Chaojun Ni, Wenkang Qin, Xinze Chen, Yun Ye, Guan Huang, Zhenbo Song, Xingang Wang

#### Контекст В области визуально-языковой активности (Vision Language Action, VLA) существует необходимость в больших и разнообразных наборах данных для эффективной политической подготовки. Однако собирать данные с реальных роботов остается дорогостоящим и трудоемким процессом. Вместо этого, видео-демонстрации людей набирают всё большую популярность в качестве стоимостно эффективных и масштабируемых вариантов для обучения VLA. Тем не менее, всё до сих пор существует существенный доменный шаг между видео, снятыми с людей, и видео, собранными с роботов. Эти различия включают в себя нестабильные точки зрения камеры, различия в визуальном восприятии рук людей и роботских курсоров, а также отличия в динамике движения. Наша цель — разработать метод, который бы превращал бы дешевые и быстрые демонстрации людей в робот-ориентированную наблюдательную подготовку, способную поддерживать политическую обучение. #### Метод Мы предлагаем MimicDreamer, фреймворк, который преобразовывает быстрые и низкостоимостные демонстрации людей в робот-подходящую наблюдательную подготовку. Для визуального выравнивания мы предлагаем H2R Aligner, видео-диффузионный модель, которая генерирует высококачественные робот-демонстрационные видео, передавая движение из кадров с человеческими манипуляциями. Для стабилизации точки зрения мы предлагаем EgoStabilizer, который канонизирует эгоцентрические видео с помощью гомографии и инпаинтит оккультации и деформации, вызванные этим процессом. Для выравнивания действий мы сопоставляем траектории человеческих пальцев к роботской системе координат и применяем ограниченный решатель обратной кинематики для производения бесшовных, мало-чихущих команд с точным положением. #### Результаты Мы использовали наши синтезированные видео-демонстрации людей-роботами для обучения VLA-моделей. Эти модели показали впечатляющие результаты в шести представительных манипуляционных задачах, считая роботом-управляемыми реальными роботами. Наши результаты показали увеличение процента успешных испытаний на 14,7% по сравнению с моделями, обученными только на традиционных роботских данных. Мы также показали, что наши синтезированные данные могут быть использованы для масштабного обучения VLA-моделей на основе новых человеческих демонстраций, снизив стоимость и ускорив процесс подготовки к политике. #### Значимость Мы видим применение нашего подхода в различных областях, включая автоматизацию, робототехнику, интерактивные системы, и даже развитие систем помощи для инвалидов. Мы предоставляем новый с

Annotation:

Vision Language Action (VLA) models derive their generalization capability from diverse training data, yet collecting embodied robot interaction data remains prohibitively expensive. In contrast, human demonstration videos are far more scalable and cost-efficient to collect, and recent studies confirm their effectiveness in training VLA models. However, a significant domain gap persists between human videos and robot-executed videos, including unstable camera viewpoints, visual discrepancies bet...

ID: 2509.22199v2 cs.RO, cs.AI

arXiv PDF

📄 Leveraging Large Language Models for Robot-Assisted Learning of Morphological Structures in Preschool Children with Language Vulnerabilities

2025-09-30

Авторы:

Stina Sundstedt, Mattias Wingren, Susanne Hägglund, Daniel Ventus

## Контекст Область исследования сосредоточена на развитии новых подходов к робот-помощникам в обучении детей с языковыми затруднениями. Дети с развитием языковых нарушений или иммигрантскими языковыми вызовами часто нуждаются в поддержке для укрепления своих выразительных языковых навыков. Традиционно, специалисты-логопеды используют имплицитное обучение, внедряя целевые морфологические структуры (например, форма третьего лица в английском "he wears") в повседневные интеракции или игровые мероприятия. Однако этот подход требует глубокого знания языка и способности лекторов в реальном времени сформировать различные морфологические формы, что особенно сложно в игровых сценариях, где необходимо сохранять вовлечение детей и контролировать обмен очередями. Таким образом, целью проекта TalBot является разработка нового подхода, использующего робота-гуманоида Furhat, который играет в игру "Alias" с детьми, чтобы помочь им сформировать языковые навыки. Однако новый вариант использования робота заключается в том, чтобы использовать Large Language Model (LLM) для доставки конкретных морфологических целей во время игры. ## Метод Проект TalBot использует LLM для управления игрой, диалогом, воaffective responses, а также для роли в обмене очередями. Для этого робот Furhat использует текстовую речь и графический интерфейс для взаимодействия с детьми. Метод состоит в том, чтобы использовать модель языка для подбора морфологических форм, которые будут включены в игровую деятельность. Большая часть работы в этом проекте состоит в создании динамичного сценария, который может адаптироваться к разным уровням знаний детей и учитывать их индивидуальные предпочтения. Также, игра "Alias" требует точного контроля за ходом игры, чтобы оперативно реагировать на действия детей и вносить исправления в процессе. Для этого используются технологии обработки естественного языка и машинного обучения. ## Результаты В ходе испытаний с роботом Furhat, который играл в игру "Alias" с детьми, было зарегистрировано, что робот может эффективно включать морфологические формы в игровой процесс без дополнительных усилий от специалистов. Он может динамически адаптироваться к уровню участников и учитывать их медленные или быстрые отклики. Также было зарегистрировано, что дети были вовлечены в игру и быстро начали работать с морфологическими формами, которые были намечены роботом. Статистические данные показывают, что дети, участвующие в игре с роботом, существенно улучшили свои языковые навыки по сравнению с теми, кто не участвова

Annotation:

Preschool children with language vulnerabilities -- such as developmental language disorders or immigration related language challenges -- often require support to strengthen their expressive language skills. Based on the principle of implicit learning, speech-language therapists (SLTs) typically embed target morphological structures (e.g., third person -s) into everyday interactions or game-based learning activities. Educators are recommended by SLTs to do the same. This approach demands precis...

ID: 2509.22287v1 cs.RO, cs.AI, cs.HC, I.2.7; H.5.2; K.3.1; J.4

arXiv PDF

📄 An Ontology for Unified Modeling of Tasks, Actions, Environments, and Capabilities in Personal Service Robotics

2025-09-30

Авторы:

Margherita Martorana, Francesca Urgese, Ilaria Tiddi, Stefan Schlobach

## Контекст Современные персональные сервисные роботы используются в домашних условиях для обеспечения поддержки старшим людям и людям, нуждающимся в помощи. Успешная работа роботов зависит не только от физического взаимодействия, но и от их способности интерпретировать динамические окружения, понимать задачи и выбирать подходящие действия в зависимости от контекста. Для этого необходимо интегрировать физические компоненты (например, сенсоры и актуаторы) с программными системами, реализующими логику рассуждений по задачам, окружениям и возможностям робота. Одним из популярных фреймворков является Robot Operating System (ROS), который объединяет низкоуровневые компоненты с высокоуровневыми функциональностями. Однако, реализации, основанные на ROS, часто привязаны к конкретным платформам, что приводит к изолированным и жестко запрограммированным решениям, снижающим интерфейсность, повторное использование и взаимодействие знаний. Онтологии и знаний графы предлагают структурированный подход к представлению задач, окружений, роботов и их возможностей. Несмотря на то, что существуют как SOMA (Socio-physical Model of Activities) так и DOLCE (Descriptive Ontology for Linguistic and Cognitive Engineering), они часто специализируются на определенных доменах и не обеспечивают полноценное моделирование взаимосвязи между окружением, действиями, роботом и системным уровнем. В данной работе мы предлагаем Ontology for roBOts and acTions (OntoBOT), которая расширяет существующие онтологии, предлагая унифицированное представление всех этих аспектов. ## Метод Мы разработали Ontology for roBOts and acTions (OntoBOT), которая является расширением и подключением существующих онтологий. Она предлагает решение для унифицированного представления задач, действий, окружений и роботов. Наша методология включает в себя: 1. **Расширение существующих онтологий**: мы использовали DOLCE и SOMA для строительства OntoBOT, добавив новые классы, свойства и отношения. 2. **Представление взаимосвязи**: мы структурировали систему таким образом, чтобы представлять взаимосвязи между задачами, действиями, окружением и роботом. 3. **Разработка контекст-специфических моделей**: мы создали модели, которые могут быть применены к различным типам роботов, таким как TIAGo, HSR, UR3 и Stretch. 4. **Тестирование и оценка**: мы проводили эксперименты с целью проверки того, что OntoBOT может включать в себя контекст-специфические модели и поддерживать контекст-самостоятельное выполнение задач. ## Результаты Мы провели эксперименты с четырьмя разными роботами: TIAGo, HSR, UR3 и Stretch. Наши результаты показали, что OntoBOT может быть при

Annotation:

Personal service robots are increasingly used in domestic settings to assist older adults and people requiring support. Effective operation involves not only physical interaction but also the ability to interpret dynamic environments, understand tasks, and choose appropriate actions based on context. This requires integrating both hardware components (e.g. sensors, actuators) and software systems capable of reasoning about tasks, environments, and robot capabilities. Frameworks such as the Robot...

ID: 2509.22434v1 cs.RO, cs.AI

arXiv PDF

📄 Ontological foundations for contrastive explanatory narration of robot plans

2025-09-30

Авторы:

Alberto Olivares-Alarcos, Sergi Foix, Júlia Borràs, Gerard Canal, Guillem Alenyà

## Контекст В последние годы рост популярности роботизированных систем и искусственного интеллекта привел к возникновению новых вызовов в области интерактивности с участием роботов. Обеспечение доверия и удовлетворения во взаимодействии между роботом и человеком является ключевым фактором для успешного применения технологий. Человек должен быть уверен, что робот принимает разумные решения и может эффективно объяснить их, если это необходимо. Одной из наиболее сложных задач является сравнение различных планов действий робота, чтобы выделить наилучший из них. Наиболее желательным было бы предоставление человеку не только результата, но и подробного объяснения, почему именно этот вариант является предпочтительным. Развитие методов сравнения планов и моделей для их логического описания является важной направленностью для решения этой задачи. ## Метод Рассматривается модель, основанная на онтологии, для сравнения двух вариантов действий робота. Этот подход позволяет формализировать и анализировать отличия между планами, точнее узнать, почему один план лучше другого. Разработана архитектура, включающая набор правил и формальных определений, который позволяет классифицировать планы в зависимости от критериев, таких как скорость, безопасность, соответствие предпочтениям человека. Основная сложность заключается в том, чтобы сравнить два плана, которые могут быть разными по многим параметрам, и выделить наиболее предпочтительный. Разработанный метод также включает в себя новый алгоритм, который учитывает различия между планами, чтобы построить контрастирующую выразительную историю о разнице между ними. ## Результаты Эксперименты проводились на множестве сценариев сравнения планов, включающих различные критерии выбора. Были выбраны данные, позволяющие провести подробный анализ работоспособности метода. На основе результатов можно сказать, что новая модель и новый алгоритм демонстрируют значительное улучшение по сравнению с базовым алгоритмом. Например, в сценариях сравнения маршрутов робота, где нужно выбрать наикратчайший или наиболее безопасный путь, новый подход дает более ясные и понятные оценки, с учетом всех важных критериев. Также проводился сравнительный анализ, показавший, что новый метод дает более точные и развернутые объяснения, чем базовый. ## Значимость Описанный подход может быть применен во многих областях, где нужно обеспечить доверие в роботизированных системах, например в транспортных системах, в сфере услуг, в здравоохранении. Например, в системах автомобильного транспорта

Annotation:

Mutual understanding of artificial agents' decisions is key to ensuring a trustworthy and successful human-robot interaction. Hence, robots are expected to make reasonable decisions and communicate them to humans when needed. In this article, the focus is on an approach to modeling and reasoning about the comparison of two competing plans, so that robots can later explain the divergent result. First, a novel ontological model is proposed to formalize and reason about the differences between comp...

ID: 2509.22493v1 cs.RO, cs.AI, cs.IR, cs.LO

arXiv PDF

📄 See, Point, Fly: A Learning-Free VLM Framework for Universal Unmanned Aerial Navigation

2025-09-30

Авторы:

Chih Yao Hu, Yang-Sen Lin, Yuna Lee, Chih-Hai Su, Jie-Ying Lee, Shr-Ruei Tsai, Chin-Yang Lin, Kuan-Wen Chen, Tsung-Wei Ke, Yu-Lun Liu

#### Контекст В последние годы возникло значительное интерес к видным-языковым моделям (VLMs) в различных областях, включая управление непилотируемыми летательными аппаратами (UAV). Однако существующие VLM-подобные подходы для авиационной визуальной лингвистики (AVLN) часто требуют кастомизации и сложности в обучении, что ограничивает их универсальность и применимость. Кроме того, нетрудно заметить, что большинство текущих систем требуют значительного обучения для адаптации к различным средам и задачам, что снижает их эффективность. Таким образом, возникает потребность в разработке универсального, без обучения фреймворка для AVLN, который мог бы преодолеть эти ограничения и обеспечивать более гибкое управление UAV. #### Метод Мы предлагаем See, Point, Fly (SPF) — универсальный фреймворк для AVLN, основанный на VLMs, который не требует значительного обучения. Фреймворк SPF использует визуально-языковую модель для разбиения неоднозначных текстовых инструкций на последовательность команд навигации. В частности, SPF преобразует текстовые команды навигации в 2D-способность, позволяя UAV представить целевую точку в пространстве в виде последовательных 2D-waypoints. Далее, SPF преобразует эти 2D-waypoints в 3D-дисплесности и трансформирует их в команды для UAVs. Этот подход обеспечивает универсальную навигацию, включая динамическую среду и dynamic target tracking. Также SPF использует adaptive distance control, чтобы сделать навигацию более эффективной. Эта архитектура может быть применена к различным VLMs без потери эффективности. #### Результаты Мы провели различные эксперименты, чтобы продемонстрировать эффективность SPF. Использовались данные из DRL-симулятора и реального мира для оценки производительности. На DRL-бенчмарке SPF показал существенное улучшение по сравнению с предыдущим лучшим методом, повысив до 63% в абсолютных числах. В реальном мире SPF также показал значительные выигрыши по сравнению с другими сильными базисами. Мы также провели аблационные исследования, чтобы подтвердить эффективность нашего подхода. Дополнительно, SPF показал надежную общность с различными VLMs, что демонстрирует его универсальность. #### Значимость SPF представляет собой значительный прорыв в области AVLN, обеспечивая универсальную, без обучения систему, которая может работать в различных средах и задачах. Он может быть применен в сферах, таких как поиск и спасательные операции, разведка, доставка и другие. SPF обеспечивает более эффективное и универсальное управление UAV, в том числе в динамических средах. Благодаря своей гибкости

Annotation:

We present See, Point, Fly (SPF), a training-free aerial vision-and-language navigation (AVLN) framework built atop vision-language models (VLMs). SPF is capable of navigating to any goal based on any type of free-form instructions in any kind of environment. In contrast to existing VLM-based approaches that treat action prediction as a text generation task, our key insight is to consider action prediction for AVLN as a 2D spatial grounding task. SPF harnesses VLMs to decompose vague language in...

ID: 2509.22653v1 cs.RO, cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation

2025-09-27

Авторы:

Dekun Lu, Wei Gao, Kui Jia

## Контекст Область исследования, связанная с развитием энд-то-энд политик для роботизированной манипуляции, является ключевой для развития общего подхода к управлению роботами. Традиционные модульные процессы часто страдают от потери информации, несоответствия фичей и ограниченности в обработке сложных сценариев. Несмотря на преимущества энд-то-энд политик, включая ограничение потерь информации и улучшение характеристик, существующие решения, особенно те, что основаны на глубоких сетях, стремятся к более высокой производительности, генерализуемости и надежности для сложных задач. Это ставит достаточно частые технические вызовы и мотивирует развитие более продвинутых методов, которые могут обеспечить более точное, надежное и решающее решение для проблем в этой области. ## Метод Метод, предложенный в данной работе, основывается на новой формулировке Chain of Moving Oriented Keypoints (CoMOK) для роботизированных манипуляций. Эта формулировка позволяет использовать явную привязку к ориентированным ключевым точкам, которые могут легко адаптироваться к различным сценариям и объектам. Политика выполняется в универсальном нормальном виде, что позволяет легко интегрировать различные задачи и модели. Основной мотивацией для этого подхода является характеристика значительного улучшения точности, гибкости и надежности, которую может обеспечить энд-то-энд политика во время выполнения сложных манипуляций. ## Результаты В ходе исследования было проведено несколько экспериментов, включая моделирование и реальные тесты на роботах. Эксперименты показали, что CoMOK-политика позволяет достичь высокой точности в позиционировании и управлении, даже при работе с разными объектами и сценариями. Измерения показали точность, достигающую под-центрометрической точности, что значительно превосходит многие существующие подходы. Эксперименты также демонстрируют гибкость CoMOK в обработке многоэтапных задач и многомодальных поведений, что подтверждает его эффективность в различных сценариях. ## Значимость Метод, представленный в данной работе, открывает новые возможности для развития общей, точной и надежной энд-то-энд политики для роботизированных манипуляций. Он может быть применен в различных областях, включая промышленную автоматизацию, робототехнические системы, а также в развитии более продвинутых систем управления для интеллектуальных агентов. Преимущества CoMOK заключаются в его универсальности, точности и надежности, которые могут существенно улучшить производительность и надежность роботизированных систем в реальных условиях. ## Вы

Annotation:

End-to-end robot manipulation policies offer significant potential for enabling embodied agents to understand and interact with the world. Unlike traditional modular pipelines, end-to-end learning mitigates key limitations such as information loss between modules and feature misalignment caused by isolated optimization targets. Despite these advantages, existing end-to-end neural networks for robotic manipulation--including those based on large VLM/VLA models--remain insufficiently performant fo...

ID: 2509.20841v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 AnywhereVLA: Language-Conditioned Exploration and Mobile Manipulation

2025-09-27

Авторы:

Konstantin Gubernatorov, Artem Voronov, Roman Voronov, Sergei Pasynkov, Stepan Perminov, Ziang Guo, Dzmitry Tsetserukou

## Контекст Область исследования посвящена разработке модульных систем для мобильного манипулирования в неизвестных, непредсказуемых внутренних пространствах. Одной из основных проблем в этой области является неэффективность традиционных методов SLAM и метрических семантических моделей при работе с неопределенными и динамически изменяющимися окружениями. Это приводит к ограниченной универсальности и производительности систем. Мотивация заключается в создании методологии, которая объединяет надежность геометрического подхода с гибкостью и общеротостью языкового условного манипулирования. ## Метод Методология системы AnywhereVLA основывается на сочетании традиционных геометрических подходов с модернизированным подходом к manipulation. Она включает в себя: (1) архитектуру языковоно-условной проводки задач, где текстовая запрос пользователя преобразуется в структурированный задачный граф; (2) модификацию классического SLAM с LiDAR и камерой, включая метрическое семантическое картографирование; (3) политику эффективного фронтирного исследования; (4) алгоритм динамического планирования места с грабли, ориентированный на видимость и доступность; (5) компактную модель SmolVLA, специально оптимизированную для SO-101-базированных роботов TheRobotStudio. Обработка всех этих компонентов происходит в реальном времени на уровне пользовательского оборудования, используя Jetson Orin NX для визуальных задач и Intel NUC для SLAM и управления. ## Результаты Эксперименты проводились в условиях многокомнатного лабораторного лабиринта с установившимися сценами и нормальным движением людей. На экспериментах показана производительность системы в 46% в общем рейтинге задач, при этом сохраняя реальность и вычислительные ресурсы. Результаты показывают, что AnywhereVLA удалось объединить надежность геометрического подхода с мобильной манипуляцией и способностью конкретизации языка запросов. ## Значимость Система AnywhereVLA имеет широкие области применения в сферах робототехники, управления интеллектуальными домами, сервисных роботов. Она предоставляет следующие преимущества: высокая производительность, универсальность и гибкость решений. В будущем можно рассмотреть расширение возможностей языка запросов, улучшение моделей манипуляции и исследование работы в динамически изменяющихся средах. ## Выводы AnywhereVLA представляет собой уникальный подход к мобильному манипулированию в неизвестных пространствах. Она успешно сочетает надежность геометрических методов и гибкость языковой модели, достигая высокой производительности в реальном времени. Будущие работы

Annotation:

We address natural language pick-and-place in unseen, unpredictable indoor environments with AnywhereVLA, a modular framework for mobile manipulation. A user text prompt serves as an entry point and is parsed into a structured task graph that conditions classical SLAM with LiDAR and cameras, metric semantic mapping, and a task-aware frontier exploration policy. An approach planner then selects visibility and reachability aware pre grasp base poses. For interaction, a compact SmolVLA manipulation...

ID: 2509.21006v1 cs.RO, cs.AI

arXiv PDF

📄 Cross-Modal Instructions for Robot Motion Generation

2025-09-27

Авторы:

William Barron, Xiaoxiang Dong, Matthew Johnson-Roberson, Weiming Zhi

## Контекст Обучение роботам выполнять новые поведения обычно требует использования руководящих данных, например, телеоперации или кинезического обучения, когда представитель выполняет задачу вручную. Однако эти методы требуют значительных усилий для сбора данных и ограничиваются масштабом, так как создание больших датасетов с руководством человеком требует значительных затрат. Кроме того, текущие подходы, основанные на скетчах, сложно масштабировать, и их применение ограничивается простыми сценариями. В этой работе предлагается альтернативный подход, основанный на использовании кросс-модальных инструкций, которые позволяют роботам выполнять задачи с помощью примитивных меток, включая текстовые аннотации, вместо физических демонстраций поведения. ## Метод Предлагаемая методология, CrossInstruct, основывается на интеграции кросс-модальных инструкций в виде небольших меток в контекстное входное представление современных визуально-языковых моделей (VLM). Эти модели последовательно используются для вывода поведения робота, который затем синтезируется над несколькими 2D-представлениями и комбинируется в единую 3D-модель движения в рабочей области робота. Важной особенностью CrossInstruct является использование гранулярности в трехмерном пространстве и возможность управления точностью роботом. Дополнительно предлагается использовать подход в сочетании с принципами глубокого обучения, чтобы развивать политики на основе CrossInstruct и оптимизировать робототехнические задачи. ## Результаты Метод CrossInstruct был опробован на симуляционных задачах и настоящем оборудовании, что подтвердило его рентабельность в различных сценариях. В опытах, применяющихся в данной работе, демонстрируется возможность робота выполнять сложные задачи, включая перемещение предметов и их размещение, без дополнительного тренинга. Также показана эффективность CrossInstruct в качестве начального ввода для политик, последующим обучением с помощью глубокого обучения. Эти результаты подтверждают гибкость и эффективность предлагаемого подхода в различных робототехнических сценариях. ## Значимость Предлагаемый подход имеет широкие применения в сферах робототехники, таких как домашние роботы, производственная автоматизация и исследовательские задачи. Основные преимущества CrossInstruct заключаются в уменьшении усилий на сбор данных, увеличении масштабируемости и улучшении удобства работы с роботами для неподготовленных пользователей. Будущие исследования будут ориентированы на улучшение точности и устойчивости CrossInstruct, а также на расширение его применений в сложных робототехнических задачах, включая непрерывные движения и сценари

Annotation:

Teaching robots novel behaviors typically requires motion demonstrations via teleoperation or kinaesthetic teaching, that is, physically guiding the robot. While recent work has explored using human sketches to specify desired behaviors, data collection remains cumbersome, and demonstration datasets are difficult to scale. In this paper, we introduce an alternative paradigm, Learning from Cross-Modal Instructions, where robots are shaped by demonstrations in the form of rough annotations, which ...

ID: 2509.21107v1 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
29
30
31
32
33
54
55

Показано 301 - 310 из 544 записей