📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ParaEQsA: Parallel and Asynchronous Embodied Questions Scheduling and Answering

2025-09-17

Авторы:

Haisheng Wang, Weiming Zhi

## Контекст Область исследования, связанная с Embodied Question Answering (EQA), фокусируется на создании роботов и софтверных систем, которые могут отвечать на вопросы, активно исследуя трехмерные пространства. Это проблема чрезвычайно важна для развития интеллектуальных систем, используемых в сферах, таких как управление домашними устройствами, автоматизация производства и помощь в жизненных задачах. Несмотря на успехи, полученные в EQA, существуют значительные ограничения. Традиционно EQA строится на действиях, которые проводятся последовательно и существенно зависят от успешного исследования окружающей среды. Однако в реальных ситуациях, возникают ситуации, когда необходимо обрабатывать множество вопросов, которые могут приходить вне порядка и с разным у deе. Это требует создания новых подходов, которые могут обеспечить эффективность и реагирование на асинхронные запросы. ## Метод Для решения данной проблемы, авторы предлагают формализовать новую задачу, называемую Embodied Questions Answering (EQsA), которая позволяет обрабатывать множество вопросов, включая асинхронные и с разным уровнем приоритета. Для этого разработана система ParaEQsA, которая включает в себя два основных модуля: **групповую память** для уменьшения проверок без добавления новой информации и **модуль планирования приоритетов**, который определяет порядок обработки вопросов в зависимости от их актуальности. Для обучения и оценки алгоритмов разработан бенчмарк, содержащий 40 интерьеров с вопросами, в том числе следующими, которые требуют различных действий и имеют различные веса приоритета. ## Результаты Проведенные эксперименты показали, что ParaEQsA превосходит существующие последовательные системы в обработке асинхронных вопросов, уменьшая суммарное время исследования и повышая точность реагирования. Более того, новая метрика **Direct Answer Rate (DAR)** и **Normalized Urgency-Weighted Latency (NUWL)** позволяет эффективно оценить производительность системы. Результаты показали, что эти метрики измеряют не только точность ответов, но и скорость их получения, что является ключевым фактором в реальных ситуациях. ## Значимость Предложенный подход имеет широкие возможности для применения в сферах, где необходимо обрабатывать множество вопросов в реальном времени, таких как управление домашними роботами, помощь в ситуациях с ограниченными ресурсами, таких как аппараты здравоохранения, или обработка вопросов в центрах обслуживания клиентов. Улучшение эффективности и скорости реагирования в ParaEQsA может значительно повысить удобство и надежность работы систем, обеспечивая улучш

Annotation:

This paper formulates the Embodied Questions Answering (EQsA) problem, introduces a corresponding benchmark, and proposes a system to tackle the problem. Classical Embodied Question Answering (EQA) is typically formulated as answering one single question by actively exploring a 3D environment. Real deployments, however, often demand handling multiple questions that may arrive asynchronously and carry different urgencies. We formalize this setting as Embodied Questions Answering (EQsA) and presen...

ID: 2509.11663v1 cs.RO, cs.AI, cs.CV

arXiv PDF

📄 Tenma: Robust Cross-Embodiment Robot Manipulation with Diffusion Transformer

2025-09-17

Авторы:

Travis Davies, Yiqi Huang, Yunxin Liu, Xiang Chen, Huxian Liu, Luhui Hu

## Контекст Модели трансформера и модели диффузии (diffusion models) стали важными инструментами в области робототехники, особенно в задачах управления роботами. Однако, внедрение этих моделей в сценарии с множеством роботов (cross-embodiment) остается трудной проблемой. Основные задачи включают в себя обеспечение стабильности обучения, увеличение производительности и поддержание универсальности. Несмотря на успех трансформеров и моделей диффузии в робототехнических задачах, их эффективное интегрирование в средах с разными типами роботов и различными данными остается сложной задачей. Большая часть робототехнической литературы как раз и исследует эти проблемы, пытаясь создать модели, которые могли бы применяться в различных сценариях с множеством роботов. ## Метод Для решения этих проблем разработана модель Tenma, которая является легковесной моделью диффузионного трансформера. Tenma работает с бимановым управлением роботов и объединяет различные виды данных, такие как RGB-изображения, проприоцепция и языковые команды. Модель включает в себя несколько ключевых компонентов: **Cross-Embodiment Normalizer**, который нормализует различные многообразные пространства состояний и действий в единое пространство, **Joint State-Time Encoder**, который объединяет наблюдения во временной последовательности для лучшего понимания динамики, и **Diffusion Action Decoder**, оптимизированный для улучшения обучения и способствующий увеличению общей мощности модели. Эти компоненты делают Tenma универсальной и стабильной в различных условиях. ## Результаты На экспериментальных испытаниях Tenma показала высокую устойчивость и эффективность. Она достигла успешности в работе на 88.95% при использовании одного и того же количества вычислительных ресурсов, что значительно превосходит базовые модели, где лучшая успешность составила 18.12%. Этот результат достигнут благодаря особенностям Tenma, включая универсальность в работе с разными типами роботов и способность учитывать многообразие входных данных. Даже при небольшом объеме данных, Tenma показывает высокую универсальность и общие способности, что демонстрирует возможности данного подхода для увеличения производительности и общей мощности трансформеров-имитаторов. ## Значимость Tenma может применяться в различных робототехнических сценариях, где необходимо эффективное управление несколькими роботами с разными данными и условиями. Основные преимущества Tenma заключаются в высокой производительности, общей модели, которая может применяться в различных условиях, и в способности обрабатывать разные типы данных. Эти возможности открывают новые пер

Annotation:

Scaling Transformer policies and diffusion models has advanced robotic manipulation, yet combining these techniques in lightweight, cross-embodiment learning settings remains challenging. We study design choices that most affect stability and performance for diffusion-transformer policies trained on heterogeneous, multimodal robot data, and introduce Tenma, a lightweight diffusion-transformer for bi-manual arm control. Tenma integrates multiview RGB, proprioception, and language via a cross-embo...

ID: 2509.11865v1 cs.RO, cs.AI

arXiv PDF

📄 Time-Constrained Intelligent Adversaries for Automation Vulnerability Testing: A Multi-Robot Patrol Case Study

2025-09-17

Авторы:

James C. Ward, Alex Bott, Connor York, Edmund R. Hunt

## Контекст Обеспечение безопасности физических автоматизированных систем является ключевым аспектом в современной информационной безопасности. Несанкционированный доступ к таким системам может привести к серьезным последствиям, включая утечку конфиденциальных данных и угрозы безопасности людей. Одна из самых выгодных подходов к исследованию уязвимостей - симуляция атак злоумышленника с использованием искусственного интеллекта. Такие исследования позволяют протестировать систему на прочность и сформировать понимание того, какие меры необходимо принять для улучшения ее безопасности. В данном исследовании мы сосредоточились на системе многороботного охранения, которая широко используется для защиты критически важных объектов. ## Метод Мы предлагаем новую модель времени ограниченного злоумышленника, основанную на машинном обучении, для атаки многороботной системы охраны. Модель использует нейронные сети для моделирования поведения злоумышленника, который пытается проникнуть в защищенную зону, основываясь на наблюдениях поведения охранных роботов. Методом градиентного спуска мы оптимизируем решения злоумышленника, чтобы максимизировать его шансы проникновения в срок, ограниченный временно. Эта модель включает в себя несколько улучшений по сравнению с предыдущими подходами, включая более точное моделирование сложности ограниченного времени для поиска кратчайшего пути к цели. Мы также проводили эксперименты на реальных данных, сравнивая нашу модель с другими подходами. ## Результаты Наши эксперименты показали, что модель времени ограниченного злоумышленника существенно превосходит существующие базовые подходы в ситуациях, когда злоумышленник имеет ограниченное время для проникновения. Мы проверили нашу модель на трех разных стратегиях многороботного охранения, включая стратегии, основанные на классических алгоритмах и сетях графов. Наши результаты показали, что злоумышленник смог быстрее и эффективнее проникнуть в систему по сравнению с другими моделями. Также мы выявили, что наш подход требует меньшего количества итераций для достижения оптимального решения, что ускоряет процесс экспериментов. ## Значимость Модель времени ограниченного злоумышленника может применяться в различных областях, где необходимо проверить уязвимость физических систем, таких как безопасность производственных цехов, защита границ, или безопасность общественных пространств. Этот подход позволяет протестировать систему безопасности в условиях реального времени, что дает более точный взгляд на ее уязвимости. В случае мно

Annotation:

Simulating hostile attacks of physical autonomous systems can be a useful tool to examine their robustness to attack and inform vulnerability-aware design. In this work, we examine this through the lens of multi-robot patrol, by presenting a machine learning-based adversary model that observes robot patrol behavior in order to attempt to gain undetected access to a secure environment within a limited time duration. Such a model allows for evaluation of a patrol system against a realistic potenti...

ID: 2509.11971v1 cs.RO, cs.AI, cs.CR

arXiv PDF

📄 Self-Augmented Robot Trajectory: Efficient Imitation Learning via Safe Self-augmentation with Demonstrator-annotated Precision

2025-09-16

Авторы:

Hanbit Oh, Masaki Murooka, Tomohiro Motoda, Ryoichi Nakajo, Yukiyasu Domae

#### Контекст Imitation learning является обещающим подходом для обучения роботских агентов, однако обычные методы часто требуют большого объема данных, полученных либо многократными демонстрациями, либо случайным исследованием среды. Это не только усложняет процесс обучения, но также может привести к нежелательным столкновениям, особенно при выполнении задач с ограниченным клеточным расположением (например, взаимоприкладыванием штыря в отверстие). Такие ситуации влекут за собой необходимость вручную восстанавливать среду и приводят к дополнительным трудозатратам. Данное исследование адресует эти проблемы, предлагая Self-Augmented Robot Trajectory (SART) — фреймворк, позволяющий обучать политику только на одной демонстрации человека, при этом самостоятельно расширяя выборку данных с помощью автономного модифицирования методикой с учетом пределов точности, отмеченных демонстратором. #### Метод SART работает в двух этапах: (1) **Обучение по одной демонстрации** — человек предоставляет один пример действий, а сетка точности, представленная шаровыми покрытиями вокруг ключевых точек маршрута, автоматически аннотируется в среде; (2) **Самостоятельное расширение** — робот генерирует разнообразные, безопасные маршруты в пределах заданных точностных границ, при этом обеспечивая их слияние с исходной демонстрацией человека. Этот подход снижает необходимость вручную восстанавливать среду и позволяет роботу самостоятельно улучшать свои навыки в условиях минимального вмешательства человека. #### Результаты Эксперименты проводились в симуляционной среде и на реальных задачах манипуляции. Оценки показали, что SART достигает значительно больших вероятностей успеха по сравнению с политиками, обученными только на демонстрациях человека. Отчеты и видеоматериалы доступны на сайте проекта (ссылка: https://sites.google.com/view/sart-il). #### Значимость Предложенный подход может быть применен в различных областях, где требуется улучшение эффективности обучения роботских агентов с минимальным участием человека. Особый потенциал SART открывается в задачах с тесным пространственным режимом, таких как взаимоприкладывание штырей в отверстия. Данный подход снижает затраты на повторные демонстрации, обеспечивает безопасность и увеличивает эффективность сбора данных. #### Выводы Результаты показывают высокую эффективность SART в сравнении с классическими методами роботского обучения. Будущие исследования будут направлены на расширение фреймворка для управления более сложными задачами, включая те, что требуют динамического решения в процессе выполнения.

Annotation:

Imitation learning is a promising paradigm for training robot agents; however, standard approaches typically require substantial data acquisition -- via numerous demonstrations or random exploration -- to ensure reliable performance. Although exploration reduces human effort, it lacks safety guarantees and often results in frequent collisions -- particularly in clearance-limited tasks (e.g., peg-in-hole) -- thereby, necessitating manual environmental resets and imposing additional human burden. ...

ID: 2509.09893v1 cs.RO, cs.AI

arXiv PDF

📄 TwinTac: A Wide-Range, Highly Sensitive Tactile Sensor with Real-to-Sim Digital Twin Sensor Model

2025-09-16

Авторы:

Xiyan Huang, Zhe Xu, Chenxi Xiao

## Контекст Роботизированные системы, основанные на улучшении навыков через развитие методов управления, часто полагаются на симуляции для эффективного получения больших объемов данных об интеракциях. Однако, недостаток точных моделей симуляции для тактильных сенсоров становится значимым ограничением при разработке политик, основанных на тактильном восприятии. Этот рост неудовлетворительной точности в оптимизации тактильных сенсоров не позволяет полноценно использовать их в системах управления. В этой статье представлен алгоритм TwinTac, который предлагает решение этой проблемы, объединяя физический сенсор с его цифровым двойником. ## Метод Методология TwinTac основывается на создании синергетической системы, включающей физический тактильный сенсор и цифровую модель, которая реализует реально-к-симуляции моделирование. Физический сенсор разработан с учетом высокой чувствительности и широкого диапазона измерений, чтобы обеспечить высококачественные данные для обработки интеракций. Цифровая модель TwinTac построена с использованием подхода "реально-к-симуляции", включающим синхронный сбор данных из различных источников, таких как расчеты метода конечных элементов и данные от физического сенсора. Эти данные используются для обучения нейронных сетей, которые могут преобразовывать данные симуляции в реальные ответы сенсора. Этот подход обеспечивает возможность точного моделирования реакции системы на внешний воздействий. ## Результаты Сенсор TwinTac был протестирован на нескольких экспериментах, включая измерение чувствительности и проверку точности репликации физических данных в симуляции. Эксперименты показали, что физический сенсор обеспечивает высокую чувствительность и широкий диапазон измерений, необходимый для обработки данных об интеракциях. Цифровая модель TwinTac продемонстрировала высокую точность в репликации реальных реакций сенсора в симуляции, определяя точные значения по отношению к физической модели. Также проведенные эксперименты по объектной классификации показали, что симуляционные данные, полученные с помощью TwinTac, могут эффективно дополнять реальные данные, улучшая точность классификации. ## Значимость TwinTac представляет собой важный шаг в развитии систем управления, основанных на тактильном восприятии. Он предоставляет широкий диапазон приложений в сферах робототехники, промышленности и автоматизации. Одним из основных преимуществ является возможность эффективной синтезации данных симуляции и реальности, что позволяет создавать более точные модели и политики управления. Будущие исследования будут направлены на улу

Annotation:

Robot skill acquisition processes driven by reinforcement learning often rely on simulations to efficiently generate large-scale interaction data. However, the absence of simulation models for tactile sensors has hindered the use of tactile sensing in such skill learning processes, limiting the development of effective policies driven by tactile perception. To bridge this gap, we present TwinTac, a system that combines the design of a physical tactile sensor with its digital twin model. Our hard...

ID: 2509.10063v1 cs.RO, cs.AI, I.2.9

arXiv PDF

📄 Efficient Learning-Based Control of a Legged Robot in Lunar Gravity

2025-09-16

Авторы:

Philip Arm, Oliver Fischer, Joseph Church, Adrian Fuhrer, Hendrik Kolvenbach, Marco Hutter

## Контекст Легкие роботы с ногами (legged robots) представляют собой перспективные средства для исследования земель низко-гравитационных объектов, таких как Луна, Марс и астероиды. Их мобильность на неорганизованных территориях делает их привлекательными для этих задач. Однако планетарные роботы имеют ограниченные ресурсы на время работы и тепловыделение, что требует энергоэффективных алгоритмов управления, которые могут быть легко адаптированы к различным условиям гравитации. Наша цель — разработать метод совершенствования управления роботом, оптимизированный под экономию энергии и распространяющийся на различные условия гравитации. ## Метод Мы предлагаем метод оптимизации управления легким роботом на основе расширенного подхода обучения с подкреплением (reinforcement learning). Наша методика включает в себя создание модели поведения робота, которая учитывает параметры гравитации и требуемые энергопотери. Мы разработали систему с высокой гибкостью, которая может адаптироваться в разных условиях гравитации, используя специальные наградные функции, которые масштабируются в зависимости от уровня гравитации. Наша методика также включает в себя процесс визуализации и оценки результатов, чтобы проверить эффективность наших контроллеров. ## Результаты Мы провели эксперименты в трех различных условиях гравитации: лунной (1.62 м/с²), земной (9.81 м/с²) и гипотетической сверх-земной (19.62 м/с²). Наша система показала способность масштабирования в этих средах, используя новую наградную систему, которая учитывает эффективность использования энергии. Мы протестировали два типа контроллеров: для позиционирования основы робота (base pose controller) и для движения (locomotion controller). Показатели эффективности энергии для робота в лунной гравитации (23.4 Вт при 0.4 м/с) и земной гравитации (23% экономии энергии по сравнению с базовым алгоритмом) подтвердили успешность нашего подхода. Мы также использовали специальный спринг-оффлоад-систему, позволяющую проводить реальные эксперименты в условиях лунной гравитации. ## Значимость Наш подход имеет широкое применение в исследованиях в недвижимости роботов на Луне, Марсе и других земель низко-гравитационных объектов. Он предоставляет энергоэффективные алгоритмы управления, которые могут быть легко адаптированы к различным условиям гравитации. Благодаря гибкости и эффективности, наш метод может существенно повысить эффективность исследований на планетах с низкой гравитацией и снизить требования к ре

Annotation:

Legged robots are promising candidates for exploring challenging areas on low-gravity bodies such as the Moon, Mars, or asteroids, thanks to their advanced mobility on unstructured terrain. However, as planetary robots' power and thermal budgets are highly restricted, these robots need energy-efficient control approaches that easily transfer to multiple gravity environments. In this work, we introduce a reinforcement learning-based control approach for legged robots with gravity-scaled power-opt...

ID: 2509.10128v1 cs.RO, cs.AI

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-15

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

## Контекст В последние годы, развитие многомодальных больших языковых моделей (MLLMs) обеспечило новые возможности для развития обеспечивает моделей, обладающих способностью к объединению разных модальностей, выполнять логическое рассуждение и взаимодействовать в реальном мире. Тем не менее, существуют две ключевые проблемы в существующих MLLM-ориентированных обеспеченных системах. Во-первых, **Geometric Adaptability Gap**: модели, обученные только на 2D-входных данных или жестко инжектированных с 3D-геометрией, либо не могут достаточно интеллектуально справляться с пространственными задачами, либо ограничиваются лишь 2D-ограниченным генерализированным подходом. Во-вторых, **Embodiment Constraint Gap**: существующие системы часто игнорируют практические ограничения реальных роботов, что приводит к планам, которые теоретически могут быть верны, но невыполнимы в реальности. Данная работа предлагает решение этих проблем через разработку OmniEVA — универсального планировщика, который включает в себя развитые инновационные подходы к обеспеченному планированию. ## Метод OmniEVA основывается на двух ключевых инновационных механизмах: 1. **Task-Adaptive 3D Grounding**: Этот механизм включает в себя гейтед рутор, который регулирует селективное включение 3D-данных в зависимости от контекста. Это позволяет модели сделать контекстуально-адаптивные 3D-определения, делая ее более универсальной для различных задач. 2. **Embodiment-Aware Reasoning**: Рамочная модель включает в себя как цели задачи, так и ограничения физических возможностей робота в процессе логического рассуждения. Это приводит к решениям, которые как придерживаются целей, так и выполнены в соответствии с техническими возможностями робота. ## Результаты Для оценки OmniEVA, авторы проводили ряд экспериментов на имитационных и реальных средах. Были использованы следующие наборы данных: - **Task-Adaptive 3D Grounding**: Модель продемонстрировала улучшения в задачах, требующих высокого пространственного разума, таких как перемещение предметов и обнаружение. - **Embodiment-Aware Reasoning**: Анализ показал, что OmniEVA превосходит конкурентные модели в ситуациях, где требуется жесткое соблюдение физических ограничений, таких как ограничения на роботов в реальной зоне. В результате, OmniEVA показала значительные улучшения в общем embodied reasoning и демонстрирует высокую гибкость при решении различных задач. ## Значимость OmniEVA имеет широкое применение в различных областях: - Робототехника: Она может быть использована для планирования поведения роботов в различных пространственных конфигурациях. - Домашний ассистент: Модель может по

Annotation:

Recent advances in multimodal large language models (MLLMs) have opened new opportunities for embodied intelligence, enabling multimodal understanding, reasoning, and interaction, as well as continuous spatial decision-making. Nevertheless, current MLLM-based embodied systems face two critical limitations. First, Geometric Adaptability Gap: models trained solely on 2D inputs or with hard-coded 3D geometry injection suffer from either insufficient spatial information or restricted 2D generalizati...

ID: 2509.09332v2 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Multi Robot Coordination in Highly Dynamic Environments: Tackling Asymmetric Obstacles and Limited Communication

2025-09-13

Авторы:

Vincenzo Suriani, Daniele Affinita, Domenico D. Bloisi, Daniele Nardi

## Контекст В данном исследовании описывается задача координации многоагентных систем (MAS) в условиях высоко динамической среды с асимметрическими препятствиями и ограниченной связью. Такие ситуации часто встречаются в реальной жизни, например, в системах поиска и спасения, работе в логистических центрах или в спортивных соревнованиях с роботами. Ограниченная связь и асимметричные препятствия являются ключевыми проблемами, которые могут снижать эффективность работы многоагентных систем. Недостаток эффективной координации может привести к дублированию усилий, неоптимальным использованию ресурсов и неудаче в достижении целей. Мотивация для этого исследования лежит в развитии методов, позволяющих эффективно координировать действия агентов в условиях неоптимальной связи и сложной среды. ## Метод Предложенная методика основывается на подходе, адаптированном из рыночных механизмов для присваивания задач. Агенты используют динамический метод предложения и принятия задач, который учитывает не только положение препятствий, но и их симметричность и активность. Особое внимание уделяется оценке возможности выполнения задачи с учетом различных факторов, таких как расстояние до цели, возможность прохода и потенциальные риски. Архитектура системы разделяется на несколько уровней, включающих модель окружения, модель задач и модель координации. Эти модели синхронизируются с помощью ограниченного канала связи, используя легкий протокол обмена данными. Таким образом, метод позволяет эффективно адаптироваться к изменениям в среде и препятствиях. ## Результаты Результаты экспериментов показали, что предложенная методика эффективно решает проблему координации в условиях ограниченной связи. Набор экспериментов включал симуляционные и реальные испытания с использованием роботов NAO. На протяжении экспериментов был отмечен снижение процента дублированных усилий на 52% в сравнении с базовыми методами координации. Это было достигнуто благодаря тому, что метод учитывал асимметрию препятствий и присваивал задачи с учетом того, как это влияет на их выполнение. Измерения также показали, что система в значительной степени увеличивает относительную эффективность действий агентов в среде с активными препятствиями и сильно ограниченной связью. ## Значимость Предложенный подход имеет широкие применения в сферах, где необходима эффективная координация многоагентных систем в условиях сложной среды. Например, он может применяться в системах поиска и спасения, где необходимо адаптироваться к активным преп

Annotation:

Coordinating a fully distributed multi-agent system (MAS) can be challenging when the communication channel has very limited capabilities in terms of sending rate and packet payload. When the MAS has to deal with active obstacles in a highly partially observable environment, the communication channel acquires considerable relevance. In this paper, we present an approach to deal with task assignments in extremely active scenarios, where tasks need to be frequently reallocated among the agents par...

ID: 2509.08859v1 cs.RO, cs.AI

arXiv PDF

📄 KoopMotion: Learning Almost Divergence Free Koopman Flow Fields for Motion Planning

2025-09-13

Авторы:

Alice Kate Li, Thales C Silva, Victoria Edwards, Vijay Kumar, M. Ani Hsieh

## Контекст Область движения и динамики роботов остается широко изучаемой направленностью в робототехнике, так как потребность в эффективных и точных методах планирования движения вызвана требованиями к безопасности, эффективности и удобству эксплуатации. Несмотря на прогресс в этой области, существуют несколько проблем, включая необходимость в более точном подходе к моделированию динамики взаимодействия робота с окружением и повышение точности планирования по сравнению с традиционными методами, основанными на классических моделях динамики. Применение теории Koopman для моделирования динамики систем становится все более популярным из-за ее мощи в представлении сложных динамических систем с помощью линейных моделей динамики. Однако, теория Koopman не интринсически способна обеспечить выполнение требований, таких как следование за указанным траекторией и конечное схождение к ней. Кроме того, существуют ряд проблем, связанных с эффективностью и скоростью планирования движения, которые остаются недостаточно затронутыми в нынешних решениях. В данной работе предлагается новый подход, основанный на теории Koopman, для моделирования движения робота и его планирования. Метод KoopMotion предлагает перспективу для решения этих проблем, используя теорию Koopman в сочетании с аппроксимацией динамических систем, чтобы улучшить моделирование и планирование движения. ## Метод Предложенный метод, KoopMotion, представляет движение в качестве динамической системы, описываемой теорией Коопмана. Основной идеей является то, что потоки движения в данной системе могут быть представлены в виде линейных операторов, которые могут быть использованы для описания динамики системы. В KoopMotion, потоки движения аппроксимируются с помощью Koopman Operators, чтобы эмулировать желаемые траектории, а затем использованы правила распространения динамики для обеспечения гладкого движения. Это позволяет роботу, находящемуся вне желаемого пути, подстраиваться под требуемое направление и следовать за ним до конца. Обучение происходит с помощью данных, полученных от демонстрации, и включает в себя анализ спектра, чтобы обеспечить точность и детализацию моделирования. Архитектура KoopMotion тесно интегрирует Koopman Operators с методами обучения на основе данных, позволяя эффективно использовать обучающие данные и достигать высокой эффективности в планировании движения. ## Результаты Результаты экспериментов показывают, что метод KoopMotion эффективен в обработке небольших наборов данных и может генерировать точные модели движения с минимальным количеством данных. Анализ на данных LASA (LASA human handwriting dataset) и траекторий manipulator end-effector демонстриру

Annotation:

In this work, we propose a novel flow field-based motion planning method that drives a robot from any initial state to a desired reference trajectory such that it converges to the trajectory's end point. Despite demonstrated efficacy in using Koopman operator theory for modeling dynamical systems, Koopman does not inherently enforce convergence to desired trajectories nor to specified goals -- a requirement when learning from demonstrations (LfD). We present KoopMotion which represents motion fl...

ID: 2509.09074v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 OmniEVA: Embodied Versatile Planner via Task-Adaptive 3D-Grounded and Embodiment-aware Reasoning

2025-09-13

Авторы:

Yuecheng Liu, Dafeng Chi, Shiguang Wu, Zhanguang Zhang, Yuzheng Zhuang, Bowen Yang, He Zhu, Lingfeng Zhang, Pengwei Xie, David Gamaliel Arcos Bravo, Yingxue Zhang, Jianye Hao, Xingyue Quan

#### Контекст Комбинация multimodal large language models (MLLMs) с обзорными возможностями обнаружения и интерпретации сложных сценариев может вдохновить развитие объёмных моделей рассуждения. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. Однако, текущие решения сталкиваются с двумя значимыми проблемами. #### Метод Методика OmniEVA включает в себя два ключевых компонента: Task-Adaptive 3D Grounding и Embodiment-Aware Reasoning. Task-Adaptive 3D Grounding использует gated router для регулирования 3D-фузирования, что позволяет выполнять специфический контекстный 3D-grounding для разных обстановок. Embodiment-Aware Reasoning оптимизирует решения планирования, включая в рассуждение не только цели, но и физические ограничения реальных роботов. #### Результаты Результаты показали, что OmniEVA увеличивает скорость выполнения задач, повышает точность решений и способствует более эффективному использованию ресурсов. Измерения проводились в различных обстановках, в том числе и сложных. #### Значимость OmniEVA может быть применено в сферах, требующих обеспечения эффективности и безопасности в работе роботов. Он повышает качество выполнения единичных задач и упрощает работу в классах задач. #### Выводы Работа OmniEVA демонстрирует роль объёмных моделей в развитии обзорных моделей рассуждения в области робототехники. Будущие исследования будут фокусироваться на улучшении модели за счёт добавления дополнительных параметров и улучшения её чувствительности.

Annotation:

ID: 2509.09332v1 cs.RO, cs.AI, cs.CL, cs.CV

arXiv PDF

Показано 391 - 400 из 544 записей