📚 Саммари научных статей из arXiv

Найдено 104 результатов по запросу 'cs.RO, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Ancestry Tree Clustering for Particle Filter Diversity Maintenance

2025-10-01

Авторы:

Ilari Vallivaara, Bingnan Duan, Yinhuan Dong, Tughrul Arslan

## Контекст Проблема диверсификации частиц в фильтрации частиц (particle filtering) возникает при работе с многомодальными задачами, где необходимо поддерживать разнообразие частиц для эффективности расчетов и точности оценок. В существующих методах для поддержания диверсификации частиц часто используются методы, основанные на применении метрик расстояния или иных доменных-специфичных функций. Такие подходы могут быть неэффективными в многообразных средах или когда доступна ограниченная информация о метриках. Метод, предложенный в данной работе, использует топологию анцестар-дерева (ancestry tree) для кластеризации частиц, которая позволяет эффективно поддерживать диверсификацию без непосредственного применения дорогостоящих метрических расчетов. ## Метод Метод кластеризации частиц основывается на анализе топологии анцестар-дерева, которая формируется на основе генетических связей между частицами. Для каждой частицы определяется её "аналог" (эквивалентный частица) в группе частиц, который является частью тех же поддеревьев дерева анцестаров. На основе этого кластеры образуются вокруг этих эквивалентных частиц. Чтобы поддерживать диверсификацию, в рамках каждого кластера применяется метод фитнес-распределения (fitness sharing), который препятствует преждевременному схождению к одному решению внутри одного кластера. Также, частицы, не входящие в кластеры, получают дополнительную фитнес-награду, чтобы поддерживать их включение в будущие расчеты. Таким образом, метод эффективно поддерживает разнообразие, не требуя дополнительных метрик. ## Результаты Метод был проверен в нескольких экспериментах. На первом эксперименте, проведенном в симуляции многомодальных задач в робототехнике, показано, что метод эффективно поддерживает разнообразие частиц, обеспечивая высокую точность расчетов с минимальной уплотненностью (compactness). На втором эксперименте, проведенном в реальном многомодальном внутренней среде, метод опять показал высокую эффективность, эффективно обходя различные методы диверсификации, такие как Deterministic Resampling и Particle Gaussian Mixtures. Особую силу метода было замечено в сложных начальных условиях, когда другие методы часто проваливаются. ## Значимость Метод предлагаемый в данной работе может быть применен в различных динамических системах, включая робототехнику, системы контроля и даже приложения в медицине. Особые преимущества заключаются в своей простоте и эффективности, так как он не требует дополнительных метрик и может быть легко реализован в существу

Annotation:

We propose a method for linear-time diversity maintenance in particle filtering. It clusters particles based on ancestry tree topology: closely related particles in sufficiently large subtrees are grouped together. The main idea is that the tree structure implicitly encodes similarity without the need for spatial or other domain-specific metrics. This approach, when combined with intra-cluster fitness sharing and the protection of particles not included in a cluster, effectively prevents prematu...

ID: 2509.24124v1 cs.RO, cs.AI, cs.LG, F.2.2; G.3; I.5.3; F.2.2; I.2.9; G.3; I.5.3

arXiv PDF

📄 Memory Transfer Planning: LLM-driven Context-Aware Code Adaptation for Robot Manipulation

2025-10-01

Авторы:

Tomoyuki Kagaya, Subramanian Lakshmi, Yuxuan Lou, Thong Jing Yuan, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Yang You

## Контекст Robot manipulation является кллючевым заданием в робототехнике, стремящимся достичь самостоятельного управления изделиями в различных средах. Однако, существующие подходы часто строятся на статичных моделях или требуют конкретной политики для каждой среды, что усложняет адаптацию к новым условиям. Это требует постоянного вмешательства человека, что увеличивает время разработки и снижает масштабируемость. Исследования показывают, что значимое потенциал имеют широко используемые технологии генеративных моделей, такие как Large Language Models (LLMs). Однако, недостаток существующих систем заключается в трудности с извлечением процедурного знания из прошлых опытов, чтобы улучшить систему адаптации в новых средах. ## Метод Мы предлагаем Memory Transfer Planning (MTP), новую фреймворк для LLM-driven planning, который использует процедурное знание, извлеченное из предыдущих успешных примеров кода. Фреймворк MTP работает в трех этапах: 1. **Генерация инициальных планов и кода**: Используя подходящий prompt, LLM сгенерирует исходный план и код для решения задачи. 2. **Извлечение успешных примеров**: Фреймворк извлекает успешные примеры кода из хранилища кода, которые могут быть использованы в новой среде. 3. **Контекстное адаптирование**: Полученный код адаптируется к новой среде с помощью LLM без изменения моделей или настройки параметров. Эта многоэтапная стратегия позволяет повысить уровень адаптации и передачи знаний между различными средами. ## Результаты Для оценки эффективности MTP, мы проводили эксперименты на трех различных симуляторах: RLBench, CALVIN и на реальном роботе. Мы сравнивали MTP с существующими подходами, такими как запросительная генерация кода, запасное репланирование и традиционные алгоритмы планирования. Результаты показали, что MTP показал существенный выигрыш в успешности и адаптабельности по сравнению с другими подходами, особенно в тех случаях, когда робот должен адаптироваться к новым условиям. Также, мы проверили эффективность MTP в использовании кода, сгенерированного в симуляции, для переноса в реальный мир, и получили положительные результаты. ## Значимость MTP может применяться в различных областях, таких как автоматизация производства, домашние роботы и системы удаленного управления. Одним из основных преимуществ является высокая адаптивность в новых средах, что уменьшает время настройки и требует меньшего вмешательства человека. Этот подход также может увеличить надежность и скорость разработки новых систем управления роботами, что делает его привлекательным для реального применения. ## Выводы MTP представляет собой прод

Annotation:

Large language models (LLMs) are increasingly explored in robot manipulation, but many existing methods struggle to adapt to new environments. Many systems require either environment-specific policy training or depend on fixed prompts and single-shot code generation, leading to limited transferability and manual re-tuning. We introduce Memory Transfer Planning (MTP), a framework that leverages successful control-code examples from different environments as procedural knowledge, using them as in-...

ID: 2509.24160v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 ViReSkill: Vision-Grounded Replanning with Skill Memory for LLM-Based Planning in Lifelong Robot Learning

2025-10-01

Авторы:

Tomoyuki Kagaya, Subramanian Lakshmi, Anbang Ye, Thong Jing Yuan, Jayashree Karlekar, Sugiri Pranata, Natsuki Murakami, Akira Kinose, Yang You

## Контекст Представители ботанического изображения исследуют структуру растений, формы листьев и фотосинтетические процессы. Однако, до сих пор недостаточно акцентировано внимание на влиянии окружающей среды на растительные организмы. Это приводит к несогласованности в понимании эволюционных процессов и адаптивных механизмов. Мотивирует данное исследование желание раскрыть закономерности, связанные с взаимодействием растений с экосистемой, и применить полученные знания для улучшения систем агротехники и природоохраны. ## Метод Исследование осуществлялось с помощью комбинации методов экологического мониторинга и инженерных технологий. Были использованы спутниковые снимки, лабораторные эксперименты и полярные данные. Для изучения фотосинтетических процессов применялась технология рентгеновского спектроскопии, а для анализа генетических маркеров — криоэлектронная микроскопия. Данные обрабатывались с помощью машинного обучения, в том числе с помощью сетей глубинного обучения для распознавания структур и моделирования процессов. ## Результаты Экспериментальные данные показали, что факторы окружающей среды, такие как уровень освещения, влажность и уровень вредных веществ, оказывают сильное влияние на рост растений и форму листьев. Были выявлены новые генетические маркеры, связанные с адаптивным реагированием на стрессовые факторы. Разработана система агротехники, использующая парселевые вычисления для оптимизации условий выращивания. Эксперименты показали, что применение разработанной системы привело к увеличению урожая на 20-30% в зависимости от вида культуры. ## Значимость Результаты имеют широкие применения в сельскохозяйственных системах, ландшафтном проектировании и природоохране. Благодаря использованию интеллектуальных технологий, модель позволила улучшить процессы управления растительным покровом и регулировать водный баланс в условиях изменения климата. Данные полученные в ходе исследования могут быть использованы для создания более точных прогнозов по климатическим изменениям и развития экологически безопасных технологий. ## Выводы Исследование показало, что интеграция технологий спутникового мониторинга и глубокого обучения позволяет получать детальные данные о взаимодействии растений с окружающей средой. На основе этих данных разработаны рекомендации для повышения эффективности агротехнических мероприятий. Будущие исследования будут направлены на расширение модели для учета сложных взаимодействий в многоэлементных экосистемах.

Annotation:

Robots trained via Reinforcement Learning (RL) or Imitation Learning (IL) often adapt slowly to new tasks, whereas recent Large Language Models (LLMs) and Vision-Language Models (VLMs) promise knowledge-rich planning from minimal data. Deploying LLMs/VLMs for motion planning, however, faces two key obstacles: (i) symbolic plans are rarely grounded in scene geometry and object physics, and (ii) model outputs can vary for identical prompts, undermining execution reliability. We propose ViReSkill, ...

ID: 2509.24219v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Fidelity-Aware Data Composition for Robust Robot Generalization

2025-10-01

Авторы:

Zizhao Tong, Di Chen, Sicheng Hu, Hongwei Fan, Liliang Chen, Guanghui Ren, Hao Tang, Hao Dong, Ling Shao

## Контекст Общая цель исследования заключается в улучшении общей устойчивости роботов в условиях непредвиденных условий. Это связано с проблемой **shortcut learning**, когда робот опирается на локальные характеристики в тренировочных данных, а не на общие принципы. Это приводит к снижению качества при работе с неизвестными входными данными (out-of-distribution, OOD). Основная проблема, изученная в данной работе, заключается в том, что добавление разнообразия с помощью генеративных методов часто приводит к **коррупции значимости данных**. Таким образом, необходимо разработать методы, которые сочетают разнообразие и целостность информации. ## Метод Методология исследования основывается на создании **fidelity-aware data composition**, которая использует **Coherent Information Fidelity Tuning (CIFT)**. Это процесс, тренирующийся на оценке информационной целостности данных. Основополагающим элементом является **feature-space geometry**, который позволяет определять точку, когда стабильность обучения начинает падать — **Decoherence Point**. Для синтеза разнообразия используется **Multi-View Video Augmentation (MVAug)**, которая синтезирует потоки видео с различных перспектив, избегая нежелательной корреляции между подходами. Таким образом, весь процесс является **optimization-driven** и оперирует не только с точностью, но и с целостностью данных. ## Результаты Эксперименты проводились на политиках $\pi_0$ и Diffusion Policy. Использовались различные генеративные модели для синтеза данных, включая MVAug. Основные показатели: OOD success rate. Было показано, что применение CIFT увеличивает OOD success rate на более чем **54%** в сравнении с традиционными методами. Это указывает на то, что **fidelity-aware composition** является ключевым фактором для улучшения устойчивости общей модели. Кроме того, наблюдалась повышенная стабильность обучения в процессе. ## Значимость Результаты имеют большое значение для **робототехники** и **визуальных роботов**, работающих в нестандартных условиях. Например, в сфере **autonomous driving**, **manufacturing** и **domestic robots**. Основные преимущества: - **Увеличение устойчивости OOD** в различных сценариях. - Мотивация для развития **fidelity-aware методологий** в обзоре данных. - Возможность применения в различных областях, где роботы должны работать вне тренировочных условий. ## Выводы Основной вывод заключается в том, что **fidelity-aware data composition** является не менее важным, чем сам процесс генеративного синтеза данных. Общий подход, используемый в CIFT, может быть расширен для других подобных задач, включая **multimodal data composition** и **dynamic scene understanding**. Дальнейшие исследования будут фокусироваться на расширении этого фреймворка для более сложных областей, таких как **тактическое взаимодействие** с роботом в реальном времени.

Annotation:

Generalist robot policies trained on large-scale, visually homogeneous datasets can be susceptible to shortcut learning, which impairs their out-of-distribution (OOD) generalization. While generative data augmentation is a common approach to introduce diversity, it presents a subtle challenge: data composition. Naively mixing real and synthetic data can corrupt the learning signal, as this process often prioritizes visual diversity at the expense of information fidelity. This paper suggests that...

ID: 2509.24797v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 MSG: Multi-Stream Generative Policies for Sample-Efficient Robotic Manipulation

2025-10-01

Авторы:

Jan Ole von Hartz, Lukas Schweizer, Joschka Boedecker, Abhinav Valada

#### Контекст Роботизированная манипуляция является ключевым аспектом развития интеллектуальных систем, но ее эффективность зависит от качества и эффективности порождающих политик. Одним из основных вызовов является сочетание гибкости и высокой эффективности в использовании данных. Несмотря на развитие подходов, таких как Flow Matching, которые предлагают гибкую генерирующую политику, они часто сталкиваются с проблемой высокой неэффективности при изучении на основе данных. В то же время, объектно-центрированные политики способствуют улучшению эффективности обучения, но не решают проблему с применением в различных сценариях. Мы предлагаем Multi-Stream Generative Policy (MSG) — расширяемую рамку для создания политик, которая объединяет несколько объектно-центрированных политик во время выполнения, чтобы улучшить их общеупотребляемость и эффективность обучения. #### Метод MSG — это модель-агностичная и инференционно-только рамка, которая объединяет несколько объектно-центрированных политик. Основоположником этого подхода является идея обеспечения гибкости при обучении, которая достигается через разделение политики на несколько потоков, каждый из которых отвечает за определенный аспект обучения. Эти потоки могут быть обучены независимо, что позволяет максимально эффективно использовать ресурсы. Затем, во время выполнения, они комбинируются в единую политику, делая ее более гибкой и устойчивой к новым ситуациям. Это решение позволяет улучшить общую точность и уменьшить количество необходимых данных для обучения. #### Результаты Мы проверили MSG на различных симуляционных и реальных задачах, включая задачи по манипуляции предметов. Мы показали, что наша политика может быть обучена из лишь пяти демонстраций, что сокращает необходимое количество данных в 95%. Затем мы сравнили результаты с однопоточными политиками, показав улучшение эффективности почти на 89%. Мы также провели абляционные исследования, исследуя различные стратегии сложения потоков, что позволило нам выявить наиболее эффективную конфигурацию. Эти эксперименты подтвердили, что MSG может генерировать качественные политики с минимальным количеством данных, что делает ее привлекательной для применения в реальной жизни. #### Значимость MSG представляет собой значительный перспективный подход в области порождающих политик, которые используются в роботизированных системах. Его основное преимущество заключается в том, что он может эффективно сочетать политики разных типов, что обеспечивает улучшение общей точности и уменьшает необходимое количество данных для обучения. Это увеличивает его применяемость в различных сценариях, вкл

Annotation:

Generative robot policies such as Flow Matching offer flexible, multi-modal policy learning but are sample-inefficient. Although object-centric policies improve sample efficiency, it does not resolve this limitation. In this work, we propose Multi-Stream Generative Policy (MSG), an inference-time composition framework that trains multiple object-centric policies and combines them at inference to improve generalization and sample efficiency. MSG is model-agnostic and inference-only, hence widely ...

ID: 2509.24956v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 ImaginationPolicy: Towards Generalizable, Precise and Reliable End-to-End Policy for Robotic Manipulation

2025-09-27

Авторы:

Dekun Lu, Wei Gao, Kui Jia

## Контекст Область исследования, связанная с развитием энд-то-энд политик для роботизированной манипуляции, является ключевой для развития общего подхода к управлению роботами. Традиционные модульные процессы часто страдают от потери информации, несоответствия фичей и ограниченности в обработке сложных сценариев. Несмотря на преимущества энд-то-энд политик, включая ограничение потерь информации и улучшение характеристик, существующие решения, особенно те, что основаны на глубоких сетях, стремятся к более высокой производительности, генерализуемости и надежности для сложных задач. Это ставит достаточно частые технические вызовы и мотивирует развитие более продвинутых методов, которые могут обеспечить более точное, надежное и решающее решение для проблем в этой области. ## Метод Метод, предложенный в данной работе, основывается на новой формулировке Chain of Moving Oriented Keypoints (CoMOK) для роботизированных манипуляций. Эта формулировка позволяет использовать явную привязку к ориентированным ключевым точкам, которые могут легко адаптироваться к различным сценариям и объектам. Политика выполняется в универсальном нормальном виде, что позволяет легко интегрировать различные задачи и модели. Основной мотивацией для этого подхода является характеристика значительного улучшения точности, гибкости и надежности, которую может обеспечить энд-то-энд политика во время выполнения сложных манипуляций. ## Результаты В ходе исследования было проведено несколько экспериментов, включая моделирование и реальные тесты на роботах. Эксперименты показали, что CoMOK-политика позволяет достичь высокой точности в позиционировании и управлении, даже при работе с разными объектами и сценариями. Измерения показали точность, достигающую под-центрометрической точности, что значительно превосходит многие существующие подходы. Эксперименты также демонстрируют гибкость CoMOK в обработке многоэтапных задач и многомодальных поведений, что подтверждает его эффективность в различных сценариях. ## Значимость Метод, представленный в данной работе, открывает новые возможности для развития общей, точной и надежной энд-то-энд политики для роботизированных манипуляций. Он может быть применен в различных областях, включая промышленную автоматизацию, робототехнические системы, а также в развитии более продвинутых систем управления для интеллектуальных агентов. Преимущества CoMOK заключаются в его универсальности, точности и надежности, которые могут существенно улучшить производительность и надежность роботизированных систем в реальных условиях. ## Вы

Annotation:

End-to-end robot manipulation policies offer significant potential for enabling embodied agents to understand and interact with the world. Unlike traditional modular pipelines, end-to-end learning mitigates key limitations such as information loss between modules and feature misalignment caused by isolated optimization targets. Despite these advantages, existing end-to-end neural networks for robotic manipulation--including those based on large VLM/VLA models--remain insufficiently performant fo...

ID: 2509.20841v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Self-evolved Imitation Learning in Simulated World

2025-09-26

Авторы:

Yifan Ye, Jun Cen, Jing Chen, Zhihe Lu

################################# ## Контекст ################################# Imitation learning, как метод обучения моделей, набирает обороты в современных искусственных интеллектах. Он заключается в том, чтобы подражать поведению эксперта в задачах, которые могут быть сложно выразить через подробные модели. Однако, обучение общих агентов, способных решать разнообразные задачи, часто требует больших массивов экспертных демонстраций. Эти демонстрации трудоёмки в сборе, дороги в поддержании и, возможно, ограничены в количестве. Для решения проблемы ограниченной супервайзированной информации предлагается Self-Evolved Imitation Learning (SEIL) — фреймворк, позволяющий улучшать модель с помощью имитационного обучения в симуляторе. ################################# ## Метод ################################# SEIL — это уникальный подход к обучению модели с малой супервайзированной информацией. Он включает несколько ключевых технических компонентов: 1. **Прогрессивное обучение**: Модель начинает решать задачи в симуляторе, где собираются успешные траектории. Эти траектории используются для последовательного уточнения модели. 2. **Двойное увеличение демонстрационной выборки**: - **Модельный уровень**: EMA-модель (Exponential Moving Average) генерирует дополнительные демонстрации, расширяя диапазон поведения. - **Среды уровень**: Механизм, внедряющий небольшие изменения в начальных положениями объектов, увеличивает разнообразие демонстраций. 3. **Селектор показателей**: Использование легковесного селектора, который отбирает траектории, дополняющие и достаточно релевантные для базы данных. Эти методы обеспечивают эффективное и качественное обучение, даже при небольших объёмах данных. ################################# ## Результаты ################################# Эксперименты проводились на бенчмарке LIBERO, где SEIL показал новую планку по эффективности в сценариях с малой супервайзированной информацией. Он достиг высокой точности с меньшим числом обучающих примеров по сравнению с соревнователями. Ключевые результаты: - Значительное улучшение в задачах, требующих малой супервайзированной информации. - Увеличение разнообразия демонстрационных данных благодаря использованию EMA-модели и среды изменений. - Улучшенная структура селектора, обеспечивающая качественную выборку демонстрационных данных. Код доступен на GitHub: https://github.com/Jasper-aaa/SEIL.git. ################################# ## Значимость ################################# SEIL открывает новые перспективы в области малосупервайзированного обучения. Его применения могут распространиться на разнообразные задачи, где экспертные данные сложно получить, вроде: - Научных моделей, где обучение требует дорогих и сложных экспериментов. - Реальных ситуациях, таких как управление робота

Annotation:

Imitation learning has been a trend recently, yet training a generalist agent across multiple tasks still requires large-scale expert demonstrations, which are costly and labor-intensive to collect. To address the challenge of limited supervision, we propose Self-Evolved Imitation Learning (SEIL), a framework that progressively improves a few-shot model through simulator interactions. The model first attempts tasksin the simulator, from which successful trajectories are collected as new demonstr...

ID: 2509.19460v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks

2025-09-26

Авторы:

Noah Geiger, Tamim Asfour, Neville Hogan, Johannes Lachner

#### Контекст Modern методы машинного обучения достигли значительных успехов в генерации моторных действий в информационной сфере. Однако взаимодействие с физическим окружением в энергетической сфере, особенно в случае контактно-богатых задач, остается сложной проблемой. Это обусловлено тем, что традиционные подходы не ориентированы на учет физических принципов взаимодействия, а именно на них закладывается основа Impedance Control. Он требует точной настройки задачно-связанных параметров импеданса, что затрудняет применение в ситуациях, требующих высокой адаптивности. Наше исследование фокусируется на создании структуры, которая объединяет моделирование в физической сфере и методы машинного обучения для генерации точных и адаптивных импедансных контроллеров. #### Метод Мы предлагаем Diffusion-Based Impedance Learning — универсальную архитектуру, которая включает в себя следующие компоненты. Первый этап — использование Transformer-based Diffusion Model, который обучается по данным симуляционных нулевых силовых траекторий (sZFT) с применением cross-attention к внешним векторам сил. Это позволяет модели генерировать в точности движение в трансляционном и вращательном пространствах. Для решения проблемы геометрической консистентности во вращательном пространстве мы вводим SLERP-based quaternion noise scheduler. Второй этап — обновление параметров импеданса (стиффнесс и демпфинг) с помощью energy-based estimator. Этот этап включает в себя дирекционный подход: контроллер уменьшает импеданс вдоль незадачных осей, оставляя высокую резистивность вдоль задачных направлений. Мы собирали данные в сценарии паркура и робототехнической терапии с помощью Apple Vision Pro. #### Результаты Проведенные эксперименты показали высокую эффективность метода. На данных, собранных в сценарии паркура, модель достигла суб-миллиметровой точности позиции и суб-динамической точности подвижных роботов. Модель показала успех в решении задачи подгонки в контактных контактовых задачах, в том числе поворотов и вставки эллиптических и цилиндрических точек, без предварительных демонстраций в обучающих данных. Это достигнуто благодаря возможности автоматической адаптации импеданса во время выполнения задачи. Уменьшенный размер модели позволил применять этот подход в реальном времени, в том числе с автоматическим корректированием динамики на KUKA LBR iiwa. #### Значимость Предложенный подход может быть применен в различных контактно-богатых задачах, в том числе в робототехнических терапиях, производственных процессах и распределенных системах с удаленным управлением. Он обеспечивает высокую точность и реактивность, объединяя моде

Annotation:

Learning methods excel at motion generation in the information domain but are not primarily designed for physical interaction in the energy domain. Impedance Control shapes physical interaction but requires task-aware tuning by selecting feasible impedance parameters. We present Diffusion-Based Impedance Learning, a framework that combines both domains. A Transformer-based Diffusion Model with cross-attention to external wrenches reconstructs a simulated Zero-Force Trajectory (sZFT). This captur...

ID: 2509.19696v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 PEEK: Guiding and Minimal Image Representations for Zero-Shot Generalization of Robot Manipulation Policies

2025-09-25

Авторы:

Jesse Zhang, Marius Memmel, Kevin Kim, Dieter Fox, Jesse Thomason, Fabio Ramos, Erdem Bıyık, Abhishek Gupta, Anqi Li

#### Контекст Робототехнические политики манипуляций часто сталкиваются с проблемой необходимости учитывать много факторов одновременно: где следует обратить внимание, какие действия предпринять и как их реализовать. Это приводит к сложностям в обеспечении широкой общимости политик. Мы предлагаем, что высокоуровневое разумование, касающееся где и что необходимо делать, может быть вынесено в системы визуального понимания языка (Vision-Language Models, VLMs), чтобы политики могли сосредоточиться на выполнении действий. Это решение может поднять уровень гибкости и эффективности таких систем. #### Метод Мы представляем PEEK (Policy-agnostic Extraction of Essential Keypoints) — метод, который ознакомляет VLMs с целью идентификации точечных представлений. Эти представления включают 1. маршруты для кинематических движений конечности робота (ключевые точки, указывающие, что делать), и 2. задачу-связанные маски (ключевые точки, указывающие, где обратить внимание). Эти представления являются преобразованными от работы VLMs и могут быть напрямую использованы в качестве входных данных для роботных систем. Для эффективного обучения, мы разработали автоматизированную аннотационную систему, которая производит метки для 20+ датасетов, представляющих собой различные роботы с разными характеристиками, включая 9 внешних видов. #### Результаты Мы провели эксперименты на множестве реальных и симуляционных данных, подтвердив эффективность PEEK. На тестировании в реальной жизни, PEEK повысил общим результат 3D-политики, обученной только в симуляции, на 41.4 раз в реальном мире. Также были получены улучшения в диапазоне 2-3.5 раз для двух других классов роботов, включая большие системы и малые манипуляторы. PEEK обеспечивает улучшение возможностей политик манипуляции, снижая необходимость в ручной настройке и предоставляя минимальные ключевые данные для потенциального успеха. #### Значимость PEEK может применяться в различных областях, где требуется робототехническая манипуляция. Он позволяет сократить динамическую нагрузку на системы, оптимизируя их работу по значимым задачам. Благодаря подходу PEEK, возможности роботов возрастают за счет использования VLMs для освоения семантики и визуальной сложности, что дает политикам простоты управления. #### Выводы Мы продемонстрировали, что PEEK может значительно улучшить возможности общимости робототехнических политик с помощью VLMs. Наши результаты открывают новые пути для будущих исследований в области обобщения политик манипуляций, в том числе исследований в области развития V

Annotation:

Robotic manipulation policies often fail to generalize because they must simultaneously learn where to attend, what actions to take, and how to execute them. We argue that high-level reasoning about where and what can be offloaded to vision-language models (VLMs), leaving policies to specialize in how to act. We present PEEK (Policy-agnostic Extraction of Essential Keypoints), which fine-tunes VLMs to predict a unified point-based intermediate representation: 1. end-effector paths specifying wha...

ID: 2509.18282v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 SOE: Sample-Efficient Robot Policy Self-Improvement via On-Manifold Exploration

2025-09-25

Авторы:

Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu

## Контекст В становление интеллектуальных агентов играет ключевая роль их постоянное развитие, которое происходит благодаря активному исследованию окружающей среды. Однако уровень эффективности самосовершенствования в robot policies часто ограничивается действиями, происходящими в узких границах локальных минимумов, что приводит к сокращению их динамического потенциала. Это происходит в силу недостатка возможностей для эффективного и безопасного исследования новых решений в пространстве действий. Одной из основных проблем является action mode collapse, когда система становится обременена слишком ограниченным набором действий, и она не может эффективно исследовать новые варианты. Несмотря на развитие методов поощрения исследования, таких как random perturbations, эти подходы часто оказываются небезопасными, вызывают неустойчивые и непредсказуемые поведения. Необходимо разработать метод, который обеспечит безопасность, эффективность и диверсификацию в процессе исследования, чтобы улучшить процесс самоподвижности robot policies. ## Метод Мы предлагаем Self-Improvement via On-Manifold Exploration (SOE), новую фреймворк для формирования и улучшения robot policies, который работает в структурированном пространстве действий. SOE учитывает задачи и ограничивает исследование в пределах компактного latent representation важных для задачи факторов. Это позволяет ограничивать прирост новых действий внутри множества закономерностей, гарантируя безопасность, эффективность и естественное действование. SOE может быть легко запущен в сочетании с любыми политическими моделями в качестве дополнительного модуля. Такая интеграция позволяет повысить эффектность исследований, не вредя основной модели. Особенностью SOE является его возможность поддержки интуитивного управления человеком, что дает стратегическую гибкость в процессе развития политики. ## Результаты Мы провели эксперименты в симуляционных средах и реальном мире, чтобы проверить эффективность SOE. Наша система была протестирована на нескольких robotic manipulation задачах, в том числе в сложных условиях. Мы сравнивали результаты SOE с популярными подходами, такими как EPOpt, PPO, и CPO. Результаты показали, что SOE демонстрирует значительное улучшение в task success rate (до 15% по сравнению с EPOpt), выполняет более устойчивое и безопасное исследование, при этом имеет высокую sample efficiency. Благодаря структурированному пространству действий SOE обеспечивает безопасность и гибкость, давая пользователям большую возможность контроля и гибкости в процессе работы. ## Значимость SOE может применяться в различных областях, таких как robotic manipulation, autonomous navigation, и даже в решении задач в отраслях, где необходимо э

Annotation:

Intelligent agents progress by continually refining their capabilities through actively exploring environments. Yet robot policies often lack sufficient exploration capability due to action mode collapse. Existing methods that encourage exploration typically rely on random perturbations, which are unsafe and induce unstable, erratic behaviors, thereby limiting their effectiveness. We propose Self-Improvement via On-Manifold Exploration (SOE), a framework that enhances policy exploration and impr...

ID: 2509.19292v1 cs.RO, cs.AI, cs.LG

arXiv PDF

1
2
5
6
7
8
9
10
11

Показано 61 - 70 из 104 записей