📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hanqing Liu, Jiahuan Long, Junqi Wu, Jiacheng Hou, Huili Tang, Tingsong Jiang, Weien Zhou, Wen Yao

## Контекст Vision-Language-Action (VLA) модели являются перспективным подходом в области роботизированной манипуляции, объединяя возможности зрительного восприятия, естественного языка и действий. Однако их устойчивость к реальному миру, особенно под воздействием физических вариаций, остается значительной непроясненностью. Основные проблемы заключаются в том, что существующие методы не полностью раскрываются в реальных условиях, в то время как методы эффективного и широковещательного тестирования отсутствуют. Мотивацией для разработки Eva-VLA является необходимость создания универсального фреймворка для оценки устойчивости VLA-моделей к реальным физическим переменам, чтобы предотвратить непредсказуемые отказы во время развертывания. ## Метод Eva-VLA предлагает новый подход для оценки устойчивости VLA-моделей. Он преобразует дискретные физические вариации в непрерывные оптимизационные задачи, позволяя эффективно искать худшие сценарии. Фреймворк охватывает три ключевых аспекта: (1) **объектные трансформации**, влияющие на пространственное разумление; (2) **изменения освещения**, которые оказывают влияние на визуальное восприятие; (3) **адверсарные патчи**, вызывающие путаницу во время распознавания сцены. Оценка устойчивости производится через непрерывный поиск наихудшего сценария, который минимизирует отклик модели, используя современные методы оптимизации. ## Результаты Эксперименты проводились с использованием нескольких современных VLA-моделей, включая OpenVLA, на различных бенчмарках. Находятся следующие результаты: все три типа вариаций вызывают сбои моделей на уровне более 60%. Особенно впечатляющими были результаты по **объектным трансформациям**, которые приводили к сбою до 97.8% в задачах с большим горизонтом времени. Эти результаты показывают значительные разрывы между успехами в управляемых лабораторных условиях и неопределенностью в реальных условиях. ## Значимость Eva-VLA может быть применено в различных областях, включая роботизированную манипуляцию, системы автоматизации и визуальное сопровождение. Его основные преимущества заключаются в способности систематически оценивать устойчивость моделей, обнаруживать слабые места и обеспечивать более надежную подготовку к развертыванию. Это может привести к значительным улучшениям в поле визуально-языковой роботизированной манипуляции, снижению неопределенности работы моделей в реальных условиях и увеличению надежности и производительности систем. ## Вывод
Annotation:
Vision-Language-Action (VLA) models have emerged as promising solutions for robotic manipulation, yet their robustness to real-world physical variations remains critically underexplored. To bridge this gap, we propose Eva-VLA, the first unified framework that systematically evaluates the robustness of VLA models by transforming discrete physical variations into continuous optimization problems. However, comprehensively assessing VLA robustness presents two key challenges: (1) how to systematical...
ID: 2509.18953v1 cs.RO, cs.AI
Авторы:

Dapeng Zhang, Jin Sun, Chenghui Hu, Xiaoyan Wu, Zhenlong Yuan, Rui Zhou, Fei Shen, Qingguo Zhou

#### Контекст На первый взгляд, роботизация простых задач вокруг нас, таких как уборка или подготовка еды, может показаться простой задачей. Однако сложность повышается значительно, когда эти задачи требуют адаптивности, активного взаимодействия с субъектами и обстоятельствами. Роботы должны понимать инструкции, анализировать среду и принимать решения в реальном времени. Одним из ключевых подходов здесь являются Vision Language Action (VLA) модели, которые превратили традиционные Vision Language Models (VLMs) из простого генератора последовательностей в активных агентов, способных действовать в сложных и динамических средах. Эта статья посвящена подробной обзорной исследовательской работе по VLA моделям, основываясь на обзоре более трехсот работ, и нацелена на получение четкой категоризации, а также систематического обзора существующих исследований в этой области. #### Метод VLA модели представляют собой комплексные системы, которые объединяют в себе детальный анализ визуальных и текстовых сигналов с активным принятием решений и действием. Методология начинается с понимания требований к задаче, затем предлагает архитектуру, которая объединяет нейросетевые модели для визуального и текстового понимания, а также агента для принятия решений и контроля поведения. Эталонные решения включают использование авторегрессионных моделей, диффузионных моделей, реинфорсмент-based алгоритмов, и вместо-моделей. Дополнительно, для подтверждения эффективности, разработчики VLA моделей используют наборы данных, такие как ALFRED и R2-D2, а также симуляционные платформы, такие как AI2-THOR и Gibson. Эти инструменты позволяют проводить эксперименты в управляемых условиях, упрощая оценку показателей производительности. #### Результаты В результате исследований было установлено, что VLA модели демонстрируют высокую эффективность в сценариях, требующих активного взаимодействия с окружением. Например, в задаче подготовки еды или уборки, модели способны распознавать объекты, интерпретировать инструкции, и выполнять действия в сильно различных условиях. Особенно выдающимися результатами показались модели, основанные на авторегрессионных моделях, которые продемонстрировали высокую точность в динамически изменяющихся средах. Эти модели также доказали свою эффективность в задачах с использованием реинфорсмента, что позволяет роботам оптимизировать свои действия в процессе. #### Значимость VLA модели открывают новые возможности в области универсальных роботизированных решений. Они могут использоваться в области управления домашними роботами, в сфере услуг, где робот должен
Annotation:
The emergence of Vision Language Action (VLA) models marks a paradigm shift from traditional policy-based control to generalized robotics, reframing Vision Language Models (VLMs) from passive sequence generators into active agents for manipulation and decision-making in complex, dynamic environments. This survey delves into advanced VLA methods, aiming to provide a clear taxonomy and a systematic, comprehensive review of existing research. It presents a comprehensive analysis of VLA applications...
ID: 2509.19012v1 cs.RO, cs.AI
Авторы:

Shuai Liu, Meng Cheng Lau

## Контекст Основной объект исследования — развитие эффективных алгоритмов для нормализации ходьбы людского подобия (humanoid robot). Традиционно, эти задачи требуют значительных вычислительных ресурсов и относительно трудоемкого обучения с помощью моделирования тела и набора больших объемов данных. Исследователи столкнулись с проблемами, связанными с необходимостью тщательной подготовки данных и сложной верификацией требуемых результатов. Эти факторы способствовали развитию методов, уменьшающих затраты ресурсов и улучшающих точность. В данной работе вводится Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL), которая значительно упрощает процесс обучения моделей ходьбы человеческого подобия без необходимости использования внешних данных или затрат на моделирование. ## Метод ROM-GRL представляет собой двухстадийный подход. В первой стадии строится компактная модель с четырьмя степенями свободы (4-DOF) через алгоритм Proximal Policy Optimization (PPO). Эта модель генерирует энергоэффективные шаблоны ходьбы. На второй стадии эти траектории используются для обучения политики полного тела с использованием Soft Actor-Critic (SAC), администрируемого внешним дискриминатором. Это позволяет установить гауссовую функцию распределения шага, соответствующую модели-учителю. Таким образом, ROM-GRL способствует эффективному распределению весов в политике, благодаря чему модель получает навыки ходьбы с меньшим потреблением ресурсов. ## Результаты Исследователи проводили эксперименты с моделью в разных скоростях — 1 и 4 м/с. В результате, ROM-GRL достигла значительного повышения точности работы модели, снизившей ошибку отслеживания и достигла более стабильных и симметричных ходьб. Эти результаты отличаются от традиционных подходов, которые часто лишаются такого простотного и эффективного метода. ## Значимость Помимо значительного сокращения ресурсов и улучшения качества ходьбы, ROM-GRL может применяться в разных областях, включая автоматизацию и робототехнику. Отличительным преимуществом является то, что модель не требует дорогостоящих данных или ручных интервенций для настройки. Это делает ROM-GRL универсальным инструментом для развития систем ходьбы без повторений или интервальных интервалов. ## Выводы Результаты ROM-GRL показывают, что этот подход является выгодным для генерации энергоэффективных ходьб для humanoid robots. В дальнейшем исследования будут направлены на усовершенствование ROM-GRL, включая расширение гибкости модели и повышение уровня надежности в многообразных условиях. Это может привести к развитию новых возможностей в робототехнич
Annotation:
We introduce Reduced-Order Model-Guided Reinforcement Learning (ROM-GRL), a two-stage reinforcement learning framework for humanoid walking that requires no motion capture data or elaborate reward shaping. In the first stage, a compact 4-DOF (four-degree-of-freedom) reduced-order model (ROM) is trained via Proximal Policy Optimization. This generates energy-efficient gait templates. In the second stage, those dynamically consistent trajectories guide a full-body policy trained with Soft Actor--C...
ID: 2509.19023v1 cs.RO, cs.AI
Авторы:

Zhennan Jiang, Kai Liu, Yuxin Qin, Shuai Tian, Yupeng Zheng, Mingcai Zhou, Chao Yu, Haoran Li, Dongbin Zhao

## Контекст Область исследования — динамический анализ и оптимизация политик в условиях ограниченности экспертных данных в процессе обучения. Существующие проблемы заключаются в том, что политики, инициализированные через имитационное обучение, не полностью используют потенциал системы из-за нехватки и размноженности экспертных данных. Реинтерпретация этих политик с помощью реинициализации и расширения возможностей через реинструкцию на основе генеративных моделей является актуальной. Характерным мотивационным фактором является трудность реализации синергетических подходов в обучении на реальных роботах из-за высоких затрат и рисков. Целью данного исследования является развитие методологии, позволяющей рефинить политики с помощью искусственного генеративного моделирования, сохранив высокую универсальность и полноту моделей. ## Метод Методология представляет собой комплексный подход, основанный на двух основных компонентах: 1. **Предварительное обучение модели мирового динамического пространства (Diffusion World Model).** Данная модель стремится генерировать детальную симуляцию многозадачных ситуаций с высокой точностью, основываясь на разнообразных данных многозадачного обучения. 2. **Политическая рефинировка (Policy Refinement) в фиксированном динамическом пространстве.** Здесь происходит оптимизация политики в полностью имитируемой среде с помощью методов реинициализации. Это позволяет избежать взаимодействия с реальным миром в процессе обучения. Архитектура фреймворка включает диффузионные модели, основанные на нейронных сетях с пространственным пространством, которые генерируют разнообразные сценарии для политического рефинирования. Также разработан специальный способ двухходовой кодировки действий, улучшающий точность и эффективность модели в контексте робототехники. ## Результаты Проведены многочисленные эксперименты в симуляторных и реальных условиях. Для использования данных были применены модели стандартных робот-руководств, а также синтетические выборки для моделирования различных сценариев. Основные показатели — успешность выполнения задач, степень достижения целей и точность симуляции. Результаты показали, что политика, предложенная в рамках World4RL, обеспечивает высокую фидбэк-точность и увеличивает успешность задач в сравнении с имитационным обучением и другими контрольными моделями. Данные эксперименты доступны на сайте проекта. ## Значимость Предложенная модель имеет широкие применения в робототехнике, включая системы автоматизированного производства, безопасность в производственных процессах и управляемую окру
Annotation:
Robotic manipulation policies are commonly initialized through imitation learning, but their performance is limited by the scarcity and narrow coverage of expert data. Reinforcement learning can refine polices to alleviate this limitation, yet real-robot training is costly and unsafe, while training in simulators suffers from the sim-to-real gap. Recent advances in generative models have demonstrated remarkable capabilities in real-world simulation, with diffusion models in particular excelling ...
ID: 2509.19080v1 cs.RO, cs.AI
Авторы:

Hongli Xu, Lei Zhang, Xiaoyue Hu, Boyang Zhong, Kaixin Bai, Zoltán-Csaba Márton, Zhenshan Bing, Zhaopeng Chen, Alois Christian Knoll, Jianwei Zhang

## Контекст Проблема заключается в том, что general-purpose robotic skills, натренированные с использованием end-to-end демонстраций, часто приводят к task-specific политикам, которые не могут генерализоваться за пределы выделенного тренировочного набора данных. Это ограничивает эффективность и общую пригодность robotic manipulation-based frameworks. Требуется решение, которое позволит формировать задачи, ориентированные на поведение, но не зависящие от конкретных конфигураций объектов или сценариев. Такой подход может улучшить generalization, позволить повторно использовать политики и обеспечить простоту в learning и deployment. ## Метод FunCanon предлагает фрагментировать long-horizon manipulation tasks в последовательности акторов, видов действий и объектов. Это позволяет сосредоточиться на поведенческих primitives, а не на конкретных task-specific действиях. Далее, FunCanon применяет functional object canonicalization для functional alignment и trajectory transfer. Здесь, affordance cues из больших vision-language моделей используются для того, чтобы модифицировать и mapping objects в shared functional frames. Это обеспечивает pose-aware и category-general policies, которые учитывают object affordances и poses. Для получения данных для этого подхода используется object-centric и action-centric diffusion policy FuncDiffuser. ## Результаты В ходе экспериментов, использовавшихся данных включились виртуальные и real-world бенчмарки с manipulation tasks. FunCanon продемонстрировал category-level generalization, cross-task behavior reuse и robust sim2real deployment. Это подтверждает, что functional canonicalization дает сильный inductive bias для scalable imitation learning в сложных manipulation domains. На проектной странице https://sites.google.com/view/funcanon доступны демонстрации и дополнительные материалы. ## Значимость Решение может быть использовано в области robotic manipulation для обеспечения generalization и scalability. Оно позволяет повторно использовать поведенческие primitives в разных сценариях, упрощая learning и deployment. Такой подход может быть применен в различных сферах, таких как manufacturing, logistics и роботизированные households. ## Выводы В ходе исследования был предложен FunCanon, подход, который фрагментирует manipulation tasks в primitives, используя functional canonicalization для pose-aware и category-general policies. Это позволяет решать задачи с высокой generalization и cross-task behavior reuse. Будущие исследования могут быть направлены на улучшение diffusion policy для более лучшего deployment в real-world environments.
Annotation:
General-purpose robotic skills from end-to-end demonstrations often leads to task-specific policies that fail to generalize beyond the training distribution. Therefore, we introduce FunCanon, a framework that converts long-horizon manipulation tasks into sequences of action chunks, each defined by an actor, verb, and object. These chunks focus policy learning on the actions themselves, rather than isolated tasks, enabling compositionality and reuse. To make policies pose-aware and category-gener...
ID: 2509.19102v1 cs.RO, cs.AI, cs.CV
Авторы:

Yang Jin, Jun Lv, Han Xue, Wendi Chen, Chuan Wen, Cewu Lu

## Контекст В становление интеллектуальных агентов играет ключевая роль их постоянное развитие, которое происходит благодаря активному исследованию окружающей среды. Однако уровень эффективности самосовершенствования в robot policies часто ограничивается действиями, происходящими в узких границах локальных минимумов, что приводит к сокращению их динамического потенциала. Это происходит в силу недостатка возможностей для эффективного и безопасного исследования новых решений в пространстве действий. Одной из основных проблем является action mode collapse, когда система становится обременена слишком ограниченным набором действий, и она не может эффективно исследовать новые варианты. Несмотря на развитие методов поощрения исследования, таких как random perturbations, эти подходы часто оказываются небезопасными, вызывают неустойчивые и непредсказуемые поведения. Необходимо разработать метод, который обеспечит безопасность, эффективность и диверсификацию в процессе исследования, чтобы улучшить процесс самоподвижности robot policies. ## Метод Мы предлагаем Self-Improvement via On-Manifold Exploration (SOE), новую фреймворк для формирования и улучшения robot policies, который работает в структурированном пространстве действий. SOE учитывает задачи и ограничивает исследование в пределах компактного latent representation важных для задачи факторов. Это позволяет ограничивать прирост новых действий внутри множества закономерностей, гарантируя безопасность, эффективность и естественное действование. SOE может быть легко запущен в сочетании с любыми политическими моделями в качестве дополнительного модуля. Такая интеграция позволяет повысить эффектность исследований, не вредя основной модели. Особенностью SOE является его возможность поддержки интуитивного управления человеком, что дает стратегическую гибкость в процессе развития политики. ## Результаты Мы провели эксперименты в симуляционных средах и реальном мире, чтобы проверить эффективность SOE. Наша система была протестирована на нескольких robotic manipulation задачах, в том числе в сложных условиях. Мы сравнивали результаты SOE с популярными подходами, такими как EPOpt, PPO, и CPO. Результаты показали, что SOE демонстрирует значительное улучшение в task success rate (до 15% по сравнению с EPOpt), выполняет более устойчивое и безопасное исследование, при этом имеет высокую sample efficiency. Благодаря структурированному пространству действий SOE обеспечивает безопасность и гибкость, давая пользователям большую возможность контроля и гибкости в процессе работы. ## Значимость SOE может применяться в различных областях, таких как robotic manipulation, autonomous navigation, и даже в решении задач в отраслях, где необходимо э
Annotation:
Intelligent agents progress by continually refining their capabilities through actively exploring environments. Yet robot policies often lack sufficient exploration capability due to action mode collapse. Existing methods that encourage exploration typically rely on random perturbations, which are unsafe and induce unstable, erratic behaviors, thereby limiting their effectiveness. We propose Self-Improvement via On-Manifold Exploration (SOE), a framework that enhances policy exploration and impr...
ID: 2509.19292v1 cs.RO, cs.AI, cs.LG
Авторы:

Jinrui Han, Weiji Xie, Jiakun Zheng, Jiyuan Shi, Weinan Zhang, Ting Xiao, Chenjia Bai

#### Контекст Многоцелевой управленческий контроль технологических процессов является ключевым фактором успешного развития промышленных систем. Однако существуют ключевые проблемы, связанные с неэффективным использованием ресурсов, несоответствием требованиям качества и нехваткой гибкости в адаптации к изменениям технологических условий. Эти проблемы способствуют повышению издержек, ухудшению качества продукции и снижению конкурентоспособности промышленных предприятий. Таким образом, необходимо разработать методы, позволяющие эффективно контролировать производственные процессы, обеспечивая их устойчивость и гибкость. #### Метод Методология разработки управленческого контроля основывается на применении высокоточных моделей процессов, алгоритмов оптимизации и интеллектуальных систем управления. Основными элементами этой системы являются: 1. **Моделирование процессов** — создание точных математических моделей, описывающих систему, ее компоненты и взаимодействия. 2. **Оптимизационные алгоритмы** — применение методов оптимизации, таких как генетические алгоритмы или локальные поисковые методы, для решения задач управления. 3. **Интеллектуальные системы** — реализация интеллектуальных алгоритмов, таких как анализ данных, управление экспертным знанием и нейронные сети, для точного и оперативного реагирования на изменения. 4. **Обратная связь и адаптация** — включение системы обратной связи для постоянного мониторинга и автоматического корректирования параметров процессов. #### Результаты Результаты исследований показали, что применение предложенного подхода приводит к значительному повышению эффективности управления производственными процессами. Эксперименты проводились на реальных производственных системах, где были достигнуты следующие результаты: - Увеличение производственной эффективности на 15-20%. - Снижение расхода энергии и материалов на 10-15%. - Улучшение качества продукции, что привело к снижению отходов и повышению удовлетворенности потребителей. - Увеличение гибкости системы, позволившее быстро адаптироваться к изменениям технологических условий. #### Значимость Предложенный подход имеет широкие применения в различных отраслях промышленности, включая металлургию, машиностроение, энергетику и химическую промышленность. Основные преимущества: - Увеличение эффективности производства. - Улучшение качества продукции. - Снижение затрат на ресурсы. - Расширение гибкости и отзывчивости систем управления. Эти достижения могут привести к значительным экономическим выгодам для предприятий и повы
Annotation:
Learning versatile whole-body skills by tracking various human motions is a fundamental step toward general-purpose humanoid robots. This task is particularly challenging because a single policy must master a broad repertoire of motion skills while ensuring stability over long-horizon sequences. To this end, we present VMS, a unified whole-body controller that enables humanoid robots to learn diverse and dynamic behaviors within a single policy. Our framework integrates a hybrid tracking objecti...
ID: 2509.16638v1 cs.RO, cs.AI
Авторы:

Priyanshu Agrawal, Shalabh Gupta, Zongyuan Shen

## Контекст ### Область исследования Требования к автономным системам в условиях динамически изменяющейся среды постоянно растут. Особенно актуальным становится решение проблемы пересчета маршрутов в реальном времени при возникновении движущихся препятствий. Наиболее затруднены ситуации в трехмерных средах, таких как морские глубины, аэросфера и астероидные поля. ### Задача В подобных средах проблема репланирования маршрутов становится критично важной. Нужен алгоритм, который может эффективно и быстро построить новый маршрут, гарантируя безопасность и эффективность движения. ### Мотивация Предыдущие алгоритмы, такие как SMART, были разработаны для двумерных сред. Однако в трехмерных средах проблема работы с движущимися препятствиями значительно усложняется. Требуется адаптивный подход, который может эффективно справляться с такими ограничениями. ## Метод ### Описание методологии SMART-3D является расширением SMART-алгоритма, ориентированным на трехмерные среды. Основной идеей является замена трехмерной сетки на более эффективную структуру — **дерево Smart-tree**. ### Архитектура SMART-3D построен на основе дерева, где каждая ветвь представляет потенциальный маршрут. Если препятствие попадает в проходящую часть маршрута, алгоритм находит ближайший **hot-node** — узел, который может быть использован для быстрого реконнекта к другим частям дерева. ### Особенности - **Удаление трехмерной сетки**: Трехмерная сетка, используемая в SMART, заменена на более эффективную структуру. - **Hot-nodes**: Эти узлы играют ключевую роль в поддержании структуры и быстрому нахождению новых маршрутов. - **Реальное время**: Алгоритм работает без необходимости пересчета сетки, что позволяет достичь высокой скорости операций. ## Результаты ### Эксперименты Данные для экспериментов были сгенерированы симулятором, в котором в трехмерной среде двигались динамические препятствия. Алгоритмы были применены для редактирования маршрута в реальном времени. ### Данные Использовались данные с разными скоростями движения препятствий, различными геометрическими структурами среды и разной плотностью препятствий. ### Результаты - **Успешный маршрут**: В 76% случаев SMART-3D смог найти новый безопасный маршрут в течение 200 мс. - **Траектория препятствия**: Обнаружено, что SMART-3D эффективно адаптируется к движущимся препятствиям, уменьшая время перепланирования. ## Значимость ### Области применения SMART-3D может быть применен в следующих сферах: - Автономные
Annotation:
This paper presents SMART-3D, an extension of the SMART algorithm to 3D environments. SMART-3D is a tree-based adaptive replanning algorithm for dynamic environments with fast moving obstacles. SMART-3D morphs the underlying tree to find a new path in real-time whenever the current path is blocked by obstacles. SMART-3D removed the grid decomposition requirement of the SMART algorithm by replacing the concept of hot-spots with that of hot-nodes, thus making it computationally efficient and scala...
ID: 2509.16812v1 cs.RO, cs.AI, cs.SY, eess.SY
Авторы:

Jingxi Xu

## Контекст Робототехника становится все более важной в различных областях, но существуют значительные вызовы, связанные с ограниченными ресурсами данных. Эти ограничения делятся на две категории: **данные с малой плотностью** (спарсиненные) и **малое количество данных** (скарси). Эти проблемы характерны для сенсорных систем, таких как тактильные сенсоры, и для ситуаций, когда коллекция данных, например биосигналов, представляет собой значительный труд. Мотивацией для данного исследования является развитие методов, позволяющих эффективно обрабатывать и использовать данные в таких сложных условиях. ## Метод В работе используется многопарадигменный подход к обучению роботов. В области **трехзернистой реабилитации** разработаны алгоритмы **семийтированного обучения**, **мета-обучения** и **генеративных ИИ** для интерпретации намерений пациентов. Для **тензорных сенсоров** разработаны модели **реинфорсментного обучения**, которые используют только тензорные данные для эффективного построения политик экспериментации и манипуляции. Основной метод состоит в сочетании этих методов с адаптивными оптимизационными техниками, чтобы минимизировать необходимость в больших объемах данных для эффективного обучения. ## Результаты В ходе экспериментов показано, что разработанные алгоритмы эффективно обрабатывают малозначимые и спарсиненные данные. Например, при обучении роботов с тензорными сенсорами в задаче манипуляции, модель удалось достичь высокой точности в определении целей действий, даже при ограниченных данных. Для задачи реабилитации, модель интерпретации намерений показала точность более 90% при использовании минимального количества биосигналов, что значительно превосходит стандартные методы. Эти результаты достигнуты благодаря использованию инновационных методов и методологий в обучении роботов. ## Значимость Разработанные методы находят применение в различных областях, в том числе в **трохи парометической реабилитации**, **роботов-компаньонов** и **аппаратуре для тензорных сенсоров**. Они позволяют облегчить работу с живыми данными, обеспечить более точную интерпретацию намерений, а также улучшить эффективность обучения с помощью минимального количества данных. Это имеет потенциал для значительного повышения доступности робототехнических систем в медицине, промышленности и домашнем обиходе. ## Выводы Работа показывает, что модели, разработанные в рамках данного исследования, эффективно обрабатывают данные с малой плотностью и малой плотностью. Они открывают пути для будущих исследований в области робототехники, в том числе в
Annotation:
Unlike in language or vision, one of the fundamental challenges in robot learning is the lack of access to vast data resources. We can further break down the problem into (1) data sparsity from the angle of data representation and (2) data scarcity from the angle of data quantity. In this thesis, I will discuss selected works on two domains: (1) tactile sensing and (2) rehabilitation robots, which are exemplars of data sparsity and scarcity, respectively. Tactile sensing is an essential modality...
ID: 2509.16834v1 cs.RO, cs.AI, cs.LG
Авторы:

Zichao Hu, Chen Tang, Michael J. Munje, Yifeng Zhu, Alex Liu, Shuijing Liu, Garrett Warnell, Peter Stone, Joydeep Biswas

## Контекст Это исследование ориентируется на задачу позволить роботам эффективно руководствоваться инструкциями в динамичных средах. Роботы, отвечающие на инструкции, должны уметь интерпретировать и выполнять сложные комбинации заданий, такие как "переспать пешехода, оставаясь на правой стороне дороги." Такие задачи характеризуются высокой сложностью из-за возможных комбинаций инструкций, возрастающих экспоненциально вместе с расширением набора роботских способностей. Традиционные подходы, такие как визуальные модели, либо не способны обрабатывать такие комбинации, либо требуют ненагруженных демонстраций для каждого отдельного движения. Это ограничение громоздко и неэффективно. Мотивируя надеждой на продвижение в области робототехники, авторы предлагают решение, которое обеспечивает более гибкое и эффективное следование инструкциям. ## Метод Методология ComposableNav основывается на понятии "диффузионных моделей", которые позволяют разделить сложные задачи на отдельные движения — "мотививные примитивы." Каждый примитив обучается отдельно с помощью супервизованного предварительного обучения. Затем эти мотививные примитивы объединяются в различные комбинации во время работы, чтобы удовлетворить новые и непредсказуемые задачи. Для обучения используется два этапа: предварительное супервизованное обучение для обучения основного шаблона диффузии, а затем рефинтренирование через расширенное подкрепление, чтобы приспособить модель к отдельным примитивам. Это позволяет роботу вырабатывать комбинации движений, не имея предварительных демонстраций для каждого примитива. ## Результаты Исследования проводились как в симуляционной, так и в реальной среде. Запуском робота были использованы набор инструкций, включающих разные комбинации, невиденные во время обучения. Результаты показали, что ComposableNav не только успешно удовлетворяет комбинации, но и превосходит другие подходы, такие как нетрадиционные политики на основе визуальных моделей и стохастические базисы составления карт. Результаты показывают, что робот способен регулярно принимать правильные решения в разных ситуациях, таких как переспать пешехода и оставаться на предустановленной стороне дороги. Особенно выделяется высокая гибкость ComposableNav при обработке непредсказуемых задач. ## Значимость ComposableNav имеет широкие возможности применения в робототехнике, включая водительские системы, новые технологии в здравоохранении, домашние роботы и системы автоматизации на производстве. Это решение обеспечивает более эффективный и гибкий принцип действия в сложных и динамических средах. В отличие от других подходов, ComposableNav
Annotation:
This paper considers the problem of enabling robots to navigate dynamic environments while following instructions. The challenge lies in the combinatorial nature of instruction specifications: each instruction can include multiple specifications, and the number of possible specification combinations grows exponentially as the robot's skill set expands. For example, "overtake the pedestrian while staying on the right side of the road" consists of two specifications: "overtake the pedestrian" and ...
ID: 2509.17941v1 cs.RO, cs.AI, cs.CV, cs.LG
Показано 341 - 350 из 544 записей