📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Unsupervised Skill Discovery as Exploration for Learning Agile Locomotion

2025-08-14

Авторы:

Seungeun Rho, Kartik Garg, Morgan Byrd, Sehoon Ha

## Контекст Обучение маневренной локамоции роботам с четырьмя ногами остается значительной проблемой в робототехнике. Для достижения этой цели необходимо грамотно сконцентрироваться на эксплорейшн, поскольку это ключевым фактором для развития ударной мобильности в сложных средах. Несмотря на то, что существуют методы, такие как наградное проектирование, демонстрационные подходы или курсы обучения, они часто приводят к сужению области применения и недостаточной универсальности. В этом исследовании мы предлагаем новую модель, которая применяет автоматическое раскрытие способности для эксплорейшн, снижая необходимость в ручном вмешательстве. ## Метод Мы предлагаем фреймворк **Skill Discovery as Exploration (SDAX)**, который использует методы неуправляемого обучения для раскрытия способностей. Фреймворк построен на би-уровневом оптимизационном процессе, который автоматически регулирует степень эксплорейшн в ходе обучения. Мы также используем автокодировщик для выявления независимых способностей и управления ими. Это позволяет роботу построить репертуар различных маневров, таких как подбегание, подбирание, прыжки и другие сложные движения. Мы проводим эксперименты как в симуляционной, так и в реальной среде, чтобы продемонстрировать широту возможностей фреймворка. ## Результаты Мы проверяем SDAX на виртуальных моделях роботов и в реальной среде. Наши эксперименты показывают, что SDAX может успешно выявить различные способности, такие как подбегание, подбирание, прыжки и другие сложные маневры. Мы также продемонстрировали успешный переход из симуляционной модели в реальную среду. Это позволяет роботу выполнять сложные движения в реальном мире с помощью полученных навыков. ## Значимость Наша работа может быть применена в различных приложениях, таких как поисковые операции после катастроф, доставка товаров и исследования неудобных территорий. Основные преимущества SDAX заключаются в снижении требований к ручному вмешательству, обеспечении широкой универсальности и высокой гибкости в обучении роботу. Это может открыть новые горизонты в развитии роботов с четырьмя ногами для сложных условий. ## Выводы Мы успешно продемонстрировали, что SDAX может быть эффективным инструментом для обучения маневренной локамоции в сложных средах. Мы также показали, что SDAX может быть распространен в различных приложениях. В будущем мы планируем расширить его возможности, включив дополнительные физические модели и улучшив его эффективность.

Annotation:

Exploration is crucial for enabling legged robots to learn agile locomotion behaviors that can overcome diverse obstacles. However, such exploration is inherently challenging, and we often rely on extensive reward engineering, expert demonstrations, or curriculum learning - all of which limit generalizability. In this work, we propose Skill Discovery as Exploration (SDAX), a novel learning framework that significantly reduces human engineering effort. SDAX leverages unsupervised skill discovery ...

ID: 2508.08982v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Learning Causal Structure Distributions for Robust Planning

2025-08-13

Авторы:

Alejandro Murillo-Gonzalez, Junhong Xu, Lantao Liu

## Контекст Структурные казуальные модели (Structural Causal Models, SCM) широко используются в робототехнике для описания взаимодействий компонентов системы. Они содержат информацию об интерактивных параметрах (структурной части) и о том, как эти параметры взаимодействуют (функциональная часть). Однако существуют проблемы с неопределенностью о структуре, вывод которой требует особого внимания. Традиционные методы обучения моделей часто игнорируют структуру, что приводит к менее точным и надежным моделям ра dy namics. Эта неточность может оказаться критичной в сложных реальных условиях. Данная работа рассматривает возможность учета неопределенности о структуре при обучении моделей, чтобы повысить их устойчивость и эффективность в реальном мире. ## Метод Методология основывается на оценке дистрибуции структурных моделей (Causal Structure Distribution, CSD), которая генерирует вариации структурных моделей с учетом их неопределенности. Данная дистрибуция используется для сэмплирования структурных графов, которые включаются в входной вектор для модели. Эта модель представляет собой проблему обучения динамики с помощью проблемы многозадачного обучения (Multi-Task Learning, MTL) с использованием encoder-multidecoder probabilistic model. Энкодер представляет собой нейронную сеть, которая выводит вариации структурных моделей, а многодекодеры предсказывают соответствующие динамики. Метод работает в режиме реального времени, обеспечивая адаптивность и значительно меньшую вычислительную нагрузку. ## Результаты Исследования проводились на моделях руководящих манипуляторов и мобильных роботов, как в симуляционной среде, так и в реальном мире. Метод показал значительное улучшение устойчивости динамических моделей, даже при поврежденных входных данных и изменениях в окружении. Например, работа в реальном мире показала, что модель может научиться планировать новые задачи в новых условиях. Оценка показала, что модель требует меньше ресурсов и показывает высокую производительность, в то время как методы без учета структуры проваливаются в сложных сценариях. ## Значимость Метод может быть применен в области управления роботами, в том числе для оптимизации динамики и увеличения надежности в реальных условиях. Он предоставляет преимущество в плане учета неопределенности в структуре, что недоступно многим другим моделям. Это может использоваться для улучшения планирования и реакции на изменения в реальном мире, что важно для роботов, работающих в нетипичных или нестабильных условиях. ## Выводы Работа показывает, что учитывание структурных моделей с неопределенностью дает более надежные модели динамик. Это отк

Annotation:

Structural causal models describe how the components of a robotic system interact. They provide both structural and functional information about the relationships that are present in the system. The structural information outlines the variables among which there is interaction. The functional information describes how such interactions work, via equations or learned models. In this paper we find that learning the functional relationships while accounting for the uncertainty about the structural ...

ID: 2508.06742v1 cs.RO, cs.AI, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Grasp-HGN: Grasping the Unexpected

2025-08-13

Авторы:

Mehrshad Zandigohar, Mallesham Dasari, Gunar Schirner

#### Контекст Роботизированные протезные руки представляют большой потенциал для восстановления возможности выполнять повседневные задачи у людей, страдающих трансрадиальными ампутациями. Однако проблемами, стоящими перед современными моделями управления, является недостаточная устойчивость к нестандартным реальностям и неограниченному разнообразию объектов. Традиционные системы определения захватов строятся на ограниченных данных, в том числе тренировочных базах, которые не могут полностью охватить реальность. Это приводит к значительному снижению точности при определении захватов на неизвестных объектах, что сказывается на доступности и качестве жизни пользователей. Для решения этого, необходимо развитие моделей, которые могут обнаруживать и адаптироваться к новым объектам, не входящим в обучающие наборы. #### Метод Мы предлагаем **Grasp-LLaVA**, модель, которая использует технологии графики и языка для точного определения захвата. Она включает в себя три основных компонента: (i) **semantic projection**, которая определяет моделью возможность обобщения на неизвестные объекты; (ii) **Grasp-LLaVA**, где используется гибридное рассуждение, которое моделирует человеческие модели рассуждения для определения типов захвата, основываясь на физических характеристиках объекта; (iii) **Hybrid Grasp Network (HGN)**, система, которая разделяет работу между локальным (edge) и облачным (cloud) вычислениями, обеспечивая быстродействие на реальном времени и точность при необходимости. #### Результаты Мы оценили нашу модель на нескольких датасетах, включая набор данных с неизвестными объектами. **Grasp-LLaVA** показала значительное улучшение в сравнении с современными моделями, достигнув 50.2% точности для неизвестных объектов, в то время как лучшие модели современных систем оставались на уровне 36.7%. Благодаря **HGN**, мы достигли значительных улучшений в быстродействии, достигнув 86% усредненной точности на реальных объектах, что является значительной улучшением по сравнению с отдельным использованием моделей или edge-only решений. Добавление **confidence calibration (DC)** позволило повысить точность до 42.3% при работе с неизвестными объектами и уменьшить время вывода на 3.5 раз. #### Значимость **Grasp-LLaVA** и **Hybrid Grasp Network (HGN)** открывают новые возможности для улучшения контроля над протезными руками. Они могут быть применены в различных областях, включая лечебную аппаратуру, технологии для людей с ограниченными физическими возможностями и в области робототехники. Интеграция этих моделей в протезы может существенно улучшить их реакцию на новые объекты, предоставив пользователям более простой доступ к действиям в реа

Annotation:

For transradial amputees, robotic prosthetic hands promise to regain the capability to perform daily living activities. To advance next-generation prosthetic hand control design, it is crucial to address current shortcomings in robustness to out of lab artifacts, and generalizability to new environments. Due to the fixed number of object to interact with in existing datasets, contrasted with the virtually infinite variety of objects encountered in the real world, current grasp models perform poo...

ID: 2508.07648v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 Towards Embodied Agentic AI: Review and Classification of LLM- and VLM-Driven Robot Autonomy and Interaction

2025-08-09

Авторы:

Sahar Salimpour, Lei Fu, Farhad Keramat, Leonardo Militano, Giovanni Toffetti, Harry Edelman, Jorge Peña Queralta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено новой парадигме создания автономных робототехнических систем, в которой роль центрального интеллекта играют фундаментальные модели — большие языковые модели (LLM) и зрительно-языковые модели (VLM). Традиционные подходы к построению поведения роботов опирались на жёстко заданные правила, конечные автоматы или узкоспециализированные нейросети, способные решать лишь заранее предопределённые задачи в ограниченных средах. Однако стремительное развитие фундаментальных моделей, обученных на масштабных интернет-данных, открыло возможность перенести универсальные способности к обобщению, рассуждению и пониманию естественного языка в физический мир. Появление моделей типа GPT-4, PaLM-E или Flamingo позволяет роботу интерпретировать человеческие инструкции в свободной форме, формировать высокоуровневые планы, запрашивать дополнительную информацию и даже самостоятельно исправлять ошибки. Однако интеграция этих моделей в реальные робототехнические системы сталкивается с рядом фундаментальных проблем. Во-первых, LLM/VLM демонстрируют «галлюцинации» и могут выдавать небезопасные или невыполнимые команды. Во-вторых, языковые модели оперируют токенами, тогда как роботам необходимы низкоуровневые сигналы управления (торques, joint angles, end-effector poses). В-третьих, отсутствует единая методология классификации и сравнения подходов: одни работы используют LLM как высокоуровневого планировщика, другие — как генератора кода, третьи — как унифицированный интерфейс к набору специализированных API. Наконец, поле развивается столь стремительно (еженедельно появляются новые open-source проекты, ROS-пакеты и промышленные фреймворки), что традиционные обзоры быстро устаревают. В статье предпринята попытка систематизировать как академические публикации, так и практические наработки сообщества, выделив архитектурные паттерны и предложив таксономию, способную вместить даже экспериментальные прототипы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию. На первом уровне формулируется таксономия, разделяющая все существующие решения по четырём осям: (1) «роль агента», (2) «глубина интеграции модели», (3) «уровень абстракции действий» и (4) «механизм обратной связи». Роль агента охватывает категории «планировщик» (LLM формирует последовательность подзадач), «координатор» (модель выбирает, какой из доступных модулей вызвать), «перцептор» (VLM извлекает семантику из сенсорных данных) и «универсальный интерфейс» (единая точка взаимодействия оператора и системы). Глубина интеграции варьируется от лёгкого «prompt-only» (LLM вызывается как внешняя API без дообучения) до «deep fine-tuning», где модель полностью переобучается на робототехнических датасетах. Уровень абстракции действий разделяет высокоуровневые символьные команды (например, «открой дверь»), среднеуровневые примитивы («схватить ручку») и низкоуровневые сигналы управления (joint torques). Обратная связь может быть лингвистической (успешность задачи описывается текстом), визуальной (сравнение «до/после» кадров) или цифровой (метрики измеряются скалярно). На втором уровне строится сравнительная таблица из 100+ проектов: от ранних работ 2022 года (PaLM-SayCan) до свежих open-source решений вроде ROS 2 GPT Integration или NVIDIA Isaac LLM Agent. Для каждого проекта фиксируется стек ПО (ROS 2, MoveIt, custom simulators), используемые модели (OpenAI GPT-4, Google PaLM-E, open-source LLaVA), типы сенсоров, пространство действий и репортированные метрики. Кроме того, авторы выделяют три архитектурных паттерна: (A) «LLM as Code Generator» (модель пишет Python-скрипты, которые затем исполняются средой), (B) «LLM as Policy Prior» (языковая модель задаёт распределение вероятностей над примитивами, которые уточняются RL или MPC), (C) «LLM as World-Model» (модель имитирует последствия действий и выбирает оптимальные). Предложенная таксономия динамическая: каждый новый проект может быть классифицирован по четырём признакам за

Annotation:

Foundation models, including large language models (LLMs) and vision-language models (VLMs), have recently enabled novel approaches to robot autonomy and human-robot interfaces. In parallel, vision-language-action models (VLAs) or large behavior models (BLMs) are increasing the dexterity and capabilities of robotic systems. This survey paper focuses on those words advancing towards agentic applications and architectures. This includes initial efforts exploring GPT-style interfaces to tooling, as...

ID: 2508.05294v1 cs.RO, cs.AI, cs.LG

arXiv PDF

Показано 101 - 104 из 104 записей