Arnold: a generalist muscle transformer policy

2508.18066v1 cs.RO, cs.AI, cs.LG, q-bio.QM 2025-08-27

Авторы:

Alberto Silvio Chiappa, Boshi An, Merkourios Simos, Chengkun Li, Alexander Mathis

Резюме на русском

## Контекст Актуальным научным вопросом является управление высокомерностными и нелинейными моделями мозговой-мышечной системы человека. Недавние достижения в области машинного обучения позволили создавать политики, успешно решающие отдельные задачи, такие как достижение цели, манипуляция объектами и локуция. Однако эти политики являются "специалистами", оптимизированными для решения конкретных задач. Недостаточностью таких подходов является их невозможность универсального применения. В данной работе предлагается Arnold — обобщенная политика, способная решать различные задачи и управлять различными моделями. Это решение призвано устранить ограниченность специализированных политик и обеспечить высокую гибкость и универсальность. ## Метод Arnold основывается на комбинации трех основных компонентов: техники клонирования поведения (behavior cloning), метода PPO (Proximal Policy Optimization) и трансформерной архитектуры. Он использует сенсорно-моторную лексикографию — универсальную структуру для представления смыслов, целей и моторных действий. Эта лексикография позволяет трансформеру работать с разными моделями и задачами, обрабатывая их различия в наблюдениях и действиях. Обучение происходит в два этапа: начальное обучение с behavior cloning и дополнительная оптимизация с помощью PPO. Это позволяет достичь высокого уровня производительности в 14 разнообразных задачах, включая манипуляцию предметами и локуцию. ## Результаты На тестировании в 14 задачах Arnold достиг высокого уровня производительности, демонстрируя экспертные или супер-экспертные результаты. Он эффективно решает задачи динамического локуции, тонкой манипуляции объектами и других сложных задач. Данные результаты подтверждают гибкость и эффективность использования сенсорно-моторной лексикографии и трансформерной архитектуры в многозадачном обучении. Кроме того, были проведены аналитические эксперименты, подтверждающие теоретические выводы о ограниченной трансфертивности мышечных синергий на различные задачи. ## Значимость Arnold может быть применен в широком кругу приложений, включая робототехнику, медицину, игровые технологии и симуляции человеческого поведения. Он предоставляет универсальный инструмент для обучения и управления моделями, не требующий переобучения для каждой новой задачи или модели. Это означает экономию ресурсов и времени. Благодаря своей гибкости и эффективности, Arnold может стать ключевым компонентом в развитии искусственного интеллекта и систем управления. ## Выводы Результаты работы подтвердили эффективность и гибкость Arnold в решении различных задач. О

Abstract

Controlling high-dimensional and nonlinear musculoskeletal models of the human body is a foundational scientific challenge. Recent machine learning breakthroughs have heralded policies that master individual skills like reaching, object manipulation and locomotion in musculoskeletal systems with many degrees of freedom. However, these agents are merely "specialists", achieving high performance for a single skill. In this work, we develop Arnold, a generalist policy that masters multiple tasks and embodiments. Arnold combines behavior cloning and fine-tuning with PPO to achieve expert or super-expert performance in 14 challenging control tasks from dexterous object manipulation to locomotion. A key innovation is Arnold's sensorimotor vocabulary, a compositional representation of the semantics of heterogeneous sensory modalities, objectives, and actuators. Arnold leverages this vocabulary via a transformer architecture to deal with the variable observation and action spaces of each task. This framework supports efficient multi-task, multi-embodiment learning and facilitates rapid adaptation to novel tasks. Finally, we analyze Arnold to provide insights into biological motor control, corroborating recent findings on the limited transferability of muscle synergies across tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация