Arnold: a generalist muscle transformer policy
2508.18066v1
cs.RO, cs.AI, cs.LG, q-bio.QM
2025-08-27
Авторы:
Alberto Silvio Chiappa, Boshi An, Merkourios Simos, Chengkun Li, Alexander Mathis
Резюме на русском
## Контекст
Актуальным научным вопросом является управление высокомерностными и нелинейными моделями мозговой-мышечной системы человека. Недавние достижения в области машинного обучения позволили создавать политики, успешно решающие отдельные задачи, такие как достижение цели, манипуляция объектами и локуция. Однако эти политики являются "специалистами", оптимизированными для решения конкретных задач. Недостаточностью таких подходов является их невозможность универсального применения. В данной работе предлагается Arnold — обобщенная политика, способная решать различные задачи и управлять различными моделями. Это решение призвано устранить ограниченность специализированных политик и обеспечить высокую гибкость и универсальность.
## Метод
Arnold основывается на комбинации трех основных компонентов: техники клонирования поведения (behavior cloning), метода PPO (Proximal Policy Optimization) и трансформерной архитектуры. Он использует сенсорно-моторную лексикографию — универсальную структуру для представления смыслов, целей и моторных действий. Эта лексикография позволяет трансформеру работать с разными моделями и задачами, обрабатывая их различия в наблюдениях и действиях. Обучение происходит в два этапа: начальное обучение с behavior cloning и дополнительная оптимизация с помощью PPO. Это позволяет достичь высокого уровня производительности в 14 разнообразных задачах, включая манипуляцию предметами и локуцию.
## Результаты
На тестировании в 14 задачах Arnold достиг высокого уровня производительности, демонстрируя экспертные или супер-экспертные результаты. Он эффективно решает задачи динамического локуции, тонкой манипуляции объектами и других сложных задач. Данные результаты подтверждают гибкость и эффективность использования сенсорно-моторной лексикографии и трансформерной архитектуры в многозадачном обучении. Кроме того, были проведены аналитические эксперименты, подтверждающие теоретические выводы о ограниченной трансфертивности мышечных синергий на различные задачи.
## Значимость
Arnold может быть применен в широком кругу приложений, включая робототехнику, медицину, игровые технологии и симуляции человеческого поведения. Он предоставляет универсальный инструмент для обучения и управления моделями, не требующий переобучения для каждой новой задачи или модели. Это означает экономию ресурсов и времени. Благодаря своей гибкости и эффективности, Arnold может стать ключевым компонентом в развитии искусственного интеллекта и систем управления.
## Выводы
Результаты работы подтвердили эффективность и гибкость Arnold в решении различных задач. О
Abstract
Controlling high-dimensional and nonlinear musculoskeletal models of the
human body is a foundational scientific challenge. Recent machine learning
breakthroughs have heralded policies that master individual skills like
reaching, object manipulation and locomotion in musculoskeletal systems with
many degrees of freedom. However, these agents are merely "specialists",
achieving high performance for a single skill. In this work, we develop Arnold,
a generalist policy that masters multiple tasks and embodiments. Arnold
combines behavior cloning and fine-tuning with PPO to achieve expert or
super-expert performance in 14 challenging control tasks from dexterous object
manipulation to locomotion. A key innovation is Arnold's sensorimotor
vocabulary, a compositional representation of the semantics of heterogeneous
sensory modalities, objectives, and actuators. Arnold leverages this vocabulary
via a transformer architecture to deal with the variable observation and action
spaces of each task. This framework supports efficient multi-task,
multi-embodiment learning and facilitates rapid adaptation to novel tasks.
Finally, we analyze Arnold to provide insights into biological motor control,
corroborating recent findings on the limited transferability of muscle
synergies across tasks.