📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Arnold: a generalist muscle transformer policy

2025-08-27

Авторы:

Alberto Silvio Chiappa, Boshi An, Merkourios Simos, Chengkun Li, Alexander Mathis

## Контекст Актуальным научным вопросом является управление высокомерностными и нелинейными моделями мозговой-мышечной системы человека. Недавние достижения в области машинного обучения позволили создавать политики, успешно решающие отдельные задачи, такие как достижение цели, манипуляция объектами и локуция. Однако эти политики являются "специалистами", оптимизированными для решения конкретных задач. Недостаточностью таких подходов является их невозможность универсального применения. В данной работе предлагается Arnold — обобщенная политика, способная решать различные задачи и управлять различными моделями. Это решение призвано устранить ограниченность специализированных политик и обеспечить высокую гибкость и универсальность. ## Метод Arnold основывается на комбинации трех основных компонентов: техники клонирования поведения (behavior cloning), метода PPO (Proximal Policy Optimization) и трансформерной архитектуры. Он использует сенсорно-моторную лексикографию — универсальную структуру для представления смыслов, целей и моторных действий. Эта лексикография позволяет трансформеру работать с разными моделями и задачами, обрабатывая их различия в наблюдениях и действиях. Обучение происходит в два этапа: начальное обучение с behavior cloning и дополнительная оптимизация с помощью PPO. Это позволяет достичь высокого уровня производительности в 14 разнообразных задачах, включая манипуляцию предметами и локуцию. ## Результаты На тестировании в 14 задачах Arnold достиг высокого уровня производительности, демонстрируя экспертные или супер-экспертные результаты. Он эффективно решает задачи динамического локуции, тонкой манипуляции объектами и других сложных задач. Данные результаты подтверждают гибкость и эффективность использования сенсорно-моторной лексикографии и трансформерной архитектуры в многозадачном обучении. Кроме того, были проведены аналитические эксперименты, подтверждающие теоретические выводы о ограниченной трансфертивности мышечных синергий на различные задачи. ## Значимость Arnold может быть применен в широком кругу приложений, включая робототехнику, медицину, игровые технологии и симуляции человеческого поведения. Он предоставляет универсальный инструмент для обучения и управления моделями, не требующий переобучения для каждой новой задачи или модели. Это означает экономию ресурсов и времени. Благодаря своей гибкости и эффективности, Arnold может стать ключевым компонентом в развитии искусственного интеллекта и систем управления. ## Выводы Результаты работы подтвердили эффективность и гибкость Arnold в решении различных задач. О

Annotation:

Controlling high-dimensional and nonlinear musculoskeletal models of the human body is a foundational scientific challenge. Recent machine learning breakthroughs have heralded policies that master individual skills like reaching, object manipulation and locomotion in musculoskeletal systems with many degrees of freedom. However, these agents are merely "specialists", achieving high performance for a single skill. In this work, we develop Arnold, a generalist policy that masters multiple tasks an...

ID: 2508.18066v1 cs.RO, cs.AI, cs.LG, q-bio.QM

arXiv PDF