Learning to Ball: Composing Policies for Long-Horizon Basketball Moves
2509.22442v1
cs.GR, cs.AI, cs.LG, cs.RO
2025-09-30
Авторы:
Pei Xu, Zhen Wu, Ruocheng Wang, Vishnu Sarukkai, Kayvon Fatahalian, Ioannis Karamouzas, Victor Zordan, C. Karen Liu
Резюме на русском
## Контекст
Улучшение имитационных моделей спортивных технологий является важной задачей в искусственном интеллекте. Одна из таких задач — создание комплексных контрольных политик для воспроизведения сложных спортивных действий, таких как баскетбольные маневры. Такие задачи характеризуются многоэтапной структурой и приоритетом достижения более широкой цели. Несмотря на развитие методов рекомендательных систем, возникают сложности в создании моделей, которые могут грамотно переключаться между отдельными фазами задачи, обеспечивая безупречные переходы и композицию поведения. Эта проблема вызвана тем, что многие методы не умеют адаптироваться к обстановке с неясными промежуточными стадиями и неэффективно распределяют ресурсы между многофазными задачами. Наша исследовательская группа рассматривает эту проблему, стремясь создать более точные и реалистичные методы композиции спортивных действий.
## Метод
Мы предлагаем новую структуру композиции политик, основанную на гибкой интеграции отдельных моделей. Наша методология включает в себя выделение главных фаз задачи и создание отдельных моделей для каждой из них. Для управления переходом между этими фазами мы разрабатываем роутер, использующий мягкие переключения. Модели оснащены возможностью адаптироваться к нестандартным ситуациям, а структура роутера упрощает определение наилучшего пути для перехода. Использование симуляционных и реальных данных позволяет тренировать модели на наборах данных, включающих различные сценарии. Эта процедура обеспечивает высокую точность и реалистичность воспроизведения.
## Результаты
Мы проводим эксперименты на наборе симуляционных задач, включающих баскетбольные маневры, такие как передача, забивание и переходы между ними. Модели, обученные нашей системой, показывают высокую точность в выполнении задач и плавные переходы между фазами. Мы также проверяем систему на реальных данных, полученных в процессе игры. Результаты показывают, что модели хорошо адаптируются к различным условиям игры и поддерживают композицию долгосрочных действий с минимальными ошибками.
## Значимость
Наш подход имеет широкое применение в спортивных моделях, виртуальных реальностях и играх с высоким уровнем имитации. Он позволяет создавать более точные модели поведения спортсменов и улучшать визуальную составляющую игр. Кроме того, использование мягких роутеров обеспечивает лучшую устойчивость и производительность моделей в условиях реальных ситуаций. Эти достижения открывают пути к будущим исследованиям в области композиции моде
Abstract
Learning a control policy for a multi-phase, long-horizon task, such as
basketball maneuvers, remains challenging for reinforcement learning approaches
due to the need for seamless policy composition and transitions between skills.
A long-horizon task typically consists of distinct subtasks with well-defined
goals, separated by transitional subtasks with unclear goals but critical to
the success of the entire task. Existing methods like the mixture of experts
and skill chaining struggle with tasks where individual policies do not share
significant commonly explored states or lack well-defined initial and terminal
states between different phases. In this paper, we introduce a novel policy
integration framework to enable the composition of drastically different motor
skills in multi-phase long-horizon tasks with ill-defined intermediate states.
Based on that, we further introduce a high-level soft router to enable seamless
and robust transitions between the subtasks. We evaluate our framework on a set
of fundamental basketball skills and challenging transitions. Policies trained
by our approach can effectively control the simulated character to interact
with the ball and accomplish the long-horizon task specified by real-time user
commands, without relying on ball trajectory references.