Learning to Ball: Composing Policies for Long-Horizon Basketball Moves

2509.22442v1 cs.GR, cs.AI, cs.LG, cs.RO 2025-09-30

Авторы:

Pei Xu, Zhen Wu, Ruocheng Wang, Vishnu Sarukkai, Kayvon Fatahalian, Ioannis Karamouzas, Victor Zordan, C. Karen Liu

Резюме на русском

## Контекст Улучшение имитационных моделей спортивных технологий является важной задачей в искусственном интеллекте. Одна из таких задач — создание комплексных контрольных политик для воспроизведения сложных спортивных действий, таких как баскетбольные маневры. Такие задачи характеризуются многоэтапной структурой и приоритетом достижения более широкой цели. Несмотря на развитие методов рекомендательных систем, возникают сложности в создании моделей, которые могут грамотно переключаться между отдельными фазами задачи, обеспечивая безупречные переходы и композицию поведения. Эта проблема вызвана тем, что многие методы не умеют адаптироваться к обстановке с неясными промежуточными стадиями и неэффективно распределяют ресурсы между многофазными задачами. Наша исследовательская группа рассматривает эту проблему, стремясь создать более точные и реалистичные методы композиции спортивных действий. ## Метод Мы предлагаем новую структуру композиции политик, основанную на гибкой интеграции отдельных моделей. Наша методология включает в себя выделение главных фаз задачи и создание отдельных моделей для каждой из них. Для управления переходом между этими фазами мы разрабатываем роутер, использующий мягкие переключения. Модели оснащены возможностью адаптироваться к нестандартным ситуациям, а структура роутера упрощает определение наилучшего пути для перехода. Использование симуляционных и реальных данных позволяет тренировать модели на наборах данных, включающих различные сценарии. Эта процедура обеспечивает высокую точность и реалистичность воспроизведения. ## Результаты Мы проводим эксперименты на наборе симуляционных задач, включающих баскетбольные маневры, такие как передача, забивание и переходы между ними. Модели, обученные нашей системой, показывают высокую точность в выполнении задач и плавные переходы между фазами. Мы также проверяем систему на реальных данных, полученных в процессе игры. Результаты показывают, что модели хорошо адаптируются к различным условиям игры и поддерживают композицию долгосрочных действий с минимальными ошибками. ## Значимость Наш подход имеет широкое применение в спортивных моделях, виртуальных реальностях и играх с высоким уровнем имитации. Он позволяет создавать более точные модели поведения спортсменов и улучшать визуальную составляющую игр. Кроме того, использование мягких роутеров обеспечивает лучшую устойчивость и производительность моделей в условиях реальных ситуаций. Эти достижения открывают пути к будущим исследованиям в области композиции моде

Abstract

Learning a control policy for a multi-phase, long-horizon task, such as basketball maneuvers, remains challenging for reinforcement learning approaches due to the need for seamless policy composition and transitions between skills. A long-horizon task typically consists of distinct subtasks with well-defined goals, separated by transitional subtasks with unclear goals but critical to the success of the entire task. Existing methods like the mixture of experts and skill chaining struggle with tasks where individual policies do not share significant commonly explored states or lack well-defined initial and terminal states between different phases. In this paper, we introduce a novel policy integration framework to enable the composition of drastically different motor skills in multi-phase long-horizon tasks with ill-defined intermediate states. Based on that, we further introduce a high-level soft router to enable seamless and robust transitions between the subtasks. We evaluate our framework on a set of fundamental basketball skills and challenging transitions. Policies trained by our approach can effectively control the simulated character to interact with the ball and accomplish the long-horizon task specified by real-time user commands, without relying on ball trajectory references.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Резюме на русском

Abstract

Ссылки и действия

Навигация