Improving Robustness of AlphaZero Algorithms to Test-Time Environment Changes

2509.04317v1 cs.AI, cs.LG 2025-09-06

Авторы:

Isidoro Tamassia, Wendelin Böhmer

Резюме на русском

## Контекст AlphaZero — это мощная архитектура, которая объединяет глубокое обучение и монте-карло-планирование для решения различных задач, включая игровые процессы. Она использует прогнозирующую модель, обученную с помощью нейронных сетей, для оценки текущего состояния игры и принятия решений. Существующие реализации AlphaZero строятся на предположении, что среда, в которой происходит тестирование, будет совпадать с средой, в которой была проведена тренировка. Это ограничивает применение AlphaZero в реальных многообразных средах, где среда может изменяться динамически. Эти ограничения становятся критичными для применения AlphaZero в областях, таких как автоматизированные системы управления, робототехника и игры с нестабильными условиями. В нашем исследовании мы исследуем эти ограничения и предлагаем решения, которые позволяют AlphaZero адаптироваться к изменениям среды во время тестирования. Мы призваны раскрыть потенциал AlphaZero, даже в условиях минимального планирования. ## Метод Чтобы улучшить устойчивость AlphaZero к изменениям в среде во время тестирования, мы предлагаем несколько модификаций стандартной архитектуры. Мы вводим подкрепленное обучение (reinforcement learning) для добавления гибкости в поведение агента. Также мы применяем методы адаптивной оценки, которые позволяют модели менять стратегию на основе новых данных о среде во время тестирования. Ключевой архитектурной новинкой является интеграция метода эволюционного градиентного поиска (evolutionary gradient search). Этот подход позволяет модели непрерывно адаптироваться к изменениям в среде, используя оптимизационные методы, которые имитируют эволюционные процессы. Мы также улучшаем способ отбора решений в процессе монте-карло-планирования, используя более информативные признаки, полученные из текущего состояния среды. Это позволяет AlphaZero быстрее адаптироваться к изменениям, даже при ограниченном планировании. ## Результаты Мы проверили эффективность наших модификаций на серии экспериментов в различных средах с изменением условий. В экспериментах мы применяли несколько модификаций AlphaZero к игровым сценариям с нестабильными условиями. Наши модификации позволили AlphaZero поддерживать высокую производительность даже при низких значениях планирования. Конкретно, мы проверили ситуацию, когда среда изменяется между множеством подмножеств, и нашли, что модификации AlphaZero повышают производительность на 20-30% по сравнению с оригинальной реализацией. Мы также применили нашу модель к задаче автоматизированного управления, где AlphaZero должен реагировать на изменения в реальном времени. Там наша модификация позволила AlphaZero поддерживать более точное управление, даже в

Abstract

The AlphaZero framework provides a standard way of combining Monte Carlo planning with prior knowledge provided by a previously trained policy-value neural network. AlphaZero usually assumes that the environment on which the neural network was trained will not change at test time, which constrains its applicability. In this paper, we analyze the problem of deploying AlphaZero agents in potentially changed test environments and demonstrate how the combination of simple modifications to the standard framework can significantly boost performance, even in settings with a low planning budget available. The code is publicly available on GitHub.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Improving Robustness of AlphaZero Algorithms to Test-Time Environment Changes

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

On Memory: A comparison of memory mechanisms in world models

Sample from What You See: Visuomotor Policy Learning via Diffusion Bridge with O...

M-STAR: Multi-Scale Spatiotemporal Autoregression for Human Mobility Modeling

Comparative Analysis and Parametric Tuning of PPO, GRPO, and DAPO for LLM Reason...

Each Prompt Matters: Scaling Reinforcement Learning Without Wasting Rollouts on ...

Навигация