Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation

2508.05154v1 cs.LG, cs.AI 2025-08-09
Авторы:

Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка агентных моделей (ABM) и рациональных агентных моделей (RABM) для сложных социальных систем представляет собой быстро развивающуюся область исследований, особенно в контексте моделирования распространения инфекционных заболеваний. Традиционные эпидемиологические модели, такие как модели SIR/SEIR, ограничены в своей способности учитывать поведенческие аспекты населения и динамику принятия решений индивидуальными агентами. В ответ на эти ограничения исследователи активно внедряют методы обучения с подкреплением (RL) для оптимизации поведения агентов в ABM/RABM, что позволяет моделировать адаптивное поведение в условиях пандемии, включая ношение масок, вакцинацию и соблюдение карантинных мер. Однако существует критическая проблема оценки эффективности RL-алгоритмов в таких сложных стохастических системах. Традиционные метрики RL, такие как совокупное вознаграждение или скорость сходимости, не учитывают специфику прикладной области и могут давать искаженное представление о качестве политики в контексте общественного здравоохранения. Например, политика, максимизирующая экономическую активность, может привести к катастрофическим последствиям в виде высокой смертности. Отсутствие стандартизированных, ориентированных на предметную область метрик затрудняет сравнение различных RL-алгоритмов и их применение в критически важных сферах, таких как реагирование на пандемические угрозы. Авторы статьи подчеркивают, что существующие подходы к оценке RL-моделей в эпидемиологическом моделировании игнорируют ключевые аспекты: динамику изменения поведения населения, неравномерный доступ к ресурсам (например, маскам или вакцинам), а также морально-этические аспекты принятия решений. Эти пропуски в методологии оценки могут привести к разработке политик, которые формально оптимальны с точки зрения RL-метрик, но неприемлемы или вредны в реальном мире. Исследование направлено на разработку комплексной системы метрик, которая учитывает как традиционные показатели эффективности RL, так и критически важные для общественного здравоохранения аспекты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют новую систему метрик "Domain-driven-RL-metrics", которая интегрирует традиционные RL-показатели с предметно-ориентированными метриками, специфичными для эпидемиологического моделирования. Методология строится на трехуровневой архитектуре оценки: базовом уровне RL-метрик, промежуточном уровне адаптированных эпидемиологических показателей и верхнем уровне комплексных метрик общественного здравоохранения. На базовом уровне используются стандартные RL-метрики: совокупное вознаграждение, скорость обучения, стабильность политики и разнообразие поведения. Однако эти метрики дополняются специфическими весами, отражающими приоритеты в области здравоохранения. Например, компонент вознаграждения за снижение смертности получает экспоненциально возрастающий вес по мере роста показателей смертности. Промежуточный уровень включает адаптированные эпидемиологические показатели: эффективное репродуктивное число (Rt), учитывающее поведенческие изменения; интегрированную нагрузку на систему здравоохранения, включающую не только количество госпитализаций, но и стратификацию по возрасту и коморбидностям; метрики экономического бремени, связанные с потерей рабочих дней и затратами на лечение. Особое внимание уделяется метрикам неравенства в доступе к средствам защиты, где вводится коэффициент Джини для распределения масок и вакцин среди различных социоэкономических групп. Верхний уровень представлен комплексными метриками, объединяющими показатели предыдущих уровней. Ключевыми являются: "Сбалансированный индекс пандемического отклика" (BPR), который взвешивает снижение смертности, экономические потери и социальное неравенство; "Индект устойчивости политики", оценивающий гибкость стратегии при появлении новых штаммов; и "Метрика общественного доверия", отражающая динамику комплаентности населения в ответ на рекомендации. Эти метрики рассчитываются как взвешенные комбинации базовых показ

Abstract

For the development and optimization of agent-based models (ABMs) and rational agent-based models (RABMs), optimization algorithms such as reinforcement learning are extensively used. However, assessing the performance of RL-based ABMs and RABMS models is challenging due to the complexity and stochasticity of the modeled systems, and the lack of well-standardized metrics for comparing RL algorithms. In this study, we are developing domain-driven metrics for RL, while building on state-of-the-art metrics. We demonstrate our ``Domain-driven-RL-metrics'' using policy optimization on a rational ABM disease modeling case study to model masking behavior, vaccination, and lockdown in a pandemic. Our results show the use of domain-driven rewards in conjunction with traditional and state-of-the-art metrics for a few different simulation scenarios such as the differential availability of masks.

Ссылки и действия