Domain-driven Metrics for Reinforcement Learning: A Case Study on Epidemic Control using Agent-based Simulation
2508.05154v1
cs.LG, cs.AI
2025-08-09
Авторы:
Rishabh Gaur, Gaurav Deshkar, Jayanta Kshirsagar, Harshal Hayatnagarkar, Janani Venugopalan
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Разработка агентных моделей (ABM) и рациональных агентных моделей (RABM) для сложных социальных систем представляет собой быстро развивающуюся область исследований, особенно в контексте моделирования распространения инфекционных заболеваний. Традиционные эпидемиологические модели, такие как модели SIR/SEIR, ограничены в своей способности учитывать поведенческие аспекты населения и динамику принятия решений индивидуальными агентами. В ответ на эти ограничения исследователи активно внедряют методы обучения с подкреплением (RL) для оптимизации поведения агентов в ABM/RABM, что позволяет моделировать адаптивное поведение в условиях пандемии, включая ношение масок, вакцинацию и соблюдение карантинных мер.
Однако существует критическая проблема оценки эффективности RL-алгоритмов в таких сложных стохастических системах. Традиционные метрики RL, такие как совокупное вознаграждение или скорость сходимости, не учитывают специфику прикладной области и могут давать искаженное представление о качестве политики в контексте общественного здравоохранения. Например, политика, максимизирующая экономическую активность, может привести к катастрофическим последствиям в виде высокой смертности. Отсутствие стандартизированных, ориентированных на предметную область метрик затрудняет сравнение различных RL-алгоритмов и их применение в критически важных сферах, таких как реагирование на пандемические угрозы.
Авторы статьи подчеркивают, что существующие подходы к оценке RL-моделей в эпидемиологическом моделировании игнорируют ключевые аспекты: динамику изменения поведения населения, неравномерный доступ к ресурсам (например, маскам или вакцинам), а также морально-этические аспекты принятия решений. Эти пропуски в методологии оценки могут привести к разработке политик, которые формально оптимальны с точки зрения RL-метрик, но неприемлемы или вредны в реальном мире. Исследование направлено на разработку комплексной системы метрик, которая учитывает как традиционные показатели эффективности RL, так и критически важные для общественного здравоохранения аспекты.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Авторы представляют новую систему метрик "Domain-driven-RL-metrics", которая интегрирует традиционные RL-показатели с предметно-ориентированными метриками, специфичными для эпидемиологического моделирования. Методология строится на трехуровневой архитектуре оценки: базовом уровне RL-метрик, промежуточном уровне адаптированных эпидемиологических показателей и верхнем уровне комплексных метрик общественного здравоохранения.
На базовом уровне используются стандартные RL-метрики: совокупное вознаграждение, скорость обучения, стабильность политики и разнообразие поведения. Однако эти метрики дополняются специфическими весами, отражающими приоритеты в области здравоохранения. Например, компонент вознаграждения за снижение смертности получает экспоненциально возрастающий вес по мере роста показателей смертности.
Промежуточный уровень включает адаптированные эпидемиологические показатели: эффективное репродуктивное число (Rt), учитывающее поведенческие изменения; интегрированную нагрузку на систему здравоохранения, включающую не только количество госпитализаций, но и стратификацию по возрасту и коморбидностям; метрики экономического бремени, связанные с потерей рабочих дней и затратами на лечение. Особое внимание уделяется метрикам неравенства в доступе к средствам защиты, где вводится коэффициент Джини для распределения масок и вакцин среди различных социоэкономических групп.
Верхний уровень представлен комплексными метриками, объединяющими показатели предыдущих уровней. Ключевыми являются: "Сбалансированный индекс пандемического отклика" (BPR), который взвешивает снижение смертности, экономические потери и социальное неравенство; "Индект устойчивости политики", оценивающий гибкость стратегии при появлении новых штаммов; и "Метрика общественного доверия", отражающая динамику комплаентности населения в ответ на рекомендации. Эти метрики рассчитываются как взвешенные комбинации базовых показ
Abstract
For the development and optimization of agent-based models (ABMs) and
rational agent-based models (RABMs), optimization algorithms such as
reinforcement learning are extensively used. However, assessing the performance
of RL-based ABMs and RABMS models is challenging due to the complexity and
stochasticity of the modeled systems, and the lack of well-standardized metrics
for comparing RL algorithms. In this study, we are developing domain-driven
metrics for RL, while building on state-of-the-art metrics. We demonstrate our
``Domain-driven-RL-metrics'' using policy optimization on a rational ABM
disease modeling case study to model masking behavior, vaccination, and
lockdown in a pandemic. Our results show the use of domain-driven rewards in
conjunction with traditional and state-of-the-art metrics for a few different
simulation scenarios such as the differential availability of masks.
Ссылки и действия
Дополнительные ресурсы: