ToMPO: Training LLM Strategic Decision Making from a Multi-Agent Perspective

2509.21134v1 cs.AI, cs.MA 2025-09-27
Авторы:

Yiwen Zhang, Ziang Chen, Fanqi Kong, Yizhe Huang, Xue Feng

Резюме на русском

## Контекст Стратегическое принятие решений требует логического рассуждения, осознания различных субъектов и их стратегий. Однако существующие решения, основанные на глубоком познании, часто не учитывают взаимодействия с другими агентами. Это приводит к несоответствию решений и неэффективности взаимодействия. Большинство исследований сосредоточены на учебных средах или эмулируемых задачах, где нет глубокого взаимодействия. Мы призваны разработать метод, который бы учитывал взаимодействие в целом, включая рассуждения о стратегиях других субъектов и их влияние на решения. ## Метод Мы предлагаем ToMPO (Training LLM Strategic Decision Making from a Multi-Agent Perspective) — метод, оптимизирующий стратегии моделей, рассуждая о стратегиях других. ToMPO включает два ключевых элемента: 1) генерируя роллауты на основе стратегий других агентов, 2) вычисляя преимущества на уровне графа и отдельных примеров. Мы также предлагаем балансировку между глобальным и частным вознаграждением. Этот подход учитывает взаимосвязи и отдает предпочтение совместным решениям. Результаты показывают, что ToMPO улучшает соответствие модели критериям взаимодействия, увеличивая коэффициент кооперативности на 35% по сравнению с GRPO. ## Результаты Мы проводили эксперименты на симулируемых задачах, где необходимо учитывать стратегии других агентов. Мы сравнили ToMPO со стандартным GRPO и увидели, что ToMPO повышает уровень кооперативности и соответствия решений. Например, в задаче управления ресурсами, где необходимо понять стратегии других игроков, ToMPO показал лучшие результаты. Мы также проводили эксперименты с моделями различных размеров, демонстрируя, что ToMPO эффективен даже при меньшем размере параметров, показывая улучшение на 18% по сравнению с моделями, имеющими размер 100 раз больше. ## Значимость Предложенный подход может быть применен в различных сферах, где требуется умение работать с несколькими агентами и рассуждать о своих стратегиях. Он может использоваться в системах, которым требуется оценивать риски и принимать решения в условиях неопределенности. Это демонстрирует значительный прогресс в области стратегического принятия решений, позволяя моделям более эффективно учитывать взаимодействие с другими субъектами. ## Выводы Мы представили ToMPO, метод, который улучшает стратегическое принятие решений с помощью глубокого рассуждения о стратегиях других агентов. Мы продемонстрировали эффективность этого подхода в симулируемых задачах и сравнили его с GRPO, показав значительное улучшение. Наша работа открывает новые

Abstract

Large Language Models (LLMs) have been used to make decisions in complex scenarios, where they need models to think deeply, reason logically, and decide wisely. Many existing studies focus solely on multi-round conversations in social tasks or simulated environments, neglecting the various types of decisions and their interdependence. Current reinforcement learning methods struggle to consider the strategies of others during training. To address these issues, we first define a strategic decision-making problem that includes two types of decisions and their temporal dependencies. Furthermore, we propose **T**heory **o**f **M**ind **P**olicy **O**ptimization **(ToMPO)** algorithm to optimize the perception of other individual strategies and the game situation trends. Compared to the Group Relative Policy Optimization (GRPO) algorithm, ToMPO enhances the LLM's strategic decision-making mainly by: 1) generating rollouts based on reasoning the strategies of other individuals, 2) estimating advantages at both the graph-level and sample-level, and 3) balancing global and partial rewards. The ToMPO algorithm outperforms the GRPO method by 35% in terms of model output compliance and cooperative outcomes. Additionally, when compared to models with parameter sizes 100 times larger, it shows an 18% improvement. This demonstrates the effectiveness of the ToMPO algorithm in enhancing the model's strategic decision-making capabilities.

Ссылки и действия