Narrative-Guided Reinforcement Learning: A Platform for Studying Language Model Influence on Decision Making

2509.08785v1 cs.AI, cs.MA, stat.ML 2025-09-12
Авторы:

Anup Tuladhar, Araz Minhas, Adam Kirton, Eli Kinney-Lang

Резюме на русском

## Контекст Исследование охватывает область взаимодействия языковых моделей (LM) и оптимизационных методов, таких как управляемый расширенный рассуждением (CIRL) и управляемые логическими моделями (CLM). Несмотря на то, что AI может делать решения и производить рассуждения на основе текста, эти два вида рассуждений часто развиваются независимо. Целью данного исследования является исследование способности языковых моделей влиять на важные решения, оперируя на основе различных художественных нот (narrative frameworks). Без структурированных текстовых фреймворков, влияние AI на решения остается неясным. Многие AI-системы опираются на широкие текстовые библиотеки, но не исследуют, как эти тексты могут повлиять на выбор действий. Наша мотивация заключается в том, чтобы ввести структуру в это пространство, предоставив методы для изучения влияния текстовых нот на оптимизационные задачи. ## Метод Мы предлагаем модульную архитектуру, состоящую из двух основных компонентов: 1) политики управляемого оптимизационного упражнения, которые предлагают действия на основе опыта, и 2) языковой модели, которая оценивает эти действия с помощью различных нот. Логика работы системы заключается в том, что политика RL предлагает курс действий, а языковая модель переосмысливает этот курс на основе текстовых нот. Это позволяет проводить эксперименты с различными вариантами нот, не изменяя структуру окружения или системы вознаграждений. Мы реализуем эту модель в режиме конфигурационного мира-сетки (gridworld), где агенты получают политику RL, а также информацию о своем окружении. Данный подход позволяет экспериментировать с различными уровнями сложности среды, параметрами нот и взаимодействием между RL и текстовыми нотами. Мы ведем журналирование основных метрик, включая значения политики RL, вывод языковой модели и шаблоны выбора действий. ## Результаты Мы проводим эксперименты в нашем gridworld-окружении, где агент получает политику RL, а также текстовые ноты от языковой модели. Мы изучаем, как различные ноты влияют на решения агента, измеряя изменения в значениях политики RL и выбор действий. Наши результаты показывают, что текстовые ноты могут значительно повлиять на выбор действий, а также, что сложность окружения и параметры нот могут изменять эту влиятельность. Например, мы обнаружили, что при определенных нотах агент становится более оптимистичным в своих решениях, но при других нотах он может уменьшить свою оценку риска. Эти результаты демонстрируют возможность языковых моделей влиять на оптимизационные задачи и открывают путь для дальнейш

Abstract

We present a preliminary experimental platform that explores how narrative elements might shape AI decision-making by combining reinforcement learning (RL) with language model reasoning. While AI systems can now both make decisions and engage in narrative reasoning, these capabilities have mostly been studied separately. Our platform attempts to bridge this gap using a dual-system architecture to examine how narrative frameworks could influence reward-based learning. The system comprises a reinforcement learning policy that suggests actions based on past experience, and a language model that processes these suggestions through different narrative frameworks to guide decisions. This setup enables initial experimentation with narrative elements while maintaining consistent environment and reward structures. We implement this architecture in a configurable gridworld environment, where agents receive both policy suggestions and information about their surroundings. The platform's modular design facilitates controlled testing of environmental complexity, narrative parameters, and the interaction between reinforcement learning and narrative-based decisions. Our logging system captures basic decision metrics, from RL policy values to language model reasoning to action selection patterns. While preliminary, this implementation provides a foundation for studying how different narrative frameworks might affect reward-based decisions and exploring potential interactions between optimization-based learning and symbolic reasoning in AI systems.

Ссылки и действия