📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Anup Tuladhar, Araz Minhas, Adam Kirton, Eli Kinney-Lang
## Контекст
Исследование охватывает область взаимодействия языковых моделей (LM) и оптимизационных методов, таких как управляемый расширенный рассуждением (CIRL) и управляемые логическими моделями (CLM). Несмотря на то, что AI может делать решения и производить рассуждения на основе текста, эти два вида рассуждений часто развиваются независимо. Целью данного исследования является исследование способности языковых моделей влиять на важные решения, оперируя на основе различных художественных нот (narrative frameworks). Без структурированных текстовых фреймворков, влияние AI на решения остается неясным. Многие AI-системы опираются на широкие текстовые библиотеки, но не исследуют, как эти тексты могут повлиять на выбор действий. Наша мотивация заключается в том, чтобы ввести структуру в это пространство, предоставив методы для изучения влияния текстовых нот на оптимизационные задачи.
## Метод
Мы предлагаем модульную архитектуру, состоящую из двух основных компонентов: 1) политики управляемого оптимизационного упражнения, которые предлагают действия на основе опыта, и 2) языковой модели, которая оценивает эти действия с помощью различных нот. Логика работы системы заключается в том, что политика RL предлагает курс действий, а языковая модель переосмысливает этот курс на основе текстовых нот. Это позволяет проводить эксперименты с различными вариантами нот, не изменяя структуру окружения или системы вознаграждений. Мы реализуем эту модель в режиме конфигурационного мира-сетки (gridworld), где агенты получают политику RL, а также информацию о своем окружении. Данный подход позволяет экспериментировать с различными уровнями сложности среды, параметрами нот и взаимодействием между RL и текстовыми нотами. Мы ведем журналирование основных метрик, включая значения политики RL, вывод языковой модели и шаблоны выбора действий.
## Результаты
Мы проводим эксперименты в нашем gridworld-окружении, где агент получает политику RL, а также текстовые ноты от языковой модели. Мы изучаем, как различные ноты влияют на решения агента, измеряя изменения в значениях политики RL и выбор действий. Наши результаты показывают, что текстовые ноты могут значительно повлиять на выбор действий, а также, что сложность окружения и параметры нот могут изменять эту влиятельность. Например, мы обнаружили, что при определенных нотах агент становится более оптимистичным в своих решениях, но при других нотах он может уменьшить свою оценку риска. Эти результаты демонстрируют возможность языковых моделей влиять на оптимизационные задачи и открывают путь для дальнейш
Annotation:
We present a preliminary experimental platform that explores how narrative
elements might shape AI decision-making by combining reinforcement learning
(RL) with language model reasoning. While AI systems can now both make
decisions and engage in narrative reasoning, these capabilities have mostly
been studied separately. Our platform attempts to bridge this gap using a
dual-system architecture to examine how narrative frameworks could influence
reward-based learning. The system comprises a reinf...