DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems

2509.19695v1 cs.CL, cs.AI, cs.IR 2025-09-26
Авторы:

Shuyu Zhang, Yifan Wei, Jialuo Yuan, Xinru Wang, Yanmin Zhu, Bin Li

Резюме на русском

## Контекст Задача-ориентированные диалоговые системы широко применяются в различных сферах, но столкнутся с рядом проблем, связанных с оптимальным поведением в динамических условиях. Одной из основных проблем является неэффективность исследования, которая возникает из-за статических стратегий, не учитывающих динамические изменения контекста диалога. Это приводит к неэффективному использованию ресурсов и последующим снижению качества работы системы. Эти проблемы мотивируют разработку новых алгоритмов, которые могут адаптироваться к изменяющимся условиям. ## Метод DyBBT (Dynamic Balance via Bandit inspired Targeting) представляет собой инновационный подход к диалоговому политическому обучению, который использует мета-контроллер, основанный на бандитной модели. Фреймворк определяет структурированное пространство состояний, которое учитывает прогресс диалога, неоднозначность пользователя и зависимость слотов. DyBBT адаптирует свое поведение в реальном времени, используя Bandit-inspired meta-controller, который в зависимости от обстоятельств переключается между быстрым "интуитивным" подходом (System 1) и медленным "дебаттерным" подходом (System 2). Это позволяет системе динамически адаптироваться к изменяющимся диалоговым условиям. ## Результаты Эксперименты проводились на двух моделях: обучение с учителем и zero-shot. Архитектура DyBBT показала выдающиеся результаты в плане успешности, эффективности и генерализации. На точности выполнения запросов она показала значительное улучшение по сравнению с базовыми моделями, использующими статические стратегии. Благодаря реализации динамического переключения между двумя подходами, DyBBT не только увеличивает производительность, но и обеспечивает более точное понимание контекста диалога. ## Значимость Предложенный подход может быть применен в различных областях, где требуется эффективное диалоговое взаимодействие. Например, в сферах сервисного обслуживания, медицины, финансов или любых других сферах, где требуется динамическая адаптация к пользовательским потребностям. Этот подход позволяет достичь высокой производительности, гармоничного взаимодействия с пользователем и эффективного использования ресурсов. Таким образом, он может существенно повысить качество диалоговых систем, улучшить пользовательский опыт и увеличить их эффективность. ## Выводы DyBBT демонстрирует значительные улучшения в области диалоговых систем, предлагая динамический подход к политическому обучению, который учитывает динамические изменения контекста. Он показал результаты, гораздо выше стандартных моделей, и продемонстрировал

Abstract

Task oriented dialog systems often rely on static exploration strategies that do not adapt to dynamic dialog contexts, leading to inefficient exploration and suboptimal performance. We propose DyBBT, a novel dialog policy learning framework that formalizes the exploration challenge through a structured cognitive state space capturing dialog progression, user uncertainty, and slot dependency. DyBBT proposes a bandit inspired meta-controller that dynamically switches between a fast intuitive inference (System 1) and a slow deliberative reasoner (System 2) based on real-time cognitive states and visitation counts. Extensive experiments on single- and multi-domain benchmarks show that DyBBT achieves state-of-the-art performance in success rate, efficiency, and generalization, with human evaluations confirming its decisions are well aligned with expert judgment. Code is available at https://github.com/carsonz/DyBBT.

Ссылки и действия