DyBBT: Dynamic Balance via Bandit inspired Targeting for Dialog Policy with Cognitive Dual-Systems
2509.19695v1
cs.CL, cs.AI, cs.IR
2025-09-26
Авторы:
Shuyu Zhang, Yifan Wei, Jialuo Yuan, Xinru Wang, Yanmin Zhu, Bin Li
Резюме на русском
## Контекст
Задача-ориентированные диалоговые системы широко применяются в различных сферах, но столкнутся с рядом проблем, связанных с оптимальным поведением в динамических условиях. Одной из основных проблем является неэффективность исследования, которая возникает из-за статических стратегий, не учитывающих динамические изменения контекста диалога. Это приводит к неэффективному использованию ресурсов и последующим снижению качества работы системы. Эти проблемы мотивируют разработку новых алгоритмов, которые могут адаптироваться к изменяющимся условиям.
## Метод
DyBBT (Dynamic Balance via Bandit inspired Targeting) представляет собой инновационный подход к диалоговому политическому обучению, который использует мета-контроллер, основанный на бандитной модели. Фреймворк определяет структурированное пространство состояний, которое учитывает прогресс диалога, неоднозначность пользователя и зависимость слотов. DyBBT адаптирует свое поведение в реальном времени, используя Bandit-inspired meta-controller, который в зависимости от обстоятельств переключается между быстрым "интуитивным" подходом (System 1) и медленным "дебаттерным" подходом (System 2). Это позволяет системе динамически адаптироваться к изменяющимся диалоговым условиям.
## Результаты
Эксперименты проводились на двух моделях: обучение с учителем и zero-shot. Архитектура DyBBT показала выдающиеся результаты в плане успешности, эффективности и генерализации. На точности выполнения запросов она показала значительное улучшение по сравнению с базовыми моделями, использующими статические стратегии. Благодаря реализации динамического переключения между двумя подходами, DyBBT не только увеличивает производительность, но и обеспечивает более точное понимание контекста диалога.
## Значимость
Предложенный подход может быть применен в различных областях, где требуется эффективное диалоговое взаимодействие. Например, в сферах сервисного обслуживания, медицины, финансов или любых других сферах, где требуется динамическая адаптация к пользовательским потребностям. Этот подход позволяет достичь высокой производительности, гармоничного взаимодействия с пользователем и эффективного использования ресурсов. Таким образом, он может существенно повысить качество диалоговых систем, улучшить пользовательский опыт и увеличить их эффективность.
## Выводы
DyBBT демонстрирует значительные улучшения в области диалоговых систем, предлагая динамический подход к политическому обучению, который учитывает динамические изменения контекста. Он показал результаты, гораздо выше стандартных моделей, и продемонстрировал
Abstract
Task oriented dialog systems often rely on static exploration strategies that
do not adapt to dynamic dialog contexts, leading to inefficient exploration and
suboptimal performance. We propose DyBBT, a novel dialog policy learning
framework that formalizes the exploration challenge through a structured
cognitive state space capturing dialog progression, user uncertainty, and slot
dependency. DyBBT proposes a bandit inspired meta-controller that dynamically
switches between a fast intuitive inference (System 1) and a slow deliberative
reasoner (System 2) based on real-time cognitive states and visitation counts.
Extensive experiments on single- and multi-domain benchmarks show that DyBBT
achieves state-of-the-art performance in success rate, efficiency, and
generalization, with human evaluations confirming its decisions are well
aligned with expert judgment. Code is available at
https://github.com/carsonz/DyBBT.
Ссылки и действия
Дополнительные ресурсы: