ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

2508.20973v1 cs.CL, cs.AI, cs.HC 2025-08-30

Авторы:

Tianjian Liu, Fanqi Wan, Jiajian Guo, Xiaojun Quan

Резюме на русском

## Контекст Проактивная диалоговая система является ключевым направлением в развитии бо LLM. Однако существующие исследования часто ограничиваются решающими задачами в конкретных сферах, что приводит к неоднородному и неполному анализу моделей. Это ограничение снижает возможность полного оценивания моделей в области проактивных диалогов. Рассматривая эти проблемы, авторы предлагают ProactiveEval — универсальную систему для оценки проактивных диалоговых моделей. Эта система разделяет проактивные диалоги на две задачи: планирования целей и поддержки диалога, чтобы обеспечить широкий экспериментальный подход к измерению моделей. ## Метод ПроактивEval предлагает архитектуру, в которой проактивный диалог разделяется на два основных элемента: планирование целей и поддержка диалога. Она предоставляет многочисленные метрики для оценки моделей в разных сферах. Для автоматической генерации вызовов данные для тестирования моделей генерируются программно, чтобы создать разнообразные и сложные сценарии. В рамках этого фреймворка, авторы создали 328 сценариев, распространяющихся по 6 различным сферам, чтобы тестировать модели на проактивность. ## Результаты На основе ProactiveEval, авторы провели эксперименты на 22 типах моделей, включая DeepSeek-R1 и Claude-3.7-Sonnet. Результаты показали, что DeepSeek-R1 превосходит в задаче планирования целей, в тогда Claude-3.7-Sonnet — в задаче поддержки диалога. Эти результаты демонстрируют, что модели DeepSeek-R1 и Claude-3.7-Sonnet показывают разные сильные стороны, но обычно модели предлагают разные способы оценки производительности в разных сценариях. ## Значимость Система ProactiveEval может применяться в различных областях для проверки проактивных диалоговых моделей. Она предоставляет широкий спектр метрик для полной оценки моделей в различных сферах, включая социальные, технические и другие. Это позволяет провести более широкие исследования, улучшить модели и продвинуть их в сфере проактивных диалогов. ## Выводы ПроактивEval представляет собой универсальный фреймворк для проверки проактивных диалоговых моделей. Он позволяет проводить сравнительные тесты на основе различных моделей, чтобы определить сильные стороны и слабые места каждой модели. Будущие исследования будут сосредоточены на улучшении проактивности моделей и развитии более сложных систем оценки.

Abstract

Proactive dialogue has emerged as a critical and challenging research problem in advancing large language models (LLMs). Existing works predominantly focus on domain-specific or task-oriented scenarios, which leads to fragmented evaluations and limits the comprehensive exploration of models' proactive conversation abilities. In this work, we propose ProactiveEval, a unified framework designed for evaluating proactive dialogue capabilities of LLMs. This framework decomposes proactive dialogue into target planning and dialogue guidance, establishing evaluation metrics across various domains. Moreover, it also enables the automatic generation of diverse and challenging evaluation data. Based on the proposed framework, we develop 328 evaluation environments spanning 6 distinct domains. Through experiments with 22 different types of LLMs, we show that DeepSeek-R1 and Claude-3.7-Sonnet exhibit exceptional performance on target planning and dialogue guidance tasks, respectively. Finally, we investigate how reasoning capabilities influence proactive behaviors and discuss their implications for future model development.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ProactiveEval: A Unified Evaluation Framework for Proactive Dialogue Agents

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Exploring Human Perceptions of AI Responses: Insights from a Mixed-Methods Study...

User Perceptions of Privacy and Helpfulness in LLM Responses to Privacy-Sensitiv...

Ensembling Large Language Models to Characterize Affective Dynamics in Student-A...

Everything is Plausible: Investigating the Impact of LLM Rationales on Human Not...

Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

Навигация