SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents

2508.02013v2 cs.CL 2025-08-09
Авторы:

Changhao Jiang, Jiajun Sun, Yifei Cao, Jiabao Zhuang, Hui Li, Xiaoran Fan, Ming Zhang, Junjie Ye, Shihan Dou, Zhiheng Xi, Jingqi Tong, Yilong Wu, Baoyu Fan, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

Резюме на русском

**Резюме** В настоящее время у развивающихся Speech Role-Playing Agents (SRPAs) существуют значительные ограничения в реализации естественной и персонализированной многомодальной интеракции. Основная проблема заключается в отсутствии систематических методов оценки речевых ролевых агентов, особенно в контексте сложных реальных сценариев. Чтобы устранить этот путающий момент, авторы предлагают **SpeechRole-Data** — большой и высококачественный датасет, содержащий 98 ролей и 112 тысяч речевых диалогов с одним и многим этапом. Каждый роль характеризуется уникальными речевыми характеристиками, такими как звучание и прозоди, что позволяет создавать более высококачественные ролевые игры. Также разработан **SpeechRole-Eval** — многомерный бенчмарк для оценки SRPAs в ключевых аспектах: взаимодействия, экспрессии речи и консистентности ролевого игры. Исследования показали, что как каскадные, так и энд-то-энд модели сталкиваются с трудностями в сохранении консистентности голоса и ролевого содержания. Данные, код и модели базовой оценки открыты, чтобы обеспечить продолжение развития речевых многомодальных агентов.

Abstract

Recently, role-playing agents have emerged as a promising paradigm for achieving personalized interaction and emotional resonance. Existing research primarily focuses on the textual modality, neglecting the critical dimension of speech in realistic interactive scenarios. In particular, there is a lack of systematic evaluation for Speech Role-Playing Agents (SRPAs). To address this gap, we construct SpeechRole-Data, a large-scale, high-quality dataset that comprises 98 diverse roles and 112k speech-based single-turn and multi-turn conversations. Each role demonstrates distinct vocal characteristics, including timbre and prosody, thereby enabling more sophisticated speech role-playing. Furthermore, we propose SpeechRole-Eval, a multidimensional evaluation benchmark that systematically assesses SRPAs performance in key aspects such as fundamental interaction ability, speech expressiveness, and role-playing fidelity. Experimental results reveal the advantages and challenges of both cascaded and end-to-end speech role-playing agents in maintaining vocal style consistency and role coherence. We release all data, code, and baseline models to provide a solid foundation for speech-driven multimodal role-playing research and to foster further developments in this field.

Ссылки и действия