SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents
2508.02013v2
cs.CL
2025-08-09
Авторы:
Changhao Jiang, Jiajun Sun, Yifei Cao, Jiabao Zhuang, Hui Li, Xiaoran Fan, Ming Zhang, Junjie Ye, Shihan Dou, Zhiheng Xi, Jingqi Tong, Yilong Wu, Baoyu Fan, Zhen Wang, Tao Liang, Zhihui Fei, Mingyang Wan, Guojun Ma, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang
Резюме на русском
**Резюме**
В настоящее время у развивающихся Speech Role-Playing Agents (SRPAs) существуют значительные ограничения в реализации естественной и персонализированной многомодальной интеракции. Основная проблема заключается в отсутствии систематических методов оценки речевых ролевых агентов, особенно в контексте сложных реальных сценариев. Чтобы устранить этот путающий момент, авторы предлагают **SpeechRole-Data** — большой и высококачественный датасет, содержащий 98 ролей и 112 тысяч речевых диалогов с одним и многим этапом. Каждый роль характеризуется уникальными речевыми характеристиками, такими как звучание и прозоди, что позволяет создавать более высококачественные ролевые игры. Также разработан **SpeechRole-Eval** — многомерный бенчмарк для оценки SRPAs в ключевых аспектах: взаимодействия, экспрессии речи и консистентности ролевого игры. Исследования показали, что как каскадные, так и энд-то-энд модели сталкиваются с трудностями в сохранении консистентности голоса и ролевого содержания. Данные, код и модели базовой оценки открыты, чтобы обеспечить продолжение развития речевых многомодальных агентов.
Abstract
Recently, role-playing agents have emerged as a promising paradigm for
achieving personalized interaction and emotional resonance. Existing research
primarily focuses on the textual modality, neglecting the critical dimension of
speech in realistic interactive scenarios. In particular, there is a lack of
systematic evaluation for Speech Role-Playing Agents (SRPAs). To address this
gap, we construct SpeechRole-Data, a large-scale, high-quality dataset that
comprises 98 diverse roles and 112k speech-based single-turn and multi-turn
conversations. Each role demonstrates distinct vocal characteristics, including
timbre and prosody, thereby enabling more sophisticated speech role-playing.
Furthermore, we propose SpeechRole-Eval, a multidimensional evaluation
benchmark that systematically assesses SRPAs performance in key aspects such as
fundamental interaction ability, speech expressiveness, and role-playing
fidelity. Experimental results reveal the advantages and challenges of both
cascaded and end-to-end speech role-playing agents in maintaining vocal style
consistency and role coherence. We release all data, code, and baseline models
to provide a solid foundation for speech-driven multimodal role-playing
research and to foster further developments in this field.
Ссылки и действия
Дополнительные ресурсы: