VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents

2509.03940v1 cs.CL, cs.AI, cs.SD 2025-09-06
Авторы:

Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu

Резюме на русском

## Контекст Область исследования, связанная с ролевыми персонажами в рамках бесед с использованием звуковых и текстовых данных, находится в стадии активного развития. Большинство исследований в данной области фокусируются на текстовых данных, но не учитывают важные возможности звуковых данных, таких как интонация, просодия и ритм. Эти элементы важны для описания эмоций персонажа и создания живых ролевых профилей. Несмотря на то, что текстовые данные используются в беседах с ролевыми персонажами, есть нехватка эффективных стандартизированных методов для оценки моделей в контексте звуковых данных. Это приводит к неполному пониманию текущих моделей и их ограничений в сохранении ролевого профиля. Было решено создать VoxRole как первый комплексный бенчмарк для оценки звуковых ролевых персонажей. ## Метод В VoxRole включены 13335 многократных диалогов, добавляя всего 65.6 часов звуковых данных в 261 фильмах. Он основан на новой двухэтапной автоматической технологии. В первой стадии алгоритмы синхронизируют звуковые файлы с субтитрами и формируют скрипт. Во второй стадии систематически создаются ролевые профили для каждого персонажа с помощью LLM, который использует скрипт и звуковые файлы. Это позволяет определить не только текстовый контент, но и звуковые характеристики, важные для описания эмоций и персонажа. ## Результаты Был проведен эксперимент с использованием VoxRole для оценки моделей звуковых диалогов. Модели были оценены по нескольким критериям, включая точность, качество звука и продолжительность диалогов. Были выявлены различия в результатах в зависимости от типов моделей и параметров. Например, некоторые модели демонстрировали лучшую точность, но было замечено снижение качества звука. Эти результаты дали понимание, как модели справляются с разными аспектами ролевой игры в звуковых диалогах. ## Значимость VoxRole может быть применен в разных сферах, включая развитие ролевых персонажей, звуковых диалогов и синтез речи. Он предоставляет стандартный метод для оценки моделей звуковых диалогов и позволяет исследователям улучшить качество звука, эмоции и ролевую игру. Также он может использоваться для создания более живых и консистентных ролевых профилей, что повысит качество пользовательского опыта. ## Выводы VoxRole является первым комплексным бенчмарком для оценки звуковых ролевых диалогов. Он подчеркивает важность использования звуковых функций для оценки ролевых моделей и помогает улучшить их качество. Будучи открытым исто

Abstract

Recent significant advancements in Large Language Models (LLMs) have greatly propelled the development of Role-Playing Conversational Agents (RPCAs). These systems aim to create immersive user experiences through consistent persona adoption. However, current RPCA research faces dual limitations. First, existing work predominantly focuses on the textual modality, entirely overlooking critical paralinguistic features including intonation, prosody, and rhythm in speech, which are essential for conveying character emotions and shaping vivid identities. Second, the speech-based role-playing domain suffers from a long-standing lack of standardized evaluation benchmarks. Most current spoken dialogue datasets target only fundamental capability assessments, featuring thinly sketched or ill-defined character profiles. Consequently, they fail to effectively quantify model performance on core competencies like long-term persona consistency. To address this critical gap, we introduce VoxRole, the first comprehensive benchmark specifically designed for the evaluation of speech-based RPCAs. The benchmark comprises 13335 multi-turn dialogues, totaling 65.6 hours of speech from 1228 unique characters across 261 movies. To construct this resource, we propose a novel two-stage automated pipeline that first aligns movie audio with scripts and subsequently employs an LLM to systematically build multi-dimensional profiles for each character. Leveraging VoxRole, we conduct a multi-dimensional evaluation of contemporary spoken dialogue models, revealing crucial insights into their respective strengths and limitations in maintaining persona consistency.

Ссылки и действия