VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents
2509.03940v1
cs.CL, cs.AI, cs.SD
2025-09-06
Авторы:
Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu
Резюме на русском
## Контекст
Область исследования, связанная с ролевыми персонажами в рамках бесед с использованием звуковых и текстовых данных, находится в стадии активного развития. Большинство исследований в данной области фокусируются на текстовых данных, но не учитывают важные возможности звуковых данных, таких как интонация, просодия и ритм. Эти элементы важны для описания эмоций персонажа и создания живых ролевых профилей. Несмотря на то, что текстовые данные используются в беседах с ролевыми персонажами, есть нехватка эффективных стандартизированных методов для оценки моделей в контексте звуковых данных. Это приводит к неполному пониманию текущих моделей и их ограничений в сохранении ролевого профиля. Было решено создать VoxRole как первый комплексный бенчмарк для оценки звуковых ролевых персонажей.
## Метод
В VoxRole включены 13335 многократных диалогов, добавляя всего 65.6 часов звуковых данных в 261 фильмах. Он основан на новой двухэтапной автоматической технологии. В первой стадии алгоритмы синхронизируют звуковые файлы с субтитрами и формируют скрипт. Во второй стадии систематически создаются ролевые профили для каждого персонажа с помощью LLM, который использует скрипт и звуковые файлы. Это позволяет определить не только текстовый контент, но и звуковые характеристики, важные для описания эмоций и персонажа.
## Результаты
Был проведен эксперимент с использованием VoxRole для оценки моделей звуковых диалогов. Модели были оценены по нескольким критериям, включая точность, качество звука и продолжительность диалогов. Были выявлены различия в результатах в зависимости от типов моделей и параметров. Например, некоторые модели демонстрировали лучшую точность, но было замечено снижение качества звука. Эти результаты дали понимание, как модели справляются с разными аспектами ролевой игры в звуковых диалогах.
## Значимость
VoxRole может быть применен в разных сферах, включая развитие ролевых персонажей, звуковых диалогов и синтез речи. Он предоставляет стандартный метод для оценки моделей звуковых диалогов и позволяет исследователям улучшить качество звука, эмоции и ролевую игру. Также он может использоваться для создания более живых и консистентных ролевых профилей, что повысит качество пользовательского опыта.
## Выводы
VoxRole является первым комплексным бенчмарком для оценки звуковых ролевых диалогов. Он подчеркивает важность использования звуковых функций для оценки ролевых моделей и помогает улучшить их качество. Будучи открытым исто
Abstract
Recent significant advancements in Large Language Models (LLMs) have greatly
propelled the development of Role-Playing Conversational Agents (RPCAs). These
systems aim to create immersive user experiences through consistent persona
adoption. However, current RPCA research faces dual limitations. First,
existing work predominantly focuses on the textual modality, entirely
overlooking critical paralinguistic features including intonation, prosody, and
rhythm in speech, which are essential for conveying character emotions and
shaping vivid identities. Second, the speech-based role-playing domain suffers
from a long-standing lack of standardized evaluation benchmarks. Most current
spoken dialogue datasets target only fundamental capability assessments,
featuring thinly sketched or ill-defined character profiles. Consequently, they
fail to effectively quantify model performance on core competencies like
long-term persona consistency. To address this critical gap, we introduce
VoxRole, the first comprehensive benchmark specifically designed for the
evaluation of speech-based RPCAs. The benchmark comprises 13335 multi-turn
dialogues, totaling 65.6 hours of speech from 1228 unique characters across 261
movies. To construct this resource, we propose a novel two-stage automated
pipeline that first aligns movie audio with scripts and subsequently employs an
LLM to systematically build multi-dimensional profiles for each character.
Leveraging VoxRole, we conduct a multi-dimensional evaluation of contemporary
spoken dialogue models, revealing crucial insights into their respective
strengths and limitations in maintaining persona consistency.
Ссылки и действия
Дополнительные ресурсы: