AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

2509.23435v1 cs.SD, cs.AI, cs.MM, eess.AS 2025-10-01
Авторы:

Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo

Резюме на русском

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной для развития имитации естественного языка. Несмотря на то, что существуют многочисленные текстовые датасеты, предоставляющие синтезированные данные для обучения лингвистических моделей, удалось редко создавать высококачественные мультимодальные датасеты, которые были бы пригодны для развития ролевой игры по голосовому компоненту. Это возникает из-за сложности, связанной с гармоничным совпадением семантического контента и аудио-фонограммы. Таким образом, необходимо разрабатывать мощные мультимодальные датасеты, которые могли бы повысить качество выполнения таких задач. ## Метод Для решения этой проблемы мы предлагаем AudioRole, созданный как результат тщательной сборки датасета, включающего более 13 телесериалов, представляющих собой более 1 Килочаса аудио данных. Этот датасет имеет более 1 миллиона полностью синтезированных диалогов с выделенными спикерами и группировочными метаданными. Для того, чтобы оценить качество разработанного датасета, мы представили ARP-Eval, двухуровневый критерий, который учитывает как качество ответа, так и точность роли. ## Результаты В результате тестирования мы применили ARP-Eval к тренировочной модели GLM-4-Voice, которая была обучена на AudioRole. Модель, полученная после обучения, получила оценку Acoustic Personalization с 0.31, что значительно превосходит оригинальную GLM-4-Voice и даже модель MiniCPM-O-2.6, которая предназначена для ролевой игры в однокликовых сценариях. Также, ARP-Model показала Content Personalization с 0.36, что означает, что модель превзошла оригинальную модель на 38% в случае необученной модели и сохранила состояние с MiniCPM-O-2.6. ## Значимость Этот датасет может быть применен в многочисленных мультимодальных исследованиях, в том числе для развития ролевой игры по голосовому компоненту в крупных языковых моделях. Наша модель и датасет могут быть использованы для создания наборов данных, которые будут позволить тестированию новых моделей и повышения качества ролевой игры в крупных языковых моделях. ## Выводы Результаты нашего исследования показывают, что разработка высококачественных мультимодальных датасетов, таких как AudioRole, играет ключевую роль вузущем развитии ролевой игры в языковых моделях. В дальнейшем мы планируем расширить этот датасет, добавив более разнообразных аудио-фонограмм и синтезированных диалогов, чтобы предоставить еще более широкое применение в разработке моделей ролевой игры.

Abstract

The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded dialogues, providing synchronized audio-text pairs annotated with speaker identities and contextual metadata. In addition, to demonstrate the effectiveness of the dataset, we introduced ARP-Eval, a dual-aspect evaluation framework that assesses both response quality and role fidelity. Empirical validation showing GLM-4-Voice trained on AudioRole (which we called ARP-Model) achieve an average Acoustic Personalization score of 0.31, significantly outperforming the original GLM-4-voice and the more powerful model MiniCPM-O-2.6, which specifically supports role-playing in one-shot scenarios. The ARP-Model also achieves a Content Personalization score of 0.36, surpassing the untrained original model by about 38% and maintaining the same level as MiniCPM-O-2.6. AudioRole features dialogues from over 115 main characters, 6 trained ARP-Models that role-play different characters, and evaluation protocols. Together, they provide an essential resource for advancing audio-grounded role-playing research.

Ссылки и действия

Связанные статьи

Disentangling Score Content and Performance Style for Joint Piano Rendering and ...

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключев...

2025-10-01

Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерировани...

2025-09-30

Emotion-Aware Speech Generation with Character-Specific Voices for Comics

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными х...

2025-09-22

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыто...

2025-08-06