## Контекст
Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной для развития имитации естественного языка. Несмотря на то, что существуют многочисленные текстовые датасеты, предоставляющие синтезированные данные для обучения лингвистических моделей, удалось редко создавать высококачественные мультимодальные датасеты, которые были бы пригодны для развития ролевой игры по голосовому компоненту. Это возникает из-за сложности, связанной с гармоничным совпадением семантического контента и аудио-фонограммы. Таким образом, необходимо разрабатывать мощные мультимодальные датасеты, которые могли бы повысить качество выполнения таких задач.
## Метод
Для решения этой проблемы мы предлагаем AudioRole, созданный как результат тщательной сборки датасета, включающего более 13 телесериалов, представляющих собой более 1 Килочаса аудио данных. Этот датасет имеет более 1 миллиона полностью синтезированных диалогов с выделенными спикерами и группировочными метаданными. Для того, чтобы оценить качество разработанного датасета, мы представили ARP-Eval, двухуровневый критерий, который учитывает как качество ответа, так и точность роли.
## Результаты
В результате тестирования мы применили ARP-Eval к тренировочной модели GLM-4-Voice, которая была обучена на AudioRole. Модель, полученная после обучения, получила оценку Acoustic Personalization с 0.31, что значительно превосходит оригинальную GLM-4-Voice и даже модель MiniCPM-O-2.6, которая предназначена для ролевой игры в однокликовых сценариях. Также, ARP-Model показала Content Personalization с 0.36, что означает, что модель превзошла оригинальную модель на 38% в случае необученной модели и сохранила состояние с MiniCPM-O-2.6.
## Значимость
Этот датасет может быть применен в многочисленных мультимодальных исследованиях, в том числе для развития ролевой игры по голосовому компоненту в крупных языковых моделях. Наша модель и датасет могут быть использованы для создания наборов данных, которые будут позволить тестированию новых моделей и повышения качества ролевой игры в крупных языковых моделях.
## Выводы
Результаты нашего исследования показывают, что разработка высококачественных мультимодальных датасетов, таких как AudioRole, играет ключевую роль вузущем развитии ролевой игры в языковых моделях. В дальнейшем мы планируем расширить этот датасет, добавив более разнообразных аудио-фонограмм и синтезированных диалогов, чтобы предоставить еще более широкое применение в разработке моделей ролевой игры.