Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM

2508.13603v1 cs.CL, cs.AI 2025-08-21
Авторы:

Dariia Puhach, Amir H. Payberah, Éva Székely

Резюме на русском

## Контекст Современные текстовые Large Language Models (LLMs) проявляют выдающиеся способности, такие как контекстная понимание и генерация содержательных реплик. Speech-LLMs, использующие аудиосигналы для генерации речи, показывают аналогичные способности, включая контекстно-зависимую генерацию речи. Однако неясно, добираются ли эти модели до такого же уровня гендерного баланса или существуют ли в них склонности к гендерному баию. Speech-LLMs отличаются тем, что необходимо выбирать голос, что делает их способность влиять на гендерные соотношения явной. Данное исследование исследует влияние гендерного контекста на Speech-LLM, используя методологию, основанную на анализе систематического выбора голоса в зависимости от пола профессии или слова. Это позволяет выявить возможные тенденции к гендерному предрассудку в модели. ## Метод Исследование основывается на использовании метода экспериментального анализа. Модель Bark, применяемая для текста-to-speech, используется для генерирования речи в условиях разных входных текстов. Для анализа выбраны два типа данных: (i) **Professions**, содержащий профессии с гендерными стереотипами, и (ii) **Gender-Colored Words**, содержащий слова с гендерными коннотациями. Эти данные позволяют проверить, систематически ли Bark выбирает голос в зависимости от гендерных ассоциаций в данных. Методология включает оценку того, является ли выбор голоса случайным или связанным с гендерными стереотипами, что дает возможность оценить гендерные настройки модели. ## Результаты Анализ показал, что Bark не проявляет систематического гендерного баланса в выборе голоса. Несмотря на это, модель проявляет некоторые гендерные предрассудки, демонстрируя тенденции выделять конкретные голоса в зависимости от профессии или слова, имеющих гендерные коннотации. Таким образом, мы отмечаем, что у Bark есть возможность гендерной ассоциации, хотя она не всегда систематически выражена. Эти наблюдения относятся к используемым данным и могут отражать гендерные ассоциации, заложенные в учебный набор модели. ## Значимость Результаты имеют значимость в области гендерного анализа технологий, особенно в контексте развития Speech-LLMs. Данное исследование показывает, что Speech-LLMs могут иметь небольшие гендерные предрассудки, нежели текстовые LLMs, которые более скрыты. Это открывает новые возможности для дальнейшего исследования гендерных стереотипов в речи и моделях, что может быть ключевым для создания более балансированных и политически нейтральных систем речи. ## Выводы Исследование продемонстрировало, что Bark может демонстрировать гендерные ассоциации

Abstract

Similar to text-based Large Language Models (LLMs), Speech-LLMs exhibit emergent abilities and context awareness. However, whether these similarities extend to gender bias remains an open question. This study proposes a methodology leveraging speaker assignment as an analytic tool for bias investigation. Unlike text-based models, which encode gendered associations implicitly, Speech-LLMs must produce a gendered voice, making speaker selection an explicit bias cue. We evaluate Bark, a Text-to-Speech (TTS) model, analyzing its default speaker assignments for textual prompts. If Bark's speaker selection systematically aligns with gendered associations, it may reveal patterns in its training data or model design. To test this, we construct two datasets: (i) Professions, containing gender-stereotyped occupations, and (ii) Gender-Colored Words, featuring gendered connotations. While Bark does not exhibit systematic bias, it demonstrates gender awareness and has some gender inclinations.

Ссылки и действия