Domain-Aware Speaker Diarization On African-Accented English
2509.21554v1
cs.CL, cs.AI, cs.LG
2025-09-30
Авторы:
Chibuzor Okocha, Kelechi Ezema, Christan Grant
Резюме на русском
## Контекст
**Область исследования**
Синтез речи и диаризация речи — важные задачи в области естественного языка процессинга, которые направлены на извлечение и анализ разговорных данных. Диаризация речи — это процесс распознавания участников разговора в аудиозаписях. Она играет ключевую роль в приложениях, таких как звонки с бесперебойным опытом пользователя, автоматическая расшифровка и мониторинг разговора.
**Проблема**
Несмотря на прогресс в области диаризации речи на английском языке, есть существенные проблемы в обработке африканских акцентов в тех же системах. Эти акценты часто отличаются морфологическими и синтаксическими особенностями, что приводит к повышенному количеству ошибок в системах, не приспособленных к ним.
**Мотивация**
Данное исследование ориентировано на изучение эффектов домена в диаризации речи африканского акцента на английском языке. Цель — изучить, как акцент и домен (такие как общий и клинический диалог) влияют на качество работы систем диаризации речи.
## Метод
**Архитектура и Методология**
Исследование использует несколько систем диаризации речи, включая производственные и открытые модели. Набор данных состоит из общих и клинических диалогов, проведенных в условиях реального мира. Для оценки качества диаризации применяется протокол с жестким уровнем ошибок (Strict DER), который учитывает объединения, разделения и пропуски участников разговора.
**Технические Решения**
На базе основной системы диаризации проводилась легковесная доменная адаптация, которая заключалась в оптимизации модуля сегментации с использованием набора акцент-совпадающих данных. Это решение предназначено для уменьшения ошибок, вызванных различиями в домене.
**Ошибки и Анализ**
Ошибки диаризации раDECOMPOSED и профилированы на уровне бесед. Большая часть ложных срабатываний и пропусков связана с короткими участками речи и частыми перекрытиями, что характерно для клинических диалогов.
## Результаты
**Эксперименты**
Системы были протестированы на двух типах диалогов — общих и клинических. В ходе экспериментов проанализировано, как африканский акцент и домен влияют на качество диаризации. Отмечено значительное повышение количества ошибок при обработке клинических диалогов по сравнению с общими.
**Результаты Адаптации**
Легковесная доменная адаптация, основанная на применении акцент-совпадающих данных, снизила частоту ошибок, но не полностью устранила различия в качестве диаризации между доменами.
## Значимость
**Применения**
Результаты исследования могут быть применены в системах автоматическо
Abstract
This study examines domain effects in speaker diarization for
African-accented English. We evaluate multiple production and open systems on
general and clinical dialogues under a strict DER protocol that scores overlap.
A consistent domain penalty appears for clinical speech and remains significant
across models. Error analysis attributes much of this penalty to false alarms
and missed detections, aligning with short turns and frequent overlap. We test
lightweight domain adaptation by fine-tuning a segmentation module on
accent-matched data; it reduces error but does not eliminate the gap. Our
contributions include a controlled benchmark across domains, a concise approach
to error decomposition and conversation-level profiling, and an adaptation
recipe that is easy to reproduce. Results point to overlap-aware segmentation
and balanced clinical resources as practical next steps.
Ссылки и действия
Дополнительные ресурсы: