Domain-Aware Speaker Diarization On African-Accented English

2509.21554v1 cs.CL, cs.AI, cs.LG 2025-09-30

Авторы:

Chibuzor Okocha, Kelechi Ezema, Christan Grant

Резюме на русском

## Контекст **Область исследования** Синтез речи и диаризация речи — важные задачи в области естественного языка процессинга, которые направлены на извлечение и анализ разговорных данных. Диаризация речи — это процесс распознавания участников разговора в аудиозаписях. Она играет ключевую роль в приложениях, таких как звонки с бесперебойным опытом пользователя, автоматическая расшифровка и мониторинг разговора. **Проблема** Несмотря на прогресс в области диаризации речи на английском языке, есть существенные проблемы в обработке африканских акцентов в тех же системах. Эти акценты часто отличаются морфологическими и синтаксическими особенностями, что приводит к повышенному количеству ошибок в системах, не приспособленных к ним. **Мотивация** Данное исследование ориентировано на изучение эффектов домена в диаризации речи африканского акцента на английском языке. Цель — изучить, как акцент и домен (такие как общий и клинический диалог) влияют на качество работы систем диаризации речи. ## Метод **Архитектура и Методология** Исследование использует несколько систем диаризации речи, включая производственные и открытые модели. Набор данных состоит из общих и клинических диалогов, проведенных в условиях реального мира. Для оценки качества диаризации применяется протокол с жестким уровнем ошибок (Strict DER), который учитывает объединения, разделения и пропуски участников разговора. **Технические Решения** На базе основной системы диаризации проводилась легковесная доменная адаптация, которая заключалась в оптимизации модуля сегментации с использованием набора акцент-совпадающих данных. Это решение предназначено для уменьшения ошибок, вызванных различиями в домене. **Ошибки и Анализ** Ошибки диаризации раDECOMPOSED и профилированы на уровне бесед. Большая часть ложных срабатываний и пропусков связана с короткими участками речи и частыми перекрытиями, что характерно для клинических диалогов. ## Результаты **Эксперименты** Системы были протестированы на двух типах диалогов — общих и клинических. В ходе экспериментов проанализировано, как африканский акцент и домен влияют на качество диаризации. Отмечено значительное повышение количества ошибок при обработке клинических диалогов по сравнению с общими. **Результаты Адаптации** Легковесная доменная адаптация, основанная на применении акцент-совпадающих данных, снизила частоту ошибок, но не полностью устранила различия в качестве диаризации между доменами. ## Значимость **Применения** Результаты исследования могут быть применены в системах автоматическо

Abstract

This study examines domain effects in speaker diarization for African-accented English. We evaluate multiple production and open systems on general and clinical dialogues under a strict DER protocol that scores overlap. A consistent domain penalty appears for clinical speech and remains significant across models. Error analysis attributes much of this penalty to false alarms and missed detections, aligning with short turns and frequent overlap. We test lightweight domain adaptation by fine-tuning a segmentation module on accent-matched data; it reduces error but does not eliminate the gap. Our contributions include a controlled benchmark across domains, a concise approach to error decomposition and conversation-level profiling, and an adaptation recipe that is easy to reproduce. Results point to overlap-aware segmentation and balanced clinical resources as practical next steps.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Domain-Aware Speaker Diarization On African-Accented English

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация