Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings

2508.14115v1 eess.AS, cs.AI, cs.SD, eess.SP 2025-08-22

Авторы:

Taous Iatariene, Alexandre Guérin, Romain Serizel

Резюме на русском

## Контекст Одна из сложностей технологий синтеза речи и транскрибирования речи в реальном времени заключается в необходимости определения и отслеживания идентичности речи в условиях непрерывного или множественного звучания. Одним из ключевых элементов этой задачи является эффективное распознавание и отслеживание речи в условиях суперпозиции голосов (overlay speech), которая требует точного распознавания и отслеживания речи, а также задействования длительного контекста для решения этой задачи. Однако, это приводит к повышению вероятности ошибок в системе отслеживания и приводит к неточности в последующем идентификации речи. Этот проект адресует эту проблему, предлагая новую методологию для улучшения локализации и отслеживания речи, ориентированные на уменьшение задержек и улучшение точности отслеживания в условиях параллельного звучания голосов. ## Метод Методология, предлагаемая в работе, основывается на ноуватой технике Knowledge Distillation (KD), которая используется для повышения эффективности распознавания речи в условиях двух-голосовых ситуаций. Метод использует короткий контекст распознавания речи, чтобы уменьшить задержки и улучшить частоту ошибок. Для повышения точности распознавания используется специальная техника beamforming, которая позволяет обрабатывать звук более точно и уменьшать шум и помехи. Этот подход применяется в ситуациях, когда два звука различаются одновременно, чтобы повысить точность и уменьшить задержки в процессе отслеживания речи. ## Результаты Проведенные эксперименты показали, что использование дистилляционной техники KD и beamforming действительно повышает эффективность речи и уменьшает задержки в системе отслеживания речи. Результаты показали, что полученные модели демонстрируют улучшение в обработке двух-голосовых ситуаций, особенно в ситуациях с одновременным звучанием голосов. Однако, хотя модели были успешны в уменьшении задержек и улучшении точности отслеживания, они показали недостаточную производительность при обработке ситуаций с более сложным распределением речи. Это указывает на необходимость дальнейших исследований в этой области, чтобы улучшить производительность моделей в наиболее сложных ситуациях. ## Значимость Предложенный подход может быть применен в различных областях, включая технологии для распознавания речи в реальном времени, системы транскрибирования речи и технологии для обеспечения повышенного уровня безопасности и точности при работе с голосовыми подсказками. Основные преимущества этого подхода заключаются в том, что он уменьшает задержки и улучшает точность распознавания речи в условиях многоголосности.

Abstract

Speaker embeddings are promising identity-related features that can enhance the identity assignment performance of a tracking system by leveraging its spatial predictions, i.e, by performing identity reassignment. Common speaker embedding extractors usually struggle with short temporal contexts and overlapping speech, which imposes long-term identity reassignment to exploit longer temporal contexts. However, this increases the probability of tracking system errors, which in turn impacts negatively on identity reassignment. To address this, we propose a Knowledge Distillation (KD) based training approach for short context speaker embedding extraction from two speaker mixtures. We leverage the spatial information of the speaker of interest using beamforming to reduce overlap. We study the feasibility of performing identity reassignment over blocks of fixed size, i.e., blockwise identity reassignment, to go towards a low-latency speaker embedding based tracking system. Results demonstrate that our distilled models are effective at short-context embedding extraction and more robust to overlap. Although, blockwise reassignment results indicate that further work is needed to handle simultaneous speech more effectively.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Compressing Quaternion Convolutional Neural Networks for Audio Classification

UniverSR: Unified and Versatile Audio Super-Resolution via Vocoder-Free Flow Mat...

IS${}^3$ : Generic Impulsive--Stationary Sound Separation in Acoustic Scenes usi...

Навигация