Towards Low-Latency Tracking of Multiple Speakers With Short-Context Speaker Embeddings
2508.14115v1
eess.AS, cs.AI, cs.SD, eess.SP
2025-08-22
Авторы:
Taous Iatariene, Alexandre Guérin, Romain Serizel
Резюме на русском
## Контекст
Одна из сложностей технологий синтеза речи и транскрибирования речи в реальном времени заключается в необходимости определения и отслеживания идентичности речи в условиях непрерывного или множественного звучания. Одним из ключевых элементов этой задачи является эффективное распознавание и отслеживание речи в условиях суперпозиции голосов (overlay speech), которая требует точного распознавания и отслеживания речи, а также задействования длительного контекста для решения этой задачи. Однако, это приводит к повышению вероятности ошибок в системе отслеживания и приводит к неточности в последующем идентификации речи. Этот проект адресует эту проблему, предлагая новую методологию для улучшения локализации и отслеживания речи, ориентированные на уменьшение задержек и улучшение точности отслеживания в условиях параллельного звучания голосов.
## Метод
Методология, предлагаемая в работе, основывается на ноуватой технике Knowledge Distillation (KD), которая используется для повышения эффективности распознавания речи в условиях двух-голосовых ситуаций. Метод использует короткий контекст распознавания речи, чтобы уменьшить задержки и улучшить частоту ошибок. Для повышения точности распознавания используется специальная техника beamforming, которая позволяет обрабатывать звук более точно и уменьшать шум и помехи. Этот подход применяется в ситуациях, когда два звука различаются одновременно, чтобы повысить точность и уменьшить задержки в процессе отслеживания речи.
## Результаты
Проведенные эксперименты показали, что использование дистилляционной техники KD и beamforming действительно повышает эффективность речи и уменьшает задержки в системе отслеживания речи. Результаты показали, что полученные модели демонстрируют улучшение в обработке двух-голосовых ситуаций, особенно в ситуациях с одновременным звучанием голосов. Однако, хотя модели были успешны в уменьшении задержек и улучшении точности отслеживания, они показали недостаточную производительность при обработке ситуаций с более сложным распределением речи. Это указывает на необходимость дальнейших исследований в этой области, чтобы улучшить производительность моделей в наиболее сложных ситуациях.
## Значимость
Предложенный подход может быть применен в различных областях, включая технологии для распознавания речи в реальном времени, системы транскрибирования речи и технологии для обеспечения повышенного уровня безопасности и точности при работе с голосовыми подсказками. Основные преимущества этого подхода заключаются в том, что он уменьшает задержки и улучшает точность распознавания речи в условиях многоголосности.
Abstract
Speaker embeddings are promising identity-related features that can enhance
the identity assignment performance of a tracking system by leveraging its
spatial predictions, i.e, by performing identity reassignment. Common speaker
embedding extractors usually struggle with short temporal contexts and
overlapping speech, which imposes long-term identity reassignment to exploit
longer temporal contexts. However, this increases the probability of tracking
system errors, which in turn impacts negatively on identity reassignment. To
address this, we propose a Knowledge Distillation (KD) based training approach
for short context speaker embedding extraction from two speaker mixtures. We
leverage the spatial information of the speaker of interest using beamforming
to reduce overlap. We study the feasibility of performing identity reassignment
over blocks of fixed size, i.e., blockwise identity reassignment, to go towards
a low-latency speaker embedding based tracking system. Results demonstrate that
our distilled models are effective at short-context embedding extraction and
more robust to overlap. Although, blockwise reassignment results indicate that
further work is needed to handle simultaneous speech more effectively.