Error Analysis in a Modular Meeting Transcription System

2509.10143v1 eess.AS, cs.CL, cs.LG, cs.SD 2025-09-16

Авторы:

Peter Vieting, Simon Berger, Thilo von Neumann, Christoph Boeddeker, Ralf Schlüter, Reinhold Haeb-Umbach

Резюме на русском

## Контекст Meeting transcription является областью высокой актуальности и существенного прогресса в последние годы. Однако некоторые задачи в ней до сих пор остаются неразрешимыми. Одним из таких вызовов является анализ ошибок в модульных системах транскрибирования, которые могут влиять на качество транскрибирования. Исследователи стремятся к пониманию этих проблем, чтобы оптимизировать системы и минимизировать ошибки. Целью данного исследования является расширение фреймворка для анализа темпоральной локальности в системах сепарации речи и его применение для оценки ошибок в модульных системах транскрибирования. Ранее, анализ ошибок ограничивался одной точке времени, но в данной работе введена методика, которая учитывает темпоральную локальность, что позволяет более точно оценить ошибки. ## Метод Для анализа ошибок в модульных системах транскрибирования разработана новая методика, основанная на расширенной методологии для анализа темпоральной локальности. Эта методика применяется к системе, которая использует модульную архитектуру, включающую модули для сепарации речи, звуковой активности и распознавания речи. Методика включает в себя сравнение различных сегментаций, в том числе идеальной (оркестрованной) сегментации, легковесной сегментации на основе энергии и более сложными методами диаризации. Эксперименты проводились на данных LibriCSS, которые являются открытым ресурсом для тестирования систем транскрибирования. ## Результаты Результаты показывают, что такие методы диаризации, как x-vector и diarization с N-лучами, существенно сокращают разрыв с идеальной сегментацией по сравнению с простой энергий-based VAD. Тем не менее, остаётся заметный разрыв в третьей части результатов. Изучение этого разрыва показало, что основные факторы включают неточности в активности речи, синхронизацию между модулями и недостаточную точность распознавания речи в условиях высокого шума. Эти факторы определяют остаточные ошибки в системе. Более того, проведенный анализ позволил выявить, что прогресс в сепарации речи и diarization имеет существенное влияние на ошибки, но не устраняет их полностью. ## Значимость Результаты этой работы имеют большое значение для развития модульных систем транскрибирования. Они демонстрируют, что улучшение модулей сепарации речи и диаризации может привести к значительным улучшениям в качестве транскрибирования. Кроме того, работа показывает, что улучшение точности распознавания речи в условиях высокого шума и уменьшение неточностей в синхронизации модулей могут существенно уменьшить остаточные ошибки. В будущем, эти находки могут быть применены для со

Abstract

Meeting transcription is a field of high relevance and remarkable progress in recent years. Still, challenges remain that limit its performance. In this work, we extend a previously proposed framework for analyzing leakage in speech separation with proper sensitivity to temporal locality. We show that there is significant leakage to the cross channel in areas where only the primary speaker is active. At the same time, the results demonstrate that this does not affect the final performance much as these leaked parts are largely ignored by the voice activity detection (VAD). Furthermore, different segmentations are compared showing that advanced diarization approaches are able to reduce the gap to oracle segmentation by a third compared to a simple energy-based VAD. We additionally reveal what factors contribute to the remaining difference. The results represent state-of-the-art performance on LibriCSS among systems that train the recognition module on LibriSpeech data only.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Error Analysis in a Modular Meeting Transcription System

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

TAU: A Benchmark for Cultural Sound Understanding Beyond Semantics

Breathing and Semantic Pause Detection and Exertion-Level Classification in Post...

Unified Learnable 2D Convolutional Feature Extraction for ASR

Unseen Speaker and Language Adaptation for Lightweight Text-To-Speech with Adapt...

ProMode: A Speech Prosody Model Conditioned on Acoustic and Textual Inputs

Навигация