📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie
## Контекст
Одной из ключевых задач в области звукового взаимодействия с автомобилями является разделение сложно перекрывающихся речи нескольких говорящих. Это необходимо для повышения точности распознавания речи в моделях ASR, что в свою очередь повышает качество пользовательского опыта в автоматизированных системах диктовки и помощи водителям. Традиционные методы часто сталкиваются с трудностями в условиях реальных автомобильных сред, где звуковые источники плотно перекрываются, и имеют высокую сложность вычислительной части. Многоканальные задачи разделения речи, включая локализацию говорящих и отделение их речи, являются важными для решения этих проблем, но требуют эффективных алгоритмов с умеренными вычислительными затратами.
## Метод
CabinSep представляет собой новую реализацию маски-ориентированного метода MVDR (Minimum Variance Distortionless Response) для разделения речи в реальном времени. Основным инновационным элементом является использование информации о каналах для извлечения пространственных признаков, которые улучшают оценку масок речи и шума. Это позволяет повысить точность разделения, даже если источники речи находятся в разных зонах пространства. Метод также использует МВДР в процессе инференса, что уменьшает дисторсию речи и делает разделенный звук более подходящим для ASR. Для повышения устойчивости и точности расположения говорящих, CabinSep вводит метод увеличения данных, который сочетает симулированные и реально записанные отзвуки (Impulse Responses, IRs). Это позволяет улучшить локализацию говорящих, особенно на границах зон.
## Результаты
Для оценки эффективности CabinSep проводились эксперименты на реально записанных данных. Результаты показали, что метод достигает 17.5% относительной снижения ошибок распознавания речи по сравнению со стандартным DualSep моделью. Это достижение достигается при относительно низкой вычислительной сложности — 0.4 GMACs. Эксперименты также показали, что CabinSep обеспечивает более точное расположение говорящих в многоканальной среде, что значительно повышает качество распознавания в условиях сложных автомобильных сред.
## Значимость
CabinSep может быть применен в автомобильных системах, где необходимо эффективно разделить речи нескольких говорящих в реальном времени. Его преимущества заключаются в низком компьютерном затрат, высокой точности разделения и улучшенной локализации говорящих. Это делает CabinSep подходящим для систем самого разного уровня сложности, от простой помощи водителю до сложных систем автоматического управления автомобилем. Дальнейшие исследования могут сосредоточиться на дальнейшем повышении эффективности и уменьшении компь
Annotation:
Separating overlapping speech from multiple speakers is crucial for effective
human-vehicle interaction. This paper proposes CabinSep, a lightweight neural
mask-based minimum variance distortionless response (MVDR) speech separation
approach, to reduce speech recognition errors in back-end automatic speech
recognition (ASR) models. Our contributions are threefold: First, we utilize
channel information to extract spatial features, which improves the estimation
of speech and noise masks. Second, w...