📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion
2025-08-28Авторы:
DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang
## Контекст
Аудио-визуальная распознаваемость речи (AVSR) в шумных условиях остается вызовом для современных систем. Несмотря на то, что существующие модели показывают успех в условиях чистых аудиосигналов, они сталкиваются с трудностями при оценке надежности аудиосигнала и динамическом адаптировании своей зависимости от двух модальностей. Это приводит к повышению количества ошибок распознавания в реальных условиях, где шум сильно повлиял на качество звука. Наша мотивация заключается в разработке модели, которая могла бы адаптироваться к этим условиям, сочетая мощь визуальных и аудиосигналов, чтобы повысить точность распознавания в шумных условиях.
## Метод
Мы предлагаем **Router-Gated Cross-Modal Feature Fusion**, новую архитектуру AVSR, которая включает два ключевых компонента: **аудио-визуальный роутер** и **механизм гейтинга**. Аудио-визуальный роутер оценивает надежность токенов аудиосигнала и адаптирует веса взаимодействия между модальностями. Механизм гейтинга в каждом слое декодера динамически усиливает вклад визуальных признаков, когда аудиосигнал становится менее надежным. Мы используем гибкую архитектуру трансформера для вычисления токен-левел скоров шума и интегрируем ее с моделью AV-HuBERT. Это позволяет модели распределять веса между аудио и визуальными фичами, адаптируясь к шуму в реальном времени.
## Результаты
Мы проверили нашу модель на датасете LRS3, сравнив ее с AV-HuBERT. Результаты показали, что наша модель снижает Word Error Rate (WER) от 16.51% до 42.67% в зависимости от уровня шума. Мы также провели абляционные эксперименты, подтвердив значимость как роутера, так и механизма гейтинга. Наши результаты показывают, что модель не только эффективно отсеивает шум, но и улучшает общую точность в распознавании речи в шумных условиях.
## Значимость
Наше решение может быть применено в сценариях, где шум сильно повлиял на качество звука, например, в системах контроля домашнего оборудования, видеоконференциях и системах автоматического распознавания речи в среде бесшумной среде. Мы считаем, что наш подход устанавливает новый архитектурный план для AVSR, объединяя мощь аудио-визуального анализа и динамического адаптирования. Это может привести к более надежным системам AVSR в реальных условиях.
## Выводы
Мы представили новую модель AVSR, которая адаптируетсья к шуму, используя аудио-визуальные признаки и динамический механизм гейтинга. Наши эксперименты показали, что у нашей модели есть существенные преимущества по сравнению с AV-HuBERT в условия
Annotation:
Robust audio-visual speech recognition (AVSR) in noisy environments remains
challenging, as existing systems struggle to estimate audio reliability and
dynamically adjust modality reliance. We propose router-gated cross-modal
feature fusion, a novel AVSR framework that adaptively reweights audio and
visual features based on token-level acoustic corruption scores. Using an
audio-visual feature fusion-based router, our method down-weights unreliable
audio tokens and reinforces visual cues through ...