📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion

2025-08-28

Авторы:

DongHoon Lim, YoungChae Kim, Dong-Hyun Kim, Da-Hee Yang, Joon-Hyuk Chang

## Контекст Аудио-визуальная распознаваемость речи (AVSR) в шумных условиях остается вызовом для современных систем. Несмотря на то, что существующие модели показывают успех в условиях чистых аудиосигналов, они сталкиваются с трудностями при оценке надежности аудиосигнала и динамическом адаптировании своей зависимости от двух модальностей. Это приводит к повышению количества ошибок распознавания в реальных условиях, где шум сильно повлиял на качество звука. Наша мотивация заключается в разработке модели, которая могла бы адаптироваться к этим условиям, сочетая мощь визуальных и аудиосигналов, чтобы повысить точность распознавания в шумных условиях. ## Метод Мы предлагаем **Router-Gated Cross-Modal Feature Fusion**, новую архитектуру AVSR, которая включает два ключевых компонента: **аудио-визуальный роутер** и **механизм гейтинга**. Аудио-визуальный роутер оценивает надежность токенов аудиосигнала и адаптирует веса взаимодействия между модальностями. Механизм гейтинга в каждом слое декодера динамически усиливает вклад визуальных признаков, когда аудиосигнал становится менее надежным. Мы используем гибкую архитектуру трансформера для вычисления токен-левел скоров шума и интегрируем ее с моделью AV-HuBERT. Это позволяет модели распределять веса между аудио и визуальными фичами, адаптируясь к шуму в реальном времени. ## Результаты Мы проверили нашу модель на датасете LRS3, сравнив ее с AV-HuBERT. Результаты показали, что наша модель снижает Word Error Rate (WER) от 16.51% до 42.67% в зависимости от уровня шума. Мы также провели абляционные эксперименты, подтвердив значимость как роутера, так и механизма гейтинга. Наши результаты показывают, что модель не только эффективно отсеивает шум, но и улучшает общую точность в распознавании речи в шумных условиях. ## Значимость Наше решение может быть применено в сценариях, где шум сильно повлиял на качество звука, например, в системах контроля домашнего оборудования, видеоконференциях и системах автоматического распознавания речи в среде бесшумной среде. Мы считаем, что наш подход устанавливает новый архитектурный план для AVSR, объединяя мощь аудио-визуального анализа и динамического адаптирования. Это может привести к более надежным системам AVSR в реальных условиях. ## Выводы Мы представили новую модель AVSR, которая адаптируетсья к шуму, используя аудио-визуальные признаки и динамический механизм гейтинга. Наши эксперименты показали, что у нашей модели есть существенные преимущества по сравнению с AV-HuBERT в условия

Annotation:

Robust audio-visual speech recognition (AVSR) in noisy environments remains challenging, as existing systems struggle to estimate audio reliability and dynamically adjust modality reliance. We propose router-gated cross-modal feature fusion, a novel AVSR framework that adaptively reweights audio and visual features based on token-level acoustic corruption scores. Using an audio-visual feature fusion-based router, our method down-weights unreliable audio tokens and reinforces visual cues through ...

ID: 2508.18734v1 cs.CV, cs.AI, cs.MM, eess.AS, eess.SP

arXiv PDF