End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments
2508.13576v1
eess.AS, cs.AI, cs.SD, eess.IV
2025-08-21
Авторы:
Meng-Ping Lin, Enoch Hsin-Ho Huang, Shao-Yi Chien, Yu Tsao
Резюме на русском
## Контекст
Проблематика:
Устройства коклеарных имплантов (CI) являются инновационными медицинскими устройствами, позволяющими людям с сильной или тяжелой глухотой ощущать звуки. Однако, несмотря на развитие технологий, CI-устройства стремятся к надежности в шумных или реверберирующих условиях. Эта проблема остается открытой, так как существующие системы не всегда могут выделить говорящий голос в шумных средах, что снижает качество слушания.
Мотивация:
За счет развития глубокого обучения возникло возможность решения этой проблемы, особенно с использованием подходов, интегрирующих аудио-визуальные сигналы. Аудио-визуальная система улучшения звука (AVSE) может стать мощным средством для улучшения результатов CI-систем в шумных условиях.
## Метод
Описание:
Авторы предлагают AVSE-ECS, комбинацию модели AVSE (аудио-визуального улучшения звука) и Электродной Нейронной Сети ECS, которая используется для кодирования звука. AVSE-ECS использует аудио-визуальные сигналы для улучшения звука в шумных условиях. Этот метод является энд-то-энд, что означает, что он преобразует аудио-визуальные сигналы непосредственно в кодовые электрические сигналы.
Технические Решения:
Проектирование AVSE-ECS включает в себя несколько ключевых этапов:
1. Интеграция аудио-визуальных данных для улучшения звука.
2. Обучение модели с помощью электродной сети, которая преобразует эти сигналы в кодовый вид.
3. Использование глубокого обучения для решения задачи оценки качества звука в шумных условиях.
## Результаты
Описание Экспериментов:
Для проверки AVSE-ECS, выполнены тесты на нескольких тестовых наборах данных с разным уровнем шума. Результаты показали, что AVSE-ECS имеет значительное преимущество по сравнению с другими подходами в улучшении способности CI-систем понимать речь в шумных условиях.
Оценка Результатов:
Оценка производилась с помощью метрик, таких как objective speech intelligibility (ОСИ), которая измеряет восприятие речи в условиях шума. Результаты показали, что AVSE-ECS на 12% выше по OSI по сравнению с существующим ECS-системой.
## Значимость
Применения:
Выводы данного исследования могут быть применены в медицинской и технологической отраслях. Метод AVSE-ECS может быть использован для улучшения качества звука CI-систем, помогая людям с глухотой в шумных средах.
Преимущества:
- Улучшенное восприятие речи в шумных условиях.
- Интеграция визуальных сигналов для повышения точности.
- Эффективность в рабо
Abstract
The cochlear implant (CI) is a remarkable biomedical device that successfully
enables individuals with severe-to-profound hearing loss to perceive sound by
converting speech into electrical stimulation signals. Despite advancements in
the performance of recent CI systems, speech comprehension in noisy or
reverberant conditions remains a challenge. Recent and ongoing developments in
deep learning reveal promising opportunities for enhancing CI sound coding
capabilities, not only through replicating traditional signal processing
methods with neural networks, but also through integrating visual cues as
auxiliary data for multimodal speech processing. Therefore, this paper
introduces a novel noise-suppressing CI system, AVSE-ECS, which utilizes an
audio-visual speech enhancement (AVSE) model as a pre-processing module for the
deep-learning-based ElectrodeNet-CS (ECS) sound coding strategy. Specifically,
a joint training approach is applied to model AVSE-ECS, an end-to-end CI
system. Experimental results indicate that the proposed method outperforms the
previous ECS strategy in noisy conditions, with improved objective speech
intelligibility scores. The methods and findings in this study demonstrate the
feasibility and potential of using deep learning to integrate the AVSE module
into an end-to-end CI system