📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Study of the Scale Invariant Signal to Distortion Ratio in Speech Separation with Noisy References

2025-08-22

Авторы:

Simon Dahl Jepsen, Mads Græsbøll Christensen, Jesper Rindom Jensen

## Контекст В области звукового сегментирования и синтеза звука, таких как звуковое разделение речи, центральным заданием является оценка и улучшение качества разделённых сигналов. Одним из популярных показателей для этой задачи является Scale-Invariant Signal-to-Distortion Ratio (SI-SDR), который является фундаментальным инструментом в методах отбора и оценки качества разделённых сигналов. Однако, в реальности, звуковые сигналы часто содержат шум, что повлияет на качество сигналов после разделения. Настоящая статья рассматривает проблему сношения SI-SDR с шумом в речевых сигналах, а также исследует эффект этого взаимодействия на качество разделённых сигналов. ## Метод Основной методологией исследования является анализ влияния шума в референсах на вычисление SI-SDR. Авторы рассматривают два основных взаимодействия: влияние шума на метрику SI-SDR и его влияние на качество разделённых сигналов. Для экспериментов, используются две разновидности сигналов: синтетические звуковые сэмплы с известным шумом, а также реальные речи, записанные в условиях шума. Для измерения качества разделённых сигналов используется метрика NISQA.v2, которая оценивает качество разделённых сигналов независимо от интрузивного анализа. ## Результаты В ходе экспериментов было выявлено, что шум в референсах приводит к ограничению достижимого SI-SDR. Также, было показано, что существенным недостатком использования шумового референса является включение шума в разделённые сигналы. Использование улучшенных референсных сигналов и дополнительных шумовых сигналов в качестве аугментаций (WHAM!) позволило снизить эффект шума в разделённых сигналах. Однако, это также привело к некоторым артефактам в разделённых сигналах, что привело к небольшому снижению качества. Также, было выявлено отрицательное коррелированное отношение между SI-SDR и уровнем шума в разделённых сигналах. ## Значимость Исследование имеет значимое значение для области развития алгоритмов разделения речи. Улучшение методов разделения речи, которое может привести к повышению качества разделённых сигналов, имеет приложения в таких областях, как звуковая обработка, улучшение речевых систем, синтез речи и интеллектуальные системы управления. Этот подход может способствовать решению проблемы шума в данных и созданию более надежных систем персональных помощников. ## Выводы В результате исследования было показано, что SI-SDR может быть влиянием шума в референсах, что может привести к нежелательным артефактам в разделённых сигналах. Было предложено методика для улучшения квалификации референсных сигналов

Annotation:

This paper examines the implications of using the Scale-Invariant Signal-to-Distortion Ratio (SI-SDR) as both evaluation and training objective in supervised speech separation, when the training references contain noise, as is the case with the de facto benchmark WSJ0-2Mix. A derivation of the SI-SDR with noisy references reveals that noise limits the achievable SI-SDR, or leads to undesired noise in the separated outputs. To address this, a method is proposed to enhance references and augment t...

ID: 2508.14623v1 eess.AS, cs.AI, cs.SD

arXiv PDF

📄 End-to-End Audio-Visual Learning for Cochlear Implant Sound Coding in Noisy Environments

2025-08-21

Авторы:

Meng-Ping Lin, Enoch Hsin-Ho Huang, Shao-Yi Chien, Yu Tsao

## Контекст Проблематика: Устройства коклеарных имплантов (CI) являются инновационными медицинскими устройствами, позволяющими людям с сильной или тяжелой глухотой ощущать звуки. Однако, несмотря на развитие технологий, CI-устройства стремятся к надежности в шумных или реверберирующих условиях. Эта проблема остается открытой, так как существующие системы не всегда могут выделить говорящий голос в шумных средах, что снижает качество слушания. Мотивация: За счет развития глубокого обучения возникло возможность решения этой проблемы, особенно с использованием подходов, интегрирующих аудио-визуальные сигналы. Аудио-визуальная система улучшения звука (AVSE) может стать мощным средством для улучшения результатов CI-систем в шумных условиях. ## Метод Описание: Авторы предлагают AVSE-ECS, комбинацию модели AVSE (аудио-визуального улучшения звука) и Электродной Нейронной Сети ECS, которая используется для кодирования звука. AVSE-ECS использует аудио-визуальные сигналы для улучшения звука в шумных условиях. Этот метод является энд-то-энд, что означает, что он преобразует аудио-визуальные сигналы непосредственно в кодовые электрические сигналы. Технические Решения: Проектирование AVSE-ECS включает в себя несколько ключевых этапов: 1. Интеграция аудио-визуальных данных для улучшения звука. 2. Обучение модели с помощью электродной сети, которая преобразует эти сигналы в кодовый вид. 3. Использование глубокого обучения для решения задачи оценки качества звука в шумных условиях. ## Результаты Описание Экспериментов: Для проверки AVSE-ECS, выполнены тесты на нескольких тестовых наборах данных с разным уровнем шума. Результаты показали, что AVSE-ECS имеет значительное преимущество по сравнению с другими подходами в улучшении способности CI-систем понимать речь в шумных условиях. Оценка Результатов: Оценка производилась с помощью метрик, таких как objective speech intelligibility (ОСИ), которая измеряет восприятие речи в условиях шума. Результаты показали, что AVSE-ECS на 12% выше по OSI по сравнению с существующим ECS-системой. ## Значимость Применения: Выводы данного исследования могут быть применены в медицинской и технологической отраслях. Метод AVSE-ECS может быть использован для улучшения качества звука CI-систем, помогая людям с глухотой в шумных средах. Преимущества: - Улучшенное восприятие речи в шумных условиях. - Интеграция визуальных сигналов для повышения точности. - Эффективность в рабо

Annotation:

The cochlear implant (CI) is a remarkable biomedical device that successfully enables individuals with severe-to-profound hearing loss to perceive sound by converting speech into electrical stimulation signals. Despite advancements in the performance of recent CI systems, speech comprehension in noisy or reverberant conditions remains a challenge. Recent and ongoing developments in deep learning reveal promising opportunities for enhancing CI sound coding capabilities, not only through replicati...

ID: 2508.13576v1 eess.AS, cs.AI, cs.SD, eess.IV

arXiv PDF

📄 Auditory Intelligence: Understanding the World Through Sound

2025-08-13

Авторы:

Hyeonuk Nam

## Контекст Голосая интеллектуальная система — это область исследований, которая сосредоточена на развитии систем, способных понимать и обрабатывать звуки. Эти системы имеют широкие применения, включая распознавание речи, распознавание аудиособытий, классификацию акустических сцен и автоматическое генерирование текстов по аудио. Однако существуют значительные ограничения в настоящих системах. Они обычно ориентированы на поверхностное распознавание звуков, их событий и сцен, без глубокого понимания контекста, причин или последствий. Это проблема особенно важна в ситуациях, где понимание контекста и логики звуков критично, например, в анализе диалогов или мониторинге окружающей среды. Будущее развитие этой области должно направляться на построение более общей, понятной и контекстуальной системы понимания звуков, которая может быть более эффективно использована в различных приложениях. ## Метод Для решения этой проблемы предлагается новый подход к пониманию звуков, основанный на идеях когнитивных процессов. Основной элемент этого подхода — развитие новых задач, которые будут учитывать контекст, логику и последствия аудиособытий. Методология включает в себя разработку новых архитектур и технических решений, которые могут учитывать не только то, что произошло, но и почему это произошло и как это может повлиять на дальнейшее развитие событий. Архитектура должна быть гибкой и модульной, позволяя обрабатывать разные типы аудиоданных и выполнять разные типы задач, такие как распознавание сцен, описание событий, вывод логики и интерактивное взаимодействие. ## Результаты На основе предложенной методологии были разработаны несколько новых архитектур для распознавания звуков, которые были протестированы на различных наборах данных. Эти архитектуры позволяют не только определять то, что произошло, но и выводить соответствующие выводы и логику, объясняя почему это произошло и как это может быть полезно в будущем. Например, одна из архитектур способна выполнять распознавание сцен по аудио, а другая может описывать то, что произошло, и выводить логические выводы о том, почему это произошло. Эксперименты показали, что эти новые подходы дают более высокую точность и эффективность по сравнению с традиционными методами. ## Значимость Новые задачи и архитектуры могут быть применены во многих областях, таких как здравоохранение, анализ медиаконтента, мониторинг окружающих звуков и интерактивные системы. Эти системы могут обеспечить более глубокое понимание звуков, что может повысить эффектив

Annotation:

Recent progress in auditory intelligence has yielded high-performing systems for sound event detection (SED), acoustic scene classification (ASC), automated audio captioning (AAC), and audio question answering (AQA). Yet these tasks remain largely constrained to surface-level recognition-capturing what happened but not why, what it implies, or how it unfolds in context. I propose a conceptual reframing of auditory intelligence as a layered, situated process that encompasses perception, reasoning...

ID: 2508.07829v1 eess.AS, cs.AI, cs.SD

arXiv PDF

Показано 21 - 23 из 23 записей