📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 WhaleVAD-BPN: Improving Baleen Whale Call Detection with Boundary Proposal Networks and Post-processing Optimisation

2025-10-28

Авторы:

Christiaan M. Geldenhuys, Günther Tonitz, Thomas R. Niesler

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

While recent sound event detection (SED) systems can identify baleen whale calls in marine audio, challenges related to false positive and minority-class detection persist. We propose the boundary proposal network (BPN), which extends an existing lightweight SED system. The BPN is inspired by work in image object detection and aims to reduce the number of false positive detections. It achieves this by using intermediate latent representations computed within the backbone classification model to ...

ID: 2510.21280v1 eess.AS, cs.AI, cs.LG, cs.SD, q-bio.QM

arXiv PDF

📄 WhaleVAD-BPN: Improving Baleen Whale Call Detection with Boundary Proposal Networks and Post-processing Optimisation

2025-10-28

Авторы:

Christiaan M. Geldenhuys, Günther Tonitz, Thomas R. Niesler

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.21280v2 eess.AS, cs.AI, cs.LG, cs.SD, q-bio.QM

arXiv PDF

📄 HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

2025-10-17

Авторы:

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Personalized Voice Activity Detection (PVAD) systems activate only in response to a specific target speaker by incorporating speaker embeddings from enrollment utterances. Unlike existing methods that require architectural changes, such as FiLM layers, our approach employs a hypernetwork to modify the weights of a few selected layers within a standard voice activity detection (VAD) model. This enables speaker conditioning without changing the VAD architecture, allowing the same VAD model to adap...

ID: 2510.12947v1 eess.AS, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 AudioFuse: Unified Spectral-Temporal Learning via a Hybrid ViT-1D CNN Architecture for Robust Phonocardiogram Classification

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Utsab Saha

## Контекст Физиологические аудиосигналы, такие как фонокардиограммы (PCG), являются ключевыми индикаторами многих заболеваний сердца и требуют точной классификации для диагностики. Однако классические подходы к их обработке часто бьются о проблемы, связанные с неполностью информативностью одного из доменов — спектрального или темпорального. Наличие разрывов в информации между этими доменами ставит перед исследователями задачу создания универсального классификатора, который мог бы эффективно объединить эти два домена для улучшения точности и устойчивости классификации. ## Метод Мы предлагаем AudioFuse, архитектуру, которая использует гибридную свёрточную сеть 1D и трансформерную модель ViT для обработки спектральных и темпоральных признаков соответственно. Для решения проблемы переобучения, часто встречающейся при объединении представлений, мы вводят широкую и малой глубины Vision Transformer с широкой нейронной сетью с 1D сверточной сетью для глубокого изучения ключевых особенностей как в спектральном, так и в темпоральном доменах. Такой подход позволяет достичь более сильного индуктивного задвижки и значительного повышения точности классификации. ## Результаты Мы проверили AudioFuse на двух высококачественных датасетах: PhysioNet 2016 и PASCAL. На PhysioNet 2016, AudioFuse достигло ROC-AUC в 0.8608 при сравнительном уровне ROC-AUC 0.8066 для классификации спектрограмм и 0.8223 для классификации гармонических прогнозов. На PASCAL, AudioFuse показал устойчивость к искажениям в данных, получив ROC-AUC в 0.7181, в то время как гармоническая сеть пропадала в 0.4873. Это указывает на высокую эффективность AudioFuse в обеспечении устойчивости к шумам и разрывам в данных. ## Значимость AudioFuse может быть применен в различных медицинских приложениях, включая диагностику и мониторинг здоровья сердца. Его многослойная архитектура и устойчивость к шумам делают её выгодным инструментом для классификации звуковых сигналов. Данный подход также может привести к более точным наблюдениям в медицинской практике и снижению числа ложных срабатываний в классификации сердечных звуков. ## Выводы Мы продемонстрировали, что AudioFuse является эффективным методом классификации фонокардиограмм, который объединяет спектральные и темпоральные признаки для улучшения точности. Мы намерены продолжать работу над улучшением архитектуры и применением её в других медицинских областях, таких как диагностика дыхательных заболеваний и аудиомониторинг.

Annotation:

Biomedical audio signals, such as phonocardiograms (PCG), are inherently rhythmic and contain diagnostic information in both their spectral (tonal) and temporal domains. Standard 2D spectrograms provide rich spectral features but compromise the phase information and temporal precision of the 1D waveform. We propose AudioFuse, an architecture that simultaneously learns from both complementary representations to classify PCGs. To mitigate the overfitting risk common in fusion models, we integrate ...

ID: 2509.23454v1 eess.AS, cs.AI, cs.LG, cs.SD, eess.SP

arXiv PDF

📄 Audio-Based Pedestrian Detection in the Presence of Vehicular Noise

2025-09-25

Авторы:

Yonghyun Kim, Chaeyeon Han, Akash Sarode, Noah Posner, Subhrajit Guhathakurta, Alexander Lerch

#### Контекст Аудио-базированное обнаружение пешеходов является сложной задачей, которая до сих пор была исследована только в шумоограниченных средах. Однако в реальном мире шум от транспорта часто преобладает над звуковыми сигналами, связанными с пешеходами. Это создает сложности для правильного обнаружения пешеходов в таких условиях. Мы предлагаем новый датасет, анализ результатов и подробный обзор состояния исследований в области звукового обнаружения пешеходов в условиях транспортного шума. Данные эксперименты позволяют увидеть степень устойчивости алгоритмов к шумам и кросс-средственную оценку моделей в разных условиях. #### Метод Мы предлагаем новый датасет, состоящий из 1321 часов аудиозаписей, собранных вблизи дорог в различных условиях транспортного шума. Записи охватывают различные дорожные условия, включая трафик и городской шум. Каждая запись включает 16kHz аудиофайлы, синхронизированные с 1fps видео и шагами разбиения на кадры. Мы использовали модели YOLOv4 и DETR для обнаружения пешеходов, а также модели глубокого обучения для распознавания звуков в разных условиях. Методы включали искусственное натренирование моделей на шумовых данных, а также проверки моделей на тестовом датасете с разным шумовым фоном. #### Результаты Мы проводили три основных эксперимента: (i) сравнение моделей на шумовом и нет шумовом датасетах для оценки их кросс-средственной оценки; (ii) изучение влияния шума на показатели моделей, включая различные аспекты звукового контекста; (iii) оценка устойчивости моделей к out-of-domain звуковым сигналам. Результаты показали, что модели YOLOv4 и DETR показывают хорошую стабильность на шумовых записях, но их производительность существенно ухудшается при включении звуков транспорта. Мы также обнаружили, что звуковые сигналы, связанные с транспортом, могут оказывать значительное влияние на модели, особенно когда модели обучены на шумных данных. #### Значимость Наша работа имеет значительное значение для разработки моделей звукового обнаружения пешеходов в реальных условиях, в том числе в городских зонах с высоким транспортным шумом. Мы показали, что шум от транспорта может существенно снижать точность моделей, но при этом могут быть использованы методы, которые повышают устойчивость моделей. Это может быть полезно для автоматических систем обнаружения пешеходов в автомобилях, в системах безопасности на дорогах и для систем автоматизации города. #### Выводы Мы показали, что звуковые сигналы, с

Annotation:

Audio-based pedestrian detection is a challenging task and has, thus far, only been explored in noise-limited environments. We present a new dataset, results, and a detailed analysis of the state-of-the-art in audio-based pedestrian detection in the presence of vehicular noise. In our study, we conduct three analyses: (i) cross-dataset evaluation between noisy and noise-limited environments, (ii) an assessment of the impact of noisy data on model performance, highlighting the influence of acoust...

ID: 2509.19295v1 eess.AS, cs.AI, cs.LG, cs.SD

arXiv PDF

📄 Can Layer-wise SSL Features Improve Zero-Shot ASR Performance for Children's Speech?

2025-09-02

Авторы:

Abhijit Sinha, Hemant Kumar Kathania, Sudarsana Reddy Kadiri, Shrikanth Narayanan

#### Контекст Автоматическое звукоречевое распознавание (ASR) системы часто сталкиваются с трудностями при обработке речи детей, что связано с особыми акустическими и лексическими особенностями этого типа речи. Хотя недавние достижения в области самостоятельного обучения (SSL) существенно улучшили транскрипцию речи взрослых, проблема транскрипции речи детей остается актуальной. Целью данного исследования является оценка потенциала layer-wise самостоятельно самообучающихся моделей (Wav2Vec2, HuBERT, Data2Vec и WavLM) для улучшения ASR-систем, предназначенных для транскрибирования речи детей в zero-shot сценарии. #### Метод Для тестирования потенциала SSL-моделей были извлечены layer-wise features, которые последуют интегрированы в DNN-систему ASR с использованием Kaldi toolkit. Для обучения была использована аудио-корпус WSJCAM0, а для тестирования — PFSTAR. Эксперименты проводились с использованием разных моделей SSL и выделения layer-wise features. Также проводилась анализ по группам возраста, чтобы оценить как общую эффективность, так и то, как модель себя вестит на данных речи ребенка разных возрастов. #### Результаты Изыскания показали, что Layer 22 модели Wav2Vec2 дает низкий Word Error Rate (WER) в 5.15%, что составляет 51.64% относительного улучшения по сравнению с прямым zero-shot декодированием с использованием Wav2Vec2 (WER в 10.65%). Данные по возрастным группам указали на то, что модель постоянно улучшает свою эффективность с ростом возраста, при этом даже на молодших группах возраста были заметные улучшения. Эксперименты на CMU Kids дали похожие итоги, подтвердив генерализуемость предложенного подхода. #### Значимость Результаты этих исследований могут быть применены в разработке более точных ASR-систем для детей, что будет полезно в области образования, здравоохранения и интерактивных технологий. Преимуществоми этого подхода является уменьшение WER на zero-shot сценариях и улучшение универсальности моделей для различных возрастных групп детей. В будущем, можно рассмотреть интеграцию данных из других SSL-моделей и расширение подхода на другие типы речи. #### Выводы Исследование показало, что layer-wise features из SSL моделей могут значительно сократить WER в zero-shot ASR системах для речи детей. Модель Wav2Vec2, особенно Layer 22, дала лучшие результаты. Этот подход может быть применен для решения проблем с транскрибированием речи детей, имея потенциал для расширения и исследования других моделей и наборов данных.

Annotation:

Automatic Speech Recognition (ASR) systems often struggle to accurately process children's speech due to its distinct and highly variable acoustic and linguistic characteristics. While recent advancements in self-supervised learning (SSL) models have greatly enhanced the transcription of adult speech, accurately transcribing children's speech remains a significant challenge. This study investigates the effectiveness of layer-wise features extracted from state-of-the-art SSL pre-trained models - ...

ID: 2508.21225v1 eess.AS, cs.AI, cs.LG, cs.SD, eess.SP

arXiv PDF