📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 GLA-Grad++: An Improved Griffin-Lim Guided Diffusion Model for Speech Synthesis

2025-12-02

Авторы:

Teysir Baoueb, Xiaoyu Bie, Mathieu Fontaine, Gaël Richard

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in diffusion models have positioned them as powerful generative frameworks for speech synthesis, demonstrating substantial improvements in audio quality and stability. Nevertheless, their effectiveness in vocoders conditioned on mel spectrograms remains constrained, particularly when the conditioning diverges from the training distribution. The recently proposed GLA-Grad model introduced a phase-aware extension to the WaveGrad vocoder that integrated the Griffin-Lim algorithm (GL...

ID: 2511.22293v1 cs.SD, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 Lightweight and Generalizable Acoustic Scene Representations via Contrastive Fine-Tuning and Distillation

2025-10-08

Авторы:

Kuang Yuan, Yang Gao, Xilin Li, Xinhao Mei, Syavosh Zadissa, Tarun Pruthi, Saeed Bagheri Sereshki

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Acoustic scene classification (ASC) models on edge devices typically operate under fixed class assumptions, lacking the transferability needed for real-world applications that require adaptation to new or refined acoustic categories. We propose ContrastASC, which learns generalizable acoustic scene representations by structuring the embedding space to preserve semantic relationships between scenes, enabling adaptation to unseen categories without retraining. Our approach combines supervised cont...

ID: 2510.03728v1 cs.SD, cs.LG, eess.AS, eess.SP

arXiv PDF

📄 XAI-Driven Spectral Analysis of Cough Sounds for Respiratory Disease Characterization

2025-08-25

Авторы:

Patricia Amado-Caballero, Luis Miguel San-José-Revuelta, María Dolores Aguilar-García, José Ramón Garmendia-Leiza, Carlos Alberola-López, Pablo Casaseca-de-la-Higuera

## Контекст Область исследования, связанная с использованием ИИ для обработки акустических сигналов, набирает популярность в медицинских применениях, где задача — улучшить диагностические возможности. Акустические признаки, такие как звуки хахей, являются полезными индикаторами различных респираторных заболеваний, но их анализ часто ограничивается неинтерпретируемостью моделей ИИ. Это усложняет доверие к результатам и препятствует широкому применению. Проблема подсветки актуальных регионов в акустических сигналах акустическими методами остается неполной. Хотя существуют методы, такие как occlusion maps, они применяются не в полной мере для работы с акустическими признаками в медицине. Задача достичь более точной диагностики заключается в нахождении мощных инструментов, позволяющих выделить значимые акценты в спектральных сигналах. Мотивация в описании эффективного подхода, который определяет и интерпретирует эти значимости в спектральных сигналах, лежит в основе этой работы. ## Метод Разработанный подход основывается на методах eXplainable Artificial Intelligence (XAI), которые позволяют выявить значимые регионы в спектральных сигналах. Основной архитектурой используется Convolutional Neural Network (CNN), обученный классифицировать записи хахей. Чтобы выделить значимые регионы в спектральных сигналах (спектрограммах), используются occlusion maps. Эти карты представляют собой метод, где процесс классификации зависит от наличия и отсутствия определенных регионов в сигнале. После выделения акцентов в спектрограмме проводится спектральный анализ. Он состоит в сравнении "до" и "после" манипуляций с оккультурными картами. Это позволяет выявить спектральные признаки, которые отличаются в заболеваниях респираторной системы. Таким образом, технология XAI используется для детального выявления и интерпретации этих признаков, чтобы улучшить диагностику респираторных заболеваний. ## Результаты Использовались данные, включающие записи звуков хахей от пациентов с различными респираторными заболеваниями, в том числе хронический обструктивный диафрагменный заболевание (COPD). Затем, с помощью occlusion maps, были выделены значимые регионы в спектрограммах. Спектральный анализ этих регионов показал, что в заболеваниях, таких как COPD, звуковые паттерны хахей демонстрируют более значимые различия в спектральных регионах, чем в здоровом состоянии или других заболеваниях. На основе этих результатов был выявлен паттерн возникновения заболеваний с более выраженными акустическими признаками. Эти различия были отслежены в спектро

Annotation:

This paper proposes an eXplainable Artificial Intelligence (XAI)-driven methodology to enhance the understanding of cough sound analysis for respiratory disease management. We employ occlusion maps to highlight relevant spectral regions in cough spectrograms processed by a Convolutional Neural Network (CNN). Subsequently, spectral analysis of spectrograms weighted by these occlusion maps reveals significant differences between disease groups, particularly in patients with COPD, where cough patte...

ID: 2508.14949v1 cs.SD, cs.LG, eess.AS, eess.SP

arXiv PDF