📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Shengchen Li

Это резюме построено на приведенных вами исходных данных. Если вы хотите создать резюме на основе другой статьи, необходимо предоставить более подробную информацию. ## Контекст Музыкальные адверсарские атаки (Music Adversarial Attacks) являются важной областью исследований в рамках Music Information Retrieval (MIR). Эти атаки нацелены на то, чтобы вывести системы MIR с целью изучения их уязвимостей и совершенствования. Однако существуют сложности в создании эффективных атак, которые были бы незаметными для пользователя, но при этом оказывали бы влияние на модель. Необходимо разработать метод, который бы позволял целенаправленно изменять аудио сегменты, не приводя к значительному снижению качества звука. ## Метод Метод MAIA основан на технике inpainting-based, которая позволяет выполнять целенаправленные изменения в аудио сегментах. В этом подходе используется generative inpainting model, который заполняет пропуски в аудио с использованием гайда от модели MIR. Атака начинается с анализа важности аудио сегментов, чтобы определить те участки, которые имеют наибольшее влияние на модель. Измененные сегменты затем встраиваются обратно в оригинальный аудио файл, чтобы создать адверсарский пример. MAIA работает как в white-box, так и в black-box сценариях атаки. ## Результаты Мы провели эксперименты с помощью нескольких моделей MIR и данных с различных жанров музыки. MAIA показал высокую успешность атак в обоих white-box и black-box сценариях, с минимальными изменениями в качестве звука. Мы также провели субъективные тесты по качеству звука, подтвердив, что адверсарские примеры звучат близко к оригинальным. Эти результаты показывают, что MAIA эффективен в создании адверсарских примеров, которые могут разрушить работу моделей MIR. ## Значимость MAIA открывает новые возможности для исследования уязвимостей MIR систем. Выявленные уязвимости могут помочь в повышении безопасности и надёжности таких систем. Благодаря своей универсальности, MAIA может быть использован в различных областях, таких как защита авторских прав, тестирование моделей и создание музыкальных алтернатив. Это также может привести к развитию новых методов защиты моделей от таких атак. ## Выводы MAIA представляет собой прорыв в области Music Adversarial Attacks. Он показал высокую эффективность и гибкость в создании адверсарских примеров. В дальнейших исследованиях мы планируем расширить MAIA для других типов аудио, таких как речь и звуки окружения, а также исследовать его применение в сценариях защиты аудио от адверсарских атак.
Annotation:
Music adversarial attacks have garnered significant interest in the field of Music Information Retrieval (MIR). In this paper, we present Music Adversarial Inpainting Attack (MAIA), a novel adversarial attack framework that supports both white-box and black-box attack scenarios. MAIA begins with an importance analysis to identify critical audio segments, which are then targeted for modification. Utilizing generative inpainting models, these segments are reconstructed with guidance from the outpu...
ID: 2509.04980v1 cs.SD, cs.LG, eess.AS
Авторы:

Guillem Bonafos, Jéremy Rouch, Lény Lego, David Reby, Hugues Patural, Nicolas Mathevon, Rémy Emonet

## Контекст ### Область исследования и мотивация Задачи классификации и анализа аудиоданных часто сталкиваются с проблемой недостатка меток в тренировочных данных, что существенно снижает качество обучения моделей. Биоакустические задачи, такие как классификация звуков животных, не исключение. Однако в последние годы появились модели трансформера, ориентированные на обработку речи, которые доказали свою эффективность в задачах классификации. Несмотря на это, их применение к не-речевым аудиоданным, таким как голоса животных или детские кокетки, остается практически не изученным. ### Мотивация исследования Изучение возможности использования моделей трансформера для классификации голоса детей и других звуков животных может открыть новые пути для обработки не-речевых аудиоданных. Этот подход может существенно повысить эффективность распознавания аудио звуков в биоакустике и других областях, где требуется высокая точность и минимальное количество меток. ## Метод ### Описание методологии В работе использовались пять предварительно обученных моделей трансформера, разработанных для обработки речи. Эти модели были применены к классификации звуков детских криков, полученных из 960 ребенков в разных условиях. Оценка производилась на 115 часов аудио, содержащих 8 классов криков. Модели были сравнены по способности выделять ключевую информацию из звуков, такую как источник звука и голосовая идентичность младенца. ### Технические решения Архитектуры моделей были адаптированы для работы с звуковыми признаками, которые отличаются от речевых. Была применена предварительная обработка звуков, включая нормализацию и разделение сигнала на фрагменты. Эти методы позволили моделям более эффективно обрабатывать не-речевые звуки. ## Результаты ### Оценка моделей Эксперименты показали, что модели трансформера эффективно классифицируют звуки детских криков, достигая высокой точности. Они показали способность выделять важные признаки, такие как громкость, интонация и даже визуальные признаки, связанные с голосовым источником. Наилучшую точность показала одна из моделей, которая выбилась из сравнения за счет более настроенных параметров и адаптации к специфике аудиоданных. ### Описание результатов Полученные результаты определяют, что модели трансформера могут быть успешно применены к классификации звуков животных и детских криков. Они не только распознают звуковые признаки, но и могут интерпретировать информацию о расхождении в голосе, что может быть полезно для диагностики
Annotation:
Transfer learning using latent representations from pre-trained speech models achieves outstanding performance in tasks where labeled data is scarce. However, their applicability to non-speech data and the specific acoustic properties encoded in these representations remain largely unexplored. In this study, we investigate both aspects. We evaluate five pre-trained speech models on eight baby cries datasets, encompassing 115 hours of audio from 960 babies. For each dataset, we assess the latent ...
ID: 2509.02259v1 cs.SD, cs.LG, stat.AP
Авторы:

Chengyuan Ma, Peng Jia, Hongyue Guo, Wenming Yang

## Контекст Испытательный звук — это критический индикатор для определения работоспособности индустриальных оборудований. Определение аномалий в звуках может предупредить о возможных дефектах и снизить риск непредвиденных сбоев. Однако моделирование аккустических признаков в асинхронном условии остается сложной задачей. Трудности возникают из-за недостаточного восприятия длительных характеристик времени и относительной связи между частотными полосами. Имеющиеся алгоритмы часто не могут успешно справиться с такими ограничениями, что приводит к неточностям в детектировании. Наша мотивация заключается в разработке совершенно нового подхода, который мог бы существенно улучшить точность детекции аномалий в звуках. ## Метод Мы предлагаем ESTM (Enhanced Dual-Branch Spectral-Temporal Mamba), состоящее из двух важных компонентов: двухслойной архитектуры Mamba и Selective State-Space Models (SSM). Mamba архитектура оптимизирует моделирование временно-частотных характеристик, обеспечивая точное распакование данных в многомерные признаки. SSM, в свою очередь, улучшает моделирование длинных последовательностей, позволяя лучше охватывать динамические изменения. Также, в билинейной модели TriStat-Gating (TSG) включены сложные механизмы, увеличивающие чувствительность к аномалиям. Эти компоненты объединены в совместной работе, чтобы обеспечить более точное и эффективное детектирование аномалий. ## Результаты Мы проверили нашу модель на DCASE 2020 Task 2 dataset, где она сравнялась с текущими стандартами в области ASD. Оценки показали, что ESTM превосходит другие методы по точности детекции аномалий и общей точности классификации. Мы также провели подробный анализ настройки параметров и проверили его влияние на производительность. Эти результаты продемонстрировали, что ESTM — эффективный инструмент для аномалий в звуковой сигнализации, особенно при работе с звуковыми потоками, где длительные характеристики и взаимосвязи частот являются ключевыми характеристиками. ## Значимость ESTM может быть применено во многих отраслях, включая промышленность, транспорт и здравоохранение, где мониторинг звука критичен для обнаружения аномалий. Одним из основных преимуществ является улучшенная точность детекции, что может привести к более эффективному управлению и повышению надежности оборудования. Этот подход также открывает пути для дальнейших исследований в области акустического моделирования и автоматизированных систем мониторинга. ## Выводы Мы представили ESTM — новую модель для детекции аномалий в звуках, которая улучшает точность и обнаружение длинных ха
Annotation:
The core challenge in industrial equipment anoma lous sound detection (ASD) lies in modeling the time-frequency coupling characteristics of acoustic features. Existing modeling methods are limited by local receptive fields, making it difficult to capture long-range temporal patterns and cross-band dynamic coupling effects in machine acoustic features. In this paper, we propose a novel framework, ESTM, which is based on a dual-path Mamba architecture with time-frequency decoupled modeling and uti...
ID: 2509.02471v1 cs.SD, cs.LG
Авторы:

Alokit Mishra, Ryyan Akhtar

## Контекст Музыкальное жанровое классификационное исследование является важной областью звукового сигнала обработки. Однако существуют значительные проблемы, такие как несогласованность в выборке музыки, несогласованность в характеристиках жанров, и проблемы с оценкой удовлетворенности результатов. Технологии машинного обучения предлагают новые возможности для решения этих проблем, но зачастую требуют больших объемов данных, что может быть проблематично для небольших датасетов. Это исследование фокусируется на использовании машинного обучения для автоматической классификации жанров музыки, сравнивая классические методы и глубокие нейронные сети. ## Метод Для этого исследования был выбран датасет GTZAN, содержащий 1000 музыкальных фрагментов, разделенных на 10 жанров. Были рассмотрены классические алгоритмы, такие как Support Vector Machine (SVM), и глубинные нейронные сети, такие как Convolutional Neural Network (CNN). Для классических методов был использован ручной функционал извлечения признаков, включая Mel-frequency cepstral coefficients (MFCCs) и количество характеристик лакун. Для CNN была применена архитектура, включающую технологии convolutional layers, max-pooling, и dense layers. Таким образом, были сравнены два подхода для классификации жанров музыки. ## Результаты Проведенные эксперименты показали, что SVM, обученная на ручном признаковом пространстве, демонстрирует более высокую точность классификации по сравнению с CNN. Это может быть объяснено тем, что CNN необходим большой объем данных для обучения, что может быть недостаточно в данном случае. В то же время, CNN продемонстрировал более высокую скорость работы и гибкость, но имел более высокий риск переобучения. Таким образом, SVM показался более эффективным в этой конкретной задаче. ## Значимость Результаты этого исследования могут быть использованы в различных областях, таких как рекомендательные системы, лицензирование музыки, и анализ музыкальных коллекций. Этот подход может быть использован для улучшения точности классификации с меньшими объемами данных. Кроме того, этот метод может быть использован для улучшения систем распознавания жанров, которые требуют быстрой обработки. Это означает, что данный подход может сыграть важную роль в развитии технологий музыкального анализа. ## Выводы В итоге, исследование показало, что SVM с ручным признаковым пространством может дать более высокую точность классификации по сравнению с CNN, особенно в условиях небольших датасетов. Однако CNN также показал свою значимость, демонстрируя более высокую скорость и гибкость. Будущие исследования могут сфоку
Annotation:
This paper presents a comparative analysis of machine learning methodologies for automatic music genre classification. We evaluate the performance of classical classifiers, including Support Vector Machines (SVM) and ensemble methods, trained on a comprehensive set of hand-crafted audio features, against a Convolutional Neural Network (CNN) operating on Mel spectrograms. The study is conducted on the widely-used GTZAN dataset. Our findings demonstrate a noteworthy result: the SVM, leveraging dom...
ID: 2509.01762v1 cs.SD, cs.LG
Авторы:

Dong Yoon Lee, Alyssa Weakley, Hui Wei, Blake Brown, Keyana Carrion, Shijia Pan

## Контекст Проблемы забота за пожилыми людьми, особенно теми, кто страдает деменцией, становятся все актуальнее в современном мире. Около 25% подобных людей живут в одиночестве, что приводит к усилению нагрузки на семейных членов, которые должны координировать заботу с расстояния. Существуют различные решения для удаленного мониторинга, которые стремятся облегчить эту нагрузку, но они страдают от недостатков, включая те, что связаны с защитой частной жизни, точностью распознавания действий и гибкостью моделей в работе с новыми пользователями и средами. Технологии структурных вибро-сенсоров, которые обнаруживают вибрации поверхностей, доказали свою точность в мониторинге человеческих действий в управляемых условиях. Однако, при их использовании в реальных домах, эти системы требуют больших объемов отмеченных данных для эффективного распознавания действий. Наше решение предлагает масштабируемую систему, которая использует синтезированные данные из акустического звука, полученного на поверхности, для предварительного обучения модели. Это позволяет дообучать модель с минимальными данными, обеспечивая повышенную устойчивость и точность в распознавании повседневных действий. ## Метод Мы предлагаем систему под названием RARR (Robust Real-World Activity Recognition with Vibration by Scavenging Near-Surface Audio Online), которая становится возможностью благодаря современным алгоритмам и технологиям глубокого обучения. Наша методология включает два основных этапа. В первом этапе используется синтезированный акустический звук, полученный с помощью датчиков типа MEMS, размещенных на поверхности. Этот звук анализируется и синтезируется в виде данных, которые могут быть использованы для предварительного обучения нейронных сетей. Во втором этапе мы дообучаем модель с использованием минимального количества отмеченных данных, чтобы повысить ее устойчивость и точность при работе в реальных условиях. Архитектура системы включает в себя нейронные сети, адаптированные для распознавания действий на основе вибраций поверхности и звуковых сигналов. ## Результаты Мы проводили эксперименты с использованием широкого спектра данных, включая лабораторные и реальные условия. У нас были сравниваемые результаты с другими подходами, такими как распознавание действий, основанное на видео, и другие модели, использующие только вибро-датчики. Наши результаты показали, что RARR показывает высокую точность в распознавании действий, даже при ограниченных объемах отмеченных данных. Мы также проверили устойчивость модели к новым средам и пользователям, и подобрали примеры, показывающие, что RARR может ра
Annotation:
One in four people dementia live alone, leading family members to take on caregiving roles from a distance. Many researchers have developed remote monitoring solutions to lessen caregiving needs; however, limitations remain including privacy preserving solutions, activity recognition, and model generalizability to new users and environments. Structural vibration sensor systems are unobtrusive solutions that have been proven to accurately monitor human information, such as identification and acti...
ID: 2508.21167v1 cs.SD, cs.LG, I.5.4
Авторы:

Ran Piao, Yuan Lu, Hareld Kemps, Tong Xia, Aaqib Saeed

## Контекст В последние годы звуковые методы диагностики болезней набирают все большую популярность, так как предлагают неинвазивный и сцалинный способ обнаружения различных клинических состояний. Несмотря на эти преимущества, существующие подходы как правило ограничиваются диагностикой отдельных условий и не учитывают богатость акустической информации, которая может предоставить важной информации для определения нескольких заболеваний. Этот факт ограничивает эффективность и широкое распространение таких методов. Многозадачный подход к обучению моделей может решить эту проблему, объединяя различные задачи в одну систему и используя общие представления для эффективного использования данных. ## Метод Модель MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis) представляет собой двухветвную архитектуру, основанную на многозадачном обучении. Она состоит из специализированных энкодеров для каждого клинического условия, которые совместно используют общую акустическую сеть. Эта структура позволяет обеспечить эффективный обмен знаниями между задачами и привлечь общие закономерности в акустических паттернах. Модель обучается на данных Bridge2AI-Voice v2.0, не требуя скачивания сырых аудиоданных, что обеспечивает высокий уровень безопасности и конфиденциальности. Эта архитектура позволяет обрабатывать 9 различных клинических условий, включая головные боли, частоты дыхания и голосовые заболевания. ## Результаты На тестировании на данных Bridge2AI-Voice v2.0, MARVEL показала высокую точность диагностики, с AUROC (Area Under the Receiver Operating Characteristic Curve) 0.78, с примечательными результатами на головных болях (AUROC = 0.79) и заболеваниях голоса (AUROC = 0.76). Особенно выдающимся был результат на диагностике Альцгеймера и неврологических условий, где AUROC достиг 0.89, а для Альцгеймера/мелкой когнитивной дефицита AUROC составил 0.97. Модель опередила одномодальные базлансы на 5–19% и победила современные модели самостоятельного обучения на 7 из 9 задач. Анализ корреляции показал, что обученные представления MARVEL схожи с клинически признаными акустическими признаками, что подтверждает надежность модели. ## Значимость Результаты MARVEL открывают путь к развитию многозадачных звуковых систем диагностики для использования в ресурсозакрытых условиях. Модель может быть применена в сценариях, где доступ к специалистам и медицинским устройствам ограничен. Также модель может помочь в улучшении диагностики не только отдельных заболеваний, но и целого набора клинических условий, которые могут быть связаны с акустическими паттернами. ## Выводы
Annotation:
Voice-based health assessment offers unprecedented opportunities for scalable, non-invasive disease screening, yet existing approaches typically focus on single conditions and fail to leverage the rich, multi-faceted information embedded in speech. We present MARVEL (Multi-task Acoustic Representations for Voice-based Health Analysis), a privacy-conscious multitask learning framework that simultaneously detects nine distinct neurological, respiratory, and voice disorders using only derived acous...
ID: 2508.20717v1 cs.SD, cs.LG
Авторы:

Holger Severin Bovbjerg, Jan Østergaard, Jesper Jensen, Shinji Watanabe, Zheng-Hua Tan

## Контекст Улучшение понимания среды через спектро-саунадовая характеристика звука является ключевым аспектом в многих приложениях, таких как локализация источников звука, системы навигации, и искусственное интеллект. Однако, обучение моделей классификации и оценки звуков часто требует больших объемов меток данных, которые могут быть трудозатратными и дорогостоящими в получении. Бинаurale аудио, с его уникальными монокультарными характеристиками, представляет собой сильный потенциал для повышения понимания среды. Тем не менее, многие существующие методы либо не эффективны при использовании суровых условий (например, шумовых или реверберативных средах), либо требуют полностью меток данных. Мы рассматриваем новую методологию, которая использует предварительную тренировку характеристик с помощью фильтрации представлений, чтобы улучшить обучение моделей бинаулярного звука для оценки направления прибытия (DoA) без требования меток данных. ## Метод Мы предлагаем использовать предварительную тренировку модели через фильтрацию представлений с использованием чистых запиков элементов спектро-саунадов, отформатированных как прогнозные метки. Эти чистые элементы формируются из бинаулярных семплов аудио и затем используются для обучения модели, которая предсказывает эти чистые элементы из обучающих данных. Мы используем аугментированные бинаулярные звуковые данные для получения представлений, которые могут быть прогнозированы с помощью нейронной сети. Чтобы повысить жесткость и универсальность представлений, была применена техника предварительной тренировки. После этого, мы удаляем слой предсказателя и используем веса из обученного энкодера для инициализации модели DoA, которая тренируется для оценки направления прибытия. ## Результаты Мы оценивали нашу модель на двух открытых наборах данных: руководственном сеансе VIRTUAL-HEADSET и данных из нынешнего конкурса LOCATA. Мы сравнивали нашу модель с двумя типами моделей: одной, которая была развита с полностью тренированными данными, и другой, которая тренировалась с использованием классических методов сигнальной обработки. Наши результаты показывают, что предварительно тренированная модель показывает улучшенное поведение в ситуациях с шумом и реверберацией, когда мы применяем технику DoA-оценки после тренировки, в сравнении с полностью тренированными моделями и классическими методами. ## Значимость Наше исследование показывает как предварительная тренировка модели через фильтрацию представлений может значительно повысить эффективность обучения моделей для о
Annotation:
Recently, deep representation learning has shown strong performance in multiple audio tasks. However, its use for learning spatial representations from multichannel audio is underexplored. We investigate the use of a pretraining stage based on feature distillation to learn a robust spatial representation of binaural speech without the need for data labels. In this framework, spatial features are computed from clean binaural speech samples to form prediction labels. These clean features are then ...
ID: 2508.20914v1 cs.SD, cs.LG, eess.AS, 68T10, I.2.6
Авторы:

Yuancheng Wang, Dekun Chen, Xueyao Zhang, Junan Zhang, Jiaqi Li, Zhizheng Wu

## Контекст В статье приводится обзор текущих проблем в области текст-аудио моделей и аудио-текст моделей, определяя основные проблемы, связанные с работой текущих текстовых генераторов. Одним из главных узких мест является необходимость в высокоэффективной архитектуре, обеспечивающей качественную реконструкцию звука с минимальными потерями. Одним из важных мотивов является создание модели, которая будет эффективно работать в текстовых генераторах для преобразования звука или текста, сохраняя качество и эффективность. ## Метод TaDiCodec разработана как первая кодокидж-модель, основанная на текст-аудио-диффузии. Она предлагает энд-то-энд-оптимизацию для звукового сжатия с использованием трансформера-автокодека, а также интеграцию текст-гайда в декодер для повышения эффективности. Модель работает с очень низкой частотой кадров 6.25 Гц и битрейтом 0.0875 кбпс, что позволяет обеспечить эффективное сжатие звука. Из-за единой структуры TaDiCodec обеспечивает лучший тренировочный процесс без необходимости в дополнительных моделях для семантического расширения. ## Результаты Тестирование модели проводилось на задачах текстовой распознавательной речи и текстовой генерации с помощью текстовых генераторов. В результате было получено очень высокое качество реконструкции с минимальными потерями. Модель показала отличные результаты в метриках Word Error Rate (WER), speaker similarity (SIM), и speech quality (UTMOS). Эти результаты доказывают, что TaDiCodec эффективна в работе на задачах с низким разрешением и очень низкими рамками предоставляет лучшие результаты в сравнении с другими моделями. ## Значимость TaDiCodec может быть применена в разных областях, включая текстовые генераторы, текстовую распознавательную речь и генерацию звуков. Она предоставляет значительные преимущества, такие как эффективное сжатие звука, низкий порог для разработки и использования, а также возможность интеграции с различными текстовыми генераторами. В будущем модель может использоваться для создания новых текстовых генераторов с высоким качеством реконструкции с минимальным издержанием ресурсов. ## Выводы TaDiCodec достигла нового уровня эффективности в текстовой генерации и реконструкции с помощью диффузионной модели. Она предлагает новый подход к решению проблем, связанных с существующими моделями, и может стать основой для развития новых моделей в области звукового сжатия. Будущие исследования будут направлены на улучшение точности реконструкции, уменьшение потерь и расширение применения модели в различных задачах текстовой гене
Annotation:
Speech tokenizers serve as foundational components for speech language models, yet current designs exhibit several limitations, including: 1) dependence on multi-layer residual vector quantization structures or high frame rates, 2) reliance on auxiliary pre-trained models for semantic distillation, and 3) requirements for complex two-stage training processes. In this work, we introduce the Text-aware Diffusion Transformer Speech Codec (TaDiCodec), a novel approach designed to overcome these chal...
ID: 2508.16790v1 cs.SD, cs.LG, eess.AS
Авторы:

Patricia Amado-Caballero, Luis Miguel San-José-Revuelta, María Dolores Aguilar-García, José Ramón Garmendia-Leiza, Carlos Alberola-López, Pablo Casaseca-de-la-Higuera

## Контекст Область исследования, связанная с использованием ИИ для обработки акустических сигналов, набирает популярность в медицинских применениях, где задача — улучшить диагностические возможности. Акустические признаки, такие как звуки хахей, являются полезными индикаторами различных респираторных заболеваний, но их анализ часто ограничивается неинтерпретируемостью моделей ИИ. Это усложняет доверие к результатам и препятствует широкому применению. Проблема подсветки актуальных регионов в акустических сигналах акустическими методами остается неполной. Хотя существуют методы, такие как occlusion maps, они применяются не в полной мере для работы с акустическими признаками в медицине. Задача достичь более точной диагностики заключается в нахождении мощных инструментов, позволяющих выделить значимые акценты в спектральных сигналах. Мотивация в описании эффективного подхода, который определяет и интерпретирует эти значимости в спектральных сигналах, лежит в основе этой работы. ## Метод Разработанный подход основывается на методах eXplainable Artificial Intelligence (XAI), которые позволяют выявить значимые регионы в спектральных сигналах. Основной архитектурой используется Convolutional Neural Network (CNN), обученный классифицировать записи хахей. Чтобы выделить значимые регионы в спектральных сигналах (спектрограммах), используются occlusion maps. Эти карты представляют собой метод, где процесс классификации зависит от наличия и отсутствия определенных регионов в сигнале. После выделения акцентов в спектрограмме проводится спектральный анализ. Он состоит в сравнении "до" и "после" манипуляций с оккультурными картами. Это позволяет выявить спектральные признаки, которые отличаются в заболеваниях респираторной системы. Таким образом, технология XAI используется для детального выявления и интерпретации этих признаков, чтобы улучшить диагностику респираторных заболеваний. ## Результаты Использовались данные, включающие записи звуков хахей от пациентов с различными респираторными заболеваниями, в том числе хронический обструктивный диафрагменный заболевание (COPD). Затем, с помощью occlusion maps, были выделены значимые регионы в спектрограммах. Спектральный анализ этих регионов показал, что в заболеваниях, таких как COPD, звуковые паттерны хахей демонстрируют более значимые различия в спектральных регионах, чем в здоровом состоянии или других заболеваниях. На основе этих результатов был выявлен паттерн возникновения заболеваний с более выраженными акустическими признаками. Эти различия были отслежены в спектро
Annotation:
This paper proposes an eXplainable Artificial Intelligence (XAI)-driven methodology to enhance the understanding of cough sound analysis for respiratory disease management. We employ occlusion maps to highlight relevant spectral regions in cough spectrograms processed by a Convolutional Neural Network (CNN). Subsequently, spectral analysis of spectrograms weighted by these occlusion maps reveals significant differences between disease groups, particularly in patients with COPD, where cough patte...
ID: 2508.14949v1 cs.SD, cs.LG, eess.AS, eess.SP
Авторы:

Guirui Zhong, Qing Wang, Jun Du, Lei Wang, Mingqi Cai, Xin Fang

## Контекст Аномальное звучание детекции (Anomalous Sound Detection, ASD) является важной задачей, направленной на выявление нестандартных звуков при эксплуатации машин. Она находит применение в таких областях, как промышленность и техническое обслуживание, где быстрое выявление аномалий может предотвратить крупные убытки и сократить время простоя. Однако существуют ряд проблем, связанных с неопределенностью локализации нестандартных звуков и излишним количеством ненужной информации, такой как шум, в аудио-данных. Эти факторы становятся ограничивающими для создания высокоэффективных систем ASD. Наша мотивация заключается в развитии более точных методов детекции аномалий, улучшающих точность и надежность таких систем. ## Метод Мы предлагаем усовершенствованный подход к детекции аномалий, основывающийся на использовании метода фильтр-банков с равномерно распределенными интервалами. Этот подход обеспечивает равное внимание к всем частотным диапазонам в аудио-данных, увеличивая чувствительность системы к деталям и значимым звуковым признакам. Для уменьшения ненужной информации, такой как шум, мы предложили параметр-свободный метод усиления признаков, основанный на предварительно обученных моделях. Этот подход позволяет эффективно передавать универсальный знаний из предварительно обученных моделей к задаче детекции звуковых аномалий. Мы также использовали предварительно обученные модели для оптимизации модели детекции звуков в условиях нестандатных условий. ## Результаты Мы провели ряд экспериментов на данных с коллекции DCASE 2024 Challenge, которая включает сцены с машинными звуками и аномалиями. Наш подход продемонстрировал существенное повышение точности детекции аномалий в сравнении с существующими методами. Мы измерили производительность с помощью метрик F1-score и AUC-ROC, получив значительное улучшение по сравнению с конкурирующими решениями. Эти результаты подтверждают эффективность предлагаемого метода в обнаружении аномалий и уменьшении шума в аудио-данных. ## Значимость Наш метод может быть применен в различных отраслях, таких как промышленность, информационные системы, автоматизация и безопасность. Он обладает рядом преимуществ, включая улучшение точности детекции, уменьшение количества шума в аудио-данных, а также увеличение универсальности и надежности моделей. Это может привести к сокращению выбытия на техническом обслуживании, повышению эффективности производственных процессов и улучшению общей безопасности систем. ## Выводы Мы представили эффективный подход к детекции а
Annotation:
Anomalous Sound Detection (ASD) aims at identifying anomalous sounds from machines and has gained extensive research interests from both academia and industry. However, the uncertainty of anomaly location and much redundant information such as noise in machine sounds hinder the improvement of ASD system performance. This paper proposes a novel audio feature of filter banks with evenly distributed intervals, ensuring equal attention to all frequency ranges in the audio, which enhances the detecti...
ID: 2508.15334v1 cs.SD, cs.LG, eess.AS
Показано 61 - 70 из 80 записей