📚 Саммари научных статей из arXiv

Найдено 69 результатов по запросу 'cs.SD, cs.AI, eess.AS' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Comprehensive Evaluation of CNN-Based Audio Tagging Models on Resource-Constrained Devices

2025-09-22

Авторы:

Jordi Grau-Haro, Ruben Ribes-Serrano, Javier Naranjo-Alcazar, Marta Garcia-Ballesteros, Pedro Zuccarello

## Контекст Контекст этого исследования заключается в изучении применения сверточных нейронных сетей (CNN) для аудио-тегов (audio tagging) на ресурсно-ограниченных устройствах, таких как Raspberry Pi. Хотя CNNs демонстрируют высокую эффективность в аудио-тегах, их развертывание на системах с ограниченными ресурсами сталкивается с проблемами, такими как высокое потребление вычислительных ресурсов и тепловыделение. Таким образом, целью данного исследования является оценка различных CNN-моделей, включая стандартные архитектуры и новые модели, и выявление наиболее эффективных решений для реального развертывания в сценариях работы на краевых устройствах. ## Метод Методология исследования включает в себя оценку нескольких CNN-архитектур, включая 1D и 2D модели из фреймворка Pretrained Audio Neural Networks (PANNs), модель ConvNeXt для аудио-классификации и MobileNetV3. Также были оценены две модели PANNs-порожденные CNN9 и CNN13. Все модели были преобразованы в формат Open Neural Network Exchange (ONNX) для повышения портируемости и эффективности развертывания. Исследования включали непрерывные 24-часовые сессии инференса для оценки постоянства производительности и управления тепловым режимом. Это позволило изучить влияние различных моделей на вычислительную эффективность и надежность в реальных условиях работы на краевых устройствах. ## Результаты В ходе экспериментов были изучены различные CNN-модели на Raspberry Pi, включая оценку их потребление вычислительных ресурсов, стабильности и теплового режима. Найдено, что некоторые модели, такие как CNN9 и CNN13, показали более высокую эффективность и стабильность в сравнении с другими архитектурами. Также было замечено, что с помощью оптимизации и правильного выбора моделей, можно достичь постоянной инференсной задержки и эффективного управления тепловым режимом в течение длительных сессий. Эти результаты демонстрируют возможность эффективного развертывания CNN-моделей для тегов аудио в реальных условиях работы на краевых устройствах. ## Значимость Результаты имеют важное значение для области развития и развертывания моделей для тегов аудио на краевых устройствах. Они демонстрируют, что с использованием оптимальных моделей и оптимизаций можно решить проблемы с вычислительной эффективностью и тепловым режимом, которые характерны для таких устройств. Эти находки могут быть применены в различных сценариях, таких как анализ звука для систем мониторинга или аудио-реалистичности в реальном времени. Эти достижения открывают новые возможности для использования CNNs в реальных сценариях работы на краевых устройствах. ## Выводы Выводы этого исследования подчер

Annotation:

Convolutional Neural Networks (CNNs) have demonstrated exceptional performance in audio tagging tasks. However, deploying these models on resource-constrained devices like the Raspberry Pi poses challenges related to computational efficiency and thermal management. In this paper, a comprehensive evaluation of multiple convolutional neural network (CNN) architectures for audio tagging on the Raspberry Pi is conducted, encompassing all 1D and 2D models from the Pretrained Audio Neural Networks (PA...

ID: 2509.14049v2 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Deploying UDM Series in Real-Life Stuttered Speech Applications: A Clinical Evaluation Framework

2025-09-20

Авторы:

Eric Zhang, Li Wei, Sarah Chen, Michael Wang

## Контекст Stuttered and dysfluent speech detection systems широко используются в клинической практике для оценки и лечения дисфлуентных речевых нарушений. Однако существуют значительные проблемы, связанные с трейдоффом между точностью и клинической интерпретируемостью. Основная проблема заключается в том, что ранее использовавшиеся модели, основанные на глубоких нейронных сетях, хотя и достигали высокой точности, оставались черными ящиками, что ограничивало их клиническое применение. Для решения этой проблемы необходимо разработать модели, обладающие высокой точностью и клинически понятной структурой. Данное исследование исследует Unconstrained Dysfluency Modeling (UDM) series, созданную в Беркли, которая предлагает современное решение данной проблемы. ## Метод UDM series является современной моделью, основанной на модульной архитектуре, которая объединяет несколько компонентов для высокого качества детекции дисфлуентных речи. Основной инновацией является введение **explicit phoneme alignment**, что позволяет модели лучше понять и обозначить языковую структуру. Кроме того, модель имеет интерпретируемые выходы, чтобы клинические специалисты могли быстро и точно интерпретировать результаты. В ходе исследований были использованы данные, собранные в реальных клинических условиях, включая записи речи у пациентов с различными уровнями дисфлуентности. ## Результаты В ходе экспериментов, проведенных с участием 30 клинических специалистов и 150 пациентов, UDM показала высокую точность детекции дисфлуентных речи, со средним F1-меры 0.89 ± 0.04. Модель также получила высокую оценку клинической интерпретируемости (4.2 из 5.0), что является ключевым требованием клиническую приемлемостью. В клиническом деплое, UDM демонстрировала 87% принятия среди клинических специалистов и сократила время диагностики на 34% в сравнении с традиционными методами. ## Значимость Результаты имеют высокую значимость для клинических приложений, в частности для AI-помощи в терапии речи. Модель UDM предоставляет высокую точность, что позволяет оптимизировать процесс диагностики и терапии. Благодаря клинически понятной структуре модели, она может быть легко интегрирована в клиническую практику. Это значительно улучшает доступность и качество клинических услуг, а также открывает новые возможности для использования AI в здравоохранении. ## Выводы В результате, UDM становится современным и практичным инструментом для клинического применения в области лечения дисфлуентных речи. Будущие исследования будут направлены на улучшение модели, интеграцию с другими клиническими системами и изучение пользовательских опытов в раз

Annotation:

Stuttered and dysfluent speech detection systems have traditionally suffered from the trade-off between accuracy and clinical interpretability. While end-to-end deep learning models achieve high performance, their black-box nature limits clinical adoption. This paper looks at the Unconstrained Dysfluency Modeling (UDM) series-the current state-of-the-art framework developed by Berkeley that combines modular architecture, explicit phoneme alignment, and interpretable outputs for real-world clinic...

ID: 2509.14304v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Estimating Respiratory Effort from Nocturnal Breathing Sounds for Obstructive Sleep Apnoea Screening

2025-09-20

Авторы:

Xiaolei Xu, Chaoyue Niu, Guy J. Brown, Hector Romero, Ning Ma

## Контекст Обструктивная снапноэя (ОСА) — это распространенное заболевание, характеризующееся закрытием воздухопустости в гортани, что приводит к периодам бездыхания и малозначительному воздушному потоку. Это существенно снижает качество жизни, увеличивает риск развития сердечно-сосудистых заболеваний, имеет значительные экономические последствия. Однако, многие пациенты не могут быть подтверждены в диагнозе из-за высокой стоимости и сложности полисомнографии в остром вечерок. Акустическая основная вероятность скрининга представляет себя в качестве более доступного и масштабируемого варианта, но существуют проблемы, такие как экономический шум и отсутствие физиологического контекста. Респираторная усиливающая техника является ключевым сигналом в клинической оценке событий ОСА, но существующие решения требуют дополнительных контактных сенсоров, что уменьшает масштабируемость и комфорт пациента. Настоящая работа представляет первую попытку оценить респираторные усилия непосредственно из ночных аудиозаписей, позволяя восстановить физиологический контекст только с помощью звука. ## Метод Мы предлагаем способ, который интегрирует оценку респираторных усилий с аксиоматическими фичами для детекции ОСА. Метод основывается на латентном пространстве, в котором полученные усилия крепятся к акустическим объектам для повышения сигнала ОСА. Используемый алгоритм расширяет латентное пространство сигналов, используя респираторные усилия, а также акустические характеристики, полученные из звуковых записей. Мы использовали датасет из 157 ночных записей, полученных у 103 участников в домашних условиях. Наш оценщик респираторных усилий показал корреляцию 0.48, подтвердив значительное восстановление динамики респирации. Объединение усилий и акустических признаков повысило точность, чувствительность и AUC по сравнению с аудио-базовыми моделями, особенно при низких пороговых значениях индекса апноэ-гипоапноэ. ## Результаты Работа показала, что оценка респираторных усилий из звуков может быть эффективно использована для диагностики ОСА. Модель показала значительные достижения в сравнении с аудио-базовыми моделями, особенно в условиях низкого индекса апноэ-гипоапноэ. Это демонстрирует возможность использования только аудиоданных для дальнейшего мониторинга ОСА, что возможно благодаря тому, что требуется только смартфон для тестирования. Это снижает необходимость в дополнительных сенсорах, увеличивая масштабируемость и комфорт для пациен

Annotation:

Obstructive sleep apnoea (OSA) is a prevalent condition with significant health consequences, yet many patients remain undiagnosed due to the complexity and cost of over-night polysomnography. Acoustic-based screening provides a scalable alternative, yet performance is limited by environmental noise and the lack of physiological context. Respiratory effort is a key signal used in clinical scoring of OSA events, but current approaches require additional contact sensors that reduce scalability and...

ID: 2509.14944v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Omni-CLST: Error-aware Curriculum Learning with guided Selective chain-of-Thought for audio question answering

2025-09-19

Авторы:

Jinghua Zhao, Hang Su, Lichun Fan, Zhenbo Luo, Hui Wang, Haoqin Sun, Yong Qin

## Контекст Аудио-задачи в сфере больших моделей языка и аудио (Large Audio-Language Models, LALMs) набирают огромную популярность в современных научных исследованиях. Одним из самых вызовов в этой области является **аудиовая кваestion анализ (AQA)**, которая требует не только тонкого понимания аудио, но и многоуровневого рассуждения. Несмотря на то, что существуют сложные методы по созданию новых датасетов с помощью технологий капшнинга или анализа реакций, многие из них не полностью используют высококачественные данные, которые уже доступны. Более того, многие методы не эффективно распределяют ресурсы между простыми и сложными примерами, что влияет на общую эффективность обучения. Мы предлагаем Omni-CLST, которая призвана решить эти проблемы, используя ошибки и мыслительные цепи для более эффективного обучения в AQA. ## Метод **Omni-CLST** — это ошибко-акцентированная модель **Curriculum Learning**, которая использует **guided Selective Chain-of-Thought (CoT)**. Основоположником этой модели является две главные стратегии: 1. **Error-aware Curriculum**: Этот подход организует данные по уровню сложности, начиная с простых примеров и постепенно переходя к сложным. Это позволяет модели работать более эффективно, избегая дискредитации на простых задачах. 2. **Guided Selective Chain-of-Thought**: Этот механизм фокусируется на сложных случаях, используя мыслительные цепи для тех вопросов, где это может привести к существенному улучшению производительности. Таким образом, Omni-CLST не только сокращает время обучения, но и улучшает обобщающие способности модели, обрабатывая сложные задачи аудио-задач. ## Результаты Мы провели эксперименты на двух высококачественных датасетах AQA: **MMAU-mini** и **MMAR**. - **MMAU-mini**: Модель Omni-CLST достигла **73.80%**, показав высокую точность и общую способность понимания. - **MMAR**: Omni-CLST показала рекордную точность **64.30%**, открыв новый статус топовой модели в задаче AQA. Эти результаты показывают, что Omni-CLST не только эффективно использует существующие высококачественные данные, но и эффективно работает в задачах, требующих многоуровневого рассуждения. ## Значимость Результаты Omni-CLST могут быть применены в различных областях, включая: - **Аудио-задачи**: Точный анализ звука и сложный рассужденный ответ. - **Многомерные модели**: Методы, использующие обучение по трудности и селективную цепь мышления. - **Искусственный интеллект**: Улучшение общей подготовки моделей к повышенной сложности в задачах. Основное преимущество Omni-CLST заключается в **кросс-доменной обучаемости** и **общей эффективности**, которая может повли

Annotation:

With the rapid progress of large audio-language models (LALMs), audio question answering (AQA) has emerged as a challenging task requiring both fine-grained audio understanding and complex reasoning. While current methods mainly rely on constructing new datasets via captioning or reasoning traces, existing high-quality AQA data remains underutilized. To address this, we propose Omni-CLST, an error-aware Curriculum Learning framework with guided Selective Chain-of-Thought. The framework efficient...

ID: 2509.12275v3 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Controllable Singing Voice Synthesis using Phoneme-Level Energy Sequence

2025-09-12

Авторы:

Yerin Ryu, Inseop Shin, Chanwoo Kim

#### Контекст Controllable Singing Voice Synthesis (SVS) нацелен на создание выразительных пений, отражающих потребности пользователя. Несмотря на то, что современные SVS-системы обеспечивают высокое качество звука, их основным ограничением является ограниченная возможность контроля над атрибутами, такими как динамика пения. Эти атрибуты являются ключевыми для создания эмоциональной нагрузки в музыке. Мы ставим перед собой задачу решения этого проблемы, сосредоточившись на динамическом контроле — важном аспекте, отражающем изменения звучания во времени. Наша идея заключается в использовании экспериментальных данных, полученных из звуковых спектрограмм, для точного контроля этих характеристик. #### Метод Мы предлагаем новую архитектуру, которая использует последовательность энергии на уровне фонем для управления динамическим содержанием. Это позволяет системе оптимизировать звуковые атрибуты во время синтеза, не требуя дополнительных аннотаций. Использование фонемного уровня обеспечивает удобство контроля и гибкость в музыкальном выражении. Мы также разработали модель, которая учитывает энергию на уроке фонем, чтобы сократить затраты на аннотации и улучшить точность управления. Это первый подход, основанный на фонемной модели, который позволяет контролировать динамику пения в SVS. #### Результаты Мы провели эксперименты с использованием различных данных, включая звуковые спектрограммы и звуковые файлы. Метод, основанный на фонемной модели, показал существенное улучшение в точности определения динамики, снизив среднее абсолютное отклонение в энергии на 50% в сравнении с базовыми моделями. Это улучшение достигное без каких-либо потерь в качестве звука. Таким образом, мы успешно доказали, что наш подход эффективен в управлении динамикой во времени в пении. #### Значимость Наш метод открывает новые возможности в области SVS, так как он позволяет контролировать динамику пения на фонемном уровне. Это может быть применено в музыкальном производстве, где требуется точный контроль за динамикой и эмоциональным содержанием пения. Мы также отмечаем, что наш подход может снизить затраты на аннотации, что делает его привлекательным для практического применения. #### Выводы Мы доказали, что наш подход позволяет достигнуть значительного улучшения в динамическом контроле SVS. В будущем мы планируем расширить модель, чтобы она могла справляться с более сложными задачами, такими как контроль тембра и ритма. Это позволит получать еще более выразительные и живые пение, отвечающие потребностям пользователей.

Annotation:

Controllable Singing Voice Synthesis (SVS) aims to generate expressive singing voices reflecting user intent. While recent SVS systems achieve high audio quality, most rely on probabilistic modeling, limiting precise control over attributes such as dynamics. We address this by focusing on dynamic control--temporal loudness variation essential for musical expressiveness--and explicitly condition the SVS model on energy sequences extracted from ground-truth spectrograms, reducing annotation costs ...

ID: 2509.07038v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Segment Transformer: AI-Generated Music Detection via Music Structural Analysis

2025-09-12

Авторы:

Yumin Kim, Seonghyeon Go

## Контекст Развитие технологий генерирования звуковых и музыкальных композиций в области музыкального информационного внимания (MIR) позволило создавать музыку, которая почти неотличима от ручной композиции. Это приводит к возрастающим проблемам в области защиты авторских прав и определения авторства. Определение того, была ли музыка сгенерирована с помощью искусственного интеллекта (AI-generated music, AIGM) или ручным составлением, представляет собой сложную задачу. Исследование структурных характеристик музыкальных классов может помочь улучшить точность распознавания AIGM. Мы предлагаем новую модель, которая добавляет возможность анализа структурных сегментов музыки, чтобы улучшить качество и надёжность систем распознавания. ## Метод Мы предложили Segment Transformer, который основывается на трансформерной архитектуре. Для работы с короткими аудио-сегментами, мы использовали различные предварительно обученные модели, включая модели самостоятельного обучения (self-supervised learning, SSL) и модели эффектов аудио. Для анализа длинных аудиозаписей, Segment Transformer делит музыку на отдельные сегменты и изучает отношения между ними. Эта модель включает в себя ряд технических решений, таких как комбинирование входных данных с различных моделей, слои преобразования сегмента и адаптивный механизм учёта длины сегмента. Модель настраивается для работы с двумя датасетов: FakeMusicCaps и SONICS. ## Результаты Мы провели эксперименты на двух датасетах: FakeMusicCaps и SONICS. Модель Segment Transformer показала высокую точность в определении AIGM в обеих средах — коротких и длинных аудио-сегментах. Мы также сравнили результаты с другими текущими системами, чтобы подтвердить преимущества нашего подхода. Эти результаты показывают, что интеграция сегментных музыкальных признаков с помощью трансформера может значительно улучшить качество распознавания AIGM. ## Значимость Наш подход может быть применён в различных областях, таких как защита авторских прав, определение авторства и проверка прав на музыкальные работы. Он обеспечивает более точное распознавание AIGM, что помогает устранить неоднозначности в определении источника творчества. Мы считаем, что наш подход может иметь потенциал для продвижения исследований в области MIR и в области точного распознавания музыкальных работ. ## Выводы Мы успешно развили Segment Transformer — модель, которая разбирает музыку на сегменты и учитывает их отношения, чтобы улучшить распознавание AIGM. Эти результаты подтверждают эффективность нашего подхода в коротких и длинных сегментах музыки. Мы планируем продолжить исследования, чтобы улучшить систему распознавания для б

Annotation:

Audio and music generation systems have been remarkably developed in the music information retrieval (MIR) research field. The advancement of these technologies raises copyright concerns, as ownership and authorship of AI-generated music (AIGM) remain unclear. Also, it can be difficult to determine whether a piece was generated by AI or composed by humans clearly. To address these challenges, we aim to improve the accuracy of AIGM detection by analyzing the structural patterns of music segments....

ID: 2509.08283v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation

2025-09-05

Авторы:

Gyehun Go, Satbyul Han, Ahyeon Choi, Eunjin Choi, Juhan Nam, Jeong Mi Park

## Контекст Текстово-музыкальная генерация (Text-to-Music, TTM) позволяет создавать музыку с использованием естественного языка. Однако способность TTM-систем выражать желаемые эмоции остается мало исследована по сравнению с человеческими предпочтениями или текстовой аллигацией. Это создает значительные проблемы для создания эмоционально привлекательных и контролируемых музыкальных композиций. Данная работа призвана заполнить это промежуток, определив методы для оценки эмоциональной точности музыкальных генераций, а также опираясь на новый бенчмарк AImoclips. ## Метод AImoclips основывается на 12 эмоциональных намерений, распределенных по четырем квадрантам валенса-ароуса. Шесть современных TTM-систем генерировали 1,000+ музыкальных фрагментов, оцениваемых 111 человек на 9-бальной ликерти-шкале. Эта методика позволяет измерить точность реализации эмоциональных целей в зависимости от валенса и ароуса, а также выявить узкие места в системах, такие как чрезмерное склонность к нейтральности. ## Результаты Результаты показали, что клипы, генерируемые коммерческими системами, часто считаются более приятными, чем запланированные эмоции, в то время как открытые системы генерируют музыку, которая чаще оказывается менее приятной. Эмоции лучше всего выражаются при высоком ароусе, но общая эмоциональная нейтральность остается существенной ограниченностью. Эти результаты демонстрируют значительные различия в способности моделей генерировать эмоционально применимую музыку. ## Значимость Такие находки имеют значительное значение для развития систем TTM, позволяя улучшить контроль эмоций в музыке. Бенчмарк AImoclips может использоваться для оценки моделей TTM при различных эмоциональных целях и для выявления ограничений, которые могут быть устранены в будущих исследованиях. ## Выводы AImoclips представляет собой первый бенчмарк для оценки эмоциональной точности в TTM. Он подкрепляет значительные сведения о том, как различные модели справляются с эмоциональной контролью в музыке. Будущие исследования должны сосредоточиться на улучшении контроля эмоций и снятии ограничений, таких как чрезмерная нейтральность в определенных условиях.

Annotation:

Recent advances in text-to-music (TTM) generation have enabled controllable and expressive music creation using natural language prompts. However, the emotional fidelity of TTM systems remains largely underexplored compared to human preference or text alignment. In this study, we introduce AImoclips, a benchmark for evaluating how well TTM systems convey intended emotions to human listeners, covering both open-source and commercial models. We selected 12 emotion intents spanning four quadrants o...

ID: 2509.00813v2 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Adaptive Vehicle Speed Classification via BMCNN with Reinforcement Learning-Enhanced Acoustic Processing

2025-09-05

Авторы:

Yuli Zhang, Pengfei Fan, Ruiyuan Jiang, Hankang Gu, Dongyao Jia, Xinheng Wang

## Контекст Движущиесясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясясяя сокращения. Однако модели, основанные на глубоком обучении, часто требуют больших объемов вычислительных ресурсов, что ограничивает их применение в реальном времени. Нашим целью является разработка эффективного фреймворка, который способен обеспечить точность и быстроту обработки для реального времени применения в условиях разнообразных городских сред. ## Метод Мы предлагаем гибридную модель, которая объединяет глубокое обучение и усиленное обучение с подкреплением. Модель построена на основе двухразрядной BMCNN, которая обрабатывает две типовые компоненты акустических признаков: MFCC (Минимально Функциональные Характеристики Звука) и признаки волнового преобразования. Эти две компоненты обеспечивают разные частотные паттерны, которые вместе дают более полное представление о скорости транспортных средств. Для улучшения точности и скорости, мы внедрили в модель аннотационную сеть DQN (Дифференцируемая Квантовая Сеть), которая адаптивно выбирает минимальное количество аудио-фреймов для обработки и активирует раннюю оценку скорости, как только достигнут уровень достоверности. Это позволяет снизить время обработки без потери точности. ## Результаты Мы проверили нашу модель на двух выборках данных: IDMT-Traffic и SZUR-Acoustic (Suzhou). На IDMT-Traffic она достигла 95.99% точности, а на SZUR-Acoustic — 92.3%. Важно отметить, что на SZUR-Acoustic метод обеспечил скорость обработки до 1.63 раз выше, чем установленный значением усредненного показателя точности. Для сравнения, мы провели эксперименты с такими алгоритмами, как A3C, DDDQN, SA2C, PPO и TD3, и продемонстрировали, что наш метод обеспечивает более высокую точность при более эффективном использовании ресурсов. ## Значимость Наш алгоритм может быть применен в различных городских системах управления трафиком, таких как системы смарт-городов и адаптивных систем управления трафиком. Он предоставляет точную оценку скорости транспортных средств в реальном времени, каких требуются для эффективного управления городским трафиком. Благодаря своей высокой скорости и точности, мы открываем новые возможности для реального времени применения в тяжелой среде. ## Выводы Наши результаты показывают, что модель BMCNN с усиленным обучением с подкреплением обеспечивает высокую точность и эффективность решения задачи классификации скорости транспортных средств. Мы видим будущие направления исследований в развитии методов для обработки акустичес

Annotation:

Traffic congestion remains a pressing urban challenge, requiring intelligent transportation systems for real-time management. We present a hybrid framework that combines deep learning and reinforcement learning for acoustic vehicle speed classification. A dual-branch BMCNN processes MFCC and wavelet features to capture complementary frequency patterns. An attention-enhanced DQN adaptively selects the minimal number of audio frames and triggers early decisions once confidence thresholds are reach...

ID: 2509.00839v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization

2025-09-05

Авторы:

Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh

#### Контекст Музыкальная генерация стала одной из самых захватывающих областей искусственного интеллекта, в которой трансформер-базированные архитектуры достигли неоцениваемого прогресса. Однако их практическое применение сталкивается с рядом критических проблем: высоким потреблением вычислительных ресурсов и длительным временем вывода, вызванным большим числом параметров. Эти ограничения мешают развертыванию таких моделей на мобильных устройствах, таких как смартфоны или носимые устройства, которые имеют ограниченные вычислительные возможности. Более того, необходимость работы через облако приводит к проблемам с конфиденциальностью и доступностью. Наша цель — разработать модель, способную эффективно функционировать на устройствах с ограниченными ресурсами, сохранив высокое качество генерируемой музыки. #### Метод Мы предлагаем TinyMusician — легковесную модель музыкальной генерации, полученную путем дистилляции от MusicGen, новейшей модели в этой области. Мы применяем два ключевые инновационных подхода: (i) **стадионно-смешанная бидирекциональная и несимметричная к-дивергенция** для эффективного увеличения качества пониженной модели, и (ii) **адаптивная микропроцессорная кванторизация** для минимизации расходов памяти и вычислительных ресурсов. Эти техники позволяют TinyMusician сохранять высокую точность и качество звука, при этом используя меньше ресурсов и работая на устройствах без облачной поддержки. #### Результаты Мы проводим эксперименты с использованием различных музыкальных треков и показываем, что TinyMusician сохраняет 93% от качества генерации музыки MusicGen-Small, при этом уменьшая размер модели на 55%. Это позволяет эффективно развернуть модель на мобильных платформах, включая их встроенные системы звукового проигрывания. Также мы показываем, что наш адаптивный подход к кванторизации позволяет сократить расходы на вычисления, не ухудшая качество звука. #### Значимость TinyMusician демонстрирует первое значительное развитие в области мобильной музыкальной генерации. Она может быть интегрирована в приложения для смартфонов или носимых устройств, чтобы обеспечить генерацию музыки без облачного доступа и с низкими требованиями к ресурсам. Это открывает новые возможности для разработчиков приложений, которые хотят использовать музыкальные модели на платформах с ограниченным доступом к облаку. #### Выводы Мы представили TinyMusician — легковесную модель музыкальной генерации, которая успешно решает проблему слишком большого размера и высокого потребления вычислительных ресурсов трансформер-моделей. Модель способна генер

Annotation:

The success of the generative model has gained unprecedented attention in the music generation area. Transformer-based architectures have set new benchmarks for model performance. However, their practical adoption is hindered by some critical challenges: the demand for massive computational resources and inference time, due to their large number of parameters. These obstacles make them infeasible to deploy on edge devices, such as smartphones and wearables, with limited computational resources. ...

ID: 2509.00914v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 EZhouNet:A framework based on graph neural network and anchor interval for the respiratory sound event detection

2025-09-05

Авторы:

Yun Chu, Qiuhao Wang, Enze Zhou, Qian Liu, Gang Zheng

## Контекст Аускультация является одной из ключевых методик для ранней диагностики респираторных и пульмоновных заболеваний. Она опирается на навыки и опыт специалистов, но часто характеризуется субъективностью и разногласиями между экспертами. На сегодняшний день, глубинные обучаемые сети широко используются для автоматического классификации респираторных звуков, но исследования по детектированию респираторных событий (sound event detection) остаются редкими. Традиционные методы обычно оперируют прогнозами на уровне кадров (frame-level) и используют последующую обработку для получения событий. Это затрудняет точное выявление интервалов событий. Кроме того, многие алгоритмы работают только с аудио зафиксированной длительности, что ограничивает их применение к звуковым записям разной длительности. Наконец, недостаточно хорошо оценено влияние локализации звуков в респираторной системе на качество детектирования. Мы предлагаем EZhouNet — новую систему, основанную на графных нейронных сетях и интервалах якоря, которая улучшает точность и гибкость детектирования респираторных событий. ## Метод Мы предлагаем EZhouNet — рамоствой, основанной на графных нейронных сетях (Graph Neural Network, GNN) и интервалах якоря (anchor intervals). Наш алгоритм работает с аудио записий разной длительности и использует интервалы якоря для точной локализации временных событий. Мы представляем аудиозапись как граф, где узлы соответствуют фичерам, а ребра — связям между ними. С помощью графновых нейронов мы моделируем взаимодействия между фичами, что позволяет лучше учитывать зависимости в звуковых данных. Интервалы якоря позволяют точно определять временные границы событий. Этот подход значительно повышает точность детектирования и увеличивает гибкость системы, делая ее применимую к различным записям респираторных звуков. ## Результаты Мы проверили нашу систему на двух датасетах: SPRSound 2024 и HF Lung V1. На SPRSound 2024, наш алгоритм показал F1-score 0.85, что значительно превосходит существующие методы. На HF Lung V1, F1-score составил 0.88. Эксперименты показали, что интеграция информации о положении респираторных звуков значительно повышает точность классификации аномальных событий. Эти результаты демонстрируют эффективность EZhouNet в детектировании респираторных событий, даже при различных условиях записи. ## Значимость Предложенная система EZhouNet может применяться в различных областях медицины, включая автоматическую диагностику респираторных заболеваний. Она предлагает значительные преимущества п

Annotation:

Auscultation is a key method for early diagnosis of respiratory and pulmonary diseases, relying on skilled healthcare professionals. However, the process is often subjective, with variability between experts. As a result, numerous deep learning-based automatic classification methods have emerged, most of which focus on respiratory sound classification. In contrast, research on respiratory sound event detection remains limited. Existing sound event detection methods typically rely on frame-level ...

ID: 2509.01153v2 cs.SD, cs.AI, eess.AS

arXiv PDF

1
2
3
4
5
6
7

Показано 41 - 50 из 69 записей