📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Scaling to Multimodal and Multichannel Heart Sound Classification: Fine-Tuning Wav2Vec 2.0 with Synthetic and Augmented Biosignals

2025-09-17

Авторы:

Milan Marocchi, Matthew Fynn, Kayapanda Mandana, Yue Rong

#### Контекст Кардиоваскулярные заболевания (ЦВЗ) являются одной из ведущих причин смертности в мире, признак этого является около 17,9 миллионов смертей ежегодно. Успешное и эффективное диагностирование ЦВЗ в фазе раннего заболевания может существенно снизить риск развития тяжелых осложнений. Однако, существуют значительные проблемы с доступностью и качеством данных для обучения моделей, которые могут быть использованы для отличных классификации аномалий сердечных звуков. Это возникает из-за ограниченности размеров доступных синхронных и многоканальных данных. Таким образом, необходимо разработать методы, которые могут эффективно использовать модели преобразования, основанные на глубоком обучении, для классификации сердечных звуков. Это возможно с помощью новых техник, таких как расширение данных и виртуальное генерирование данных. #### Метод Процитируемая модель Wav2Vec 2.0 была усовершенствована с применением нового подхода, который включает в себя синтез сигналов и методы виртуального генерирования данных. Для этой цели, были применены технологии, такие как WaveGrad и DiffWave, для создания виртуальных данных, которые были дополнены существующими данными сердечных звуков. Это позволило создать модифицированную версию модели Wav2Vec 2.0, которая может быть применена для классификации сердечных звуков в многоканальном и многомодальном формате. #### Результаты Эксперименты были проведены на нескольких наборах данных, включая CinC 2016 (сингле-канальное PCG), CinC Training-a (синхронизированные PCG и ECG), и данные в виде многоканальных многомодальных сигналов (mPCG). На CinC 2016 данных, модель достигла долгих точности (accuracy) в 92,48%, универсального усредненного рекалла (unweighted average recall, UAR) в 93,05%, и многих других показателей, таких как специфичность и соотношение Маттха (MCC). На данных CinC Training-a, эти показатели были достигнуты в 93,14%, 92,21%, 94,35% и 0,8380 для точности, UAR, специфичности и MCC соответственно. На многоканальных многомодальных данных (mPCG), где сложность классификации значительно выше, модель достигла точности в 77,13%, UAR в 74,25%, специфичности в 86,47% и MCC в 0,5082. #### Значимость Эти результаты показывают, что технологии, такие как WaveGrad и DiffWave, могут эффективно расширять и дополнять данные сердечных звуков, что позволяет использовать модели преобразования в области классификации сердечных звуков. Это может повысить точность диагностики ЦВЗ, особенно в ситуациях, когда доступ к большим многоканальным данным ограничен. Таким образом,

Annotation:

Cardiovascular diseases (CVDs) are the leading cause of death worldwide, accounting for approximately 17.9 million deaths each year. Early detection is critical, creating a demand for accurate and inexpensive pre-screening methods. Deep learning has recently been applied to classify abnormal heart sounds indicative of CVDs using synchronised phonocardiogram (PCG) and electrocardiogram (ECG) signals, as well as multichannel PCG (mPCG). However, state-of-the-art architectures remain underutilised ...

ID: 2509.11606v1 cs.SD, cs.LG, eess.SP

arXiv PDF

📄 Neural Audio Codecs for Prompt-Driven Universal Source Separation

2025-09-17

Авторы:

Adhiraj Banerjee, Vipul Arora

## Контекст Текстово-ориентированная разделка звука (text-guided source separation, TSS) представляет собой технологию, позволяя изменять аудиоконтент в зависимости от текстовых подсказок. Она применяется в различных приложениях, включая управление устройствами, запись аудио, помощь слушателям с ограниченным зрением и другие сценарии. Однако существующие модели, такие как AudioSep, требуют больших вычислительных ресурсов, что делает их неэффективными для развертывания на устройствах с ограниченными возможностями, таких как мобильные телефоны и смарт-спикеры. Этот рисунок проблемы вдохновил разработку более эффективных алгоритмов, оптимизированных для ограниченных ресурсов, при этом сохраняющих высокую точность и качество аудио. ## Метод Мы предлагаем **CodecSep**, первую модель на основе neural audio codec (NAC), которая выполняет одновременную разделку и управление звуком с использованием текстовых подсказок. Основная идея заключается в сочетании метода разделения DAC (discrete audio coding) со слоем FiLM (Featurewise Linear Modulation), который регулируется параметрами CLAP (Concept Language Audio Pretraining). Наша архитектура включает в себя нейронные сети с преобразованиями FiLM, которые позволяют модели настраиваться на текстовые запросы в реальном времени. Это делает модель CodecSep более гибкой и эффективной в различных сценариях разделки звука. ## Результаты Мы проводили эксперименты на шести открытых бенчмарках, сравнивая CodecSep с AudioSep и другими моделями. Модель CodecSep показала лучшие результаты в соотношении сигнал-шум (SI-SDR), что означает более высокую точность разделки звука. В то же время, она оставалась конкурентна в оценке качества восприятия (ViSQOL) и матчастно соответствовала или превышала базовые модели (TDANet, CodecFormer, SDCodec). Особенно выделяется ее эффективность в вычислительных задачах, где она потребляет всего 1.35 GMACs для одновременной разделки и управления звуком, что на 54 раз меньше, чем у AudioSep. ## Значимость Результаты CodecSep демонстрируют ее перспективность в приложениях, требующих высокого качества разделки звука с ограниченными ресурсами, таких как мобильные устройства, смарт-дисплеи и автомобильные системы. Благодаря своей эффективности, модель может работать на более узких битрейтах, что особенно важно для реализации на устройствах с ограниченным пропускным каналом. Это открывает новые возможности для развития ассистивных технологий, управления звуком и интерактивных приложений. ## Выводы В результате наших исследований, CodecSep достигла значительных улучшений в сфере TSS, обеспечивая высокую точность и эффективность вычислений. Мы планируем продолжи

Annotation:

Text-guided source separation supports flexible audio editing across media and assistive applications, but existing models like AudioSep are too compute-heavy for edge deployment. Neural audio codec (NAC) models such as CodecFormer and SDCodec are compute-efficient but limited to fixed-class separation. We introduce CodecSep, the first NAC-based model for on-device universal, text-driven separation. CodecSep combines DAC compression with a Transformer masker modulated by CLAP-derived FiLM parame...

ID: 2509.11717v1 cs.SD, cs.LG

arXiv PDF

📄 Improving Out-of-Domain Audio Deepfake Detection via Layer Selection and Fusion of SSL-Based Countermeasures

2025-09-17

Авторы:

Pierre Serrano, Raphaël Duroselle, Florian Angulo, Jean-François Bonastre, Olivier Boeffard

#### Контекст В последние годы аудио-дзенфейки (deepfakes) стали востребованным средством для мошенничества, преступлений и дезориентации. Одним из главных проблем, стоящих перед системами выявления таких поддельных аудиозаписей, является их нехватка универсальности. Многие алгоритмы обучаются на ограниченных наборах данных и не могут грамотно обобщаться на неизвестные условия. Это проблема, известная как "выход за пределы домена" (out-of-domain, OOD), является ключевой целью этого исследования. Особенно актуальной она становится, когда системы обучаются на ограниченных наборах, но должны работать в разнообразных средах, где звуковые свойства могут существенно отличаться. #### Метод Для повышения универсальности системы использовались семь моделей самостоятельного самостоятельного обучения (SSL), включая Wav2Vec 2.0, HuBERT и Data2Vec. Модели были заморожены в момент использования, чтобы избежать тяжелого обучения и ускорить эксперименты. Для оценки их универсальности, анализировались уровни слоев моделей, определяя наиболее полезные для дезинфейков-обнаружения. Для сравнения применялась топология аудио-пулинга, включая однослойный и многослойный подходы. Также исследовались различные стратегии суммирования результатов, включая индивидуальные модели и их комбинации. #### Результаты На основе экспериментов с 4 различными тестовыми корпусами были выявлены особенности каждой модели SSL. Было установлено, что лучший слой для обнаружения дзенфейков может отличаться в зависимости от конкретной модели. Например, для Wav2Vec 2.0 это был 12-й слой, в то время как для HuBERT — 10-й. Однослойный подход показал хорошие результаты, но лучше всего себя проявил многослойный подход с автоматическим выделением наиболее подходящих слоев. Это позволило уменьшить количество параметров системы до 80%. Был также проанализирован эффект суммирования результатов нескольких моделей, что существенно повысило универсальность системы, особенно при работе с OOD-данными. #### Значимость Результаты этих исследований могут быть применены в области безопасности информации, аудио-анализа и видеоредактирования. Технология позволяет повысить точность и универсальность систем выявления звуковых подделок. Благодаря использованию предобученных моделей SSL, решение становится эффективным и не требует долгих и ресурсоемких обучающих процессов. Это привлекательно для использования в реальном времени или при ограниченных ресурсах. #### Выводы Исследование показало, что выбор наиболее подходящего слоя и использование многослойной

Annotation:

Audio deepfake detection systems based on frozen pre-trained self-supervised learning (SSL) encoders show a high level of performance when combined with layer-weighted pooling methods, such as multi-head factorized attentive pooling (MHFA). However, they still struggle to generalize to out-of-domain (OOD) conditions. We tackle this problem by studying the behavior of six different pre-trained SSLs, on four different test corpora. We perform a layer-by-layer analysis to determine which layers con...

ID: 2509.12003v1 cs.SD, cs.LG

arXiv PDF

📄 Prototypical Contrastive Learning For Improved Few-Shot Audio Classification

2025-09-16

Авторы:

Christos Sgouropoulos, Christos Nikou, Stefanos Vlachos, Vasileios Theiou, Christos Foukanelis, Theodoros Giannakopoulos

## Контекст Few-shot learning представляет собой мощный подход для обучения моделей с ограниченным количеством меткидных данных. Он решает проблемы в ситуациях, где создание больших объемов метокдных данных нецелесообразно или невозможно. Хотя этот подход широко используется в обработке изображений, в области аудиоклассификации он остается недостаточно изученным. Несмотря на это, аудиоданные часто требуют метокдных данных, которые трудно получить в реальной жизни из-за высокой сложности или большого потребления ресурсов. Мы рассматриваем направление, где классический подход к контрастированию потерь применяется в сочетании с методом прототипов для короткого обучения. Это позволяет улучшить удобство обучения и получение более точных результатов для аудиоклассификации в небольших обучающих выборках. ## Метод Наш метод основывается на контрастировании прототипов, где мы используем аугментированные входные данные для создания более обобщенных представлений. Мы используем SpecAugment для увеличения синтетических данных, что позволяет более гибко обрабатывать входные аудиопотоки. Аугментированные данные обрабатываются с помощью модели самоп paуаттерного внимания, которая интегрирует информацию из разных версий аудиоданных в единый подходный вектор. Для оптимизации метода мы используем ангулярную потерю, которая увеличивает точность в сравнении с традиционным контрастированием. Мы также используем традиционные методы оценки, такие как 5-way, 5-shot и 5-way, 1-shot, для сравнения нашего подхода с другими современными моделями на специальном корпусе MetaAudio. ## Результаты Мы проводили эксперименты на корпусе MetaAudio, включающем пять подкорпушек с многообразными аудиоданными. Наш метод показал лучшие результаты в сравнении с другими моделями в 5-way, 5-shot сценарии. Мы доказали, что наша модель может более эффективно использовать синтетические данные и аугментацию, чтобы повысить удобство обучения и точность классификации. Особенно хороший результат получен для аудиоданных, которые требуют более гибкого и быстрого обучения, таких как речи, музыка и звуковые сигналы. ## Значимость Наш подход может применяться в различных областях, где недостаточно данных для обучения, но требуется высокая точность классификации. Например, он может применяться для распознавания речи, мониторинга среды и идентификации звуковых сигналов. Улучшение точности и удобства обучения делает нашу модель применимую в сценариях, где доступ к большим объемам данных ограничен. Это может способствовать развитию систем аудиоанализа в научной и практической сфере. ## Выводы Мы успешно исследовали влияни

Annotation:

Few-shot learning has emerged as a powerful paradigm for training models with limited labeled data, addressing challenges in scenarios where large-scale annotation is impractical. While extensive research has been conducted in the image domain, few-shot learning in audio classification remains relatively underexplored. In this work, we investigate the effect of integrating supervised contrastive loss into prototypical few shot training for audio classification. In detail, we demonstrate that ang...

ID: 2509.10074v1 cs.SD, cs.LG

arXiv PDF

📄 Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

2025-09-15

Авторы:

Harry Julian, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao

#### Контекст Neural Audio Codecs (NACs) получили широкое применение в процессинге аудио, благодаря высокой эффективности в сжатии и совместимости с Large Language Models (LLMs). Однако большинство существующих кодеков опираются на Residual Vector Quantization (RVQ), которая включает дополнительные сложительные вычисления и требует множественных кодеков. В этой статье предлагается Finite Scalar Quantization (FSQ) — альтернативная методика, которая упрощает процесс обучения и хорошо подходит для использования в одном кодеке. Кроме того, FSQ обеспечивает робастность кодирования при передаче по шумным каналам. #### Метод FSQ использует один кодек, устраняя необходимость в нескольких исполнениях. Методика включает новую архитектуру NeuCodec, которая вырабатывает кодирование с встроенной резилиентностью к шумам. Эксперименты включили дистилляцию энкодеров и симуляцию передачи аудио по шумному каналу. #### Результаты Проведены эксперименты, показавшие, что два разных энкодера могут преобразовать один и тот же аудио файл в разные коды, при этом сохраняя высокую точность воспроизведения. Было также продемонстрировано, что FSQ гораздо более терпит шум в канале передачи по сравнению с RVQ. #### Значимость FSQ может быть применено в различных областях, где требуется высококачественное сжатие аудио в условиях шума — например, в телекоммуникациях, IoT и системах автоматического звукового анализа. Основные преимущества включают упрощение процесса обучения, лучшую робастность и эффективность в ресурсах. #### Выводы FSQ продемонстрировал свою эффективность в режиме low bit-rate, где достиг достижил значительного прогресса в сжатии аудио. Будущие исследования будут фокусироваться на расширении методики для дополнительных сценариев применения и улучшении её гибкости.

Annotation:

Neural Audio Codecs (NACs) have become increasingly adopted in speech processing tasks due to their excellent rate-distortion performance and compatibility with Large Language Models (LLMs) as discrete feature representations for audio generation. While most existing codecs rely on Residual Vector Quantization (RVQ), Finite Scalar Quantization (FSQ) has recently emerged as a compelling alternative that simplifies training and natively supports single codebooks. We introduce NeuCodec, an FSQ-base...

ID: 2509.09550v2 cs.SD, cs.LG

arXiv PDF

📄 Finite Scalar Quantization Enables Redundant and Transmission-Robust Neural Audio Compression at Low Bit-rates

2025-09-13

Авторы:

Harry Julia, Rachel Beeson, Lohith Konathala, Johanna Ulin, Jiameng Gao

## Контекст Нейронные аудио кодеки (Neural Audio Codecs, NACs) приобретают все большую популярность в области обработки речевых сигналов благодаря высокому размеру-износу (rate-distortion) и совместимости с большими моделями языка (Large Language Models, LLMs) как алгоритмами для генерации аудио. Основная часть существующих кодеков основывается на технике векторной резидуальной квантования (Residual Vector Quantization, RVQ). Однако недавно появилась альтернативная техника, называемая линейным квантованием (Finite Scalar Quantization, FSQ), которая упрощает процесс обучения и поддерживает встроенный один кодек. Несмотря на эти преимущества, FSQ до сих пор не получила должного внимания в аудио-кодексинге. Мы предлагаем NeuCodec, основанный на FSQ, и рассматриваем возможность этой новой архитектуры для аудио-кодексинга. ## Метод FSQ имеет встроенную разнообразию в своим кодировании, что делает его восприятие более устойчивым к шумам в трансмиссии. Мы разрабатываем NeuCodec, который сочетает в себе методы FSQ с техниками дистилляции эксперта (encoder distillation) для повышения производительности. Эта архитектура позволяет изучить возможность двух разных кодировщиков для генерации разных кодовых последовательностей из одного и того же аудио, но сохраняя высокое качество воспроизведения. Мы также исследуем устойчивость FSQ к погрешностям в бит-уровне при подделке кодовых последовательностей в шумных каналах. ## Результаты Мы проводим эксперименты для оценки различных аспектов NeuCodec. В первом эксперименте два разных кодировщика существенно различаются в выходных кодовых последовательностях, но сохраняют высокую качественную кодировку благодаря одному кодеку. Во втором эксперименте мы исследуем устойчивость FSQ к шуму в трансмиссии. Проведя эмуляцию кода, мы показываем, что FSQ демонстрирует значительное улучшение устойчивости к погрешностям в бит-уровне в сравнении с RVQ. ## Значимость Наша работа открывает новые перспективы для применения FSQ в аудио-кодексинге, особенно в условиях низкого бит-рейта. Мы показываем, что FSQ не только упрощает процесс обучения, но и обеспечивает высокую устойчивость к шумам в трансмиссии. Это делает NeuCodec привлекательным для использования в реальных условиях, где кодирование должно быть простым и надёжным. ## Выводы Мы устанавливаем, что Finite Scalar Quantization (FSQ) предлагает значительные преимущества перед существующими методами, такими как RVQ, в области аудио-кодексинга. Наши результаты показывают, что FSQ обеспечивает высокую устойчивость к шуму и легко учится. Мы считаем, что будущие исследования должны сосредоточиться на расширении FSQ

Annotation:

ID: 2509.09550v1 cs.SD, cs.LG

arXiv PDF

📄 End-to-End Efficiency in Keyword Spotting: A System-Level Approach for Embedded Microcontrollers

2025-09-12

Авторы:

Pietro Bartoli, Tommaso Bondini, Christian Veronesi, Andrea Giudici, Niccolò Antonello, Franco Zappa

## Контекст Keyword spotting (KWS) является ключевым инструментом для взаимодействия без рук в эmbedded и IoT-устройствах, где ограничения по памяти и энергопотреблению подвергают научным исследованиям и практическим реализациям выдающийся давление. Несмотря на то, что существуют легковесные нейронные сети, позволяющие реализовать эффективные решения для таких устройств, есть недостаточное понимание того, как оптимизировать всю процессуальную цепочку, от аудиопреобразований до нейроинференции. Эта проблема становится актуальной в ограниченных ресурсах, таких как микроконтроллеры (MCU). Целью данной работы является разработка и оценка эффективных методов для реализации KWS на MCU с учетом всей цепочки обработки данных. ## Метод В данной работе рассматриваются несколько легковесных архитектур нейронных сетей, включая DS-CNN, LiCoNet и TENet, а также новую модель Typman-KWS (TKWS), основанную на MobileNet. Наша модель TKWS последовательно обрабатывает сигнал, начиная с преобразований в Mel-Frequency Cepstral Coefficients (MFCC), затем проходит через нейронную нейронную сеть и завершает работу с выводом ключевых слов. Мы оцениваем эти модели на трех платформах STM32 (N6, H7 и U5), которые отличаются по производительности и возможностям ускорения ИИ. Наш подход позволяет оценить не только модель, но и влияние параметров обработки (feature extraction) и особенностей архитектуры устройства на общую эффективность. ## Результаты Наши эксперименты показали, что TKWS с тремя residual blocks достигает F1-метрики до 92.4% при 14.4k параметрах, что значительно сокращает объем памяти, необходимый для модели, без существенного потери точности. Мы также проанализировали энергопотребление и задержку на каждой платформе, показав, что использование ускоренных ИИ-вычислений на N6-платформе приводит к наилучшему energy-delay product (EDP). Это значит, что архитектура TKWS может обеспечить высокую точность real-time KWS даже на ресурсоподготовленных микроконтроллерах. ## Значимость Результаты данного исследования имеют широкое применение в IoT-устройствах, автоматизации и прочих системах с ограниченными ресурсами. Мы показали, что оптимальное развертывание KWS требует учета не только модели, но и параметров этапа feature extraction, а также особенностей спецификации MCU. Наши результаты покажут, как эти факторы влияют на производительность и эффективность реальных систем. ## Выводы Мы показали, что эффективность KWS зависит не только от модели, но и от всей обработке данных, включая feature extraction и железо-ориентированные оптимизации. Наша архитектура TKWS, в комбинации с N6 MCU, доказывает, что можно достичь высо

Annotation:

Keyword spotting (KWS) is a key enabling technology for hands-free interaction in embedded and IoT devices, where stringent memory and energy constraints challenge the deployment of AI-enabeld devices. In this work, we systematically evaluate and compare several state-of-the-art lightweight neural network architectures, including DS-CNN, LiCoNet, and TENet, alongside our proposed Typman-KWS (TKWS) architecture built upon MobileNet, specifically designed for efficient KWS on microcontroller units...

ID: 2509.07051v1 cs.SD, cs.LG

arXiv PDF

📄 Behind the Scenes: Mechanistic Interpretability of LoRA-adapted Whisper for Speech Emotion Recognition

2025-09-12

Авторы:

Yujian Ma, Jinqiu Sang, Ruizhe Li

## Контекст В статье рассматривается проблема эффективного адаптирования больших предобученных спич-моделей, таких как Whisper, к задачам распознавания эмоций в речи (Speech Emotion Recognition, SER). Эти модели хорошо справляются с задачами общего распознавания речи, но их применение к специфическим задачам, таким как распознавание эмоций, требует значительных ресурсов. Одним из популярных подходов является Low-Rank Adaptation (LoRA), который позволяет эффективно адаптировать модели к конкретным задачам с минимальным увеличением числа параметров. Несмотря на эффективность LoRA, его механизм работы в контексте спич-моделей, особенно при распознавании эмоций, до сих пор остается малоизученным. Целью данной работы является осуществление первого систематического исследования механизмов работы LoRA в контексте Whisper для задачи SER. ## Метод В ходе исследования применяются следующие методики: 1. **Layer Contribution Probing**: Определяется вклад каждого слоя енкодера Whisper в задачу распознавания эмоций в речи. 2. **Logit-Lens Inspection**: Анализируется динамика представлений на выходе слоев модели, чтобы понять, как LoRA влияет на классификацию эмоций. 3. **Representational Similarity Analysis**: Вычисляются меры схожести представлений (singular value decomposition, SVD, и centered kernel alignment, CKA) для определения изменений в представлениях речи в разных слоях. 4. **Analytical Tools**: Для объяснения механизмов работы LoRA используются эти методы для проведения систематического анализа. Эти методы позволяют получить подробный обзор того, как LoRA влияет на работу модели Whisper в задаче распознавания эмоций в речи. ## Результаты В ходе экспериментов были выявлены два ключевых механизма работы LoRA в контексте Whisper для задачи SER: 1. **Delayed Specialization**: В early layers енкодера сохраняются общие фичи речи, тогда как в поздних слоях происходит специализация на конкретную задачу распознавания эмоций. 2. **Forward Alignment, Backward Differentiation**: Динамика между матрицами LoRA, где forward alignment обеспечивает выравнивание представлений, а backward differentiation позволяет избавиться от ненужных фичей. Эти находки демонстрируют, как LoRA меняет иерархию енкодера, улучшая его эффективность в задаче SER. На основе этих результатов были получены новые подходы к параметрно-эффективной адаптации моделей. ## Значимость Результаты имеют значительное значение для следующих областей: 1. **Применение в распознавании эмоций в речи**: Объясняются механизмы, позволяющие LoRA эффективно адаптировать модели к этой задаче, что может улучшить понимание интеллектуальных систем, работающих с естественным языком. 2. **Efficiency in Adaptation**: Демонстрируется, как LoRA может эффективно использоваться для параметрно-эффективной адаптации больших моделей к конкретным

Annotation:

Large pre-trained speech models such as Whisper offer strong generalization but pose significant challenges for resource-efficient adaptation. Low-Rank Adaptation (LoRA) has become a popular parameter-efficient fine-tuning method, yet its underlying mechanisms in speech tasks remain poorly understood. In this work, we conduct the first systematic mechanistic interpretability study of LoRA within the Whisper encoder for speech emotion recognition (SER). Using a suite of analytical tools, includin...

ID: 2509.08454v2 cs.SD, cs.LG, eess.AS

arXiv PDF

📄 Neural Proxies for Sound Synthesizers: Learning Perceptually Informed Preset Representations

2025-09-11

Авторы:

Paolo Combes, Stefan Weinzierl, Klaus Obermayer

## Контекст Автоматическое программирование звуковых синтезаторов (Automatic Synthesizer Programming, ASP) является важной областью исследований, направленной на помощь музыкантам и дизайнерам звука в программировании звуковых синтезаторов. Однако, интеграция звуковых синтезаторов в обучающие процессы сопряжена с трудностями, включая ограниченный доступ к внутренним параметрам и недвусмысленность результатов. Одним из ключевых задач этой области является создание моделей, которые могут эффективно представлять звуковые примеры и поддерживать интеграцию с нейронными системами ASP. Несмотря на то, что deep learning становится привлекательным решением для этой задачи, непосредственное использование нейронных сетей в таких потоках сложно из-за недружественности некоторых синтезаторов к автоматизированной обработке. Таким образом, необходимо разрабатывать способы, которые могут эффективно описывать звуковые примеры и позволять нейронным сетям интегрироваться в процесс программирования синтезаторов. ## Метод Метод предлагаемой работы основывается на создании "нейроного прокси" (neural proxy), который представляет собой нейронную модель, обученную подбирать звуковые примеры, которые лучше всего соответствуют аудио-эмбеддингам, полученным от предобученной модели. Метод включает в себя несколько ключевых этапов: 1) подготовка данных, включая синтетические и ручно созданные примеры звуков, 2) обучение нейронной модели, которая может преобразовывать звуковые примеры из пространства синтезаторов в пространство аудио-эмбеддингов, и 3) оценка эффективности прокси в различных контекстах аудио-синтеза. Нейронная модель обучается на основе аудио эмбеддингов, полученных из предобученных моделей (таких как YAMNet или OpenL3), чтобы гарантировать гибкость и эффективность. ## Результаты Эксперименты проводились на основе звуковых примеров, полученных из трех популярных звуковых синтезаторов. Нейронные прокси были обучены с использованием различных аудио-эмбеддингов, а их эффективность была оценена в задаче соответствия звука синтезаторов. Оценки показали, что нейронные прокси эффективно представляют звуковые примеры и позволяют интегрироваться с нейронными системами ASP. Наилучшие результаты были достигнуты при использовании моделей с рекуррентными слоями и transformer-based моделей. Несмотря на некоторые ограничения по ресурсам (такие как вычислительные затраты), результаты были в целом убедительными, показав возможность применения нейронных прокси в нейронных системах ASP. ## Значимость Нейронные прокси могут иметь широкое применение в области зв

Annotation:

Deep learning appears as an appealing solution for Automatic Synthesizer Programming (ASP), which aims to assist musicians and sound designers in programming sound synthesizers. However, integrating software synthesizers into training pipelines is challenging due to their potential non-differentiability. This work tackles this challenge by introducing a method to approximate arbitrary synthesizers. Specifically, we train a neural network to map synthesizer presets onto an audio embedding space d...

ID: 2509.07635v1 cs.SD, cs.LG, eess.AS, 68T07, H.5.5; J.5; I.5.4

arXiv PDF

📄 Learning and composing of classical music using restricted Boltzmann machines

2025-09-09

Авторы:

Mutsumi Kobayashi, Hiroshi Watanabe

## Контекст Музыкальное искусство, особенно классическая музыка, является выразительным способом творчества, которое требует глубокого понимания её структуры, ритма и звучания. Однако создание настоящей классической музыки требует особых навыков и воображения. Результатами многих исследований в области машинного обучения являются программы, которые могут имитировать стиль указанного композитора, например, И. С. Баха. Однако эти модели часто имеют сложную архитектуру, что скрывает особенности процесса обучения и понимания музыки. Целью данного исследования является разработка простого алгоритма, который позволит лучше понять, как технологии машинного обучения представляют музыкальные композиции. ## Метод В данном исследовании применяется ограниченная машина Больцмана (RBM). Это нейронная сеть с простым количеством слоев, которая используется для обучения модели стиля И. С. Баха. Основное преимущество RBM заключается в своей простоте, что позволяет изучить внутренние состояния модели после обучения. Эта модель была обучена на музыке И. С. Баха, и результат получения модели был проанализирован. ## Результаты В результате обучения RBM показательная способность модели понять и генерировать музыку в стиле И. С. Баха была доказана. Модель была использована для создания новых композиций, которые отражали характеристики стиля Баха. Это позволило проверить, насколько эффективно модель может воспроизводить музыку в этом стиле, а также понять, как модель представляет музыку на основе своих обученных весов. ## Значимость Результаты исследования показывают, что RBM может быть применена для генерирования музыкальных композиций в стиле И. С. Баха. Они также открывают новые возможности для исследования композиторского процесса и творчества. Эти результаты могут быть применены для создания новых программ, которые могут помочь композиторам в поиске новых звуковых и идейных решений. Также модель может быть применена в образовательных целях, чтобы помочь студентам и изучающим музыку расширить свои знания о классической музыке. ## Выводы Результаты исследования показали, что RBM может эффективно использоваться для генерирования музыки в стиле И. С. Баха. В будущем могут быть проведены дополнительные исследования, чтобы расширить возможности модели, включив в неё более сложные звуковые структуры и стили. Эти исследования могут помочь в развитии новых методов творческого поиска и создания музыки.

Annotation:

Recently, software has been developed that uses machine learning to mimic the style of a particular composer, such as J. S. Bach. However, since such software often adopts machine learning models with complex structures, it is difficult to analyze how the software understands the characteristics of the composer's music. In this study, we adopted J. S. Bach's music for training of a restricted Boltzmann machine (RBM). Since the structure of RBMs is simple, it allows us to investigate the internal...

ID: 2509.04899v2 cs.SD, cs.LG, eess.AS

arXiv PDF

Показано 51 - 60 из 80 записей