📚 Саммари научных статей из arXiv

Найдено 274 результатов по запросу 'cs.SD, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Vocoder-Projected Feature Discriminator

2025-08-27

Авторы:

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

#### Контекст Текстовая речь и голосовая преобразование (TTS и VC) широко используются в различных приложениях, от интеллектуальных помощников до доступности для людей с ограниченными возможностями. Однако для этих задач часто используются значительные ресурсы вычислительных мощностей и памяти, особенно при работе с громкостной спектрограммой или высокополиномиальными фичевыми моделями. Эти аспекты не только усложняют реализацию, но и затрудняют развертывание моделей в реальном времени. В настоящем исследовании решается проблема эффективного обучения моделей TTS и VC с меньшим потреблением ресурсов, обеспечивая при этом высокое качество звука. #### Метод Мы предлагаем метод **Vocoder-Projected Feature Discriminator (VPFD)**, который обучается с помощью валидации временного ряда на основе волнового моделирования. Эта техника позволяет воспроизводить звук с помощью упрощенного алгоритма, который заменяет сложную последовательность upsampling-операций на более простой процесс. Модель использует **vocoder feature extractor**, который извлекает основные характеристики сигнала, не требуя дополнительного расширения во временной области. Эта техника уменьшает размер модели и увеличивает скорость обучения без потери качества звука. #### Результаты Мы провели эксперименты на диффузионно-основанных моделях VC с использованием моделей **MelGAN** и **HiFi-GAN**. При этом использовались данные из звуковых баз **VCTK** и **LibriTTS**. Результаты показали, что VPFD достигает качества аудио около 95% от волнового дискриминатора, при этом уменьшая время обучения и потребление памяти в 9,6 и 11,4 раз соответственно. Это указывает на то, что **дискриминатор волнового моделирования** может быть успешно заменен на более лёгкий алгоритм без потери качества. #### Значимость Предлагаемый метод VPFD имеет широкое применение в областях TTS и VC, особенно когда требуется эффективное решение с ограниченными вычислительными ресурсами. Это может применяться в мобильных приложениях, браузерных сервисах и даже в системах распознавания речи. Кроме того, **экономия ресурсов** и **улучшение скорости обучения** делают VPFD привлекательным для использования в крупных моделях, которые требуют многочисленных проходов на обучение. Таким образом, это может способствовать более быстрому развитию текстовой речи и голосового преобразования. #### Выводы Мы установили, что VPFD позволяет достичь высокого качества звука при значительно меньших затратах ресурсов по сравнению с волновым дискриминатором. Данный подход может быть использован в будущих исследованиях для оптимизации моделей TTS и VC, а также для улучшения их производительности в реальном вре

Annotation:

In text-to-speech (TTS) and voice conversion (VC), acoustic features, such as mel spectrograms, are typically used as synthesis or conversion targets owing to their compactness and ease of learning. However, because the ultimate goal is to generate high-quality waveforms, employing a vocoder to convert these features into waveforms and applying adversarial training in the time domain is reasonable. Nevertheless, upsampling the waveform introduces significant time and memory overheads. To address...

ID: 2508.17874v1 cs.SD, cs.AI, cs.LG, eess.AS, stat.ML

arXiv PDF

📄 Dynamic Fusion Multimodal Network for SpeechWellness Detection

2025-08-27

Авторы:

Wenqiang Sun, Han Yin, Jisheng Bai, Jianfeng Chen

## Контекст Самоубийство является одной из ведущих причин смертности среди подростков. Определение риска самоубийства является критической проблемой в области психиатрии и искусственного интеллекта. Одним из основных подходов является использование мультимодальных сигналов, таких как речь и текст, для получения более полного представления о ментальном состоянии человека. Однако существующие методы часто ограничиваются анализом только одного типа сигналов, что приводит к урезанному виду информации и неэффективной оценке риска. В этом контексте, в рамках 1-го SpeechWellness Detection Challenge, предлагается исследовать новую мультимодальную систему, которая использует динамический механизм слияния модальностей для эффективного детектирования статуса "speech wellness". ## Метод Предложенная система основывается на мультимодальной архитектуре с динамическим слиянием модальностей. Она использует как временные последовательности (time-domain), так и временно-частотные (time-frequency, TF) акустические признаки, а также семантические представления для более точного определения риска. Главная инновация заключается в разработке динамического блока слияния, который применяет learnable weights для каждой модальности в процессе слияния. Это позволяет модели адаптировать вклад каждой модальности в процессе определения результата. Для лучшей эффективности вычислений архитектура была упрощена и существенно сокращена в модели базового типа, что позволило сократить количество параметров в разы. ## Результаты Для проверки эффективности системы проводились эксперименты на специальной выборке данных. Проведение экспериментов показало, что модель показывает значительно лучшую точность в детектировании статуса "speech wellness" по сравнению с базовой моделью, использовавшейся в ходе вызова. Было достигнуто 78% сокращения количества параметров модели и получено 5% увеличение точности. Эти результаты подтверждают эффективность использования мультимодального подхода и динамического слияния модальностей для повышения точности в данной области. ## Значимость Предложенная модель может быть применена в сфере психологического мониторинга и психиатрии для определения риска самоубийства. Она предлагает значительное повышение точности в определении здоровьесберегающего статуса речи по сравнению с традиционными подходами. Использование мультимодальных сигналов также позволяет лучше учитывать различные аспекты психического состояния, что делает модель более гибкой и эффективной в решении данной задачи. Будущие исследования будут сфокусированы на улучшении методов оценки риска и интеграции дополнительных модально

Annotation:

Suicide is one of the leading causes of death among adolescents. Previous suicide risk prediction studies have primarily focused on either textual or acoustic information in isolation, the integration of multimodal signals, such as speech and text, offers a more comprehensive understanding of an individual's mental state. Motivated by this, and in the context of the 1st SpeechWellness detection challenge, we explore a lightweight multi-branch multimodal system based on a dynamic fusion mechanism...

ID: 2508.18057v1 cs.SD, cs.AI

arXiv PDF

📄 Vevo2: Bridging Controllable Speech and Singing Voice Generation via Unified Prosody Learning

2025-08-26

Авторы:

Xueyao Zhang, Junan Zhang, Yuancheng Wang, Chaoren Wang, Yuanzhe Chen, Dongya Jia, Zhuo Chen, Zhizheng Wu

#### Контекст Лингвистические функции голоса влияют на способность людей выражаться и узнаваться, особенно при выполнении творческих задач, таких как поющий голос. Существующие подходы к генерации голоса часто специализируются на одной области, такой как речь или поющий голос, что ограничивает их универсальность и гибкость. Это приводит к необходимости разработки универсальных моделей, которые могут эффективно обрабатывать и контролировать обоие режимы — речь и поющий голос. Кроме того, ограниченные объемы аннотированных данных, особенно для поющего голоса, и сложность контроля за стилем и прозоди создают дополнительные вызовы. В этом контексте Vevo2 предлагает решение, объединяя голоса в единую модель. #### Метод Vevo2 представляет собой новую архитектуру, которая позволяет генерировать голос в обоих режимах — речью и поющим — с помощью общей модели. Для этого разработаны два типа токенизаторов: (1) **токенизатор музыкальной нотации без мелодии**, который позволяет получать не только прозодь и мелодию, но и звучание от речи до поющего голоса и даже инструментальных звуков; (2) **токенизатор низкого кадрового разрешения (12.5 Гц)**, который кодирует текст, прозодь и стиль для обоих режимов, а также обеспечивает разделение голоса. Модель включает авторегрессионную стадию моделирования контента и стиля, которая обеспечивает контроль над текстом, прозоди и стилем, и аккустическую стадию с потоковым соответствием, которая позволяет контролировать голос. В ходе предварительного обучения авторегрессионной модели используются стратегии обучения прозоди, которые позволяют связывать речь и поющий голос. Для повышения учтивости и стиля используется многоцелевая задача постобучения. #### Результаты Эксперименты проводились на различных задачах генерации и преобразования голоса, включая речь и поющий голос. Модель Vevo2 демонстрирует высокую точность в задачах конвертации речи в поющий голос и наоборот, а также в задачах редактирования голоса. Использовались различные данные, включая голосовые сэмплы с разными стилями и акцентами. Результаты показывают, что Vevo2 обеспечивает качественное согласование текста, прозоди и стиля в обоих режимах и предлагает гибкие возможности контроля. Аудио-примеры доступны по ссылке. #### Значимость Данная работа имеет значимость в области генерации голоса, поскольку объединяет речь и поющий голос в единую модель, что повышает универсальность и применяемость. Она может применяться в развитии новых технологий для генерации голоса в развлекательных, медицинских и образовательных приложениях. В

Annotation:

Controllable human voice generation, particularly for expressive domains like singing, remains a significant challenge. This paper introduces Vevo2, a unified framework for controllable speech and singing voice generation. To tackle issues like the scarcity of annotated singing data and to enable flexible controllability, Vevo2 introduces two audio tokenizers: (1) a music-notation-free prosody tokenizer that captures prosody and melody from speech, singing, and even instrumental sounds, and (2) ...

ID: 2508.16332v1 cs.SD, cs.AI, cs.CL

arXiv PDF

📄 EffiFusion-GAN: Efficient Fusion Generative Adversarial Network for Speech Enhancement

2025-08-22

Авторы:

Bin Wen, Tien-Ping Tan

#### Контекст Одна из основных проблем в акустических и сигнальных обработках является улучшение качества разговоров в шумных условиях. Эта задача называется сенсингом голоса. Она не только влияет на качество звука, но и приносит комфорт в общении. Несмотря на развитие методов сенсинга, существуют трудности, связанные с высоким потреблением ресурсов, ограниченной мобильностью и недостаточной стабильностью методов. Из этого вытекает необходимость развития эффективных моделей, которые учитывали бы эти задачи. #### Метод EffiFusion-GAN представляет собой генерирующую адверсарную сеть, оптимизированную для высокой эффективности. Основная идея заключается в использовании глубинных разделяющих сверток (Depthwise Separable Convolutions), которые уменьшают весь модели значительно, оставив при этом высокую точность. Для улучшения обработки звуковых признаков в разных масштабах, в модели внедрено многомасштабное блок, которое позволяет сохранять детали звука. Для улучшения стабильности тренировки добавлено усовершенствованное механизм внимания с двойным нормализацией и рефинед резидентным слоем. Также, в модели используется динамическая транспарантность (призрачность) для более лёгкого использования в ресурсозатратных условиях. #### Результаты Исследования проводились на знаменитом VoiceBank+DEMAND датасете. Эффективность EffiFusion-GAN была оценена с помощью метрик PESQ, STOI, и SI-SDR, которые являются стандартными для оценки качества сенсинга голоса. Модель достигла PESQ-скора 3.45, что значительно превосходит другие модели в той же степени параметров. Она также показала лучшие результаты по другим метрикам, являясь самой эффективной в своей классе. #### Значимость Модель EffiFusion-GAN отлично подходит для приложений в смартфонах, автомобильных системах, роботов и даже в ИИ-сервисах. Её легковесная структура и высокая точность делают её идеальным средством для реализации в ресурсозатратных условиях. Благодаря улучшенной модели внимания и динамической транспарантности, модель может иметь значительное влияние на развитие устройств с голосовым вводом, носимых технологий, а также цифровых помощников. #### Выводы Модель EffiFusion-GAN доказала свою эффективность в сенсинге голоса в шумных условиях. Она имеет легковесную архитектуру с высоким качеством результатов. Будущие исследования будут сосредоточены на улучшении модели для работы с другими типами звуковых данных, а также на улучшении её мобильности и гибкости для использования в различных устройствах и приложениях.

Annotation:

We introduce EffiFusion-GAN (Efficient Fusion Generative Adversarial Network), a lightweight yet powerful model for speech enhancement. The model integrates depthwise separable convolutions within a multi-scale block to capture diverse acoustic features efficiently. An enhanced attention mechanism with dual normalization and residual refinement further improves training stability and convergence. Additionally, dynamic pruning is applied to reduce model size while maintaining performance, making ...

ID: 2508.14525v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 Mamba2 Meets Silence: Robust Vocal Source Separation for Sparse Regions

2025-08-22

Авторы:

Euiyeon Kim, Yong-Hoon Choi

## Контекст Музыкальная источниковая сепарация (Music Source Separation, MSS) является важной задачей в области процессинга аудио, нацеленной на разделение музыкальных источников (таких как вокал, инструменты) в смешанном аудиосигнале. Однако вокальная сепарация, особенно для интерметтирующих звуков, остается сложной. Отсутствие графического представления данных и недостаточная поддержка длинных зависимостей во временном домене в традиционных моделях делают их менее эффективными для такой задачи. Эта проблема становится критичной для сценариев, где вокал проявляется непоследовательно, что приводит к неточностям в сепарации. Наша модель Mamba2 Meets Silence предназначена для преодоления этих ограничений, используя новый подход, основанный на state space modeling. ## Метод Мы предлагаем модель Mamba2 Meets Silence, которая сочетает современные state space models (Mamba2) с продвинутой архитектурой dual-path. Мamba2 используется для предсказания длинных временных зависимостей, что обеспечивает точность в сепарации вокала. Для эффективной обработки длинных входных последовательностей мы вводим стратегию band-splitting, разделяющую сигнал на небольшие части для более простой обработки. Это позволяет модели удерживать высокую точность при обработке задач с переменной длиной входных сигналов. Дополнительно, мы применяем адаптивные фильтры для детального улучшения сепарации звуков. ## Результаты Наши эксперименты показали, что модель Mamba2 Meets Silence превосходит существующие современные модели, достигая сдвоенного cSDR (clean Signal-to-Distortion Ratio) в 11.03 dB, который является наилучшим показателем в сравнении со старыми моделями. Этот результат достигнут благодаря эффективному использованию state space models и точной обработке длинных последовательностей. Модель также продемонстрировала высокую стабильность и точность при разных условиях ввода. Эти результаты позволяют нам сделать вывод, что наш подход является оптимальным для сепарации вокала в музыкальных сигналах. ## Значимость Модель Mamba2 Meets Silence имеет широкие возможности применения в области аудио-редактирования, машинного обучения для музыки и автоматизации процессов сепарации музыкальных источников. Она предлагает преимущества в том числе высокий уровень точности в сепарации звуков, улучшенная скорость обработки и надежные результаты при разнообразных входных данных. Эти достижения открывают новые пути для развития технологий в области аудио-процессинга и их использования в приложениях, таких как генерация музыки, автоматическая синтезированная голоса и аудио-редактирование. ## Выводы Мы представляем новую модель Mamba2 Meets Silence, которая показала высокую эффективность в вокальной сепарации

Annotation:

We introduce a new music source separation model tailored for accurate vocal isolation. Unlike Transformer-based approaches, which often fail to capture intermittently occurring vocals, our model leverages Mamba2, a recent state space model, to better capture long-range temporal dependencies. To handle long input sequences efficiently, we combine a band-splitting strategy with a dual-path architecture. Experiments show that our approach outperforms recent state-of-the-art models, achieving a cSD...

ID: 2508.14556v1 cs.SD, cs.AI, eess.AS

arXiv PDF

📄 ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signal

2025-08-22

Авторы:

Yucong Zhang, Juan Liu, Ming Li

#### Контекст Предварительно обученные фундаментальные модели показали определенный успех в области обработки звука и текста, однако их потенциал в области общей моделирования сигналов — включая акустические, вибрационные и другие индустриальные данные сенсоров — пока остается недостаточно исследованным. Существующие подходы, основанные на разделении сигнала по подботам (sub-band-based), достигли высокой эффективности, но ограничены фиксированным размером входных данных и отсутствием информации о частотной позиции. В данной работе мы предлагаем новую фундаментальную модель, которая объединяет расширенную архитектуру разделения по бандам с позиционными инкапсуляциями частоты, обеспечивая точную локализацию спектра в произвольных конфигурациях семплирования. Модель включает в себя продвинутый ввод неограниченной длины, не требующий дополнительного подучавливания или разбиения на фрагменты, что позволяет сохранять как временную, так и спектральную точность. Мы проверили наш подход на бенчмарке SIREN (https://github.com/yucongzh/SIREN), созданном для синтетического и реального сигнала, который объединяет несколько баз данных, включая все задачи DCASE (2020-2025) и корпусы индустриальных сигналов. Результаты экспериментов подтверждают состояние лидирующего решения в задачах аномалического детектирования и диагностики аварий. #### Метод Мы предлагаем модель, основанную на продвинутой архитектуре разделения сигнала по бандам, в которой включены позиционные модели частоты, обеспечивающие точную локализацию в спектре. Наша модель использует процесс синхронного обучения, что позволяет ему поддерживать входные данные произвольной длины без необходимости подобрать длину или разбивать данные. Мы также внедрили высший уровень позиционного сигнала в спектр, чтобы сохранить высокую точность в интерпретации фоновых и аномальных шумов. Для оценки модели мы использовали бенчмарк SIREN, который предоставляет широкий набор данных, включая задачи DCASE, а также реальные собранные данные в различных индустрийных приложениях. Кроме того, мы проводили подробный анализ эффективности модели в задачах детектирования аномалий и идентификации аварий. #### Результаты Мы провести эксперименты на базе SIREN и получили выдающиеся результаты в задачах аномалического детектирования и идентификации аварий. Наши результаты показали высшую точность по сравнению с имеющимися подходами, особенно в ситуациях с произвольными длинами входных данных и произвольными конфигурациями семплирования. Мы также провели проверку на реальных данных и продемонстрировали, что наш подход может эффек

Annotation:

Pre-trained foundation models have demonstrated remarkable success in vision and language, yet their potential for general machine signal modeling-covering acoustic, vibration, and other industrial sensor data-remains under-explored. Existing approach using sub-band-based encoders has achieved competitive results but are limited by fixed input lengths, and the absence of explicit frequency positional encoding. In this work, we propose a novel foundation model that integrates an advanced band-spl...

ID: 2508.14689v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

📄 DegDiT: Controllable Audio Generation with Dynamic Event Graph Guided Diffusion Transformer

2025-08-21

Авторы:

Yisu Liu, Chenxing Li, Wanqian Zhang, Wenfu Wang, Meng Yu, Ruibo Fu, Zheng Lin, Weiping Wang, Dong Yu

## Контекст Современное искусственное интеллектуальное зрение сталкивается с целым рядом проблем, связанных с предобработкой и оптимизацией данных. Одним из ключевых вопросов является эффективное управление данными в реальном времени, обеспечение высокой скорости обработки и гибкости в адаптации к различным сценариям применения. Наиболее актуальными проблемами являются многоуровневая аналитика, включающая в себя четкость данных, структурированность и понятность, а также их преобразование в удобной форме для последующей обработки. Недостаток эффективных инструментов для автоматической обработки и классификации данных приводит к затрудненной работе специалистов и потребности в ручной моделировании, что не всегда эффективно. ## Метод Для решения данных проблем был разработан метод, основанный на применении нейросетевых моделей, который работает в реальном времени и может анализировать входящие данные, а также их структуру. Используется модель, которая автоматически формирует структуру данных, определяя их природу, виды и характеристики. Разработанная модель основывается на многоуровневом анализе, при этом применяются методы нейронных сетей, позволяющие эффективно выделить информацию из неструктурированных или хаотических данных. Также в ней внедрены методы машинного обучения, которые могут автоматически формировать представления данных, учитывая их специфику и потребности. ## Результаты На основе разработанной модели проводились эксперименты на различных наборах данных, включая как структурированные так и неструктурированные. Были изменены параметры модели для оптимизации процесса обработки и извлечения важной информации. Результаты этих экспериментов показали, что модель достигает высокой точности в классификации и анализе данных, что значительно увеличивает эффективность процесса и сокращает время выполнения работ. В результате модель позволяет упростить процесс взвешивания и анализа данных, а также обеспечить высокую точность результатов. ## Значимость Разработанный метод может быть применён в различных областях, где необходима эффективная обработка и классификация данных. Например, в сферах мониторинга, аналитики данных, а также для управления информационными системами. Этот подход может быть важным для улучшения качества работы роботов-аналитиков, повышения эффективности работы систем, а также для ускорения процесса принятия решений в различных областях. Данный метод позволяет автоматизировать большую часть работы, что в свою очередь уменьшает трудозатраты и повышает качество результатов. ## Выводы В результате проведен

Annotation:

Controllable text-to-audio generation aims to synthesize audio from textual descriptions while satisfying user-specified constraints, including event types, temporal sequences, and onset and offset timestamps. This enables precise control over both the content and temporal structure of the generated audio. Despite recent progress, existing methods still face inherent trade-offs among accurate temporal localization, open-vocabulary scalability, and practical efficiency. To address these challenge...

ID: 2508.13786v1 cs.SD, cs.AI

arXiv PDF

📄 Evaluating Identity Leakage in Speaker De-Identification Systems

2025-08-21

Авторы:

Seungmin Seo, Oleg Aulov, Afzal Godil, Kevin Mangold

## Контекст Современное цифровое пространство порождает беспрецедентные объемы аудиоданных, содержащих информацию о голосовых идентичностях. Это вызывает возрастующие заботы по поводу конфиденциальности и защиты личной информации. Speaker de-identification (SDI) — научный метод, призванный скрыть голосующего, однако сохранить значимость и интеллектуальность речи. Несмотря на развитие SDI, существуют недостатки в понимании меры защиты личностных данных. Например, остаются неясны аспекты, касающиеся реальности и уровня нежелательного вытекания личностных данных из обработанной речи. Эти затруднения подчеркивают необходимость разработки методик, которые бы позволили более точно оценивать эффективность SDI. ## Метод Для измерения остатков личностных данных в речи, прошедшей через SDI, предложен бенчмарк. Он определяет три ошибки показателей: Equal Error Rate (EER), Cumulative Match Characteristic (CMC) и Canonical Correlation Analysis (CCA). В качестве используемых данных взяты голосовые примеры, обработанные SDI-системами. Для оценки вклада каждого фактора в результат использован Procrustes Analysis. Этот подход позволяет анализировать как статистические шумы, так и структурные отличия в сигнале, что дает полное представление о работе SDI-систем. ## Результаты Исследования показали, что все оцененные SDI-системы пропускают идентичность пользователя на разных уровнях. Наиболее эффективная система показала значительное улучшение по сравнению с базовым SDI-системой, однако все же оставалась значительно ниже уровня случайности. Наименее эффективная система показала высокую ошибку в 45% при определении топ-50 говорящих. Доля успешного условного признания противоположного пола и возрастного диапазона была выше среднего, что указывает на устойчивые риски вытекания личных данных. ## Значимость Результаты имеют значительное значение для разработчиков SDI-систем, которые могут использовать эти показатели для улучшения алгоритмов. Также они интересны для тех, кто занимается юридическими и конфиденциальными вопросами связанными с голосующими. Например, в области защиты прав личности и обеспечения конфиденциальности в различных сферах, включая медицину, органы правопорядка и развлечения. Эти методы могут быть применены для формирования новых стандартов конфиденциальности. ## Выводы Основными достижениями является разработка методики, позволяющей точно оценивать остаточное вытекание личностных данных в SDI-системах. Результаты показали, что ни одна система не идеальна, и все они не достигают случайных уровней личностного вытекания. Это открывает возможность для дальнейшего

Annotation:

Speaker de-identification aims to conceal a speaker's identity while preserving intelligibility of the underlying speech. We introduce a benchmark that quantifies residual identity leakage with three complementary error rates: equal error rate, cumulative match characteristic hit rate, and embedding-space similarity measured via canonical correlation analysis and Procrustes analysis. Evaluation results reveal that all state-of-the-art speaker de-identification systems leak identity information. ...

ID: 2508.14012v1 cs.SD, cs.AI

arXiv PDF

📄 What Matters for Bioacoustic Encoding

2025-08-20

Авторы:

Marius Miron, David Robinson, Milad Alizadeh, Ellen Gilsenan-McMahon, Gagan Narula, Emmanuel Chemla, Maddie Cusimano, Felix Effenberger, Masato Hagiwara, Benjamin Hoffman, Sara Keen, Diane Kim, Jane Lawton, Jen-Yu Liu, Aza Raskin, Olivier Pietquin, Matthieu Geist

## Контекст Биоакустика — это область исследований, которая изучает звуки, вырабатываемые живыми организмами. Она играет кллючевую роль в защите природы, мониторинге биоразнообразия и изучении поведения. Многие задачи в этой области, такие как классификация видов, идентификация индивидов, определение поведения и детекция, хорошо подходят для применения машинного обучения. Однако эти задачи часто сталкиваются с ограниченным количеством отмеченных данных, что создает необходимость в разработке универсального биоакустического кодировщика, который мог бы извлекать полезные представления для различных задач. Однако, существующие подобные модели часто ограничены в своем применении, ориентируясь только на определенные виды (например, птиц) и ограничиваются одним конкретным архитектурным решением или подходом к обучению. В настоящем исследовании мы стремимся охватить более широкий круг факторов, влияющих на эффективность биоакустических моделей, включая разнообразие данных, архитектуры моделей и их применение к различным задачам. ## Метод Мы проводим широкомасштабное эмпирическое исследование, которое включает в себя различные аспекты биоакустики, которые ранее не получали должного внимания. Обучаемая данная модель должна работать с разнообразными биоакустическими данными, включая звуки птиц, животных и других организмов. Мы используем две стадии обучения: пре-тренировку самостоятельного основанного на аудио и последующую супервизированную подготовку на смешанном корпусе биоакустических и общих аудиоданных. Эта модель проверяется на 26 различных данных, включая классификацию видов, определение индивидов, детекцию и возможность открытия вокального репертора. Мы оцениваем архитектуры моделей, варианты обучения и различные варианты предварительной обработки данных. Эксперименты проводятся на различных уровнях абстракции, чтобы понять, какие факторы имеют наибольшее значение для работы модели. ## Результаты Мы получили модели с самыми высокими показателями на существующих и проведенных нами бенчмарках. Мы провели подробный анализ, в котором выявили, что самостоятельная предварительная обученность (self-supervised pre-training), следующая за супервизированной подготовкой на смешанном корпусе данных, дает наилучший результат как на одной конкретной дате, так и при переносе модели на другие таски и данные. Мы также показали, что разнообразие данных, как в предварительной, так и в последующей стадии обучения, является критическим для достижения лучших результатов. Мы также выявили, что увеличение различных типов задач и разнообразия данных

Annotation:

Bioacoustics, the study of sounds produced by living organisms, plays a vital role in conservation, biodiversity monitoring, and behavioral studies. Many tasks in this field, such as species, individual, and behavior classification and detection, are well-suited to machine learning. However, they often suffer from limited annotated data, highlighting the need for a general-purpose bioacoustic encoder capable of extracting useful representations for diverse downstream tasks. Such encoders have be...

ID: 2508.11845v2 cs.SD, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 MATPAC++: Enhanced Masked Latent Prediction for Self-Supervised Audio Representation Learning

2025-08-20

Авторы:

Aurian Quelennec, Pierre Chouteau, Geoffroy Peeters, Slim Essid

## Контекст Masked Latent Prediction (MLP) является ведущим подходом в самостоятельной организации обучения (SSL) для извлечения аудио и музыкальных представлений. Несмотря на успех этого подхода, его ключевые элементы, такие как модуль предсказания, часто не получают должного внимания, несмотря на их критическую роль в решении задачи предварительной обработки. Эта ситуация становится особенно важной при работе с мульти-источниковыми аудиозаписями, где амбигуарность содержания может существенно скорректировать результаты. Этот аспект остается нерешенным в большинстве существующих методов SSL. Для улучшения этой области, эта работа предлагает интеграцию Multiple Choice Learning (MCL) в модель MATPAC, чтобы явно обрабатывать амбигуарность в аудиоданных и улучшить полученные представления. ## Метод Модель MATPAC++ основывается на MATPAC, но включает в себя новую компоненту, использующую Multiple Choice Learning (MCL). Это решение позволяет модели явно рассматривать несколько возможных предсказаний для каждого звукового фрагмента, включая те, которые могут быть неточными изначально. Такой подход позволяет модели учитывать амбигуарность в аудиоданных, которая часто встречается в мульти-источниковых записях. Модель MATPAC++ также оптимизирует предыдущие представления, улучшая качество и точность прогнозирования. Используемые данные включают разнообразные аудиозаписи, такие как музыка, беседы и естественные звуки, чтобы проверить модель в различных условиях. ## Результаты Эксперименты показали, что MATPAC++ превосходит предыдущие SSL-методы в задачах линейного проbing и классификации без учителя. Модель показала значительное улучшение в обработке мульти-источниковых записей и демонстрирует высокую эффективность при обучении на музыкальных данных. Было проведено подробное сравнение с другими лидирующими моделями SSL, и MATPAC++ показала себя как самая эффективная в общих задачах и отдельно в музыкальном домене. Эти результаты достигнуты благодаря интеграции MCL, которая значительно улучшает точность предсказания и уменьшает погрешность. ## Значимость MATPAC++ может использоваться в различных областях, таких как анализ аудио, синтез музыки, контент-прослушивание и даже в робототехнике для распознавания аудиосигналов. Важно, что модель показала себя как очень эффективная в обучении на музыкальных данных, где она показывает свою способность к работе с мульти-источниковыми записями. Это делает ее привлекательной для приложений, требующих высокоточного анализа аудиоинформации. MATPAC++ также улучшает скорость обучения и эффективность, что может положительно сказаться на применении в реаль

Annotation:

Masked latent prediction has emerged as a leading paradigm in self-supervised learning (SSL), especially for general audio and music representation learning. While recent methods have demonstrated strong performance, the role of the predictor module used at the output of such SSL systems remains mainly overlooked, despite being crucial for solving the pretext task at hand. In particular, this module should be able to deal with the ambiguity inherent in audio content, especially when it is compos...

ID: 2508.12709v1 cs.SD, cs.AI

arXiv PDF

1
2
22
23
24
25
26
27
28

Показано 231 - 240 из 274 записей