📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Song-Ze Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This project presents an AI-based system for tone replication in music production, focusing on predicting EQ parameter settings directly from audio features. Unlike traditional audio-to-audio methods, our approach outputs interpretable parameter values (e.g., EQ band gains) that musicians can further adjust in their workflow. Using a dataset of piano recordings with systematically varied EQ settings, we evaluate both regression and neural network models. The neural network achieves a mean square...
ID: 2509.24404v1 cs.SD, cs.LG, eess.AS
Авторы:

Lukas Rauch, René Heinrich, Houtan Ghaffari, Lukas Miklautz, Ilyass Moummad, Bernhard Sick, Christoph Scholz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Although probing frozen models has become a standard evaluation paradigm, self-supervised learning in audio defaults to fine-tuning. A key reason is that global pooling creates an information bottleneck causing linear probes to misrepresent the embedding quality: The $\texttt{cls}$-token discards crucial token information about dispersed, localized events in multi-label audio. This weakness is rooted in the mismatch between the pretraining objective (operating globally) and the downstream task (...
ID: 2509.24901v1 cs.SD, cs.LG
Авторы:

Mélisande Teng, Julien Boussard, David Rolnick, Hugo Larochelle

## Контекст Обработка звуков птиц является важной задачей в области природных языков и акустических исследований. Последовательности силаб ус в птичьих певучих творчествах играют ключевую роль в таких вопросах, как идентификация индивидуальности птиц, изучение их коммуникации и сенсорно-моторного обучения. Однако машинное обучение, используемое в этой области, часто требует ручной маркировки данных, что ограничивает его применение к небольшому числу видов и наборов данных. Это ограничение может быть существенным подводным камнем для изучения менее изученных видов птиц. В нашей работе мы предлагаем первый полностью неучитывающий данных алгоритм для разделения звуков птиц на силабусы. Мы используем автономный подход для выявления силабусных событий, создания шаблонов и анализа записи с помощью метода поиска и сочетания. Наши результаты показывают, что этот алгоритм может эффективно работать без ручной маркировки. ## Метод Мы предлагаем новую методологию для обработки звуков птиц, основанную на неучитывающей данных методе. Алгоритм работает в несколько этапов: (1) **Обнаружение силабусных событий:** Мы используем автономное обнаружение, чтобы выявить периоды, которые могут быть силабусами. (2) **Кластеризация шаблонов:** Мы используем кластеризацию для создания шаблонов силабуса (силабусов). Эти шаблоны являются представлениями силабуса, которые могут быть использованы для дальнейшего разбора. (3) **Метод поиска и сочетания (Matching Pursuit):** Мы разбиваем звуковую запись на последовательность силабусов с помощью метода поиска и сочетания. Это позволяет получить подробный разбор звуковой записи на отдельные силабусы. Мы оцениваем наш алгоритм с помощью ручных меток на датасете звуков Бенгальских финчей и другого вида птиц, горелки. Наши результаты показывают, что неучитывающий данных подход дает высокую точность. Мы также демонстрируем, что наш метод может различать индивидуальность птиц через уникальные вокальные знаки, на примере Бенгальских финчей и горелки. ## Результаты Мы проводили эксперименты с нашим алгоритмом на датасете звуков Бенгальских финчей и горелки. Наши результаты показали, что неучитывающий данных подход дает высокую точность в определении силабусов и может различать индивидуальность птиц. Мы также проверили наши результаты с помощью ручных меток, и они подтвердили, что наш алгоритм дает высокое качество распознавания силабусов и может помочь в изучении музыкальных структур птичьих творчеств. Эти результаты демонстрируют успех неучитываю
Annotation:
Identifying sequences of syllables within birdsongs is key to tackling a wide array of challenges, including bird individual identification and better understanding of animal communication and sensory-motor learning. Recently, machine learning approaches have demonstrated great potential to alleviate the need for experts to label long audio recordings by hand. However, they still typically rely on the availability of labelled data for model training, restricting applicability to a few species an...
ID: 2509.18412v1 cs.SD, cs.LG, eess.AS
Авторы:

Tse-Yang Chen, Yuh-Jzer Joung

#### Контекст Пианино — это не просто инструмент, а творческий способ выражения. Известны случаи, когда пианино становится источником вдохновения для произведений или поддержки творческого процесса. Однако автоматическое генерирование пианино-переложений из поп-песен часто сталкивается с проблемами сохранения структуры и музыкальной динамики. Эти проблемы возникают из-за недостатка механизмов, учитывающих ритм и темп, что приводит к неестественности и дисгармонии в генерированных мелодиях. Модели Etude пытаются устранить эти проблемы, обеспечивая тщательное учетной структуры и ритма в процессе генерирования. #### Метод Etude представляет собой трехступенчатую модель, состоящую из стадий Extract, strucTUralize и DEcode. Фаза Extract извлекает ритмическую информацию, такую как темп и BPM, из музыкального материала. В стадии strucTUralize используется упрощенная REMI-токенизация, что позволяет лучше описывать структуру песни. На финальной стадии DEcode генерируется музыкальное переложение, учитывая уже извлеченные данные. Эта структура позволяет сохранять ритм и темп, а также добавлять контролируемые элементы, такие как стиль и динамика. #### Результаты Проведенные эксперименты продемонстрировали высокую точность и качество генерированных переложений. Модель Etude была протестирована на специально сборных данных, включающих поп-песни разных жанров. Оценки полученных результатов показали, что Etude значительно превосходит предыдущие модели по метрикам качества, таким как лаконичность, музыкальная динамика и структурная походясть. Эта модель также способна гибко включать стили, что делает ее универсальной для различных музыкальных жанров и стилей. #### Значимость Модель Etude может использоваться в различных областях, таких как музыкальное производство, творческая индустрия и развитие новых инструментов для творческого выражения. Она предлагает значительные преимущества, включая точность в музыкальных переводах, улучшение динамики и стиля, а также возможность контролировать процесс генерирования. Это инновационное решение может иметь значительное влияние на развитие творческого процесса в музыкальной индустрии. #### Выводы Результаты Etude показывают, что модель значительно повышает качество генерированных пианино-переложений. Она сохраняет ритмическую структуру, улучшает динамику и позволяет контролировать ритм и стиль. Будущие исследования будут ориентироваться на улучшение учета ритма, расширение возможностей генерирования и исследование способов улучшения гуманитарных оценок генерированных музыкальных произведений.
Annotation:
Piano cover generation aims to automatically transform a pop song into a piano arrangement. While numerous deep learning approaches have been proposed, existing models often fail to maintain structural consistency with the original song, likely due to the absence of beat-aware mechanisms or the difficulty of modeling complex rhythmic patterns. Rhythmic information is crucial, as it defines structural similarity (e.g., tempo, BPM) and directly impacts the overall quality of the generated music. ...
ID: 2509.16522v1 cs.SD, cs.LG, eess.AS
Авторы:

Omar Eldeeb, Martin Malandro

########################## ## Контекст ########################## Music Structure Analysis (MSA) является важной областью исследований в музыкальной технике, нацеленной на то, чтобы автоматизировать анализ и структурирование музыки. Одной из ключевых задач в этой области является определение пределов музыкальных секций, которое позволяет обнаружить когда происходит переход между различными частями музыки. Несмотря на то, что звуковая модель используется для решения этой задачи, она не оптимальна для работы с символической музыкой, где доступны прямые данные о питоре, звуковой инструментации и ритме. Мотивация для данного исследования заключается в том, чтобы использовать преимущества символической музыки для повышения точности и эффективности в процессе MSA. ########################## ## Метод ########################## Для решения задачи определения пределов музыкальных секций был разработан новый подход, основанный на использовании символической музыки и глубокого обучения. Для представления музыки была разработана новая архитектура пианино-роллов с использованием трех каналов, которая преобразует MIDI-данные в 3D-представление, включая питор, ритм и инструментацию. Для обучения модели использовалась новая многоканальная архитектура сверточных нейронных сетей, которая включает в себя багетные слои для предсказания вероятности пределов музыкальных секций в заданном окне. Для улучшения точности данная модель была обучена на новом датасете, полученном из Lakh MIDI Dataset, и содержащем 6134 MIDI-файлов. ########################## ## Результаты ########################## Модель была протестирована на новом датасете, полученном из Lakh MIDI Dataset. Она показала высокую точность, получив F1-меру в 0.77. Это значительно улучшило результаты предыдущих методов: аудио-базированных супервизированных методов (F1 = 0.55) и блочного сегментационного аудио-метода (CBM, F1 = 0.46). Также была проведена сравнительная оценка с другими существующими методами, подтвердив высокую эффективность нового подхода. ########################## ## Значимость ########################## Результаты этого исследования могут быть применимы в различных областях музыкальных технологий, включая генерацию музыки, синтез и анализ музыки. Новый подход предоставляет более точную и эффективную альтернативу существующим методам, основанным на звуковых данных. Его можно использовать для улучшения систем Музыкального Анализа, повышения точности в синтезе музыки и поиска новых способов анализа музыкального контента. ########################## ## Выводы ########################## Мы представили новую систему для определения пределов музыкальных секций в символической музыке, использующую сверточные нейронные сети. Модель демонстриру
Annotation:
Current methods for Music Structure Analysis (MSA) focus primarily on audio data. While symbolic music can be synthesized into audio and analyzed using existing MSA techniques, such an approach does not exploit symbolic music's rich explicit representation of pitch, timing, and instrumentation. A key subproblem of MSA is section boundary detection-determining whether a given point in time marks the transition between musical sections. In this paper, we study automatic section boundary detection ...
ID: 2509.16566v1 cs.SD, cs.LG, eess.AS
Авторы:

Matthieu Cervera, Francesco Paissan, Mirco Ravanelli, Cem Subakan

## Контекст В последние годы текстово-ориентированные модели для генерирования и редактирования аудио стали значительно продвинуться благодаря развитию нейронных сетей и в области моделей распространения (diffusion models). Однако, на уровне применения, редактирование аудио в свободной форме, особенно в текстовом режиме, остается трудной задачей. Традиционные процессы включают необходимость проведения долгих и ресурсозатратных процедур инверсии, что существенно ограничивает практичность подобных систем. Мы предлагаем Virtual-Consistency-Based Audio Editing System (VC-BAES), которое предлагает эффективное решение для этих проблем, устраняя необходимость в тяжелом инверсионном процессе. Наш подход остается модельно-агностичным, что делает его широко применимым к различным моделям распространения. ## Метод Мы предлагаем Virtual-Consistency-Based Audio Editing System (VC-BAES), который основывается на модификации процесса распространения (diffusion process). Наша система использует гибридную архитектуру, которая сочетает в себе два ключевых компонента: виртуальную консистенцию (virtual consistency) и перенормированную структуру данных. Мы используем регуляризированные вычисления для оптимизации процесса распространения, что позволяет быстро и точно реализовывать желаемые эффекты редактирования. Этот подход требует небольших изменений в существующих моделях и не требует дополнительной оптимизации или тренировки моделей. Это делает нашу систему модельно-агностичной и легко внедримую в различные существующие архитектуры. ## Результаты Мы провели ряд экспериментов, используя различные модели распространения и наборы данных. Наши результаты показывают, что VC-BAES оказывается значительно быстрее существующих методов, в то же время сохраняя высокое качество редактирования. Мы также провели пользовательский испытательный эксперимент с участием 16 человек, который подтвердил высокую эффективность и понятность нашего подхода в сравнении с другими методами. Количественные показатели, такие как Mean Opinion Score (MOS) и Edit Accuracy Score (EAS), показали, что наша система превосходит конкурентов в качестве редактирования и пользовательскому опыту. ## Значимость Предлагаемый подход имеет широкие возможности для применения в области звукорежима, монтажа аудио, генерации голоса и даже в области игровой индустрии. Он предлагает существенное улучшение производительности по сравнению с традиционными методами, что делает его привлекательным для реального времени редактирования. Благодаря модельно-агностичности, наш метод может быть легко интегрирован в различные существующие нейронные модели, при этом не требуя дополнительных изменений или трениро
Annotation:
Free-form, text-based audio editing remains a persistent challenge, despite progress in inversion-based neural methods. Current approaches rely on slow inversion procedures, limiting their practicality. We present a virtual-consistency based audio editing system that bypasses inversion by adapting the sampling process of diffusion models. Our pipeline is model-agnostic, requiring no fine-tuning or architectural changes, and achieves substantial speed-ups over recent neural editing baselines. Cru...
ID: 2509.17219v1 cs.SD, cs.LG
Авторы:

Chang Li, Zehua Chen, Liyuan Wang, Jun Zhu

## Контекст Аудио супер-резолюция (SR) — процесс увеличения частоты выборки звукового сигнала — широко применяется в поле post-production audio. Однако существующие методы часто страдают от недостаточной качественности результатов из-за отсутствия эффективных генерируемых моделей. В настоящем исследовании предлагается новая модель, использующая latent bridge models (LBMs), для решения этой проблемы. LBMs позволяют создавать качественный upsampling звуковых сигналов, используя предварительную информацию LR-сигнала. Также предлагается расширение LBMs для обучения модели, которая может обеспечивать seamless upsampling до 192 kHz. Это модернизированное решение призвано повысить качество звуковой post-production, включая speech, audio и music. ## Метод Предложенная модель LBMs представляет звуковые сигналы в continuous latent space, что позволяет уменьшить размерность и ускорить обучение. Для обеспечения high-quality upsampling, LBMs используют latent-to-latent generation process, который естественно соответствует LR-to-HR upsampling. Для повышения качества обучения при ограниченном объеме HR-выборок, предлагается расширение Frequency-Aware LBMs, где LR- и HR-frequency используются в качестве входных данных для модели. Для достижения более высокого качества и увеличения гибкости для audio post-production, представлены cascaded LBMs и два новых prior augmentation strategy, которые позволяют выполнять upsampling до 48 kHz и выше. ## Результаты Использовались данные из benchmark datasets VCTK, ESC-50 и Song-Describer, а также двух внутренних наборов данных. Оценочные результаты показали, что LBMs достигают state-of-the-art quality в upsampling звуковых сигналов для any-to-48 kHz SR во всех типах звуковых сигналов — speech, audio и music. Достигнут первый рекорд в upsampling до 192 kHz. Перспективные результаты подтверждают эффективность новой модели в audio post-production. ## Значимость Логический следствием данного исследования является широкое применение LBMs в audio post-production, включая upsampling звуковых сигналов в audio editing, music production и speech enhancing. Новая модель обеспечивает высокое качество результатов, что может улучшить звуковые операции в multimedia production. Более высокий скоростной резолюционный range, достигнутый с помощью LBMs, открывает новые возможности для audio upsampling в профессиональных приложениях. ## Выводы Предложенная модель LBMs демонстрирует state-of-the-art качество в audio SR и предлагает новые возможности для seamless upsampling до 192 kHz. Будущие исследования будут сфокусированы на расширении применений LBMs в других областях audio signal processing, таких как real-time audio processing и adaptive upsampling.
Annotation:
Audio super-resolution (SR), i.e., upsampling the low-resolution (LR) waveform to the high-resolution (HR) version, has recently been explored with diffusion and bridge models, while previous methods often suffer from sub-optimal upsampling quality due to their uninformative generation prior. Towards high-quality audio super-resolution, we present a new system with latent bridge models (LBMs), where we compress the audio waveform into a continuous latent space and design an LBM to enable a laten...
ID: 2509.17609v1 cs.SD, cs.LG
Авторы:

Qiushi Han, Yuan Liao, Youhao Si, Liya Huang

## Контекст Улучшение выживаемости и эффективности личносторонней работы нейронаушников требует решения сложных проблем. Одна из основных проблем заключается в нестационарности сигналов EEG, которая снижает эффективность общих моделей. Эти характеристики ограничивают достоверность и качество личностной реакции. Поэтому, необходимо разработать систему, которая будет учитывать персональные особенности пользователя для повышения качества использования нейронаушников. ## Метод Предлагается Brainprint-Modulated Target Speaker Extraction (BM-TSE), новая архитектурная форма для личностного и высокоточного извлечения голоса. Она включает в себя сеть спектро-временного EEG-кодирования с модулем Adaptive Spectral Gain (ASG), который восстанавливает устойчивые индивидуальные фичи. Центральной частью является модуль личностной модификации, в котором учитываются статические характеристики пользователя и динамические положения внимания. Этот подход использует тренированные модели Subject Identification (SID) и Auditory Attention Decoding (AAD) для динамической регулировки процесса аудио-разделения. ## Результаты Использованы данные из публичных наборов KUL и Cocktail Party. Испытания показали, что BM-TSE превосходит существующие методы в выделении голоса, особенно в условиях нестационарных и индивидуальных особенностей. Результаты показывают высокую точность и личностную адаптацию, что значительно улучшает качество работы нейронаушников. ## Значимость Предлагаемый подход может быть применен в разработке более удобных и эффективных нейронаушников. Он обеспечивает более точное и достоверное выделение голоса, что уменьшает риски неточностей и улучшает комфорт использования. Благодаря этому можно повысить качество звука и повысить удобство для пользователя. ## Выводы BM-TSE достигает нового уровня качества в личностной модификации голоса. Будущие работы будут сфокусированы на улучшении моделей для различных условий и совершенствовании интерфейса для управления. Эти изменения будут улучшить общую эффективность и пользовательский опыт.
Annotation:
Achieving robust and personalized performance in neuro-steered Target Speaker Extraction (TSE) remains a significant challenge for next-generation hearing aids. This is primarily due to two factors: the inherent non-stationarity of EEG signals across sessions, and the high inter-subject variability that limits the efficacy of generalized models. To address these issues, we propose Brainprint-Modulated Target Speaker Extraction (BM-TSE), a novel framework for personalized and high-fidelity extrac...
ID: 2509.17883v1 cs.SD, cs.LG
Авторы:

James Tavernor, Emily Mower Provost

#### Контекст Идентификация эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области машинного обучения, которая находит применение в реальном времени для повышения качества взаимодействия человека и технологий. Однако многие существующие модели SER вынуждены предсказывать одну стандартную метку эмоции, получаемую как результат среднего согласования нескольких аннотаторов. Это снижает точность предсказаний, так как такие модели не учитывают индивидуальные особенности каждого аннотатора. Другие подходы, которые предполагают предсказание отдельных аннотаторов, требуют индивидуального обучения на их данных, что дорогостояще и нежелательно в реальном мире. Мы предлагаем новый подход, использующий существующие модели, обученные на большом наборе данных относительно стандартных аннотаторов, для нахождения похожего аннотатора. Мы используем ограниченные данные от нового аннотатора, чтобы делать предсказания для данного аннотатора, обеспечивая персонализацию с минимальными затратами. #### Метод Мы используем модель, обученную на большой выборке данных от аннотаторов, для того, чтобы научиться прогнозировать индивидуальные особенности каждого аннотатора. Модель распознает сходство между новым аннотатором и предыдущими, используя ограниченные данные от нового аннотатора. Для этого мы предлагаем архитектуру, которая может адаптироваться к новым аннотаторам с помощью небольшого набора данных, который может быть быстро собран. Мы запускаем модель на нескольких датасетах и сравниваем результаты с другими методами. Данные используются в виде звуковых файлов, аннотированных разными аннотаторами, для того, чтобы обучить модель и проверить ее точность. #### Результаты Мы проводим эксперименты на нескольких датасетах, включая IEMOCAP и RAVDESS. Мы устанавливаем новый стандарт для точности предсказания эмоций, который значительно превосходит другие подходы, которые не рассматривают подробности индивидуальности аннотаторов. Мы проверяем точность наших предсказаний, сравнивая их с предыдущими результатами, и показываем, что наш подход эффективно предсказывает эмоции в речи, даже для новых аннотаторов, когда имеется ограниченное количество доступных данных. #### Значимость Мы показываем, что наш подход может быть использован в реальных ситуациях, таких как распознавание эмоций в обслуживании клиентов, взаимодействии с ботами и даже в здравоохранении. Этот подход позволяет очень быстро адаптироваться к новым аннотаторам без необходимости собирать большие объемы специфических для каждого аннотатора данных. Это не только экономит время и ресурсы, но и позволяет использовать
Annotation:
Speech emotion recognition systems often predict a consensus value generated from the ratings of multiple annotators. However, these models have limited ability to predict the annotation of any one person. Alternatively, models can learn to predict the annotations of all annotators. Adapting such models to new annotators is difficult as new annotators must individually provide sufficient labeled training data. We propose to leverage inter-annotator similarity by using a model pre-trained on a la...
ID: 2509.12295v1 cs.SD, cs.LG, eess.AS
Авторы:

Satyajeet Prabhu

## Контекст Метер трекинг (Beat and Downbeat Tracking) является относительно недавной областью исследований в сфере Music Information Retrieval (MIR). Он представляет собой задачу определения настроения и начала каждого такона (beat and downbeat) в музыкальном фрагменте, которая играет ключевую роль в понимании и анализе музыки. Несмотря на то, что дебийн-аппаратура и традиционные сигнальные процессинговые методы были давно заменены глубокими нейросетевыми моделями в Western Eurogenetic genres, где имеются большие аннотированные наборы данных, такая переливательная ситуация не может быть отмечена в отношении музыки Индийского подстрайка, такой как Карнатическая музыка. Этот уникальный и фастичный жанр характеризуется сложным ритмическим устройством и разными метрическими структурами (таласами). Хотя DBN-модели были успешно применены для трекинга таласов в Карнатической музыке, работы по использованию современных deep learning моделей в этой области остаются недостаточно изученными. ## Метод В данном исследовании проводится сравнительный анализ двух моделей метера трекинга: Temporal Convolutional Network (TCN) и Beat This!, на Carnatic Music Rhythm (CMR$_f$) dataset. TCN — это лёгкая архитектура, оптимизированная для ритмов латинских музыкальных жанров, в то время как Beat This! является transformer-based моделью, разработанной для широкого стилистического покрытия без необходимости дополнительной пост-обработки. Модели были сравниваны с DBN-моделью, которая была использована в предыдущих исследованиях. Выборка данных включает 60 треков, каждый аннотированный вручную. Также были применены музыкально обоснованные параметры, такие как размер окна, скорость подачи, и методы метода fine-tuning на Carnatic data. ## Результаты Результаты экспериментов показали, что раннее использованные DBN-модели, хотя и показали неплохой результат, не всегда существенно превосходят TCN и Beat This!, когда они подвергаются transfer learning. Особенно Beat This! показал очень высокую точность в задаче метера трекинга, превзойдя DBN на некоторых показателях. Fine-tuning, в свою очередь, также продемонстрировал положительный эффект, улучшая точность на несколько процентов. Эти результаты указывают, что modern deep learning architectures могут быть эффективно применены к данной трудной задаче, даже в случае недостатка больших аннотированных наборов данных. ## Значимость Результаты этого исследования имеют важное значение для нескольких областей. Во-первых, они показывают, что существующие deep learning модели могут быть успешно применены для трекинга таласов в музыке Карнатического типа, что создает возможность для более широкого применения таких моделей в underrepresented traditions. Во-вторых, они поднимают вопрос о возможности fine-tuning и дополнительных музыкальных п
Annotation:
Beat and downbeat tracking, jointly referred to as Meter Tracking, is a fundamental task in Music Information Retrieval (MIR). Deep learning models have far surpassed traditional signal processing and classical machine learning approaches in this domain, particularly for Western (Eurogenetic) genres, where large annotated datasets are widely available. These systems, however, perform less reliably on underrepresented musical traditions. Carnatic music, a rich tradition from the Indian subcontine...
ID: 2509.11241v1 cs.SD, cs.LG, eess.AS
Показано 41 - 50 из 80 записей