📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Luca A. Lanzendörfer, Frédéric Berdoz, Antonis Asonitis, Roger Wattenhofer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent autoregressive transformer-based speech enhancement (SE) methods have shown promising results by leveraging advanced semantic understanding and contextual modeling of speech. However, these approaches often rely on complex multi-stage pipelines and low sampling rate codecs, limiting them to narrow and task-specific speech enhancement. In this work, we introduce DAC-SE1, a simplified language model-based SE framework leveraging discrete high-resolution audio representations; DAC-SE1 preser...
ID: 2510.02187v1 cs.SD, cs.LG, eess.AS
Авторы:

Song-Ze Yu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This project presents an AI-based system for tone replication in music production, focusing on predicting EQ parameter settings directly from audio features. Unlike traditional audio-to-audio methods, our approach outputs interpretable parameter values (e.g., EQ band gains) that musicians can further adjust in their workflow. Using a dataset of piano recordings with systematically varied EQ settings, we evaluate both regression and neural network models. The neural network achieves a mean square...
ID: 2509.24404v1 cs.SD, cs.LG, eess.AS
Авторы:

Mélisande Teng, Julien Boussard, David Rolnick, Hugo Larochelle

## Контекст Обработка звуков птиц является важной задачей в области природных языков и акустических исследований. Последовательности силаб ус в птичьих певучих творчествах играют ключевую роль в таких вопросах, как идентификация индивидуальности птиц, изучение их коммуникации и сенсорно-моторного обучения. Однако машинное обучение, используемое в этой области, часто требует ручной маркировки данных, что ограничивает его применение к небольшому числу видов и наборов данных. Это ограничение может быть существенным подводным камнем для изучения менее изученных видов птиц. В нашей работе мы предлагаем первый полностью неучитывающий данных алгоритм для разделения звуков птиц на силабусы. Мы используем автономный подход для выявления силабусных событий, создания шаблонов и анализа записи с помощью метода поиска и сочетания. Наши результаты показывают, что этот алгоритм может эффективно работать без ручной маркировки. ## Метод Мы предлагаем новую методологию для обработки звуков птиц, основанную на неучитывающей данных методе. Алгоритм работает в несколько этапов: (1) **Обнаружение силабусных событий:** Мы используем автономное обнаружение, чтобы выявить периоды, которые могут быть силабусами. (2) **Кластеризация шаблонов:** Мы используем кластеризацию для создания шаблонов силабуса (силабусов). Эти шаблоны являются представлениями силабуса, которые могут быть использованы для дальнейшего разбора. (3) **Метод поиска и сочетания (Matching Pursuit):** Мы разбиваем звуковую запись на последовательность силабусов с помощью метода поиска и сочетания. Это позволяет получить подробный разбор звуковой записи на отдельные силабусы. Мы оцениваем наш алгоритм с помощью ручных меток на датасете звуков Бенгальских финчей и другого вида птиц, горелки. Наши результаты показывают, что неучитывающий данных подход дает высокую точность. Мы также демонстрируем, что наш метод может различать индивидуальность птиц через уникальные вокальные знаки, на примере Бенгальских финчей и горелки. ## Результаты Мы проводили эксперименты с нашим алгоритмом на датасете звуков Бенгальских финчей и горелки. Наши результаты показали, что неучитывающий данных подход дает высокую точность в определении силабусов и может различать индивидуальность птиц. Мы также проверили наши результаты с помощью ручных меток, и они подтвердили, что наш алгоритм дает высокое качество распознавания силабусов и может помочь в изучении музыкальных структур птичьих творчеств. Эти результаты демонстрируют успех неучитываю
Annotation:
Identifying sequences of syllables within birdsongs is key to tackling a wide array of challenges, including bird individual identification and better understanding of animal communication and sensory-motor learning. Recently, machine learning approaches have demonstrated great potential to alleviate the need for experts to label long audio recordings by hand. However, they still typically rely on the availability of labelled data for model training, restricting applicability to a few species an...
ID: 2509.18412v1 cs.SD, cs.LG, eess.AS
Авторы:

Tse-Yang Chen, Yuh-Jzer Joung

#### Контекст Пианино — это не просто инструмент, а творческий способ выражения. Известны случаи, когда пианино становится источником вдохновения для произведений или поддержки творческого процесса. Однако автоматическое генерирование пианино-переложений из поп-песен часто сталкивается с проблемами сохранения структуры и музыкальной динамики. Эти проблемы возникают из-за недостатка механизмов, учитывающих ритм и темп, что приводит к неестественности и дисгармонии в генерированных мелодиях. Модели Etude пытаются устранить эти проблемы, обеспечивая тщательное учетной структуры и ритма в процессе генерирования. #### Метод Etude представляет собой трехступенчатую модель, состоящую из стадий Extract, strucTUralize и DEcode. Фаза Extract извлекает ритмическую информацию, такую как темп и BPM, из музыкального материала. В стадии strucTUralize используется упрощенная REMI-токенизация, что позволяет лучше описывать структуру песни. На финальной стадии DEcode генерируется музыкальное переложение, учитывая уже извлеченные данные. Эта структура позволяет сохранять ритм и темп, а также добавлять контролируемые элементы, такие как стиль и динамика. #### Результаты Проведенные эксперименты продемонстрировали высокую точность и качество генерированных переложений. Модель Etude была протестирована на специально сборных данных, включающих поп-песни разных жанров. Оценки полученных результатов показали, что Etude значительно превосходит предыдущие модели по метрикам качества, таким как лаконичность, музыкальная динамика и структурная походясть. Эта модель также способна гибко включать стили, что делает ее универсальной для различных музыкальных жанров и стилей. #### Значимость Модель Etude может использоваться в различных областях, таких как музыкальное производство, творческая индустрия и развитие новых инструментов для творческого выражения. Она предлагает значительные преимущества, включая точность в музыкальных переводах, улучшение динамики и стиля, а также возможность контролировать процесс генерирования. Это инновационное решение может иметь значительное влияние на развитие творческого процесса в музыкальной индустрии. #### Выводы Результаты Etude показывают, что модель значительно повышает качество генерированных пианино-переложений. Она сохраняет ритмическую структуру, улучшает динамику и позволяет контролировать ритм и стиль. Будущие исследования будут ориентироваться на улучшение учета ритма, расширение возможностей генерирования и исследование способов улучшения гуманитарных оценок генерированных музыкальных произведений.
Annotation:
Piano cover generation aims to automatically transform a pop song into a piano arrangement. While numerous deep learning approaches have been proposed, existing models often fail to maintain structural consistency with the original song, likely due to the absence of beat-aware mechanisms or the difficulty of modeling complex rhythmic patterns. Rhythmic information is crucial, as it defines structural similarity (e.g., tempo, BPM) and directly impacts the overall quality of the generated music. ...
ID: 2509.16522v1 cs.SD, cs.LG, eess.AS
Авторы:

Omar Eldeeb, Martin Malandro

########################## ## Контекст ########################## Music Structure Analysis (MSA) является важной областью исследований в музыкальной технике, нацеленной на то, чтобы автоматизировать анализ и структурирование музыки. Одной из ключевых задач в этой области является определение пределов музыкальных секций, которое позволяет обнаружить когда происходит переход между различными частями музыки. Несмотря на то, что звуковая модель используется для решения этой задачи, она не оптимальна для работы с символической музыкой, где доступны прямые данные о питоре, звуковой инструментации и ритме. Мотивация для данного исследования заключается в том, чтобы использовать преимущества символической музыки для повышения точности и эффективности в процессе MSA. ########################## ## Метод ########################## Для решения задачи определения пределов музыкальных секций был разработан новый подход, основанный на использовании символической музыки и глубокого обучения. Для представления музыки была разработана новая архитектура пианино-роллов с использованием трех каналов, которая преобразует MIDI-данные в 3D-представление, включая питор, ритм и инструментацию. Для обучения модели использовалась новая многоканальная архитектура сверточных нейронных сетей, которая включает в себя багетные слои для предсказания вероятности пределов музыкальных секций в заданном окне. Для улучшения точности данная модель была обучена на новом датасете, полученном из Lakh MIDI Dataset, и содержащем 6134 MIDI-файлов. ########################## ## Результаты ########################## Модель была протестирована на новом датасете, полученном из Lakh MIDI Dataset. Она показала высокую точность, получив F1-меру в 0.77. Это значительно улучшило результаты предыдущих методов: аудио-базированных супервизированных методов (F1 = 0.55) и блочного сегментационного аудио-метода (CBM, F1 = 0.46). Также была проведена сравнительная оценка с другими существующими методами, подтвердив высокую эффективность нового подхода. ########################## ## Значимость ########################## Результаты этого исследования могут быть применимы в различных областях музыкальных технологий, включая генерацию музыки, синтез и анализ музыки. Новый подход предоставляет более точную и эффективную альтернативу существующим методам, основанным на звуковых данных. Его можно использовать для улучшения систем Музыкального Анализа, повышения точности в синтезе музыки и поиска новых способов анализа музыкального контента. ########################## ## Выводы ########################## Мы представили новую систему для определения пределов музыкальных секций в символической музыке, использующую сверточные нейронные сети. Модель демонстриру
Annotation:
Current methods for Music Structure Analysis (MSA) focus primarily on audio data. While symbolic music can be synthesized into audio and analyzed using existing MSA techniques, such an approach does not exploit symbolic music's rich explicit representation of pitch, timing, and instrumentation. A key subproblem of MSA is section boundary detection-determining whether a given point in time marks the transition between musical sections. In this paper, we study automatic section boundary detection ...
ID: 2509.16566v1 cs.SD, cs.LG, eess.AS
Авторы:

James Tavernor, Emily Mower Provost

#### Контекст Идентификация эмоций в речи (Speech Emotion Recognition, SER) является важной задачей в области машинного обучения, которая находит применение в реальном времени для повышения качества взаимодействия человека и технологий. Однако многие существующие модели SER вынуждены предсказывать одну стандартную метку эмоции, получаемую как результат среднего согласования нескольких аннотаторов. Это снижает точность предсказаний, так как такие модели не учитывают индивидуальные особенности каждого аннотатора. Другие подходы, которые предполагают предсказание отдельных аннотаторов, требуют индивидуального обучения на их данных, что дорогостояще и нежелательно в реальном мире. Мы предлагаем новый подход, использующий существующие модели, обученные на большом наборе данных относительно стандартных аннотаторов, для нахождения похожего аннотатора. Мы используем ограниченные данные от нового аннотатора, чтобы делать предсказания для данного аннотатора, обеспечивая персонализацию с минимальными затратами. #### Метод Мы используем модель, обученную на большой выборке данных от аннотаторов, для того, чтобы научиться прогнозировать индивидуальные особенности каждого аннотатора. Модель распознает сходство между новым аннотатором и предыдущими, используя ограниченные данные от нового аннотатора. Для этого мы предлагаем архитектуру, которая может адаптироваться к новым аннотаторам с помощью небольшого набора данных, который может быть быстро собран. Мы запускаем модель на нескольких датасетах и сравниваем результаты с другими методами. Данные используются в виде звуковых файлов, аннотированных разными аннотаторами, для того, чтобы обучить модель и проверить ее точность. #### Результаты Мы проводим эксперименты на нескольких датасетах, включая IEMOCAP и RAVDESS. Мы устанавливаем новый стандарт для точности предсказания эмоций, который значительно превосходит другие подходы, которые не рассматривают подробности индивидуальности аннотаторов. Мы проверяем точность наших предсказаний, сравнивая их с предыдущими результатами, и показываем, что наш подход эффективно предсказывает эмоции в речи, даже для новых аннотаторов, когда имеется ограниченное количество доступных данных. #### Значимость Мы показываем, что наш подход может быть использован в реальных ситуациях, таких как распознавание эмоций в обслуживании клиентов, взаимодействии с ботами и даже в здравоохранении. Этот подход позволяет очень быстро адаптироваться к новым аннотаторам без необходимости собирать большие объемы специфических для каждого аннотатора данных. Это не только экономит время и ресурсы, но и позволяет использовать
Annotation:
Speech emotion recognition systems often predict a consensus value generated from the ratings of multiple annotators. However, these models have limited ability to predict the annotation of any one person. Alternatively, models can learn to predict the annotations of all annotators. Adapting such models to new annotators is difficult as new annotators must individually provide sufficient labeled training data. We propose to leverage inter-annotator similarity by using a model pre-trained on a la...
ID: 2509.12295v1 cs.SD, cs.LG, eess.AS
Авторы:

Satyajeet Prabhu

## Контекст Метер трекинг (Beat and Downbeat Tracking) является относительно недавной областью исследований в сфере Music Information Retrieval (MIR). Он представляет собой задачу определения настроения и начала каждого такона (beat and downbeat) в музыкальном фрагменте, которая играет ключевую роль в понимании и анализе музыки. Несмотря на то, что дебийн-аппаратура и традиционные сигнальные процессинговые методы были давно заменены глубокими нейросетевыми моделями в Western Eurogenetic genres, где имеются большие аннотированные наборы данных, такая переливательная ситуация не может быть отмечена в отношении музыки Индийского подстрайка, такой как Карнатическая музыка. Этот уникальный и фастичный жанр характеризуется сложным ритмическим устройством и разными метрическими структурами (таласами). Хотя DBN-модели были успешно применены для трекинга таласов в Карнатической музыке, работы по использованию современных deep learning моделей в этой области остаются недостаточно изученными. ## Метод В данном исследовании проводится сравнительный анализ двух моделей метера трекинга: Temporal Convolutional Network (TCN) и Beat This!, на Carnatic Music Rhythm (CMR$_f$) dataset. TCN — это лёгкая архитектура, оптимизированная для ритмов латинских музыкальных жанров, в то время как Beat This! является transformer-based моделью, разработанной для широкого стилистического покрытия без необходимости дополнительной пост-обработки. Модели были сравниваны с DBN-моделью, которая была использована в предыдущих исследованиях. Выборка данных включает 60 треков, каждый аннотированный вручную. Также были применены музыкально обоснованные параметры, такие как размер окна, скорость подачи, и методы метода fine-tuning на Carnatic data. ## Результаты Результаты экспериментов показали, что раннее использованные DBN-модели, хотя и показали неплохой результат, не всегда существенно превосходят TCN и Beat This!, когда они подвергаются transfer learning. Особенно Beat This! показал очень высокую точность в задаче метера трекинга, превзойдя DBN на некоторых показателях. Fine-tuning, в свою очередь, также продемонстрировал положительный эффект, улучшая точность на несколько процентов. Эти результаты указывают, что modern deep learning architectures могут быть эффективно применены к данной трудной задаче, даже в случае недостатка больших аннотированных наборов данных. ## Значимость Результаты этого исследования имеют важное значение для нескольких областей. Во-первых, они показывают, что существующие deep learning модели могут быть успешно применены для трекинга таласов в музыке Карнатического типа, что создает возможность для более широкого применения таких моделей в underrepresented traditions. Во-вторых, они поднимают вопрос о возможности fine-tuning и дополнительных музыкальных п
Annotation:
Beat and downbeat tracking, jointly referred to as Meter Tracking, is a fundamental task in Music Information Retrieval (MIR). Deep learning models have far surpassed traditional signal processing and classical machine learning approaches in this domain, particularly for Western (Eurogenetic) genres, where large annotated datasets are widely available. These systems, however, perform less reliably on underrepresented musical traditions. Carnatic music, a rich tradition from the Indian subcontine...
ID: 2509.11241v1 cs.SD, cs.LG, eess.AS
Авторы:

Yujian Ma, Jinqiu Sang, Ruizhe Li

## Контекст В статье рассматривается проблема эффективного адаптирования больших предобученных спич-моделей, таких как Whisper, к задачам распознавания эмоций в речи (Speech Emotion Recognition, SER). Эти модели хорошо справляются с задачами общего распознавания речи, но их применение к специфическим задачам, таким как распознавание эмоций, требует значительных ресурсов. Одним из популярных подходов является Low-Rank Adaptation (LoRA), который позволяет эффективно адаптировать модели к конкретным задачам с минимальным увеличением числа параметров. Несмотря на эффективность LoRA, его механизм работы в контексте спич-моделей, особенно при распознавании эмоций, до сих пор остается малоизученным. Целью данной работы является осуществление первого систематического исследования механизмов работы LoRA в контексте Whisper для задачи SER. ## Метод В ходе исследования применяются следующие методики: 1. **Layer Contribution Probing**: Определяется вклад каждого слоя енкодера Whisper в задачу распознавания эмоций в речи. 2. **Logit-Lens Inspection**: Анализируется динамика представлений на выходе слоев модели, чтобы понять, как LoRA влияет на классификацию эмоций. 3. **Representational Similarity Analysis**: Вычисляются меры схожести представлений (singular value decomposition, SVD, и centered kernel alignment, CKA) для определения изменений в представлениях речи в разных слоях. 4. **Analytical Tools**: Для объяснения механизмов работы LoRA используются эти методы для проведения систематического анализа. Эти методы позволяют получить подробный обзор того, как LoRA влияет на работу модели Whisper в задаче распознавания эмоций в речи. ## Результаты В ходе экспериментов были выявлены два ключевых механизма работы LoRA в контексте Whisper для задачи SER: 1. **Delayed Specialization**: В early layers енкодера сохраняются общие фичи речи, тогда как в поздних слоях происходит специализация на конкретную задачу распознавания эмоций. 2. **Forward Alignment, Backward Differentiation**: Динамика между матрицами LoRA, где forward alignment обеспечивает выравнивание представлений, а backward differentiation позволяет избавиться от ненужных фичей. Эти находки демонстрируют, как LoRA меняет иерархию енкодера, улучшая его эффективность в задаче SER. На основе этих результатов были получены новые подходы к параметрно-эффективной адаптации моделей. ## Значимость Результаты имеют значительное значение для следующих областей: 1. **Применение в распознавании эмоций в речи**: Объясняются механизмы, позволяющие LoRA эффективно адаптировать модели к этой задаче, что может улучшить понимание интеллектуальных систем, работающих с естественным языком. 2. **Efficiency in Adaptation**: Демонстрируется, как LoRA может эффективно использоваться для параметрно-эффективной адаптации больших моделей к конкретным
Annotation:
Large pre-trained speech models such as Whisper offer strong generalization but pose significant challenges for resource-efficient adaptation. Low-Rank Adaptation (LoRA) has become a popular parameter-efficient fine-tuning method, yet its underlying mechanisms in speech tasks remain poorly understood. In this work, we conduct the first systematic mechanistic interpretability study of LoRA within the Whisper encoder for speech emotion recognition (SER). Using a suite of analytical tools, includin...
ID: 2509.08454v2 cs.SD, cs.LG, eess.AS
Авторы:

Paolo Combes, Stefan Weinzierl, Klaus Obermayer

## Контекст Автоматическое программирование звуковых синтезаторов (Automatic Synthesizer Programming, ASP) является важной областью исследований, направленной на помощь музыкантам и дизайнерам звука в программировании звуковых синтезаторов. Однако, интеграция звуковых синтезаторов в обучающие процессы сопряжена с трудностями, включая ограниченный доступ к внутренним параметрам и недвусмысленность результатов. Одним из ключевых задач этой области является создание моделей, которые могут эффективно представлять звуковые примеры и поддерживать интеграцию с нейронными системами ASP. Несмотря на то, что deep learning становится привлекательным решением для этой задачи, непосредственное использование нейронных сетей в таких потоках сложно из-за недружественности некоторых синтезаторов к автоматизированной обработке. Таким образом, необходимо разрабатывать способы, которые могут эффективно описывать звуковые примеры и позволять нейронным сетям интегрироваться в процесс программирования синтезаторов. ## Метод Метод предлагаемой работы основывается на создании "нейроного прокси" (neural proxy), который представляет собой нейронную модель, обученную подбирать звуковые примеры, которые лучше всего соответствуют аудио-эмбеддингам, полученным от предобученной модели. Метод включает в себя несколько ключевых этапов: 1) подготовка данных, включая синтетические и ручно созданные примеры звуков, 2) обучение нейронной модели, которая может преобразовывать звуковые примеры из пространства синтезаторов в пространство аудио-эмбеддингов, и 3) оценка эффективности прокси в различных контекстах аудио-синтеза. Нейронная модель обучается на основе аудио эмбеддингов, полученных из предобученных моделей (таких как YAMNet или OpenL3), чтобы гарантировать гибкость и эффективность. ## Результаты Эксперименты проводились на основе звуковых примеров, полученных из трех популярных звуковых синтезаторов. Нейронные прокси были обучены с использованием различных аудио-эмбеддингов, а их эффективность была оценена в задаче соответствия звука синтезаторов. Оценки показали, что нейронные прокси эффективно представляют звуковые примеры и позволяют интегрироваться с нейронными системами ASP. Наилучшие результаты были достигнуты при использовании моделей с рекуррентными слоями и transformer-based моделей. Несмотря на некоторые ограничения по ресурсам (такие как вычислительные затраты), результаты были в целом убедительными, показав возможность применения нейронных прокси в нейронных системах ASP. ## Значимость Нейронные прокси могут иметь широкое применение в области зв
Annotation:
Deep learning appears as an appealing solution for Automatic Synthesizer Programming (ASP), which aims to assist musicians and sound designers in programming sound synthesizers. However, integrating software synthesizers into training pipelines is challenging due to their potential non-differentiability. This work tackles this challenge by introducing a method to approximate arbitrary synthesizers. Specifically, we train a neural network to map synthesizer presets onto an audio embedding space d...
ID: 2509.07635v1 cs.SD, cs.LG, eess.AS, 68T07, H.5.5; J.5; I.5.4
Авторы:

Mutsumi Kobayashi, Hiroshi Watanabe

## Контекст Музыкальное искусство, особенно классическая музыка, является выразительным способом творчества, которое требует глубокого понимания её структуры, ритма и звучания. Однако создание настоящей классической музыки требует особых навыков и воображения. Результатами многих исследований в области машинного обучения являются программы, которые могут имитировать стиль указанного композитора, например, И. С. Баха. Однако эти модели часто имеют сложную архитектуру, что скрывает особенности процесса обучения и понимания музыки. Целью данного исследования является разработка простого алгоритма, который позволит лучше понять, как технологии машинного обучения представляют музыкальные композиции. ## Метод В данном исследовании применяется ограниченная машина Больцмана (RBM). Это нейронная сеть с простым количеством слоев, которая используется для обучения модели стиля И. С. Баха. Основное преимущество RBM заключается в своей простоте, что позволяет изучить внутренние состояния модели после обучения. Эта модель была обучена на музыке И. С. Баха, и результат получения модели был проанализирован. ## Результаты В результате обучения RBM показательная способность модели понять и генерировать музыку в стиле И. С. Баха была доказана. Модель была использована для создания новых композиций, которые отражали характеристики стиля Баха. Это позволило проверить, насколько эффективно модель может воспроизводить музыку в этом стиле, а также понять, как модель представляет музыку на основе своих обученных весов. ## Значимость Результаты исследования показывают, что RBM может быть применена для генерирования музыкальных композиций в стиле И. С. Баха. Они также открывают новые возможности для исследования композиторского процесса и творчества. Эти результаты могут быть применены для создания новых программ, которые могут помочь композиторам в поиске новых звуковых и идейных решений. Также модель может быть применена в образовательных целях, чтобы помочь студентам и изучающим музыку расширить свои знания о классической музыке. ## Выводы Результаты исследования показали, что RBM может эффективно использоваться для генерирования музыки в стиле И. С. Баха. В будущем могут быть проведены дополнительные исследования, чтобы расширить возможности модели, включив в неё более сложные звуковые структуры и стили. Эти исследования могут помочь в развитии новых методов творческого поиска и создания музыки.
Annotation:
Recently, software has been developed that uses machine learning to mimic the style of a particular composer, such as J. S. Bach. However, since such software often adopts machine learning models with complex structures, it is difficult to analyze how the software understands the characteristics of the composer's music. In this study, we adopted J. S. Bach's music for training of a restricted Boltzmann machine (RBM). Since the structure of RBMs is simple, it allows us to investigate the internal...
ID: 2509.04899v2 cs.SD, cs.LG, eess.AS
Показано 11 - 20 из 30 записей