📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers

2025-11-08

Авторы:

Ali Boudaghi, Hadi Zare

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Music editing has emerged as an important and practical area of artificial intelligence, with applications ranging from video game and film music production to personalizing existing tracks according to user preferences. However, existing models face significant limitations, such as being restricted to editing synthesized music generated by their own models, requiring highly precise prompts, or necessitating task-specific retraining, thus lacking true zero-shot capability. Leveraging recent adva...

ID: 2511.04376v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 Segment-Factorized Full-Song Generation on Symbolic Piano Music

2025-10-09

Авторы:

Ping-Yi Chen, Chih-Pin Tan, Yi-Hsuan Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose the Segmented Full-Song Model (SFS) for symbolic full-song generation. The model accepts a user-provided song structure and an optional short seed segment that anchors the main idea around which the song is developed. By factorizing a song into segments and generating each one through selective attention to related segments, the model achieves higher quality and efficiency compared to prior work. To demonstrate its suitability for human-AI interaction, we further wrap SFS into a web a...

ID: 2510.05881v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 On the de-duplication of the Lakh MIDI dataset

2025-09-24

Авторы:

Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong

## Контекст Lakh MIDI Dataset (LMD) является одним из крупнейших общедоступных источников символической музыки. Он содержит более 178 тысяч файлов MIDI, представляющих различные музыкальные произведения. Несмотря на преимущества, такие большие данные часто склеиваются из разных источников, что приводит к повторениям и непоследовательностям в метаданных. Эти ошибки могут повлиять на качество обучения моделей и формирования выводов в музыкальной интеллектуальной обработке (MIR). Однако, несмотря на важность, дедупликация данных в MIR-сообществе недостаточно исследована. Этот труд вносит вклад в решение проблемы, обосновывая значимость дедупликации LMD для улучшения высококачественных моделей в этой области. ## Метод Для анализа и дедупликации LMD использовались различные подходы. В качестве бенчмарка выбран Clean MIDI Subset, в котором одинаковые песни представлены в разных версиях. Методы включили правильные (rule-based), символьные модели музыкального восприятия, а также модель BERT с увеличенным обучением (contrastive learning). Модель BERT была использована для параллельной обработки файлов MIDI и поиска дубликатов. Результаты сравнивались с другими моделями, чтобы определить наиболее эффективный подход к дедупликации LMD. ## Результаты На основе проведенных экспериментов были получены три версии отфильтрованного списка LMD. Наиболее консервативная версия отфильтровала 38 134 менее стабильных дубликатов из 178 561 файлов. Эти результаты позволили установить, что модель BERT с увеличенным обучением и аугментациями демонстрирует наилучшие результаты в дедупликации символических музыкальных данных. Этот подход оказался самым эффективным в контексте удаления повторяющихся файлов, с минимальным потерям качества или удалением ненужных данных. ## Значимость Результаты имеют значительное значение для области MIR и других крупных датасетов, которые могут повлиять на обучение моделей. Дедупликация LMD позволяет улучшить точность и надежность моделей, уменьшая влияние данных, зараженных дубликатами. Это прикладное решение может иметь большой потенциал в музыкальном анализе, генерации и машинном обучении. Будущие исследования могут расширить данные в других символических музыкальных коллекциях. ## Выводы Полученные результаты показывают, что модель BERT с увеличенным обучением является эффективным методом для дедупликации LMD. Она позволяет улучшить качество данных и разработать более надежные модели в MIR. Дальнейшие исследования могут сфокусироваться на масштабировании этого подхода для других больших датасетов и изучении других аспектов дедупликации в символической му

Annotation:

A large-scale dataset is essential for training a well-generalized deep-learning model. Most such datasets are collected via scraping from various internet sources, inevitably introducing duplicated data. In the symbolic music domain, these duplicates often come from multiple user arrangements and metadata changes after simple editing. However, despite critical issues such as unreliable training evaluation from data leakage during random splitting, dataset duplication has not been extensively ad...

ID: 2509.16662v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

2025-09-05

Авторы:

Ashwin Nagarajan, Hao-Wen Dong

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене

Annotation:

Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small,...

ID: 2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation

2025-09-05

Авторы:

Andrea Poltronieri, Xavier Serra, Martín Rocamora

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационного исследования, которая занимает внимание более двух десятилетий. Она играет важную роль в музыкальной транскрипции и анализе. Несмотря на прогресс, существуют значительные проблемы, которые ограничивают эффективность существующих систем. Одной из основных проблем является субъективность аннотаторов: разные люди могут давать разные оценки классов нот и аккордов, что приводит к несогласованности в данных. Другая проблема — классовая неробастность (class imbalance), когда некоторые классы нот или аккордов значительно чаще других в обучающих наборах данных. Эти особенности сильно затрудняют обучение и оценку алгоритмов. Целью настоящего исследования является адресация этих проблем с помощью новых подходов, основанных на понятии хармонической сонансности (consonance). ## Метод Мы предлагаем метод, который использует знания о хармонической сонансности для улучшения оценки нот и аккордов. Наш подход разделяет задачу на несколько подзадач, каждая из которых соответствует отдельному аспекту звучания аккорда: оценка корня (root), оценка баса (bass) и оценка других нот в аккорде. Мы также внедрили новую метрику дистанции, основанную на звуковой сонансности, которая позволяет лучше охарактеризовать музыкально-значимую схожесть между разными аннотациями. Наш алгоритм основан на многозадачной архитектуре для совместного обучения этих подзадач. Мы также применяем технику легких меток (label smoothing), использующую понятие сонансности для гашения шума в метках. Это позволяет модели более точно определять музыкальные согласованности. ## Результаты Мы провели эксперименты на различных музыкальных датасетах, сравнивая нашу модель с текущими лидерами в области ACE. Результаты показали, что наш подход значительно улучшает оценку корня и баса, а также в целом повышает точность определения аккордов. Мы также проверили эффективность новой метрики дистанции на многочисленных аннотациях, показав, что она дает более точные результаты в сравнении с традиционными метриками. Наша модель также показала значительное улучшение в обработке классов с небольшим количеством примеров, что демонстрирует ее высокую работу в условиях классовой неробастности. ## Значимость Предложенный подход имеет широкие применения в музыкальной транскрипции, анализе и создании музыкальных инструментов. Он позволяет повысить точность определения аккордов в различных музыкальных жанрах и условиях. Преимущест

Annotation:

Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to...

ID: 2509.01588v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF