The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS 2025-09-05
Авторы:

Ashwin Nagarajan, Hao-Wen Dong

Резюме на русском

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене

Abstract

Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small, we evaluate two artists: Billie Eilish (vocal pop) and Ludovico Einaudi (instrumental piano). For each artist, we use fifteen reference excerpts and evaluate matched seeds under three conditions: baseline prompts, artist-name prompts, and five descriptor sets. All prompts are generated using a large language model. Evaluation uses both VGGish and CLAP embeddings with distributional and per-clip similarity measures, including a new min-distance attribution metric. Results show that artist names are the strongest control signal across both artists, while name-free descriptors recover much of this effect. This highlights that existing safeguards such as the restriction of artist names in music generation prompts may not fully prevent style imitation. Cross-artist transfers reduce alignment, showing that descriptors encode targeted stylistic cues. We also present a descriptor table across ten contemporary artists to illustrate the breadth of the tokens. Together these findings define the name-free gap, the controllability difference between artist-name prompts and policy-compliant descriptors, shown through a reproducible evaluation protocol for prompt-level controllability.

Ссылки и действия

Связанные статьи

On the de-duplication of the Lakh MIDI dataset

## Контекст Lakh MIDI Dataset (LMD) является одним из крупнейших общедоступных источников символической музыки. Он содер...

2025-09-24

From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio...

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационн...

2025-09-05