The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation
2509.00654v1
cs.SD, cs.AI, cs.LG, cs.MM, eess.AS
2025-09-05
Авторы:
Ashwin Nagarajan, Hao-Wen Dong
Резюме на русском
#### Контекст
Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка).
#### Метод
Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей.
#### Результаты
Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание.
#### Значимость
Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения.
#### Выводы
Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене
Abstract
Text-to-music models capture broad attributes such as instrumentation or
mood, but fine-grained stylistic control remains an open challenge. Existing
stylization methods typically require retraining or specialized conditioning,
which complicates reproducibility and limits policy compliance when artist
names are restricted. We study whether lightweight, human-readable modifiers
sampled from a large language model can provide a policy-robust alternative for
stylistic control. Using MusicGen-small, we evaluate two artists: Billie Eilish
(vocal pop) and Ludovico Einaudi (instrumental piano). For each artist, we use
fifteen reference excerpts and evaluate matched seeds under three conditions:
baseline prompts, artist-name prompts, and five descriptor sets. All prompts
are generated using a large language model. Evaluation uses both VGGish and
CLAP embeddings with distributional and per-clip similarity measures, including
a new min-distance attribution metric. Results show that artist names are the
strongest control signal across both artists, while name-free descriptors
recover much of this effect. This highlights that existing safeguards such as
the restriction of artist names in music generation prompts may not fully
prevent style imitation. Cross-artist transfers reduce alignment, showing that
descriptors encode targeted stylistic cues. We also present a descriptor table
across ten contemporary artists to illustrate the breadth of the tokens.
Together these findings define the name-free gap, the controllability
difference between artist-name prompts and policy-compliant descriptors, shown
through a reproducible evaluation protocol for prompt-level controllability.