Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation
2508.05011v1
cs.SD, cs.AI, eess.AS
2025-08-09
Авторы:
Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В настоящее время AI-driven lyric-to-song generation представляет собой одну из наиболее перспективных областей в музыкальном генеративном искусстве. На основе аудио-ориентированных генеративных языковых моделей (Generative Audio-based Language Models, GALMs), эти системы способны превращать тексты песен в полноценные музыкальные композиции. Однако, несмотря на значительные успехи в этой области, существует серьезная проблема, связанная с content hallucination. Это явление заключается в том, что модели часто генерируют выходные данные, которые не соотносятся с входными текстами песен, что приводит к потере смысловой согласованности и нарушению музыкальной когеренции.
Традиционные подходы к решению этой проблемы, такие как supervised fine-tuning (SFT), оказываются ограниченными в своей эффективности. Они заключаются в пассивном подстройке модели под заранее определенные ярлыки, что не позволяет модели самостоятельно улучшаться и активно решать проблемы с Hallucination. Таким образом, требуется более динамичный и адаптивный метод, который бы мог не только минимизировать несоответствие между текстом и музыкой, но и повысить общую качественную согласованность генерируемых композиций.
Решение этой проблемы требует разработки новых методологий, которые могли бы обеспечить более высокую точность и соответствие генерируемых музыкальных треков оригинальным текстам. Здесь важным аспектом является не только уменьшение ошибок в контексте текста, но также сохранение музыкальной качественности и эстетического выразительного потенциала композиции.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения проблемы content hallucination, авторы предлагают инновационный reinforcement learning (RL) framework, основанный на preference optimization. Основная идея заключается в том, чтобы использовать reinforcement learning для улучшения выравнивания между текстом и генерируемым музыкальным контентом.
Ключевым элементом этого подхода является разработка robust hallucination preference dataset. Этот набор данных строится на основе phoneme error rate (PER) и rule-based filtering, что позволяет лучше захватить ожидания человека относительно качества и соответствия текста. PER служит ключевым показателем для измерения несоответствия между входным текстом и генерируемым аудио.
В рамках RL-framework предлагаются три различных preference optimization стратегии:
1. **Direct Preference Optimization (DPO)**: Этот подход работает в off-policy режиме и направлен на увеличение вероятности положительных токенов, что приводит к существенному снижению PER на 7.4%.
2. **Proximal Policy Optimization (PPO)**: Этот метод использует on-policy подход, где модель обучается с помощью PER-based reward model. Этот подход стремится максимизировать награду и регуляризировать модель с помощью KL-divergence, что приводит к снижению PER на 4.9%.
3. **Group Relative Policy Optimization (GRPO)**: Этот подход также основан на on-policy методах и использует групповую оптимизацию, что позволяет достичь PER снижения на 4.7%.
Общая архитектура RL-framework включает в себя не только обучение на основе PER, но также регуляризацию для поддержания музыкального качества, что является важной составляющей для поддержания гармонии и когерентности генерируемых композиций.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности предложенного метода были проведены объективные и субъективные эксперименты. Объективные эксперименты включали измерение PER для оценки уровня hallucination в генерируемых музыкальных треках. Результаты показали, что DPO достигает наибольшего снижения PER (7.4%), в то время как PPO и GRPO также демонстрируют значительные улучшения (4.9% и 4.7% соответственно).
Субъективные оценки, проведенные с помощью панели экспертов, подтвердили, что предложенные методы не только эффективны в снижении hallucination, но также сохраняют высокое качество музыкальных композиций. Это подтверждает, что предложенный RL-framework не только эффективен в контроле Hallucination, но также поддерживает высокий уровень музыкальной качественности.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный метод имеет широкий спектр практических применений в области генеративного музыкального искусства. Он может быть использован для создания более точных и когерентных музыкальных композиций, основанных на текстах песен. Этот подход также может быть применен для улучшения стилевой привязки и музыкальной выразительности генерируемых треков.
Кроме того, данный фреймворк может быть интегрирован в различные музыкальные приложения и платформы, что позволит создавать более качественные и личностно-ориентированные музыкальные продукты. Это открывает новые возможности для исследования и развития музыкальных генеративных моделей, особенно в контексте улучшения качества и соответствия текстам.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Предложенный RL-based framework является важной отправной точкой для решения проблемы content hallucination в AI-driven lyric-to-song generation. Он не только эффективен в снижении ошибок, но также поддерживает высокое качество музыкальных композиций.
В будущем, этот подход может быть расширен для улучшения музыкальной стилевой привязки и дальнейшего повышения качества генерируемых композиций. Также, можно исследовать возможности интеграции этого метода с другими генеративными моделями для создания более сложных и совершенных музыкальных продуктов. Открываются также перспективы для исследования адаптивности данного подхода к различным жанрам и стилям музыки, что может привести к новым открытиям в области музыкального генеративного искусства.
Abstract
Recent advances in audio-based generative language models have accelerated
AI-driven lyric-to-song generation. However, these models frequently suffer
from content hallucination, producing outputs misaligned with the input lyrics
and undermining musical coherence. Current supervised fine-tuning (SFT)
approaches, limited by passive label-fitting, exhibit constrained
self-improvement and poor hallucination mitigation. To address this core
challenge, we propose a novel reinforcement learning (RL) framework leveraging
preference optimization for hallucination control. Our key contributions
include: (1) Developing a robust hallucination preference dataset constructed
via phoneme error rate (PER) computation and rule-based filtering to capture
alignment with human expectations; (2) Implementing and evaluating three
distinct preference optimization strategies within the RL framework: Direct
Preference Optimization (DPO), Proximal Policy Optimization (PPO), and Group
Relative Policy Optimization (GRPO). DPO operates off-policy to enhance
positive token likelihood, achieving a significant 7.4% PER reduction. PPO and
GRPO employ an on-policy approach, training a PER-based reward model to
iteratively optimize sequences via reward maximization and KL-regularization,
yielding PER reductions of 4.9% and 4.7%, respectively. Comprehensive objective
and subjective evaluations confirm that our methods effectively suppress
hallucinations while preserving musical quality. Crucially, this work presents
a systematic, RL-based solution to hallucination control in lyric-to-song
generation. The framework's transferability also unlocks potential for music
style adherence and musicality enhancement, opening new avenues for future
generative song research.
Ссылки и действия
Дополнительные ресурсы: