Towards Hallucination-Free Music: A Reinforcement Learning Preference Optimization Framework for Reliable Song Generation

2508.05011v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Huaicheng Zhang, Wei Tan, Guangzheng Li, Yixuan Zhang, Hangting Chen, Shun Lei, Chenyu Yang, Zhiyong Wu, Shuai Wang, Qijun Huang, Dong Yu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В настоящее время AI-driven lyric-to-song generation представляет собой одну из наиболее перспективных областей в музыкальном генеративном искусстве. На основе аудио-ориентированных генеративных языковых моделей (Generative Audio-based Language Models, GALMs), эти системы способны превращать тексты песен в полноценные музыкальные композиции. Однако, несмотря на значительные успехи в этой области, существует серьезная проблема, связанная с content hallucination. Это явление заключается в том, что модели часто генерируют выходные данные, которые не соотносятся с входными текстами песен, что приводит к потере смысловой согласованности и нарушению музыкальной когеренции. Традиционные подходы к решению этой проблемы, такие как supervised fine-tuning (SFT), оказываются ограниченными в своей эффективности. Они заключаются в пассивном подстройке модели под заранее определенные ярлыки, что не позволяет модели самостоятельно улучшаться и активно решать проблемы с Hallucination. Таким образом, требуется более динамичный и адаптивный метод, который бы мог не только минимизировать несоответствие между текстом и музыкой, но и повысить общую качественную согласованность генерируемых композиций. Решение этой проблемы требует разработки новых методологий, которые могли бы обеспечить более высокую точность и соответствие генерируемых музыкальных треков оригинальным текстам. Здесь важным аспектом является не только уменьшение ошибок в контексте текста, но также сохранение музыкальной качественности и эстетического выразительного потенциала композиции. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы content hallucination, авторы предлагают инновационный reinforcement learning (RL) framework, основанный на preference optimization. Основная идея заключается в том, чтобы использовать reinforcement learning для улучшения выравнивания между текстом и генерируемым музыкальным контентом. Ключевым элементом этого подхода является разработка robust hallucination preference dataset. Этот набор данных строится на основе phoneme error rate (PER) и rule-based filtering, что позволяет лучше захватить ожидания человека относительно качества и соответствия текста. PER служит ключевым показателем для измерения несоответствия между входным текстом и генерируемым аудио. В рамках RL-framework предлагаются три различных preference optimization стратегии: 1. **Direct Preference Optimization (DPO)**: Этот подход работает в off-policy режиме и направлен на увеличение вероятности положительных токенов, что приводит к существенному снижению PER на 7.4%. 2. **Proximal Policy Optimization (PPO)**: Этот метод использует on-policy подход, где модель обучается с помощью PER-based reward model. Этот подход стремится максимизировать награду и регуляризировать модель с помощью KL-divergence, что приводит к снижению PER на 4.9%. 3. **Group Relative Policy Optimization (GRPO)**: Этот подход также основан на on-policy методах и использует групповую оптимизацию, что позволяет достичь PER снижения на 4.7%. Общая архитектура RL-framework включает в себя не только обучение на основе PER, но также регуляризацию для поддержания музыкального качества, что является важной составляющей для поддержания гармонии и когерентности генерируемых композиций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода были проведены объективные и субъективные эксперименты. Объективные эксперименты включали измерение PER для оценки уровня hallucination в генерируемых музыкальных треках. Результаты показали, что DPO достигает наибольшего снижения PER (7.4%), в то время как PPO и GRPO также демонстрируют значительные улучшения (4.9% и 4.7% соответственно). Субъективные оценки, проведенные с помощью панели экспертов, подтвердили, что предложенные методы не только эффективны в снижении hallucination, но также сохраняют высокое качество музыкальных композиций. Это подтверждает, что предложенный RL-framework не только эффективен в контроле Hallucination, но также поддерживает высокий уровень музыкальной качественности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр практических применений в области генеративного музыкального искусства. Он может быть использован для создания более точных и когерентных музыкальных композиций, основанных на текстах песен. Этот подход также может быть применен для улучшения стилевой привязки и музыкальной выразительности генерируемых треков. Кроме того, данный фреймворк может быть интегрирован в различные музыкальные приложения и платформы, что позволит создавать более качественные и личностно-ориентированные музыкальные продукты. Это открывает новые возможности для исследования и развития музыкальных генеративных моделей, особенно в контексте улучшения качества и соответствия текстам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный RL-based framework является важной отправной точкой для решения проблемы content hallucination в AI-driven lyric-to-song generation. Он не только эффективен в снижении ошибок, но также поддерживает высокое качество музыкальных композиций. В будущем, этот подход может быть расширен для улучшения музыкальной стилевой привязки и дальнейшего повышения качества генерируемых композиций. Также, можно исследовать возможности интеграции этого метода с другими генеративными моделями для создания более сложных и совершенных музыкальных продуктов. Открываются также перспективы для исследования адаптивности данного подхода к различным жанрам и стилям музыки, что может привести к новым открытиям в области музыкального генеративного искусства.

Abstract

Recent advances in audio-based generative language models have accelerated AI-driven lyric-to-song generation. However, these models frequently suffer from content hallucination, producing outputs misaligned with the input lyrics and undermining musical coherence. Current supervised fine-tuning (SFT) approaches, limited by passive label-fitting, exhibit constrained self-improvement and poor hallucination mitigation. To address this core challenge, we propose a novel reinforcement learning (RL) framework leveraging preference optimization for hallucination control. Our key contributions include: (1) Developing a robust hallucination preference dataset constructed via phoneme error rate (PER) computation and rule-based filtering to capture alignment with human expectations; (2) Implementing and evaluating three distinct preference optimization strategies within the RL framework: Direct Preference Optimization (DPO), Proximal Policy Optimization (PPO), and Group Relative Policy Optimization (GRPO). DPO operates off-policy to enhance positive token likelihood, achieving a significant 7.4% PER reduction. PPO and GRPO employ an on-policy approach, training a PER-based reward model to iteratively optimize sequences via reward maximization and KL-regularization, yielding PER reductions of 4.9% and 4.7%, respectively. Comprehensive objective and subjective evaluations confirm that our methods effectively suppress hallucinations while preserving musical quality. Crucially, this work presents a systematic, RL-based solution to hallucination control in lyric-to-song generation. The framework's transferability also unlocks potential for music style adherence and musicality enhancement, opening new avenues for future generative song research.

Ссылки и действия