TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization

2509.00914v1 cs.SD, cs.AI, eess.AS 2025-09-05

Авторы:

Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh

Резюме на русском

#### Контекст Музыкальная генерация стала одной из самых захватывающих областей искусственного интеллекта, в которой трансформер-базированные архитектуры достигли неоцениваемого прогресса. Однако их практическое применение сталкивается с рядом критических проблем: высоким потреблением вычислительных ресурсов и длительным временем вывода, вызванным большим числом параметров. Эти ограничения мешают развертыванию таких моделей на мобильных устройствах, таких как смартфоны или носимые устройства, которые имеют ограниченные вычислительные возможности. Более того, необходимость работы через облако приводит к проблемам с конфиденциальностью и доступностью. Наша цель — разработать модель, способную эффективно функционировать на устройствах с ограниченными ресурсами, сохранив высокое качество генерируемой музыки. #### Метод Мы предлагаем TinyMusician — легковесную модель музыкальной генерации, полученную путем дистилляции от MusicGen, новейшей модели в этой области. Мы применяем два ключевые инновационных подхода: (i) **стадионно-смешанная бидирекциональная и несимметричная к-дивергенция** для эффективного увеличения качества пониженной модели, и (ii) **адаптивная микропроцессорная кванторизация** для минимизации расходов памяти и вычислительных ресурсов. Эти техники позволяют TinyMusician сохранять высокую точность и качество звука, при этом используя меньше ресурсов и работая на устройствах без облачной поддержки. #### Результаты Мы проводим эксперименты с использованием различных музыкальных треков и показываем, что TinyMusician сохраняет 93% от качества генерации музыки MusicGen-Small, при этом уменьшая размер модели на 55%. Это позволяет эффективно развернуть модель на мобильных платформах, включая их встроенные системы звукового проигрывания. Также мы показываем, что наш адаптивный подход к кванторизации позволяет сократить расходы на вычисления, не ухудшая качество звука. #### Значимость TinyMusician демонстрирует первое значительное развитие в области мобильной музыкальной генерации. Она может быть интегрирована в приложения для смартфонов или носимых устройств, чтобы обеспечить генерацию музыки без облачного доступа и с низкими требованиями к ресурсам. Это открывает новые возможности для разработчиков приложений, которые хотят использовать музыкальные модели на платформах с ограниченным доступом к облаку. #### Выводы Мы представили TinyMusician — легковесную модель музыкальной генерации, которая успешно решает проблему слишком большого размера и высокого потребления вычислительных ресурсов трансформер-моделей. Модель способна генер

Abstract

The success of the generative model has gained unprecedented attention in the music generation area. Transformer-based architectures have set new benchmarks for model performance. However, their practical adoption is hindered by some critical challenges: the demand for massive computational resources and inference time, due to their large number of parameters. These obstacles make them infeasible to deploy on edge devices, such as smartphones and wearables, with limited computational resources. In this work, we present TinyMusician, a lightweight music generation model distilled from MusicGen (a State-of-the-art music generation model). TinyMusician integrates two innovations: (i) Stage-mixed Bidirectional and Skewed KL-Divergence and (ii) Adaptive Mixed-Precision Quantization. The experimental results demonstrate that TinyMusician retains 93% of the MusicGen-Small performance with 55% less model size. TinyMusician is the first mobile-deployable music generation model that eliminates cloud dependency while maintaining high audio fidelity and efficient resource usage

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация