TinyMusician: On-Device Music Generation with Knowledge Distillation and Mixed Precision Quantization
2509.00914v1
cs.SD, cs.AI, eess.AS
2025-09-05
Авторы:
Hainan Wang, Mehdi Hosseinzadeh, Reza Rawassizadeh
Резюме на русском
#### Контекст
Музыкальная генерация стала одной из самых захватывающих областей искусственного интеллекта, в которой трансформер-базированные архитектуры достигли неоцениваемого прогресса. Однако их практическое применение сталкивается с рядом критических проблем: высоким потреблением вычислительных ресурсов и длительным временем вывода, вызванным большим числом параметров. Эти ограничения мешают развертыванию таких моделей на мобильных устройствах, таких как смартфоны или носимые устройства, которые имеют ограниченные вычислительные возможности. Более того, необходимость работы через облако приводит к проблемам с конфиденциальностью и доступностью. Наша цель — разработать модель, способную эффективно функционировать на устройствах с ограниченными ресурсами, сохранив высокое качество генерируемой музыки.
#### Метод
Мы предлагаем TinyMusician — легковесную модель музыкальной генерации, полученную путем дистилляции от MusicGen, новейшей модели в этой области. Мы применяем два ключевые инновационных подхода: (i) **стадионно-смешанная бидирекциональная и несимметричная к-дивергенция** для эффективного увеличения качества пониженной модели, и (ii) **адаптивная микропроцессорная кванторизация** для минимизации расходов памяти и вычислительных ресурсов. Эти техники позволяют TinyMusician сохранять высокую точность и качество звука, при этом используя меньше ресурсов и работая на устройствах без облачной поддержки.
#### Результаты
Мы проводим эксперименты с использованием различных музыкальных треков и показываем, что TinyMusician сохраняет 93% от качества генерации музыки MusicGen-Small, при этом уменьшая размер модели на 55%. Это позволяет эффективно развернуть модель на мобильных платформах, включая их встроенные системы звукового проигрывания. Также мы показываем, что наш адаптивный подход к кванторизации позволяет сократить расходы на вычисления, не ухудшая качество звука.
#### Значимость
TinyMusician демонстрирует первое значительное развитие в области мобильной музыкальной генерации. Она может быть интегрирована в приложения для смартфонов или носимых устройств, чтобы обеспечить генерацию музыки без облачного доступа и с низкими требованиями к ресурсам. Это открывает новые возможности для разработчиков приложений, которые хотят использовать музыкальные модели на платформах с ограниченным доступом к облаку.
#### Выводы
Мы представили TinyMusician — легковесную модель музыкальной генерации, которая успешно решает проблему слишком большого размера и высокого потребления вычислительных ресурсов трансформер-моделей. Модель способна генер
Abstract
The success of the generative model has gained unprecedented attention in the
music generation area. Transformer-based architectures have set new benchmarks
for model performance. However, their practical adoption is hindered by some
critical challenges: the demand for massive computational resources and
inference time, due to their large number of parameters. These obstacles make
them infeasible to deploy on edge devices, such as smartphones and wearables,
with limited computational resources. In this work, we present TinyMusician, a
lightweight music generation model distilled from MusicGen (a State-of-the-art
music generation model). TinyMusician integrates two innovations: (i)
Stage-mixed Bidirectional and Skewed KL-Divergence and (ii) Adaptive
Mixed-Precision Quantization. The experimental results demonstrate that
TinyMusician retains 93% of the MusicGen-Small performance with 55% less model
size. TinyMusician is the first mobile-deployable music generation model that
eliminates cloud dependency while maintaining high audio fidelity and efficient
resource usage
Ссылки и действия
Дополнительные ресурсы: