Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach
2509.22378v1
cs.SD, cs.AI, cs.MM, eess.AS
2025-09-30
Авторы:
Zijian Zhao, Dian Jin, Zijing Zhou
Резюме на русском
##########################
## Контекст
##########################
Область исследования Image-to-Music (I2M) генерирования, которая находит применение в играх, рекламе и многомодальном искусстве, пользуется возрастающим интересом. Однако существующие методы часто скрывают процесс генерирования, что затрудняет понимание результатов пользователями. Эмоциональное обозначение, хотя и используется в некоторых решениях, ограничивается одним аспектом искусства. Большинство методов требуют сложных вычислений и больших объемов данных для обучения, что ограничивает их доступность для обычных пользователей. Наша цель — разработать первый VLM-подход (Vision Language Model) с высокой интерпретируемостью и минимальными требованиями к вычислительным ресурсам.
##########################
## Метод
##########################
Мы предлагаем новую модель I2M, основанную на VLM, которая использует ABC-нотацию для связи текстовых и музыкальных модолей. Multi-modal Retrieval-Augmented Generation (RAG) и себе-рефинементные методы позволяют модели генерировать музыку на основе естественного языка без дополнительного обучения. Мы также предоставляем текстовые и изображательные пояснения для процесса генерирования, используя генерируемые мотивации и карты внимательности модели. Это позволяет пользователям понять, как и почему была создана музыка.
##########################
## Результаты
##########################
Мы провести эксперименты, используя разные данные и меры качества. Наш метод показал лучшие результаты в музыкальном качестве и согласованности генерирования музыки и изображений. Это подтверждает эффективность нашего подхода в представлении музыки через естественный язык и создании более понятных результатов.
##########################
## Значимость
##########################
Наша модель может применяться в многообразных областях, таких как игровой индустрия, реклама и создание многомодального искусства. Она обеспечивает интерпретируемую альтернативу сложным методам, сокращая требования к вычислительным ресурсам и данным. Это открывает новые возможности для обычных пользователей и творческих профессионалов.
##########################
## Выводы
##########################
Мы представили первый VLM-подход для I2M с высокой интерпретируемостью и минимальными ресурсами. Наши результаты показали значительные улучшения в качестве генерирования и понимании результатов. Мы планируем расширить наши исследования в области творческих технологий, ориентированных на пользовательский опыт.
Abstract
Recently, Image-to-Music (I2M) generation has garnered significant attention,
with potential applications in fields such as gaming, advertising, and
multi-modal art creation. However, due to the ambiguous and subjective nature
of I2M tasks, most end-to-end methods lack interpretability, leaving users
puzzled about the generation results. Even methods based on emotion mapping
face controversy, as emotion represents only a singular aspect of art.
Additionally, most learning-based methods require substantial computational
resources and large datasets for training, hindering accessibility for common
users. To address these challenges, we propose the first Vision Language Model
(VLM)-based I2M framework that offers high interpretability and low
computational cost. Specifically, we utilize ABC notation to bridge the text
and music modalities, enabling the VLM to generate music using natural
language. We then apply multi-modal Retrieval-Augmented Generation (RAG) and
self-refinement techniques to allow the VLM to produce high-quality music
without external training. Furthermore, we leverage the generated motivations
in text and the attention maps from the VLM to provide explanations for the
generated results in both text and image modalities. To validate our method, we
conduct both human studies and machine evaluations, where our method
outperforms others in terms of music quality and music-image consistency,
indicating promising results. Our code is available at
https://github.com/RS2002/Image2Music .