Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

2509.22378v1 cs.SD, cs.AI, cs.MM, eess.AS 2025-09-30
Авторы:

Zijian Zhao, Dian Jin, Zijing Zhou

Резюме на русском

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерирования, которая находит применение в играх, рекламе и многомодальном искусстве, пользуется возрастающим интересом. Однако существующие методы часто скрывают процесс генерирования, что затрудняет понимание результатов пользователями. Эмоциональное обозначение, хотя и используется в некоторых решениях, ограничивается одним аспектом искусства. Большинство методов требуют сложных вычислений и больших объемов данных для обучения, что ограничивает их доступность для обычных пользователей. Наша цель — разработать первый VLM-подход (Vision Language Model) с высокой интерпретируемостью и минимальными требованиями к вычислительным ресурсам. ########################## ## Метод ########################## Мы предлагаем новую модель I2M, основанную на VLM, которая использует ABC-нотацию для связи текстовых и музыкальных модолей. Multi-modal Retrieval-Augmented Generation (RAG) и себе-рефинементные методы позволяют модели генерировать музыку на основе естественного языка без дополнительного обучения. Мы также предоставляем текстовые и изображательные пояснения для процесса генерирования, используя генерируемые мотивации и карты внимательности модели. Это позволяет пользователям понять, как и почему была создана музыка. ########################## ## Результаты ########################## Мы провести эксперименты, используя разные данные и меры качества. Наш метод показал лучшие результаты в музыкальном качестве и согласованности генерирования музыки и изображений. Это подтверждает эффективность нашего подхода в представлении музыки через естественный язык и создании более понятных результатов. ########################## ## Значимость ########################## Наша модель может применяться в многообразных областях, таких как игровой индустрия, реклама и создание многомодального искусства. Она обеспечивает интерпретируемую альтернативу сложным методам, сокращая требования к вычислительным ресурсам и данным. Это открывает новые возможности для обычных пользователей и творческих профессионалов. ########################## ## Выводы ########################## Мы представили первый VLM-подход для I2M с высокой интерпретируемостью и минимальными ресурсами. Наши результаты показали значительные улучшения в качестве генерирования и понимании результатов. Мы планируем расширить наши исследования в области творческих технологий, ориентированных на пользовательский опыт.

Abstract

Recently, Image-to-Music (I2M) generation has garnered significant attention, with potential applications in fields such as gaming, advertising, and multi-modal art creation. However, due to the ambiguous and subjective nature of I2M tasks, most end-to-end methods lack interpretability, leaving users puzzled about the generation results. Even methods based on emotion mapping face controversy, as emotion represents only a singular aspect of art. Additionally, most learning-based methods require substantial computational resources and large datasets for training, hindering accessibility for common users. To address these challenges, we propose the first Vision Language Model (VLM)-based I2M framework that offers high interpretability and low computational cost. Specifically, we utilize ABC notation to bridge the text and music modalities, enabling the VLM to generate music using natural language. We then apply multi-modal Retrieval-Augmented Generation (RAG) and self-refinement techniques to allow the VLM to produce high-quality music without external training. Furthermore, we leverage the generated motivations in text and the attention maps from the VLM to provide explanations for the generated results in both text and image modalities. To validate our method, we conduct both human studies and machine evaluations, where our method outperforms others in terms of music quality and music-image consistency, indicating promising results. Our code is available at https://github.com/RS2002/Image2Music .

Ссылки и действия

Связанные статьи

AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной...

2025-10-01

Disentangling Score Content and Performance Style for Joint Piano Rendering and ...

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключев...

2025-10-01

Emotion-Aware Speech Generation with Character-Specific Voices for Comics

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными х...

2025-09-22

SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыто...

2025-08-06