AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation

2509.00813v2 cs.SD, cs.AI, eess.AS 2025-09-05

Авторы:

Gyehun Go, Satbyul Han, Ahyeon Choi, Eunjin Choi, Juhan Nam, Jeong Mi Park

Резюме на русском

## Контекст Текстово-музыкальная генерация (Text-to-Music, TTM) позволяет создавать музыку с использованием естественного языка. Однако способность TTM-систем выражать желаемые эмоции остается мало исследована по сравнению с человеческими предпочтениями или текстовой аллигацией. Это создает значительные проблемы для создания эмоционально привлекательных и контролируемых музыкальных композиций. Данная работа призвана заполнить это промежуток, определив методы для оценки эмоциональной точности музыкальных генераций, а также опираясь на новый бенчмарк AImoclips. ## Метод AImoclips основывается на 12 эмоциональных намерений, распределенных по четырем квадрантам валенса-ароуса. Шесть современных TTM-систем генерировали 1,000+ музыкальных фрагментов, оцениваемых 111 человек на 9-бальной ликерти-шкале. Эта методика позволяет измерить точность реализации эмоциональных целей в зависимости от валенса и ароуса, а также выявить узкие места в системах, такие как чрезмерное склонность к нейтральности. ## Результаты Результаты показали, что клипы, генерируемые коммерческими системами, часто считаются более приятными, чем запланированные эмоции, в то время как открытые системы генерируют музыку, которая чаще оказывается менее приятной. Эмоции лучше всего выражаются при высоком ароусе, но общая эмоциональная нейтральность остается существенной ограниченностью. Эти результаты демонстрируют значительные различия в способности моделей генерировать эмоционально применимую музыку. ## Значимость Такие находки имеют значительное значение для развития систем TTM, позволяя улучшить контроль эмоций в музыке. Бенчмарк AImoclips может использоваться для оценки моделей TTM при различных эмоциональных целях и для выявления ограничений, которые могут быть устранены в будущих исследованиях. ## Выводы AImoclips представляет собой первый бенчмарк для оценки эмоциональной точности в TTM. Он подкрепляет значительные сведения о том, как различные модели справляются с эмоциональной контролью в музыке. Будущие исследования должны сосредоточиться на улучшении контроля эмоций и снятии ограничений, таких как чрезмерная нейтральность в определенных условиях.

Abstract

Recent advances in text-to-music (TTM) generation have enabled controllable and expressive music creation using natural language prompts. However, the emotional fidelity of TTM systems remains largely underexplored compared to human preference or text alignment. In this study, we introduce AImoclips, a benchmark for evaluating how well TTM systems convey intended emotions to human listeners, covering both open-source and commercial models. We selected 12 emotion intents spanning four quadrants of the valence-arousal space, and used six state-of-the-art TTM systems to generate over 1,000 music clips. A total of 111 participants rated the perceived valence and arousal of each clip on a 9-point Likert scale. Our results show that commercial systems tend to produce music perceived as more pleasant than intended, while open-source systems tend to perform the opposite. Emotions are more accurately conveyed under high-arousal conditions across all models. Additionally, all systems exhibit a bias toward emotional neutrality, highlighting a key limitation in affective controllability. This benchmark offers valuable insights into model-specific emotion rendering characteristics and supports future development of emotionally aligned TTM systems.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup an...

Multidimensional Music Aesthetic Evaluation via Semantically Consistent C-Mixup ...

Aligning Generative Music AI with Human Preferences: Methods and Challenges

Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Featu...

Навигация