AImoclips: A Benchmark for Evaluating Emotion Conveyance in Text-to-Music Generation
2509.00813v2
cs.SD, cs.AI, eess.AS
2025-09-05
Авторы:
Gyehun Go, Satbyul Han, Ahyeon Choi, Eunjin Choi, Juhan Nam, Jeong Mi Park
Резюме на русском
## Контекст
Текстово-музыкальная генерация (Text-to-Music, TTM) позволяет создавать музыку с использованием естественного языка. Однако способность TTM-систем выражать желаемые эмоции остается мало исследована по сравнению с человеческими предпочтениями или текстовой аллигацией. Это создает значительные проблемы для создания эмоционально привлекательных и контролируемых музыкальных композиций. Данная работа призвана заполнить это промежуток, определив методы для оценки эмоциональной точности музыкальных генераций, а также опираясь на новый бенчмарк AImoclips.
## Метод
AImoclips основывается на 12 эмоциональных намерений, распределенных по четырем квадрантам валенса-ароуса. Шесть современных TTM-систем генерировали 1,000+ музыкальных фрагментов, оцениваемых 111 человек на 9-бальной ликерти-шкале. Эта методика позволяет измерить точность реализации эмоциональных целей в зависимости от валенса и ароуса, а также выявить узкие места в системах, такие как чрезмерное склонность к нейтральности.
## Результаты
Результаты показали, что клипы, генерируемые коммерческими системами, часто считаются более приятными, чем запланированные эмоции, в то время как открытые системы генерируют музыку, которая чаще оказывается менее приятной. Эмоции лучше всего выражаются при высоком ароусе, но общая эмоциональная нейтральность остается существенной ограниченностью. Эти результаты демонстрируют значительные различия в способности моделей генерировать эмоционально применимую музыку.
## Значимость
Такие находки имеют значительное значение для развития систем TTM, позволяя улучшить контроль эмоций в музыке. Бенчмарк AImoclips может использоваться для оценки моделей TTM при различных эмоциональных целях и для выявления ограничений, которые могут быть устранены в будущих исследованиях.
## Выводы
AImoclips представляет собой первый бенчмарк для оценки эмоциональной точности в TTM. Он подкрепляет значительные сведения о том, как различные модели справляются с эмоциональной контролью в музыке. Будущие исследования должны сосредоточиться на улучшении контроля эмоций и снятии ограничений, таких как чрезмерная нейтральность в определенных условиях.
Abstract
Recent advances in text-to-music (TTM) generation have enabled controllable
and expressive music creation using natural language prompts. However, the
emotional fidelity of TTM systems remains largely underexplored compared to
human preference or text alignment. In this study, we introduce AImoclips, a
benchmark for evaluating how well TTM systems convey intended emotions to human
listeners, covering both open-source and commercial models. We selected 12
emotion intents spanning four quadrants of the valence-arousal space, and used
six state-of-the-art TTM systems to generate over 1,000 music clips. A total of
111 participants rated the perceived valence and arousal of each clip on a
9-point Likert scale. Our results show that commercial systems tend to produce
music perceived as more pleasant than intended, while open-source systems tend
to perform the opposite. Emotions are more accurately conveyed under
high-arousal conditions across all models. Additionally, all systems exhibit a
bias toward emotional neutrality, highlighting a key limitation in affective
controllability. This benchmark offers valuable insights into model-specific
emotion rendering characteristics and supports future development of
emotionally aligned TTM systems.
Ссылки и действия
Дополнительные ресурсы: