Exploring How Audio Effects Alter Emotion with Foundation Models
2509.15151v2
cs.SD, cs.AI
2025-09-23
Авторы:
Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou
Резюме на русском
#### Контекст
Область исследования, связанная с эмоциональным воздействием аудио-эффектов (FX, таких как реверберация, дисторшн, модуляция и динамический диапазон), широко рассматривается в кино, музыке и интерактивных системах. Несмотря на эту активность, остается существенное недоумение о том, как именно эти эффекты влияют на чувства слушателя и какие звуковые характеристики служат их источником. Эта проблема становится все более актуальной в контексте развития глубокого обучения и фондациональных моделей, которые могут обрабатывать разнообразные мультимодальные данные. Имея в виду потенциал фондациональных моделей для раскрытия эмоциональных характеристик музыки, это исследование нацелено на изучение их воздействия на чувства слушателя и развитие понимания этих процессов.
#### Метод
Для изучения вопросов, связанных с эмоциональным воздействием аудио-эффектов, были использованы фондациональные модели, обученные мультимодальными данными, такие как audioLM и audioLM-large. Эти модели были применены к эмбеддингам, полученным из звуковых эффектов, чтобы извлечь их представления. Затем, используя методы пробирования эмбеддингов, было проанализировано, как эффекты влияют на эмоциональные характеристики. Для сравнения использовались стандартные модели, такие как SPL, и анализы статистических моделей для оценки роли каждого эффекта.
#### Результаты
Эксперименты показали, что аудио-эффекты, такие как реверберация и дисторшн, могут существенно изменять эмоциональную окраску музыки. Например, реверберация способствует созданию более глубоких и атмосферных эмоций, в то время как дисторшн делает запись более живой и рваной. Использование фондациональных моделей позволило выявить тонкие различии в эмоциональном воздействии, которые были бы недоступны с помощью стандартных методов. Также были получены результаты, показавшие, что фондациональные модели могут лучше определять эмоциональные тенденции, чем более простые модели.
#### Значимость
Выявленные результаты имеют значительное значение для музыкальной продукции, композиции и восприятия. Например, исследование может помочь музыкантам и продюсерам понять, как изменение аудио-эффектов влияет на чувства слушателя. Кроме того, результаты могут быть применены в области эмоционального компьютинга, где требуется понимание воздействия звука на чувства. Это также может привести к развитию новых технологий для интерактивных систем, таких как реалистичные музыкальные игры или системы с аудио-реактивным интерфейсом.
#### В
Abstract
Audio effects (FX) such as reverberation, distortion, modulation, and dynamic
range processing play a pivotal role in shaping emotional responses during
music listening. While prior studies have examined links between low-level
audio features and affective perception, the systematic impact of audio FX on
emotion remains underexplored. This work investigates how foundation models -
large-scale neural architectures pretrained on multimodal data - can be
leveraged to analyze these effects. Such models encode rich associations
between musical structure, timbre, and affective meaning, offering a powerful
framework for probing the emotional consequences of sound design techniques. By
applying various probing methods to embeddings from deep learning models, we
examine the complex, nonlinear relationships between audio FX and estimated
emotion, uncovering patterns tied to specific effects and evaluating the
robustness of foundation audio models. Our findings aim to advance
understanding of the perceptual impact of audio production practices, with
implications for music cognition, performance, and affective computing.
Ссылки и действия
Дополнительные ресурсы: