Exploring How Audio Effects Alter Emotion with Foundation Models

2509.15151v2 cs.SD, cs.AI 2025-09-23

Авторы:

Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou

Резюме на русском

#### Контекст Область исследования, связанная с эмоциональным воздействием аудио-эффектов (FX, таких как реверберация, дисторшн, модуляция и динамический диапазон), широко рассматривается в кино, музыке и интерактивных системах. Несмотря на эту активность, остается существенное недоумение о том, как именно эти эффекты влияют на чувства слушателя и какие звуковые характеристики служат их источником. Эта проблема становится все более актуальной в контексте развития глубокого обучения и фондациональных моделей, которые могут обрабатывать разнообразные мультимодальные данные. Имея в виду потенциал фондациональных моделей для раскрытия эмоциональных характеристик музыки, это исследование нацелено на изучение их воздействия на чувства слушателя и развитие понимания этих процессов. #### Метод Для изучения вопросов, связанных с эмоциональным воздействием аудио-эффектов, были использованы фондациональные модели, обученные мультимодальными данными, такие как audioLM и audioLM-large. Эти модели были применены к эмбеддингам, полученным из звуковых эффектов, чтобы извлечь их представления. Затем, используя методы пробирования эмбеддингов, было проанализировано, как эффекты влияют на эмоциональные характеристики. Для сравнения использовались стандартные модели, такие как SPL, и анализы статистических моделей для оценки роли каждого эффекта. #### Результаты Эксперименты показали, что аудио-эффекты, такие как реверберация и дисторшн, могут существенно изменять эмоциональную окраску музыки. Например, реверберация способствует созданию более глубоких и атмосферных эмоций, в то время как дисторшн делает запись более живой и рваной. Использование фондациональных моделей позволило выявить тонкие различии в эмоциональном воздействии, которые были бы недоступны с помощью стандартных методов. Также были получены результаты, показавшие, что фондациональные модели могут лучше определять эмоциональные тенденции, чем более простые модели. #### Значимость Выявленные результаты имеют значительное значение для музыкальной продукции, композиции и восприятия. Например, исследование может помочь музыкантам и продюсерам понять, как изменение аудио-эффектов влияет на чувства слушателя. Кроме того, результаты могут быть применены в области эмоционального компьютинга, где требуется понимание воздействия звука на чувства. Это также может привести к развитию новых технологий для интерактивных систем, таких как реалистичные музыкальные игры или системы с аудио-реактивным интерфейсом. #### В

Abstract

Audio effects (FX) such as reverberation, distortion, modulation, and dynamic range processing play a pivotal role in shaping emotional responses during music listening. While prior studies have examined links between low-level audio features and affective perception, the systematic impact of audio FX on emotion remains underexplored. This work investigates how foundation models - large-scale neural architectures pretrained on multimodal data - can be leveraged to analyze these effects. Such models encode rich associations between musical structure, timbre, and affective meaning, offering a powerful framework for probing the emotional consequences of sound design techniques. By applying various probing methods to embeddings from deep learning models, we examine the complex, nonlinear relationships between audio FX and estimated emotion, uncovering patterns tied to specific effects and evaluating the robustness of foundation audio models. Our findings aim to advance understanding of the perceptual impact of audio production practices, with implications for music cognition, performance, and affective computing.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring How Audio Effects Alter Emotion with Foundation Models

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Large Speech Model Enabled Semantic Communication

YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-...

YingMusic-SVC: Real-World Robust Zero-Shot Singing Voice Conversion with Flow-GR...

Language Models as Semantic Teachers: Post-Training Alignment for Medical Audio ...

State Space Models for Bioacoustics: A comparative Evaluation with Transformers

Навигация