Exploring How Audio Effects Alter Emotion with Foundation Models
2509.15151v1
cs.SD, cs.AI
2025-09-20
Авторы:
Stelios Katsis, Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos, Giorgos Stamou
Резюме на русском
#### Контекст
Музыка и аудиоконтент широко используются для воздействия на человеческие эмоции, но полное понимание того, как звуковые эффекты (FX) влияют на эмоции, еще не достигнуто. Эти эффекты, такие как реверберация, дисторшн, модуляция и динамический диапазон обработки, широко применяются в музыкальной продукции и стриминге. Несмотря на то, что ранее проводились исследования о звуковых чертах и их влиянии на человеческие эмоции, механизмы, скрытые за этим взаимодействием, остаются неясными. Это исследование обосновывает мотивацию для исследования, как модели фундаментальных архитектур, обученные многомодальной структурой данных, могут открыть новые возможности для изучения этих эффектов. Такие модели позволяют анализировать сложные нелинейные связи между звуковыми эффектами и их эмоциональным воздействием, обеспечивая новый подход к изучению этого вопроса.
#### Метод
Для изучения взаимосвязи между звуковыми эффектами и эмоциями была использована методология, основанная на пробившемся глубинном обучении. Основным компонентом методологии является применение вариаций звуковых эффектов к аудиозаписям и последующий анализ эмоциональных ответов с помощью моделей фундаментальных архитектур. Циклы обучения и проверки заключались в сравнении предсказаний эмоциональных ответов с реальными данными от пользователей. Архитектура основывалась на сложных трансформациях, включающих добавление вариаций эффектов на звуковые сигналы, а затем расчет измерений эмоций с помощью моделей предсказания. Данные были обработаны с использованием метода пробития, что позволило оценить нелинейные связи между FX и чувственным воздействием.
#### Результаты
В результате испытаний были изучены широкие вариации звуковых эффектов, включая реверберацию, дисторшн, модуляцию и динамический диапазон обработки. На интерактивных экспериментах были проанализированы ответы пользователей и сравнились с эмоциональными оценками, полученными моделью. Оказалось, что некоторые эффекты, такие как реверберация и модуляция, сильно влияют на чувственность, в то время как другие, такие как динамическая обработка, менее заметны. Результаты показали высокую точность модели в предсказании эмоциональных ответов, особенно при использовании сложных моделей пробивания. В результате были выявлены характерные шаблоны взаимодействия между эффектами и эмоциями.
#### Значимость
Полученные результаты могут быть применены в различных сферах, включая музыкальную продукцию, восприятие музыки и эффекти
Abstract
Audio effects (FX) such as reverberation, distortion, modulation, and dynamic
range processing play a pivotal role in shaping emotional responses during
music listening. While prior studies have examined links between low-level
audio features and affective perception, the systematic impact of audio FX on
emotion remains underexplored. This work investigates how foundation models -
large-scale neural architectures pretrained on multimodal data - can be
leveraged to analyze these effects. Such models encode rich associations
between musical structure, timbre, and affective meaning, offering a powerful
framework for probing the emotional consequences of sound design techniques. By
applying various probing methods to embeddings from deep learning models, we
examine the complex, nonlinear relationships between audio FX and estimated
emotion, uncovering patterns tied to specific effects and evaluating the
robustness of foundation audio models. Our findings aim to advance
understanding of the perceptual impact of audio production practices, with
implications for music cognition, performance, and affective computing.
Ссылки и действия
Дополнительные ресурсы: