Estimating Musical Surprisal from Audio in Autoregressive Diffusion Model Noise Spaces

2508.05306v1 cs.SD, cs.AI, eess.AS 2025-08-09
Авторы:

Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено фундаментальной проблеме моделирования музыкального ожидания и удивления (surprisal) на основе аудиосигналов. В области музыкальной психологии и когнитивных наук музыкальное удивление рассматривается как ключевой механизм восприятия, который формирует эстетический опыт и структурное понимание музыкальных произведений. Традиционные подходы к оценке музыкального удивления опирались на символьные представления (нотные записи, MIDI) или извлеченные вручную признаки, что ограничивало их применимость к произвольной аудиозаписи. Недавнее исследование внедрило концепцию информационного содержания (Information Content, IC) предсказаний от Generative Infinite-Vocabulary Transformer (GIVT) для моделирования музыкального ожидания непосредственно из аудио. Этот подход продемонстрировал многообещающие результаты, однако страдал от ограничений, связанных с природой трансформерной архитектуры и способами моделирования вероятностного распределения аудиоданных. GIVT, будучи автопрессивной моделью, может не полностью захватывать сложные зависимости в аудиосигналах и имеет ограниченную способность моделировать многомодальные распределения. Авторы статьи поднимают критически важные вопросы: насколько эффективно моделирование информационного содержания может быть реализовано через альтернативные архитектуры, и существуют ли более мощные способы оценки музыкального удивления напрямую из аудио. Особое внимание уделяется выявлению связи между удивлением на различных уровнях абстракции (от низкоуровневых акустических признаков до высокоуровневых музыкальных структур) и характеристиками процесса денойзинга в диффузионных моделях. Это открывает перспективы создания более тонких и контекстуально обусловленных моделей музыкального восприятия. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать автопрессивные диффузионные модели (Autoregressive Diffusion Models, ADMs) в качестве основы для оценки информационного содержания музыкальных аудиозаписей. Методология строится на использовании двух различных диффузионных обыкновенных дифференциальных уравнений (ODEs) для моделирования процесса денойзинга, что позволяет получать более точные оценки правдоподобия по сравнению с GIVT. Ключевой инновацией является гипотеза о том, что оценка удивления на различных уровнях шума в процессе денойзинга соответствует удивлению, связанному с музыкальными и акустическими признаками различной гранулярности. Это означает, что в начальных стадиях денойзинга (высокий уровень шума) модель фокусируется на глобальных структурных характеристиках музыкального фрагмента, тогда как в поздних стадиях (низкий уровень шума) - на мелких деталях и тонких акустических особенностях. Архитектура ADM реализуется через последовательное предсказание параметров распределения шума на каждом временном шаге диффузионного процесса. Информационное содержание вычисляется как отрицательный логарифм правдоподобия наблюдаемого аудиофрагмента при заданных параметрах модели. Это позволяет количественно оценить, насколько "неожиданным" является конкретный музыкальный фрагмент с точки зрения обученной модели. Для валидации метода используются две специализированные задачи: (1) оценка удивления в монофонических мелодических последовательностях, где ожидается, что высокое IC будет соответствовать неожиданным изменениям в мелодической линии, и (2) обнаружение границ музыкальных сегментов в многодорожечной аудиозаписи, где границы должны соответствовать локальным максимумам удивления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включает сравнительный анализ производительности ADMs и GIVT на двух специализированных задачах, а также оценку качества моделирования вероятностных распределений на разнообразных аудиоданных. На первом этапе исследовалась способность моделей захватывать удивление в монофонических питч-последовательностях. Для этого использовались наборы данных с аннотированными мелодиями, где удивление определялось как статистическая неожиданность следующего питча при заданном контексте. Результаты пок

Abstract

Recently, the information content (IC) of predictions from a Generative Infinite-Vocabulary Transformer (GIVT) has been used to model musical expectancy and surprisal in audio. We investigate the effectiveness of such modelling using IC calculated with autoregressive diffusion models (ADMs). We empirically show that IC estimates of models based on two different diffusion ordinary differential equations (ODEs) describe diverse data better, in terms of negative log-likelihood, than a GIVT. We evaluate diffusion model IC's effectiveness in capturing surprisal aspects by examining two tasks: (1) capturing monophonic pitch surprisal, and (2) detecting segment boundaries in multi-track audio. In both tasks, the diffusion models match or exceed the performance of a GIVT. We hypothesize that the surprisal estimated at different diffusion process noise levels corresponds to the surprisal of music and audio features present at different audio granularities. Testing our hypothesis, we find that, for appropriate noise levels, the studied musical surprisal tasks' results improve. Code is provided on github.com/SonyCSLParis/audioic.

Ссылки и действия