📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено фундаментальной проблеме моделирования музыкального ожидания и удивления (surprisal) на основе аудиосигналов. В области музыкальной психологии и когнитивных наук музыкальное удивление рассматривается как ключевой механизм восприятия, который формирует эстетический опыт и структурное понимание музыкальных произведений. Традиционные подходы к оценке музыкального удивления опирались на символьные представления (нотные записи, MIDI) или извлеченные вручную признаки, что ограничивало их применимость к произвольной аудиозаписи. Недавнее исследование внедрило концепцию информационного содержания (Information Content, IC) предсказаний от Generative Infinite-Vocabulary Transformer (GIVT) для моделирования музыкального ожидания непосредственно из аудио. Этот подход продемонстрировал многообещающие результаты, однако страдал от ограничений, связанных с природой трансформерной архитектуры и способами моделирования вероятностного распределения аудиоданных. GIVT, будучи автопрессивной моделью, может не полностью захватывать сложные зависимости в аудиосигналах и имеет ограниченную способность моделировать многомодальные распределения. Авторы статьи поднимают критически важные вопросы: насколько эффективно моделирование информационного содержания может быть реализовано через альтернативные архитектуры, и существуют ли более мощные способы оценки музыкального удивления напрямую из аудио. Особое внимание уделяется выявлению связи между удивлением на различных уровнях абстракции (от низкоуровневых акустических признаков до высокоуровневых музыкальных структур) и характеристиками процесса денойзинга в диффузионных моделях. Это открывает перспективы создания более тонких и контекстуально обусловленных моделей музыкального восприятия. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать автопрессивные диффузионные модели (Autoregressive Diffusion Models, ADMs) в качестве основы для оценки информационного содержания музыкальных аудиозаписей. Методология строится на использовании двух различных диффузионных обыкновенных дифференциальных уравнений (ODEs) для моделирования процесса денойзинга, что позволяет получать более точные оценки правдоподобия по сравнению с GIVT. Ключевой инновацией является гипотеза о том, что оценка удивления на различных уровнях шума в процессе денойзинга соответствует удивлению, связанному с музыкальными и акустическими признаками различной гранулярности. Это означает, что в начальных стадиях денойзинга (высокий уровень шума) модель фокусируется на глобальных структурных характеристиках музыкального фрагмента, тогда как в поздних стадиях (низкий уровень шума) - на мелких деталях и тонких акустических особенностях. Архитектура ADM реализуется через последовательное предсказание параметров распределения шума на каждом временном шаге диффузионного процесса. Информационное содержание вычисляется как отрицательный логарифм правдоподобия наблюдаемого аудиофрагмента при заданных параметрах модели. Это позволяет количественно оценить, насколько "неожиданным" является конкретный музыкальный фрагмент с точки зрения обученной модели. Для валидации метода используются две специализированные задачи: (1) оценка удивления в монофонических мелодических последовательностях, где ожидается, что высокое IC будет соответствовать неожиданным изменениям в мелодической линии, и (2) обнаружение границ музыкальных сегментов в многодорожечной аудиозаписи, где границы должны соответствовать локальным максимумам удивления. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включает сравнительный анализ производительности ADMs и GIVT на двух специализированных задачах, а также оценку качества моделирования вероятностных распределений на разнообразных аудиоданных. На первом этапе исследовалась способность моделей захватывать удивление в монофонических питч-последовательностях. Для этого использовались наборы данных с аннотированными мелодиями, где удивление определялось как статистическая неожиданность следующего питча при заданном контексте. Результаты пок
Annotation:
Recently, the information content (IC) of predictions from a Generative Infinite-Vocabulary Transformer (GIVT) has been used to model musical expectancy and surprisal in audio. We investigate the effectiveness of such modelling using IC calculated with autoregressive diffusion models (ADMs). We empirically show that IC estimates of models based on two different diffusion ordinary differential equations (ODEs) describe diverse data better, in terms of negative log-likelihood, than a GIVT. We eval...
ID: 2508.05306v1 cs.SD, cs.AI, eess.AS
Авторы:

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

**Резюме:** С ростом интеграции больших языковых моделей в повседневную жизнь, аудио интерфейсы становятся ключевым элементом взаимодействия человека с ИИ. Однако этот контекст также создаёт новые угрозы, превращая аудио в потенциальную точку атаки. Исследование представляет WhisperInject — двухэтапный фреймворк для атак на аудио-языковые модели, способный вызывать вредоносные реакции, оставаясь незаметным для человеческого слушателя. На первом этапе, с помощью метода Reinforcement Learning with Projected Gradient Descent (RL-PGD), выполняется обход систем безопасности модели. На втором этапе, Payload Injection, используется Projected Gradient Descent (PGD) для внедрения тонких изменений в безопасные аудиозапросы, такие как погодные данные или приветствия. Результаты, проверенные на StrongREJECT, LlamaGuard и Human Evaluation, показывают успешность атак на модели Qwen2.5-Omni-3B, Qwen2.5-Omni-7B и Phi-4-Multimodal с проходной способностью более 86%. Эта работа выявляет практическую угрозу аудио-нативных атак, демонстрируя новый класс угроз для ИИ.
Annotation:
As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remai...
ID: 2508.03365v1 cs.SD, cs.AI, cs.CR, eess.AS
Авторы:

Jan Melechovsky, Ambuj Mehrish, Dorien Herremans

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек. В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами. Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.
Annotation:
Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of au...
ID: 2508.03448v1 cs.SD, cs.AI, cs.MM, eess.AS
Авторы:

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Современные TTS-модели управляют эмоциями грубо — при помощи дискретных меток или громоздких текстовых промптов, требуя при этом дорогостоящего дообучения. EmoSteer-TTS предлагает обходиться без дополнительного обучения, внедряя в предобученные flow-мatching TTS (F5-TTS, CosyVoice2 и др.) механизм activation steering: извлекается небольшой набор внутренних активаций, строятся векторы «эмо-токенов», а во время синтеза линейная интерполяция этих векторов позволяет плавно конвертировать, стирать или смешивать эмоции. На собранном много-спикерном датасете показано, что метод превосходит SOTA по точности и интерпретируемости, предоставляя непрерывное и тонкое управление эмоциональной окраской речи без переобучения модели.
Annotation:
Text-to-speech (TTS) has shown great progress in recent years. However, most existing TTS systems offer only coarse and rigid emotion control, typically via discrete emotion labels or a carefully crafted and detailed emotional text prompt, making fine-grained emotion manipulation either inaccessible or unstable. These models also require extensive, high-quality datasets for training. To address these limitations, we propose EmoSteer-TTS, a novel training-free approach, to achieve fine-grained sp...
ID: 2508.03543v1 cs.SD, cs.AI, eess.AS
Показано 271 - 274 из 274 записей