📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Steering Autoregressive Music Generation with Recursive Feature Machines

2025-10-24

Авторы:

Daniel Zhao, Daniel Beaglehole, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Controllable music generation remains a significant challenge, with existing methods often requiring model retraining or introducing audible artifacts. We introduce MusicRFM, a framework that adapts Recursive Feature Machines (RFMs) to enable fine-grained, interpretable control over frozen, pre-trained music models by directly steering their internal activations. RFMs analyze a model's internal gradients to produce interpretable "concept directions", or specific axes in the activation space that...

ID: 2510.19127v1 cs.LG, cs.AI, cs.SD, eess.AS

arXiv PDF

📄 The Sound of Risk: A Multimodal Physics-Informed Acoustic Model for Forecasting Market Volatility and Enhancing Market Interpretability

2025-08-28

Авторы:

Xiaoliang Chen, Xin Yu, Le Chang, Teng Jing, Jiashuai He, Ze Wang, Yangjun Luo, Xingyu Chen, Jiayue Liang, Yuchen Wang, Jiaying Xie

## Контекст Информационные ассимметрии на финансовых рынках часто усиливаются стратегически выстроенными корпоративными нарративами, что снижает эффективность традиционных текстовых анализов. В этой статье предлагается новый многомодальный подход для оценки финансового риска, который объединяет текстовую чувственность с паралингвистическими признаками, полученными из динамики голосовых складок экзекутивного штаба на заседаниях по выручке. Основой этого подхода является Физико-Информированная Акустическая Модель (PIAM), которая использует нелинейную акустику для отделения семантических признаков из RAW звуковых данных, подвергнутых деформациям, таким как сигнальное срезание. Данный подход позволяет детально изучать эмоциональную статистику и риск на финансовых рынках. ## Метод Многомодальная модель использует текстовую чувственность из текстов докладов и паралингвистические признаки из звуковых сигналов. Звуковые сигналы анализируются с помощью PIAM, которая применяет нелинейную акустику для извлечения эмоциональных признаков. Результаты анализа проектируются в пространство Affective State Label (ASL), состоящее из трех измерений: Tension (напряженность), Stability (стабильность) и Arousal (возбужденность). Эти признаки используются для оценки синхронных динамик в эмоциональном состоянии экзекутивного штаба. Данные были получены из 1 795 вызовов по выручке, объемом примерно 1 800 часов. ## Результаты Эксперименты показали, что риск на финансовых рынках может быть эффективно определен с помощью звуковых сигналов, а не только на основе текстовых данных. Многомодальная модель позиционируется как более точная в предсказании риска на рынке, чем модели, основанные только на тексте. Особое внимание уделено измерению уровня уверенности в эмоциональной динамике, в частности, отличительным признаком является возбуждение, вызванное переходом от скриптованного доклада к неорганизованному обмену во время Q&A секции. Было показано, что модель демонстрирует значительное превосходство над моделью, основанной только на финансовых данных. ## Значимость Этот подход может быть применен в системах мониторинга рынков, финансовом анализе и понимании рыночных динамик. Он предлагает преимущества в улучшении возможностей прогнозирования и риск-менеджмента. Кроме того, предложенный подход может иметь влияние на регулирование финансовых рынков и повышение уровня прозрачности. ## Выводы Выводы основываются на предложенной многомодальной модели, которая демонстрирует преимущества в прогнозировании финансового риска, опираясь на эмо

Annotation:

Information asymmetry in financial markets, often amplified by strategically crafted corporate narratives, undermines the effectiveness of conventional textual analysis. We propose a novel multimodal framework for financial risk assessment that integrates textual sentiment with paralinguistic cues derived from executive vocal tract dynamics in earnings calls. Central to this framework is the Physics-Informed Acoustic Model (PIAM), which applies nonlinear acoustics to robustly extract emotional s...

ID: 2508.18653v1 cs.LG, cs.AI, cs.SD, eess.AS, 62P05, 68T0, I.2.7; J.4

arXiv PDF