📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 OWL: Geometry-Aware Spatial Reasoning for Audio Large Language Models

2025-10-02

Авторы:

Subrata Biswas, Mohammad Nur Hossain Khan, Bashima Islam

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Spatial reasoning is fundamental to auditory perception, yet current audio large language models (ALLMs) largely rely on unstructured binaural cues and single step inference. This limits both perceptual accuracy in direction and distance estimation and the capacity for interpretable reasoning. Recent work such as BAT demonstrates spatial QA with binaural audio, but its reliance on coarse categorical labels (left, right, up, down) and the absence of explicit geometric supervision constrain resolu...

ID: 2509.26140v1 cs.SD, cs.AI

arXiv PDF

📄 Representation-Based Data Quality Audits for Audio

2025-10-02

Авторы:

Alvaro Gonzalez-Jimenez, Fabian Gröger, Linda Wermelinger, Andrin Bürli, Iason Kastanis, Simone Lionetti, Marc Pouly

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Data quality issues such as off-topic samples, near duplicates, and label errors often limit the performance of audio-based systems. This paper addresses these issues by adapting SelfClean, a representation-to-rank data auditing framework, from the image to the audio domain. This approach leverages self-supervised audio representations to identify common data quality issues, creating ranked review lists that surface distinct issues within a single, unified process. The method is benchmarked on t...

ID: 2509.26291v1 cs.SD, cs.AI, cs.LG

arXiv PDF

📄 MUSE-Explainer: Counterfactual Explanations for Symbolic Music Graph Classification Models

2025-10-02

Авторы:

Baptiste Hilaire, Emmanouil Karystinaios, Gerhard Widmer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Interpretability is essential for deploying deep learning models in symbolic music analysis, yet most research emphasizes model performance over explanation. To address this, we introduce MUSE-Explainer, a new method that helps reveal how music Graph Neural Network models make decisions by providing clear, human-friendly explanations. Our approach generates counterfactual explanations by making small, meaningful changes to musical score graphs that alter a model's prediction while ensuring the r...

ID: 2509.26521v1 cs.SD, cs.AI

arXiv PDF

📄 ABC-Eval: Benchmarking Large Language Models on Symbolic Music Understanding and Instruction Following

2025-10-01

Авторы:

Jiahao Zhao, Yunjia Li, Wei Li, Kazuyoshi Yoshii

## Контекст Современные large language models (LLM) достигли впечатляющих результатов в обработке текстовых данных и генерации текста. Однако их потенциал в области знаний о музыкальной нотной записи и интеллектуальной обработки музыкальных символов остается значительно неизученным. Несмотря на то, что текстовые музыкальные символы (например, в формате ABC notation) широко используются в генерации музыки, их использование для решения задач понимания и принятия решений остается редким. Это приводит к значительной недостаточности в исследованиях, связанных с тестированием и реализацией моделей, которые могут обрабатывать такие символы. Для заполнения этой лакуны мы предлагаем ABC-Eval — первый открытой кодовой базы бенчмарка, призванного измерить способности текстовых LLM понимать и применять знания в условиях символьной музыки. ## Метод ABC-Eval представляет собой набор тестовых семплов, состоящий из 1086 задач, разделенных на 10 подзадач. Эти задачи относятся к различным уровням сложности — от базового разбора музыкальной синтаксической конструкции до распространенных сценариев, требующих сопоставления музыки с текстовым описанием. Мы изучали использование семи современных LLM для проверки их производительности в различных сценариях. Наша модель использует уникальный подход к оценке, который включает в себя проверку точности, относительной производительности и возможности моделей обрабатывать различные аспекты музыкальных символов. ## Результаты Наши эксперименты показали, что хотя LLM-модели демонстрируют высокий уровень производительности на общих задачах текстового понимания, они столкнулись с серьезными ограничениями при работе с символьной музыкой. Например, модели показали незначительные результаты при разборе сложных синтаксических структур и при применении музыкальных знаний в контексте дальнейших задач. Несмотря на это, результаты были достаточно стабильными в разных подзадачах, что демонстрирует надежность нашего бенчмарка и его применимость для дальнейших исследований. ## Значимость ABC-Eval открывает новые возможности для исследований в области музыкального понимания и текстового управдывания в текстах ABC notation. Он может использоваться для разработки моделей, которые обладают более высоким уровнем понимания музыкальных синтаксических конструкций и текстовых комманд. Этот бенчмарк не только может привести к улучшению моделей, но и может стать дополнительным инструментом для задач, требующих текстового понимания в контексте музыки. ## Выводы ABC-Eval представляет собой значительную добавку в область исследований по текстовым LLM в сфере музыкального понима

Annotation:

As large language models continue to develop, the feasibility and significance of text-based symbolic music tasks have become increasingly prominent. While symbolic music has been widely used in generation tasks, LLM capabilities in understanding and reasoning about symbolic music remain largely underexplored. To address this gap, we propose ABC-Eval, the first open-source benchmark dedicated to the understanding and instruction-following capabilities in text-based ABC notation scores. It compri...

ID: 2509.23350v1 cs.SD, cs.AI

arXiv PDF

📄 AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

2025-10-01

Авторы:

Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной для развития имитации естественного языка. Несмотря на то, что существуют многочисленные текстовые датасеты, предоставляющие синтезированные данные для обучения лингвистических моделей, удалось редко создавать высококачественные мультимодальные датасеты, которые были бы пригодны для развития ролевой игры по голосовому компоненту. Это возникает из-за сложности, связанной с гармоничным совпадением семантического контента и аудио-фонограммы. Таким образом, необходимо разрабатывать мощные мультимодальные датасеты, которые могли бы повысить качество выполнения таких задач. ## Метод Для решения этой проблемы мы предлагаем AudioRole, созданный как результат тщательной сборки датасета, включающего более 13 телесериалов, представляющих собой более 1 Килочаса аудио данных. Этот датасет имеет более 1 миллиона полностью синтезированных диалогов с выделенными спикерами и группировочными метаданными. Для того, чтобы оценить качество разработанного датасета, мы представили ARP-Eval, двухуровневый критерий, который учитывает как качество ответа, так и точность роли. ## Результаты В результате тестирования мы применили ARP-Eval к тренировочной модели GLM-4-Voice, которая была обучена на AudioRole. Модель, полученная после обучения, получила оценку Acoustic Personalization с 0.31, что значительно превосходит оригинальную GLM-4-Voice и даже модель MiniCPM-O-2.6, которая предназначена для ролевой игры в однокликовых сценариях. Также, ARP-Model показала Content Personalization с 0.36, что означает, что модель превзошла оригинальную модель на 38% в случае необученной модели и сохранила состояние с MiniCPM-O-2.6. ## Значимость Этот датасет может быть применен в многочисленных мультимодальных исследованиях, в том числе для развития ролевой игры по голосовому компоненту в крупных языковых моделях. Наша модель и датасет могут быть использованы для создания наборов данных, которые будут позволить тестированию новых моделей и повышения качества ролевой игры в крупных языковых моделях. ## Выводы Результаты нашего исследования показывают, что разработка высококачественных мультимодальных датасетов, таких как AudioRole, играет ключевую роль вузущем развитии ролевой игры в языковых моделях. В дальнейшем мы планируем расширить этот датасет, добавив более разнообразных аудио-фонограмм и синтезированных диалогов, чтобы предоставить еще более широкое применение в разработке моделей ролевой игры.

Annotation:

The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded di...

ID: 2509.23435v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Generalizable Speech Deepfake Detection via Information Bottleneck Enhanced Adversarial Alignment

2025-10-01

Авторы:

Pu Huang, Shouguang Wang, Siya Yao, Mengchu Zhou

## Контекст Современные технологии нейронной синтеза речи позволяют создавать реалистичные аудио-дыбофы, которые представляют серьезную угрозу безопасности. Однако аудио-дыбофы часто варьируются по способу синтеза, рекордеру, способу передачи и другим параметрам, что усложняет их обнаружение. Надежная детекция необходима для защиты от мошенничества, шпионажа и других вредоносных действий. Большинство существующих методов адаптируются только к конкретным видам дыбофов, что приводит к ограниченной обобщаемости. Мы предлагаем общеизучимую модель, которая отличается высокой универсальностью и точностью, способной обнаруживать аудио-дыбофы в различных условиях. ## Метод Мы предлагаем модель **Information Bottleneck enhanced Confidence-Aware Adversarial Network (IB-CAAN)**, которая объединяет несколько ключевых техник. **Confidence-guided adversarial alignment** выявляет и уменьшает специфичные для атаки артефакты без удаления важных объективных признаков. Эта техника позволяет модели ориентироваться только на существенные черты. **Information Bottleneck** уменьшает неинформативную вариативность, такую как голосовые характеристики и условия записи, чтобы сохранить трансферируемые признаки для обнаружения. Архитектура IB-CAAN состоит из нескольких слоев, которые взаимодействуют для обнаружения дыбофов, учитывая общие признаки в различных условиях. ## Результаты Мы проверили модель IB-CAAN на различных датасетах: ASVspoof 2019, ASVspoof 2021, ASVspoof 5 и In-the-Wild. На этих наборах данных IB-CAAN показала стабильно высокую точность, превосходя существующие методы. На ASVspoof 2019/2021 модель демонстрирует **F1-score** в районе **95%**, что значительно превышает базовые результаты. В In-the-Wild условиях IB-CAAN удалось выделить дыбофы с более высокой точностью по сравнению с другими сетями. Эти результаты показывают, что IB-CAAN является оптимальным выбором для обнаружения дыбофов в различных условиях. ## Значимость Модель IB-CAAN может применяться в различных областях, таких как безопасность систем голосовой идентификации, защита от мошенничества и обнаружение поддельных аудио. Универсальность IB-CAAN позволяет ей быть эффективной в различных сценариях, включая ситуации с многочисленными говорящими, разных каналами передачи и различными условиями записи. Такая модель может существенно улучшить уровень безопасности в цифровых системах, защищая пользователей от мошенничества, шпионажа и других вредоносных действий. ## Выводы Мы предложили модель IB-CAAN, которая стабильно превосходит существующие методы в обнаружении аудио-дыбофов. Результаты экспериментов пока

Annotation:

Neural speech synthesis techniques have enabled highly realistic speech deepfakes, posing major security risks. Speech deepfake detection is challenging due to distribution shifts across spoofing methods and variability in speakers, channels, and recording conditions. We explore learning shared discriminative features as a path to robust detection and propose Information Bottleneck enhanced Confidence-Aware Adversarial Network (IB-CAAN). Confidence-guided adversarial alignment adaptively suppres...

ID: 2509.23618v1 cs.SD, cs.AI

arXiv PDF

📄 AudioMoG: Guiding Audio Generation with Mixture-of-Guidance

2025-10-01

Авторы:

Junyou Wang, Zehua Chen, Binjie Yuan, Kaiwen Zheng, Chang Li, Yuxuan Jiang, Jun Zhu

#### Контекст Задачи генерации аудиоматериалов с помощью глубоких нейронных сетей, таких как текст-в-аудио (T2A) и видео-в-аудио (V2A), набирают все большую популярность в науке и технологиях. Однако существуют значительные проблемы, связанные с равновесием между качеством и разнообразием генерируемых аудио. На данный момент большинство методов аудиогенерации ориентируются на одну конкретную стратегию, например, на классификатор-свободную гидацию (CFG), которая убеждает модель сохранить аллигацию с условием задачи. Это позволяет улучшить достоверность генерируемых материалов, но часто приводит к потере разнообразия. Решение этой проблемы является актуальным в связи с постусловиями для создания более универсальных и эффективных систем генерации аудио. #### Метод Мы предлагаем **AudioMoG** — многогранный фреймворк, основанный на композиции различных методов гидации для аудиогенерации. Фреймворк может объединять различные стратегии, такие как классификатор-свободное гидацирование (CFG) и автогидация (AG), чтобы максимально эффективно использовать их достоинства. Если необходимо, модель может отказаться от части моделей, сохраняя универсальность. Также внутри AudioMoG включены сложные механизмы, например, управление разреженным шумом и волновой реконструкцией, которые позволяют лучше контролировать генерируемый аудиоматериал. Благодаря этому, модель может обеспечивать высокое качество и разнообразие аудио без значительного повышения сложности реализации. #### Результаты Мы проверили AudioMoG на практике, визуализировав результаты на различных типах данных, включая текстовую генерацию аудио (T2A), видео-в-аудио (V2A), текст-в-музыку (T2M) и даже генерацию изображений. Наши эксперименты показали, что AudioMoG показывает значительное улучшение по сравнению с одной гидацией на всех метриках, включая точность генерации, разнообразие звуков и скорость вывода. Например, в текстовой генерации аудио, мы получили значительно более высокую качественную аудиогенерацию при заданной скорости вывода. Также AudioMoG показал свои преимущества в генерации музыкальных треков и изображений. Это свидетельствует о том, что наш фреймворк позволяет получать высококачественные результаты на разных типах генеративных задач, не уменьшая эффективность вычислений. #### Значимость Мы видим широкие перспективы применения AudioMoG в сферах, где необходимо высокое качество и разнообразие генерируемого аудио. Это может включать в себя разрабо

Annotation:

Guidance methods have demonstrated significant improvements in cross-modal audio generation, including text-to-audio (T2A) and video-to-audio (V2A) generation. The popularly adopted method, classifier-free guidance (CFG), steers generation by emphasizing condition alignment, enhancing fidelity but often at the cost of diversity. Recently, autoguidance (AG) has been explored for audio generation, encouraging the sampling to faithfully reconstruct the target distribution and showing increased dive...

ID: 2509.23727v1 cs.SD, cs.AI

arXiv PDF

📄 Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription

2025-10-01

Авторы:

Wei Zeng, Junchuan Zhao, Ye Wang

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключевым направлением, направленным на понимание и анализ музыкальных данных. Одним из фундаментальных задач в этой области является **экспрессивное исполнение музыки (EPR, Expressive Performance Rendering)**, которое заключается в генерации выразительных исполнений из символических музыкальных нот. Другим задачей является **автоматическая нотная транскрипция (APT, Automatic Piano Transcription)**, направленная на восстановление символических нотных транскрипций из аудиозаписей. Несмотря на то, что эти задачи являются взаимосвязанными и широко изучаются независимо, лишь недавно началась работа над их объединенным решением. Недостаток в едином решении приводит к усложнению обучения модели и снижению точности результатов. Наша мотивация заключается в создании **универсальной системы**, которая могла бы объединить эти задачи, а также обеспечить управление выразительными стилями и эффективную стилистическую передачу. #### Метод Мы предлагаем **универсальный трансформер-ориентированный подход**, который моделирует EPR и APT в рамках одного фреймворка. Наша модель основывается на **transformer-based sequence-to-sequence architecture** (трансформер-архитектура с последовательной преобразованием), которая обеспечивает прямое преобразование между двумя представлениями: **символических нот** и **аудиозаписей**. Чтобы **разделить стиль и содержание** (content-style disentanglement), архитектура разделяет доробление на две ключевые составляющие: 1. **Note-level Score Content**: локальное содержание и отношение между нотами, которое определяет звучание. 2. **Global Performance Style**: глобальный стиль исполнения, который определяет эмоциональный и художественный характер музыки. **Особенности метода:** - Мы не требуем тонкой нотной аллигации (fine-grained note alignment), что упрощает обучение. - Для управления стилем мы используем **дробление (diffusion-based module)**, которая генерирует стилистические эмбеддинги из нотных данных. - Модель может обучаться как на **парных** (paired), так и на **непарных** (unpaired) данных. #### Результаты Мы провели эксперименты на различных данных, включая **семантически близкие и различные стили музыки**. - **Оценки точности APT:** Модель показала высокую точность восстановления нотных транскрипций, даже при отсутствии тонкой нотной аллигации. - **Оценки EPR:** Мы провели эксперименты с разными выразительными стилями и показали, что модель эффективно контролирует стиль. - **Стилистическая передача:** Мы проверили возможность контроля выразительных стилей и показали, что модель отлично справляется с требованиями трансформации стиля.

Annotation:

Expressive performance rendering (EPR) and automatic piano transcription (APT) are fundamental yet inverse tasks in music information retrieval: EPR generates expressive performances from symbolic scores, while APT recovers scores from performances. Despite their dual nature, prior work has addressed them independently. In this paper we propose a unified framework that jointly models EPR and APT by disentangling note-level score content and global performance style representations from both pair...

ID: 2509.23878v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 An Agent-Based Framework for Automated Higher-Voice Harmony Generation

2025-10-01

Авторы:

Nia D'Souza Ganapathy, Arul Selvamani Shaja

## Контекст Генерация музыкально координированной и эстетически привлекательной гармонии остается значительной проблемой в области алгоритмической композиции. Несмотря на развитие музыкальных систем, которые создают гармоничные структуры, существуют трудности в создании гармоний, которые были бы полностью соответствовали контексту и потребностям композитора. Эти трудности порождаются тем, что многие существующие системы либо недостаточно гибки, либо не в состоянии эффективно обрабатывать разнообразные стили и композиционные задачи. Это создает необходимость в разработке новых подходов, которые могут обеспечить более сложную и индивидуальную гармоничную текстуру. ## Метод Разработанное решение представляет собой Agentic AI-enabled Higher Harmony Music Generator — мультиагентную систему, которая делегирует тесных задач музыкальной генерации разным специализированным агентам. Фреймворк включает четыре основных агента: 1. **Music-Ingestion Agent**, который парсит и стандартизирует входные музыкальные системы. 2. **Chord-Knowledge Agent**, на основе модели Chord-Former (Transformer), обрабатывает и анализирует сложные символы аккордов. 3. **Harmony-Generation Agent**, объединяющий Harmony-GPT и RNN для создания гармоничной линии, которая дополняет мелодию новыми звуками. 4. **Audio-Production Agent**, использующий GAN-based Symbolic-to-Audio Synthesizer для преобразования символической гармонии в аудио выход. Эта модульная система позволяет обеспечить высокую гибкость, контролируемый процесс гармоничной композиции и высококачественный аудио-синтез. ## Результаты Использовав интеллектуальные тестовые треки и музыкальные системы, система была протестирована на способности генерировать гармоничные композиции, которые соответствуют контексту мелодий. Эксперименты показали, что модель выдает гармоничные структуры, которые являются мелодически и ритмически устойчивыми, и имеют сложность, аналогичную гармоничным работам человеческих композиторов. Важно отметить, что система показала высокую точность в интерпретации сложных аккордов и высокую быстродушие при генерации аудио-контента. ## Значимость Полученная система может быть применена в различных областях, включая алгоритмическую композицию, генерацию музыки для видео, аудио-визуальных произведений и интерактивные музыкальные инструменты. Основное преимущество заключается в том, что система не только эффективно обрабатывает входные данные, но и позволяет генерировать музыкальные композиции с высоким уровнем комплексности и художественного содержания. Это может вести к новым возможностям в сфере музыки, в том

Annotation:

The generation of musically coherent and aesthetically pleasing harmony remains a significant challenge in the field of algorithmic composition. This paper introduces an innovative Agentic AI-enabled Higher Harmony Music Generator, a multi-agent system designed to create harmony in a collaborative and modular fashion. Our framework comprises four specialized agents: a Music-Ingestion Agent for parsing and standardizing input musical scores; a Chord-Knowledge Agent, powered by a Chord-Former (Tra...

ID: 2509.24463v1 cs.SD, cs.AI

arXiv PDF

📄 Sparse Autoencoders Make Audio Foundation Models more Explainable

2025-10-01

Авторы:

Théo Mariotte, Martin Lebourdais, Antonio Almudévar, Marie Tahon, Alfonso Ortega, Nicolas Dugué

#### Контекст Аудио-предварительно обученные модели широко используются для решения задач в области обработки речи, детекции звуковых событий и исследования музыкальной информации. Однако, представления, извлеченные этими моделями, часто остаются непонятными. Анализ таких представлений ограничивается линейным пробным подходом, что не позволяет получить полное представление о том, что эти модели действительно "видят" в звуковых данных. Это приводит к проблемам в их использовании для задач, требующих транспарентности и объяснимости решений. Наша мотивация состоит в том, чтобы раскрыть эти представления, обеспечив более четкое понимание процесса обучения без надзора и улучшить понимание факторов, которые вкладываются в звуковые представления. #### Метод Мы предлагаем использовать **Sparse Autoencoders (SAEs)** для анализа представлений, извлеченных аудио-предварительно обученными моделями. SAEs — это архитектуры нейронных сетей, которые научились сокращать размерность входных данных, сохраняя основные черты информации. В нашем случае, мы используем SAEs для декомпозиции представлений, извлеченных аудио-предварительно обученными моделями. Эти SAEs позволяют идентифицировать важные факторы, включенные в представления, и дают возможность "разглядеть" то, что именно сеть учится. Мы также применяем этот подход к классификации техники пени, чтобы демонстрировать пользу SAEs в практических сценариях. #### Результаты Мы проводим эксперименты с использованием различных аудио-предварительно обученных моделей, таких как Wav2Vec и HuBERT. Мы показываем, что SAEs могут декомпозировать что-то, что модели "видят" в звуковых данных, в том числе влияние таких факторов, как интонация, ритм и структура пение. Эти результаты показывают, что SAEs действительно могут улучшить четкость и понимание того, что происходит внутри аудио-предварительно обученных моделей. Мы также показываем, что SAEs могут улучшить разделяемость важных вокальных атрибутов, что делает их эффективным инструментом для разбора звуковых представлений. #### Значимость Мы видим применение этого подхода во многих областях, включая классификацию звуковых событий, обработку речи и стилизацию музыки. Однако, главное преимущество SAEs заключается в том, что они позволяют получить более транспарентные инсайты из аудио-предварительно обученных моделей, что в свою очередь может сделать такие модели более доступными для применения в реальной жизни. Эта транспарентность не только улучшает понимание моделей, но и может помочь в разработке более эффективных моделей в будущем. #### Выводы Мы демонстрируем, что SAEs могут с

Annotation:

Audio pretrained models are widely employed to solve various tasks in speech processing, sound event detection, or music information retrieval. However, the representations learned by these models are unclear, and their analysis mainly restricts to linear probing of the hidden representations. In this work, we explore the use of Sparse Autoencoders (SAEs) to analyze the hidden representations of pretrained models, focusing on a case study in singing technique classification. We first demonstrate...

ID: 2509.24793v1 cs.SD, cs.AI, cs.LG, eess.AS

arXiv PDF

Показано 121 - 130 из 274 записей