📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Pianist Transformer: Towards Expressive Piano Performance Rendering via Scalable Self-Supervised Pre-Training

2025-12-04

Авторы:

Hong-Jie You, Jie-Jing Shao, Xiao-Wen Yang, Lin-Han Jia, Lan-Zhe Guo, Yu-Feng Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing methods for expressive music performance rendering rely on supervised learning over small labeled datasets, which limits scaling of both data volume and model size, despite the availability of vast unlabeled music, as in vision and language. To address this gap, we introduce Pianist Transformer, with four key contributions: 1) a unified Musical Instrument Digital Interface (MIDI) data representation for learning the shared principles of musical structure and expression without explicit ...

ID: 2512.02652v1 cs.SD, cs.AI, cs.MM

arXiv PDF

📄 Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

2025-10-30

Авторы:

Kang Zhang, Trung X. Pham, Suyeon Lee, Axi Niu, Arda Senocak, Joon Son Chung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present MGAudio, a novel flow-based framework for open-domain video-to-audio generation, which introduces model-guided dual-role alignment as a central design principle. Unlike prior approaches that rely on classifier-based or classifier-free guidance, MGAudio enables the generative model to guide itself through a dedicated training objective designed for video-conditioned audio generation. The framework integrates three main components: (1) a scalable flow-based Transformer model, (2) a dual...

ID: 2510.24103v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 MotionBeat: Motion-Aligned Music Representation via Embodied Contrastive Learning and Bar-Equivariant Contact-Aware Encoding

2025-10-17

Авторы:

Xuanchen Wang, Heng Wang, Weidong Cai

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Music is both an auditory and an embodied phenomenon, closely linked to human motion and naturally expressed through dance. However, most existing audio representations neglect this embodied dimension, limiting their ability to capture rhythmic and structural cues that drive movement. We propose MotionBeat, a framework for motion-aligned music representation learning. MotionBeat is trained with two newly proposed objectives: the Embodied Contrastive Loss (ECL), an enhanced InfoNCE formulation wi...

ID: 2510.13244v1 cs.SD, cs.AI, cs.MM

arXiv PDF

📄 AUREXA-SE: Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement

2025-10-09

Авторы:

M. Sajid, Deepanshu Gupta, Yash Modi, Sanskriti Jain, Harshith Jai Surya Ganji, A. Rahaman, Harshvardhan Choudhary, Nasir Saleem, Amir Hussain, M. Tanveer

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In this paper, we propose AUREXA-SE (Audio-Visual Unified Representation Exchange Architecture with Cross-Attention and Squeezeformer for Speech Enhancement), a progressive bimodal framework tailored for audio-visual speech enhancement (AVSE). AUREXA-SE jointly leverages raw audio waveforms and visual cues by employing a U-Net-based 1D convolutional encoder for audio and a Swin Transformer V2 for efficient and expressive visual feature extraction. Central to the architecture is a novel bidirecti...

ID: 2510.05295v1 cs.SD, cs.AI, cs.MM

arXiv PDF

📄 AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

2025-10-01

Авторы:

Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной для развития имитации естественного языка. Несмотря на то, что существуют многочисленные текстовые датасеты, предоставляющие синтезированные данные для обучения лингвистических моделей, удалось редко создавать высококачественные мультимодальные датасеты, которые были бы пригодны для развития ролевой игры по голосовому компоненту. Это возникает из-за сложности, связанной с гармоничным совпадением семантического контента и аудио-фонограммы. Таким образом, необходимо разрабатывать мощные мультимодальные датасеты, которые могли бы повысить качество выполнения таких задач. ## Метод Для решения этой проблемы мы предлагаем AudioRole, созданный как результат тщательной сборки датасета, включающего более 13 телесериалов, представляющих собой более 1 Килочаса аудио данных. Этот датасет имеет более 1 миллиона полностью синтезированных диалогов с выделенными спикерами и группировочными метаданными. Для того, чтобы оценить качество разработанного датасета, мы представили ARP-Eval, двухуровневый критерий, который учитывает как качество ответа, так и точность роли. ## Результаты В результате тестирования мы применили ARP-Eval к тренировочной модели GLM-4-Voice, которая была обучена на AudioRole. Модель, полученная после обучения, получила оценку Acoustic Personalization с 0.31, что значительно превосходит оригинальную GLM-4-Voice и даже модель MiniCPM-O-2.6, которая предназначена для ролевой игры в однокликовых сценариях. Также, ARP-Model показала Content Personalization с 0.36, что означает, что модель превзошла оригинальную модель на 38% в случае необученной модели и сохранила состояние с MiniCPM-O-2.6. ## Значимость Этот датасет может быть применен в многочисленных мультимодальных исследованиях, в том числе для развития ролевой игры по голосовому компоненту в крупных языковых моделях. Наша модель и датасет могут быть использованы для создания наборов данных, которые будут позволить тестированию новых моделей и повышения качества ролевой игры в крупных языковых моделях. ## Выводы Результаты нашего исследования показывают, что разработка высококачественных мультимодальных датасетов, таких как AudioRole, играет ключевую роль вузущем развитии ролевой игры в языковых моделях. В дальнейшем мы планируем расширить этот датасет, добавив более разнообразных аудио-фонограмм и синтезированных диалогов, чтобы предоставить еще более широкое применение в разработке моделей ролевой игры.

Annotation:

The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded di...

ID: 2509.23435v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription

2025-10-01

Авторы:

Wei Zeng, Junchuan Zhao, Ye Wang

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключевым направлением, направленным на понимание и анализ музыкальных данных. Одним из фундаментальных задач в этой области является **экспрессивное исполнение музыки (EPR, Expressive Performance Rendering)**, которое заключается в генерации выразительных исполнений из символических музыкальных нот. Другим задачей является **автоматическая нотная транскрипция (APT, Automatic Piano Transcription)**, направленная на восстановление символических нотных транскрипций из аудиозаписей. Несмотря на то, что эти задачи являются взаимосвязанными и широко изучаются независимо, лишь недавно началась работа над их объединенным решением. Недостаток в едином решении приводит к усложнению обучения модели и снижению точности результатов. Наша мотивация заключается в создании **универсальной системы**, которая могла бы объединить эти задачи, а также обеспечить управление выразительными стилями и эффективную стилистическую передачу. #### Метод Мы предлагаем **универсальный трансформер-ориентированный подход**, который моделирует EPR и APT в рамках одного фреймворка. Наша модель основывается на **transformer-based sequence-to-sequence architecture** (трансформер-архитектура с последовательной преобразованием), которая обеспечивает прямое преобразование между двумя представлениями: **символических нот** и **аудиозаписей**. Чтобы **разделить стиль и содержание** (content-style disentanglement), архитектура разделяет доробление на две ключевые составляющие: 1. **Note-level Score Content**: локальное содержание и отношение между нотами, которое определяет звучание. 2. **Global Performance Style**: глобальный стиль исполнения, который определяет эмоциональный и художественный характер музыки. **Особенности метода:** - Мы не требуем тонкой нотной аллигации (fine-grained note alignment), что упрощает обучение. - Для управления стилем мы используем **дробление (diffusion-based module)**, которая генерирует стилистические эмбеддинги из нотных данных. - Модель может обучаться как на **парных** (paired), так и на **непарных** (unpaired) данных. #### Результаты Мы провели эксперименты на различных данных, включая **семантически близкие и различные стили музыки**. - **Оценки точности APT:** Модель показала высокую точность восстановления нотных транскрипций, даже при отсутствии тонкой нотной аллигации. - **Оценки EPR:** Мы провели эксперименты с разными выразительными стилями и показали, что модель эффективно контролирует стиль. - **Стилистическая передача:** Мы проверили возможность контроля выразительных стилей и показали, что модель отлично справляется с требованиями трансформации стиля.

Annotation:

Expressive performance rendering (EPR) and automatic piano transcription (APT) are fundamental yet inverse tasks in music information retrieval: EPR generates expressive performances from symbolic scores, while APT recovers scores from performances. Despite their dual nature, prior work has addressed them independently. In this paper we propose a unified framework that jointly models EPR and APT by disentangling note-level score content and global performance style representations from both pair...

ID: 2509.23878v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

2025-09-30

Авторы:

Zijian Zhao, Dian Jin, Zijing Zhou

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерирования, которая находит применение в играх, рекламе и многомодальном искусстве, пользуется возрастающим интересом. Однако существующие методы часто скрывают процесс генерирования, что затрудняет понимание результатов пользователями. Эмоциональное обозначение, хотя и используется в некоторых решениях, ограничивается одним аспектом искусства. Большинство методов требуют сложных вычислений и больших объемов данных для обучения, что ограничивает их доступность для обычных пользователей. Наша цель — разработать первый VLM-подход (Vision Language Model) с высокой интерпретируемостью и минимальными требованиями к вычислительным ресурсам. ########################## ## Метод ########################## Мы предлагаем новую модель I2M, основанную на VLM, которая использует ABC-нотацию для связи текстовых и музыкальных модолей. Multi-modal Retrieval-Augmented Generation (RAG) и себе-рефинементные методы позволяют модели генерировать музыку на основе естественного языка без дополнительного обучения. Мы также предоставляем текстовые и изображательные пояснения для процесса генерирования, используя генерируемые мотивации и карты внимательности модели. Это позволяет пользователям понять, как и почему была создана музыка. ########################## ## Результаты ########################## Мы провести эксперименты, используя разные данные и меры качества. Наш метод показал лучшие результаты в музыкальном качестве и согласованности генерирования музыки и изображений. Это подтверждает эффективность нашего подхода в представлении музыки через естественный язык и создании более понятных результатов. ########################## ## Значимость ########################## Наша модель может применяться в многообразных областях, таких как игровой индустрия, реклама и создание многомодального искусства. Она обеспечивает интерпретируемую альтернативу сложным методам, сокращая требования к вычислительным ресурсам и данным. Это открывает новые возможности для обычных пользователей и творческих профессионалов. ########################## ## Выводы ########################## Мы представили первый VLM-подход для I2M с высокой интерпретируемостью и минимальными ресурсами. Наши результаты показали значительные улучшения в качестве генерирования и понимании результатов. Мы планируем расширить наши исследования в области творческих технологий, ориентированных на пользовательский опыт.

Annotation:

Recently, Image-to-Music (I2M) generation has garnered significant attention, with potential applications in fields such as gaming, advertising, and multi-modal art creation. However, due to the ambiguous and subjective nature of I2M tasks, most end-to-end methods lack interpretability, leaving users puzzled about the generation results. Even methods based on emotion mapping face controversy, as emotion represents only a singular aspect of art. Additionally, most learning-based methods require s...

ID: 2509.22378v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Emotion-Aware Speech Generation with Character-Specific Voices for Comics

2025-09-22

Авторы:

Zhiwen Qian, Jinhua Liang, Huan Zhang

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными характеристиками, в том числе их эмоциональным состоянием. Однако существующие методы генерации речи для персонажей комиксов обычно не учитывают эмоциональный аспект или не достаточно учитывают контекст. Это приводит к люмпенному генерированию речи и неубедительному представлению персонажей. Мотивация исследования заключается в разработке метода, который бы автоматически создавал эмоционально окрашенную речь, которая была привязана к конкретному персонажу и его эмоциональному состоянию, а также была адаптирована к контексту сюжета. ## Метод Разработанная система представляет собой интегрированный подход к генерации речи, который берет в качестве входных данных целые тома комиксов и выводит речь, привязанную к каждому персонажу и его эмоциональному состоянию. Основная модель состоит из трех компонентов: модуля обработки изображений, модели текстового распознавания и модели тексто-речи. Модуль обработки изображений выполняет детекцию персонажей, распознавание текста на изображениях и определение эмоционального тона. Модель текстового распознавания использует языковую модель, интегрируя информацию из визуальных ресурсов с эволюцией сюжета. Тексто-речевая модель синтезирует речь, используя специфичные для каждого персонажа и эмоции профили голоса. Эта система позволяет автоматически генерировать речь, соответствующую эмоциональному состоянию каждого персонажа, что вносит реализм и жизневую атмосферу в комиксы. ## Результаты В ходе экспериментов было протестировано набор комиксов с различными стилями и героями. Модель была обучена на большом количестве текстов и визуальных данных с разными эмоциональными состояниями персонажей. Эксперименты показали, что система способна точно распознавать персонажей и их эмоциональный тон, а также генерировать речь, которая соответствует стилю каждого героя и его эмоциональному состоянию. Особое внимание было уделено сравнению с предыдущими методами, и данное решение показало значительное улучшение в точности распознавания эмоций и генерировании речи, которая звучит более натуральной и символичной. ## Значимость Разработанный подход может быть применен в различных областях, включая компьютерную графику, анимацию и игровой индустрию. Он позволяет автоматически генерировать эмоционально окрашенную речь, что имеет важное значение для создания интерактивных и интерактивных систем. Это предоставляет новые возможност

Annotation:

This paper presents an end-to-end pipeline for generating character-specific, emotion-aware speech from comics. The proposed system takes full comic volumes as input and produces speech aligned with each character's dialogue and emotional state. An image processing module performs character detection, text recognition, and emotion intensity recognition. A large language model performs dialogue attribution and emotion analysis by integrating visual information with the evolving plot context. Spee...

ID: 2509.15253v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Multi-level SSL Feature Gating for Audio Deepfake Detection

2025-09-05

Авторы:

Hoan My Tran, Damien Lolive, Aghilas Sini, Arnaud Delhay, Pierre-François Marteau, David Guennec

#### Контекст Современные технологии глубокого подделывания речи (deepfake) на основе аудио, основанные на развитии генерирующего искусственного интеллекта, позволяют создавать естественно синтезированный голос, который трудно отличить от реального. Эти технологии имеют большое потенциальное применение в области инноваций и улучшения жизни, но одновременно представляют серьезную угрозу в сферах финансов, безопасности и правопорядка. Несанкционированное использование таких технологий может привести к мошенничеству, краже личностных данных и воровству идентификационными данными. Несмотря на развитие методов обнаружения deepfake, существуют проблемы с общим применением моделей к неизвестным атакам и языкам. Мы предлагаем новую архитектуру, основанную на механизме управления признаками (gating mechanism), чтобы улучшить универсальность и точность обнаружения deepfake. #### Метод Предлагаемая модель включает в себя несколько слоёв, адаптированных для обнаружения deepfake-аудио. В качестве фронт-энда используется модель XLS-R, которая эффективно извлекает признаки из аудиосигнала. Далее, мы развиваем уникальный механизм управления признаками, используя Multi-kernel gated Convolution (MultiConv), позволяющий охватить как местные, так и глобальные характеристики речи. Наша модель также включает в себя центрированный метрический анализ (Centered Kernel Alignment, CKA), который улучшает локальное и глобальное разделение признаков. Этот метод позволяет каждому слою из MultiConv получать более разнообразные и точные представления речи. Благодаря этому, модель становится более высшеуровневой и универсальной в детекции различных deepfake-атак. #### Результаты Мы провели эксперименты на нескольких бенчмарк-коллекциях, включая валидные данные для обучения и тестирования. Наши результаты показывают, что модель превосходит текущие решения в области deepfake-аудио, удлиняя ценность её применения в реальных условиях. Мы также проверили нашу модель на многоязычных данных, чтобы продемонстрировать её генерализуемость и устойчивость к неизвестным атакам. Результаты показали, что наши достижения значительно превосходят остальные модели, которые были сравнивались в этих условиях. Это означает, что наш подход может быть эффективно применён для обнаружения широкого спектра deepfake-атак. #### Значимость Модель может быть применена в различных областях, включая безопасность информации, мониторинг безопасности, финансы и правопорядок. Она предлагает более высокую точность и генерализуемость по сравнению с предыдущими моделями. Одним из ключевых преимуществ является повышенная ценность обнаружения deepfake в многоя

Annotation:

Recent advancements in generative AI, particularly in speech synthesis, have enabled the generation of highly natural-sounding synthetic speech that closely mimics human voices. While these innovations hold promise for applications like assistive technologies, they also pose significant risks, including misuse for fraudulent activities, identity theft, and security threats. Current research on spoofing detection countermeasures remains limited by generalization to unseen deepfake attacks and lan...

ID: 2509.03409v1 cs.SD, cs.AI, cs.MM, I.2.7

arXiv PDF

📄 Amadeus: Autoregressive Model with Bidirectional Attribute Modelling for Symbolic Music

2025-08-30

Авторы:

Hongju Su, Ke Li, Lan Yang, Honggang Zhang, Yi-Zhe Song

#### Контекст Современные модели генерации символьной музыки, такие как авторегрессионные и иерархические авторегрессионные архитектуры, основываются на моделировании символьной музыки как последовательности атрибутов токенов с управляющими зависимостями в одном направлении. Это предположение о взаимосвязи атрибутов нот лежит в основе многих моделей, но не всегда соответствует реальности. Наблюдается, что меняя начальный атрибут в модели, результаты остаются схожи, что указывает на то, что атрибуты нот являются скорее параллельными и неупорядоченными наборами, чем последовательностью. В этом контексте возникает потребность в модели, которая учитывает эти параллельные атрибуты и лучше адаптируется к характеристикам музыки. #### Метод Мы предлагаем Amadeus — новую модель с двухуровневой архитектурой. В первом уровне используется авторегрессионная модель для генерации последовательностей нот, а во втором — бидирекциональная дискретная модель размывания для атрибутов нот. Это позволяет учитывать параллельные зависимости между атрибутами. Для улучшения точности и выразительности вводится стратегия **Music Latent Space Discriminability Enhancement** (MLSDES), которая включает в себя контрастное обучение для усиления дискриминативности музыкальных представлений. Также используется **Conditional Information Enhancement Module** (CIEM), усиливающее представление нотных векторов с помощью аттенционных механизмов. Эти модули обеспечивают более точный декодирований нот и повышают качество получаемой музыки. #### Результаты Мы проводили эксперименты на задачах несвязанной и условной генерации музыки. Amadeus показал значительные преимущества по сравнению со существующими моделями по критериям качества и скорости обучения. Например, она ускоряет обучение в 4 раза по сравнению с современными моделями и достигает лучших результатов по метрикам, таким как BLEU-N и METEOR. Эксперименты показали, что модель сохраняет высокий уровень детализации и точности в генерации, даже при изменении начальных атрибутов. #### Значимость Amadeus открывает новые возможности в области генерации музыкальных композиций. Ее можно применять для создания музыки с гибкими условиями, включая текстовую контрольную структуру, и для поиска новых стилей и структур музыкальных форм. Основное преимущество заключается в том, что Amadeus лучше адаптируется к неупорядоченным атрибутам музыки и увеличивает точность и эффективность генерации. Это делает модель полезной не только для профессионалов в области музыкальных технологий, но и для широкого круга пользователей, включая музыкантов и композиторов. #### Вывод

Annotation:

Existing state-of-the-art symbolic music generation models predominantly adopt autoregressive or hierarchical autoregressive architectures, modelling symbolic music as a sequence of attribute tokens with unidirectional temporal dependencies, under the assumption of a fixed, strict dependency structure among these attributes. However, we observe that using different attributes as the initial token in these models leads to comparable performance. This suggests that the attributes of a musical note...

ID: 2508.20665v1 cs.SD, cs.AI, cs.MM

arXiv PDF

Показано 1 - 10 из 11 записей