📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Model-Guided Dual-Role Alignment for High-Fidelity Open-Domain Video-to-Audio Generation

2025-10-30

Авторы:

Kang Zhang, Trung X. Pham, Suyeon Lee, Axi Niu, Arda Senocak, Joon Son Chung

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present MGAudio, a novel flow-based framework for open-domain video-to-audio generation, which introduces model-guided dual-role alignment as a central design principle. Unlike prior approaches that rely on classifier-based or classifier-free guidance, MGAudio enables the generative model to guide itself through a dedicated training objective designed for video-conditioned audio generation. The framework integrates three main components: (1) a scalable flow-based Transformer model, (2) a dual...

ID: 2510.24103v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 AudioRole: An Audio Dataset for Character Role-Playing in Large Language Models

2025-10-01

Авторы:

Wenyu Li, Xiaoqi Jiao, Yi Chang, Guangyan Zhang, Yiwen Guo

## Контекст Область исследования, связанная с выработкой ролевой игры в крупных языковых моделях (LLMs), является важной для развития имитации естественного языка. Несмотря на то, что существуют многочисленные текстовые датасеты, предоставляющие синтезированные данные для обучения лингвистических моделей, удалось редко создавать высококачественные мультимодальные датасеты, которые были бы пригодны для развития ролевой игры по голосовому компоненту. Это возникает из-за сложности, связанной с гармоничным совпадением семантического контента и аудио-фонограммы. Таким образом, необходимо разрабатывать мощные мультимодальные датасеты, которые могли бы повысить качество выполнения таких задач. ## Метод Для решения этой проблемы мы предлагаем AudioRole, созданный как результат тщательной сборки датасета, включающего более 13 телесериалов, представляющих собой более 1 Килочаса аудио данных. Этот датасет имеет более 1 миллиона полностью синтезированных диалогов с выделенными спикерами и группировочными метаданными. Для того, чтобы оценить качество разработанного датасета, мы представили ARP-Eval, двухуровневый критерий, который учитывает как качество ответа, так и точность роли. ## Результаты В результате тестирования мы применили ARP-Eval к тренировочной модели GLM-4-Voice, которая была обучена на AudioRole. Модель, полученная после обучения, получила оценку Acoustic Personalization с 0.31, что значительно превосходит оригинальную GLM-4-Voice и даже модель MiniCPM-O-2.6, которая предназначена для ролевой игры в однокликовых сценариях. Также, ARP-Model показала Content Personalization с 0.36, что означает, что модель превзошла оригинальную модель на 38% в случае необученной модели и сохранила состояние с MiniCPM-O-2.6. ## Значимость Этот датасет может быть применен в многочисленных мультимодальных исследованиях, в том числе для развития ролевой игры по голосовому компоненту в крупных языковых моделях. Наша модель и датасет могут быть использованы для создания наборов данных, которые будут позволить тестированию новых моделей и повышения качества ролевой игры в крупных языковых моделях. ## Выводы Результаты нашего исследования показывают, что разработка высококачественных мультимодальных датасетов, таких как AudioRole, играет ключевую роль вузущем развитии ролевой игры в языковых моделях. В дальнейшем мы планируем расширить этот датасет, добавив более разнообразных аудио-фонограмм и синтезированных диалогов, чтобы предоставить еще более широкое применение в разработке моделей ролевой игры.

Annotation:

The creation of high-quality multimodal datasets remains fundamental for advancing role-playing capabilities in large language models (LLMs). While existing works predominantly focus on text-based persona simulation, Audio Role-Playing (ARP) presents unique challenges due to the need for synchronized alignment of semantic content and vocal characteristics. To address this gap, we propose AudioRole, a meticulously curated dataset from 13 TV series spanning 1K+ hours with 1M+ character-grounded di...

ID: 2509.23435v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Disentangling Score Content and Performance Style for Joint Piano Rendering and Transcription

2025-10-01

Авторы:

Wei Zeng, Junchuan Zhao, Ye Wang

#### Контекст Изучение музыкальных процессов в области музыкального информационного восстанования (MIR) является ключевым направлением, направленным на понимание и анализ музыкальных данных. Одним из фундаментальных задач в этой области является **экспрессивное исполнение музыки (EPR, Expressive Performance Rendering)**, которое заключается в генерации выразительных исполнений из символических музыкальных нот. Другим задачей является **автоматическая нотная транскрипция (APT, Automatic Piano Transcription)**, направленная на восстановление символических нотных транскрипций из аудиозаписей. Несмотря на то, что эти задачи являются взаимосвязанными и широко изучаются независимо, лишь недавно началась работа над их объединенным решением. Недостаток в едином решении приводит к усложнению обучения модели и снижению точности результатов. Наша мотивация заключается в создании **универсальной системы**, которая могла бы объединить эти задачи, а также обеспечить управление выразительными стилями и эффективную стилистическую передачу. #### Метод Мы предлагаем **универсальный трансформер-ориентированный подход**, который моделирует EPR и APT в рамках одного фреймворка. Наша модель основывается на **transformer-based sequence-to-sequence architecture** (трансформер-архитектура с последовательной преобразованием), которая обеспечивает прямое преобразование между двумя представлениями: **символических нот** и **аудиозаписей**. Чтобы **разделить стиль и содержание** (content-style disentanglement), архитектура разделяет доробление на две ключевые составляющие: 1. **Note-level Score Content**: локальное содержание и отношение между нотами, которое определяет звучание. 2. **Global Performance Style**: глобальный стиль исполнения, который определяет эмоциональный и художественный характер музыки. **Особенности метода:** - Мы не требуем тонкой нотной аллигации (fine-grained note alignment), что упрощает обучение. - Для управления стилем мы используем **дробление (diffusion-based module)**, которая генерирует стилистические эмбеддинги из нотных данных. - Модель может обучаться как на **парных** (paired), так и на **непарных** (unpaired) данных. #### Результаты Мы провели эксперименты на различных данных, включая **семантически близкие и различные стили музыки**. - **Оценки точности APT:** Модель показала высокую точность восстановления нотных транскрипций, даже при отсутствии тонкой нотной аллигации. - **Оценки EPR:** Мы провели эксперименты с разными выразительными стилями и показали, что модель эффективно контролирует стиль. - **Стилистическая передача:** Мы проверили возможность контроля выразительных стилей и показали, что модель отлично справляется с требованиями трансформации стиля.

Annotation:

Expressive performance rendering (EPR) and automatic piano transcription (APT) are fundamental yet inverse tasks in music information retrieval: EPR generates expressive performances from symbolic scores, while APT recovers scores from performances. Despite their dual nature, prior work has addressed them independently. In this paper we propose a unified framework that jointly models EPR and APT by disentangling note-level score content and global performance style representations from both pair...

ID: 2509.23878v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Zero-Effort Image-to-Music Generation: An Interpretable RAG-based VLM Approach

2025-09-30

Авторы:

Zijian Zhao, Dian Jin, Zijing Zhou

########################## ## Контекст ########################## Область исследования Image-to-Music (I2M) генерирования, которая находит применение в играх, рекламе и многомодальном искусстве, пользуется возрастающим интересом. Однако существующие методы часто скрывают процесс генерирования, что затрудняет понимание результатов пользователями. Эмоциональное обозначение, хотя и используется в некоторых решениях, ограничивается одним аспектом искусства. Большинство методов требуют сложных вычислений и больших объемов данных для обучения, что ограничивает их доступность для обычных пользователей. Наша цель — разработать первый VLM-подход (Vision Language Model) с высокой интерпретируемостью и минимальными требованиями к вычислительным ресурсам. ########################## ## Метод ########################## Мы предлагаем новую модель I2M, основанную на VLM, которая использует ABC-нотацию для связи текстовых и музыкальных модолей. Multi-modal Retrieval-Augmented Generation (RAG) и себе-рефинементные методы позволяют модели генерировать музыку на основе естественного языка без дополнительного обучения. Мы также предоставляем текстовые и изображательные пояснения для процесса генерирования, используя генерируемые мотивации и карты внимательности модели. Это позволяет пользователям понять, как и почему была создана музыка. ########################## ## Результаты ########################## Мы провести эксперименты, используя разные данные и меры качества. Наш метод показал лучшие результаты в музыкальном качестве и согласованности генерирования музыки и изображений. Это подтверждает эффективность нашего подхода в представлении музыки через естественный язык и создании более понятных результатов. ########################## ## Значимость ########################## Наша модель может применяться в многообразных областях, таких как игровой индустрия, реклама и создание многомодального искусства. Она обеспечивает интерпретируемую альтернативу сложным методам, сокращая требования к вычислительным ресурсам и данным. Это открывает новые возможности для обычных пользователей и творческих профессионалов. ########################## ## Выводы ########################## Мы представили первый VLM-подход для I2M с высокой интерпретируемостью и минимальными ресурсами. Наши результаты показали значительные улучшения в качестве генерирования и понимании результатов. Мы планируем расширить наши исследования в области творческих технологий, ориентированных на пользовательский опыт.

Annotation:

Recently, Image-to-Music (I2M) generation has garnered significant attention, with potential applications in fields such as gaming, advertising, and multi-modal art creation. However, due to the ambiguous and subjective nature of I2M tasks, most end-to-end methods lack interpretability, leaving users puzzled about the generation results. Even methods based on emotion mapping face controversy, as emotion represents only a singular aspect of art. Additionally, most learning-based methods require s...

ID: 2509.22378v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 Emotion-Aware Speech Generation with Character-Specific Voices for Comics

2025-09-22

Авторы:

Zhiwen Qian, Jinhua Liang, Huan Zhang

## Контекст Современные комиксы, помимо текстов и картинок, часто включают сюжетные линии и персонажей со специфичными характеристиками, в том числе их эмоциональным состоянием. Однако существующие методы генерации речи для персонажей комиксов обычно не учитывают эмоциональный аспект или не достаточно учитывают контекст. Это приводит к люмпенному генерированию речи и неубедительному представлению персонажей. Мотивация исследования заключается в разработке метода, который бы автоматически создавал эмоционально окрашенную речь, которая была привязана к конкретному персонажу и его эмоциональному состоянию, а также была адаптирована к контексту сюжета. ## Метод Разработанная система представляет собой интегрированный подход к генерации речи, который берет в качестве входных данных целые тома комиксов и выводит речь, привязанную к каждому персонажу и его эмоциональному состоянию. Основная модель состоит из трех компонентов: модуля обработки изображений, модели текстового распознавания и модели тексто-речи. Модуль обработки изображений выполняет детекцию персонажей, распознавание текста на изображениях и определение эмоционального тона. Модель текстового распознавания использует языковую модель, интегрируя информацию из визуальных ресурсов с эволюцией сюжета. Тексто-речевая модель синтезирует речь, используя специфичные для каждого персонажа и эмоции профили голоса. Эта система позволяет автоматически генерировать речь, соответствующую эмоциональному состоянию каждого персонажа, что вносит реализм и жизневую атмосферу в комиксы. ## Результаты В ходе экспериментов было протестировано набор комиксов с различными стилями и героями. Модель была обучена на большом количестве текстов и визуальных данных с разными эмоциональными состояниями персонажей. Эксперименты показали, что система способна точно распознавать персонажей и их эмоциональный тон, а также генерировать речь, которая соответствует стилю каждого героя и его эмоциональному состоянию. Особое внимание было уделено сравнению с предыдущими методами, и данное решение показало значительное улучшение в точности распознавания эмоций и генерировании речи, которая звучит более натуральной и символичной. ## Значимость Разработанный подход может быть применен в различных областях, включая компьютерную графику, анимацию и игровой индустрию. Он позволяет автоматически генерировать эмоционально окрашенную речь, что имеет важное значение для создания интерактивных и интерактивных систем. Это предоставляет новые возможност

Annotation:

This paper presents an end-to-end pipeline for generating character-specific, emotion-aware speech from comics. The proposed system takes full comic volumes as input and produces speech aligned with each character's dialogue and emotional state. An image processing module performs character detection, text recognition, and emotion intensity recognition. A large language model performs dialogue attribution and emotion analysis by integrating visual information with the evolving plot context. Spee...

ID: 2509.15253v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF

📄 SonicMaster: Towards Controllable All-in-One Music Restoration and Mastering

2025-08-06

Авторы:

Jan Melechovsky, Ambuj Mehrish, Dorien Herremans

**Резюме:** Музыкальные записи, особенно созданные в непрофессиональных условиях, часто имеют дефекты, такие как избыточная реверберация, дисторсия, клиппинг, дисбаланс тонов и ограниченная стереоизображение. Коррекция этих артефактов обычно требует отдельных специализированных инструментов и ручных настроек. В данной работе представлен **SonicMaster** — первый унифицированный генеративный модель для восстановления и мастеринга музыки, которая решает широкий спектр аудио-дефектов с помощью текстовых инструкций. Модель может функционировать в режиме автоматического восстановления или принимать целенаправленные улучшения на основе естественного языка. Для обучения **SonicMaster** был создан набор данных, состоящий из пар изведенных и высококачественных треков, симулированных с помощью 19 функций деградации в пяти категориях: эквалайзинг, динамика, реверберация, амплитуда и стерео. Обучение основывается на подходе flow-matching, который преобразует деградированный вход в очищенную и мастерированную версию, руководствуясь текстовыми запросами. Объективные метрики качества звука показывают значительное улучшение во всех категориях артефактов. Субъективные тесты прослушивания подтверждают, что пользователи предпочитают улучшенные выходные данные **SonicMaster** по сравнению с оригинальными деградированными треками, подчеркивая эффективность предложенного подхода.

Annotation:

Music recordings often suffer from audio quality issues such as excessive reverberation, distortion, clipping, tonal imbalances, and a narrowed stereo image, especially when created in non-professional settings without specialized equipment or expertise. These problems are typically corrected using separate specialized tools and manual adjustments. In this paper, we introduce SonicMaster, the first unified generative model for music restoration and mastering that addresses a broad spectrum of au...

ID: 2508.03448v1 cs.SD, cs.AI, cs.MM, eess.AS

arXiv PDF