📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 VDC-Agent: When Video Detailed Captioners Evolve Themselves via Agentic Self-Reflection

2025-11-26

Авторы:

Qiang Wang, Xinyuan Gao, SongLin Dong, Jizhou Han, Jiangyang Li, Yuhang He, Yihong Gong

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present VDC-Agent, a self-evolving framework for Video Detailed Captioning that requires neither human annotations nor larger teacher models. The agent forms a closed loop of caption generation, principle-guided scoring (score and textual suggestions), and prompt refinement. When caption quality regresses, a self-reflection path leverages the previous chain-of-thought to amend the update. Running this process on unlabeled videos produces trajectories of (caption, score) pairs. We convert the ...

ID: 2511.19436v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Moving Pictures of Thought: Extracting Visual Knowledge in Charles S. Peirce's Manuscripts with Vision-Language Models

2025-11-19

Авторы:

Carlo Teo Pedretti, Davide Picca, Dario Rodighiero

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Diagrams are crucial yet underexplored tools in many disciplines, demonstrating the close connection between visual representation and scholarly reasoning. However, their iconic form poses obstacles to visual studies, intermedial analysis, and text-based digital workflows. In particular, Charles S. Peirce consistently advocated the use of diagrams as essential for reasoning and explanation. His manuscripts, often combining textual content with complex visual artifacts, provide a challenging case...

ID: 2511.13378v1 cs.DL, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Scaling Spatial Intelligence with Multimodal Foundation Models

2025-11-19

Авторы:

Zhongang Cai, Ruisi Wang, Chenyang Gu, Fanyi Pu, Junxiang Xu, Yubo Wang, Wanqi Yin, Zhitao Yang, Chen Wei, Qingping Sun, Tongxi Zhou, Jiaqi Li, Hui En Pang, Oscar Qian, Yukun Wei, Zhiqian Lin, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Xiangyu Fan, Hanming Deng, Lewei Lu, Liang Pan, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Despite remarkable progress, multimodal foundation models still exhibit surprising deficiencies in spatial intelligence. In this work, we explore scaling up multimodal foundation models to cultivate spatial intelligence within the SenseNova-SI family, built upon established multimodal foundations including visual understanding models (i.e., Qwen3-VL and InternVL3) and unified understanding and generation models (i.e., Bagel). We take a principled approach to constructing high-performing and robu...

ID: 2511.13719v1 cs.CV, cs.AI, cs.LG, cs.MM, cs.RO

arXiv PDF

📄 MusRec: Zero-Shot Text-to-Music Editing via Rectified Flow and Diffusion Transformers

2025-11-08

Авторы:

Ali Boudaghi, Hadi Zare

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Music editing has emerged as an important and practical area of artificial intelligence, with applications ranging from video game and film music production to personalizing existing tracks according to user preferences. However, existing models face significant limitations, such as being restricted to editing synthesized music generated by their own models, requiring highly precise prompts, or necessitating task-specific retraining, thus lacking true zero-shot capability. Leveraging recent adva...

ID: 2511.04376v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 LiteVPNet: A Lightweight Network for Video Encoding Control in Quality-Critical Applications

2025-10-16

Авторы:

Vibhoothi Vibhoothi, François Pitié, Anil Kokaram

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In the last decade, video workflows in the cinema production ecosystem have presented new use cases for video streaming technology. These new workflows, e.g. in On-set Virtual Production, present the challenge of requiring precise quality control and energy efficiency. Existing approaches to transcoding often fall short of these requirements, either due to a lack of quality control or computational overhead. To fill this gap, we present a lightweight neural network (LiteVPNet) for accurately pre...

ID: 2510.12379v1 eess.IV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Segment-Factorized Full-Song Generation on Symbolic Piano Music

2025-10-09

Авторы:

Ping-Yi Chen, Chih-Pin Tan, Yi-Hsuan Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose the Segmented Full-Song Model (SFS) for symbolic full-song generation. The model accepts a user-provided song structure and an optional short seed segment that anchors the main idea around which the song is developed. By factorizing a song into segments and generating each one through selective attention to related segments, the model achieves higher quality and efficiency compared to prior work. To demonstrate its suitability for human-AI interaction, we further wrap SFS into a web a...

ID: 2510.05881v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 On the de-duplication of the Lakh MIDI dataset

2025-09-24

Авторы:

Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong

## Контекст Lakh MIDI Dataset (LMD) является одним из крупнейших общедоступных источников символической музыки. Он содержит более 178 тысяч файлов MIDI, представляющих различные музыкальные произведения. Несмотря на преимущества, такие большие данные часто склеиваются из разных источников, что приводит к повторениям и непоследовательностям в метаданных. Эти ошибки могут повлиять на качество обучения моделей и формирования выводов в музыкальной интеллектуальной обработке (MIR). Однако, несмотря на важность, дедупликация данных в MIR-сообществе недостаточно исследована. Этот труд вносит вклад в решение проблемы, обосновывая значимость дедупликации LMD для улучшения высококачественных моделей в этой области. ## Метод Для анализа и дедупликации LMD использовались различные подходы. В качестве бенчмарка выбран Clean MIDI Subset, в котором одинаковые песни представлены в разных версиях. Методы включили правильные (rule-based), символьные модели музыкального восприятия, а также модель BERT с увеличенным обучением (contrastive learning). Модель BERT была использована для параллельной обработки файлов MIDI и поиска дубликатов. Результаты сравнивались с другими моделями, чтобы определить наиболее эффективный подход к дедупликации LMD. ## Результаты На основе проведенных экспериментов были получены три версии отфильтрованного списка LMD. Наиболее консервативная версия отфильтровала 38 134 менее стабильных дубликатов из 178 561 файлов. Эти результаты позволили установить, что модель BERT с увеличенным обучением и аугментациями демонстрирует наилучшие результаты в дедупликации символических музыкальных данных. Этот подход оказался самым эффективным в контексте удаления повторяющихся файлов, с минимальным потерям качества или удалением ненужных данных. ## Значимость Результаты имеют значительное значение для области MIR и других крупных датасетов, которые могут повлиять на обучение моделей. Дедупликация LMD позволяет улучшить точность и надежность моделей, уменьшая влияние данных, зараженных дубликатами. Это прикладное решение может иметь большой потенциал в музыкальном анализе, генерации и машинном обучении. Будущие исследования могут расширить данные в других символических музыкальных коллекциях. ## Выводы Полученные результаты показывают, что модель BERT с увеличенным обучением является эффективным методом для дедупликации LMD. Она позволяет улучшить качество данных и разработать более надежные модели в MIR. Дальнейшие исследования могут сфокусироваться на масштабировании этого подхода для других больших датасетов и изучении других аспектов дедупликации в символической му

Annotation:

A large-scale dataset is essential for training a well-generalized deep-learning model. Most such datasets are collected via scraping from various internet sources, inevitably introducing duplicated data. In the symbolic music domain, these duplicates often come from multiple user arrangements and metadata changes after simple editing. However, despite critical issues such as unreliable training evaluation from data leakage during random splitting, dataset duplication has not been extensively ad...

ID: 2509.16662v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 SpeechWeave: Diverse Multilingual Synthetic Text & Audio Data Generation Pipeline for Training Text to Speech Models

2025-09-20

Авторы:

Karan Dua, Puneet Mittal, Ranjeet Gupta, Hitesh Laxmichand Patel

#### Контекст Тренировка высококачественных Text-to-Speech (TTS) моделей требует обширных и разнообразных наборов текстовых и звуковых данных. Однако приобретение таких данных из реальных источников становится сложной задачей из-за проблем, таких как доменная специфичность, лицензирование и масштабируемость. Большие языковые модели (LLMs) могут генерировать текстовые данные, однако часто создают повторяющийся текст с недостаточной разнообразностью во входных запросах. Другой важный аспект в TTS-тренировке — это нормализация текста. Инструменты нормализации могут вводить аномалии или пропускать ценные шаблоны, что влияет на качество данных. Большие масштабы синтезированных речевых данных становятся недоступными без использования голоса артистов для рекординга, что становится выгодным для только определенных моделей TTS. Для решения этих проблем мы предлагаем SpeechWeave — современный подход к генерированию синтетических данных для подготовки моделей TTS. #### Метод SpeechWeave — это современная многоязычная система генерирования синтетических текстов и аудио, разработанная для эффективной подготовки моделей TTS. Методология использует генеративные модели LLMs, специально настроенные для создания разнообразных текстов и звуковых сигналов. Основные этапы методики включают: 1) генерацию текста с учетом языковой и доменной специфики; 2) добавление разнообразия в текст с помощью процедур нормализации и синтеза; 3) генерацию аудио с помощью автоматизированных синтезирующих моделей. SpeechWeave сочетает в себе технологии нормализации текста и генерации синтетического звука, обеспечивая высококачественные и разнообразные данные для тренировки моделей TTS. #### Результаты В экспериментах был использован набор данных с различными языками и доменами. SpeechWeave сгенерировал текстовые и аудио данные, показав разнообразие от 10% до 48% по метрикам языковой разнообразности и графемо-фоноемисования. Обнаружено, что нормализация текста достигла 97% точности, с минимальным количеством аномалий. Также, синтетические аудио данные были генерированы с высоким уровнем согласованности в речевых характеристиках, что важно для улучшения качества моделей TTS. Эти результаты иллюстрируют мощь SpeechWeave в создании производительных и качественных синтетических данных для TTS. #### Значимость SpeechWeave может применяться в различных сферах, включая образовательные ресурсы, коммерческие системы TTS и лингвистические исследования. Основные преимущества — это увеличение разнообразия в текстовых и аудио данных, нормализация

Annotation:

High-quality Text-to-Speech (TTS) model training requires extensive and diverse text and speech data. It is challenging to procure such data from real sources due to issues of domain specificity, licensing, and scalability. Large language models (LLMs) can certainly generate textual data, but they create repetitive text with insufficient variation in the prompt during the generation process. Another important aspect in TTS training data is text normalization. Tools for normalization might occasi...

ID: 2509.14270v1 cs.CL, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS, I.2.7

arXiv PDF

📄 The Name-Free Gap: Policy-Aware Stylistic Control in Music Generation

2025-09-05

Авторы:

Ashwin Nagarajan, Hao-Wen Dong

#### Контекст Текстово-музыкальные модели, такие как MusicGen, успешно подхватывают широкие атрибуты музыки, такие как инструментация и настроение. Однако тонкое стилистическое управление, например, подражание определенному исполнителю или стилю, остается значительной проблемой. Некоторые методы позволяют эмулировать стиль через переучет модели или специальные условия, но это снижает простоту использования и соблюдение политик, например, запрета использования имен исполнителей в музыкальных произведениях. В данном исследовании рассматривается возможность использования легковесных, человекочитаемых модификаторов, сгенерированных большим языковым моделью, для стилистического управления. Исследованы два исполнителя — Billie Eilish (поп-музыка с вокалом) и Ludovico Einaudi (инструментальная пианино-музыка). #### Метод Модель MusicGen была использована для генерации музыки по наборам условий. Для каждого исполнителя выбраны 15 сэмплов, которые стали базой для трёх условий: (1) базовые запросы, (2) запросы с именем исполнителя, (3) запросы с легковесными модификаторами. Метрики оценки включили распределения VGGish и CLAP, а также минимальное расстояние присвоения. Эксперименты позволили изучить мощность этих модификаторов в стилистическом контроле и сравнить их с именами исполнителей. #### Результаты Имена исполнителей оказались самым эффективным стилистическим сигналом, превосходя name-free модификаторы. Однако модификаторы всё же демонстрировали сильное стилистическое воздействие, в том числе возможность переноса стиля между исполнителями. Например, модификаторы Billie Eilish могут создавать аналогичные эффекты в песнях, не связанных с ней темпом. Изученная разница в управляемости между именами и модификаторами определяется как "Name-Free Gap." Эта разница показывает, что запрет на использование имен в запросах не полностью предотвращает стилистическое подражание. #### Значимость Результаты имеют практическое значение для создания систем стилистического контроля в музыкальной генерации. Исследование показывает, что модели могут эмулировать стили без использования имен, что вызывает вопросы о эффективности текущих методов защиты от копирайтинга. Также модификаторы могут быть применены в различных сценариях, таких как создание музыки под определённые жанры или настроения. #### Выводы Исследование определяет "Name-Free Gap" и демонстрирует, что модификаторы могут быть эффективными стилистическими сигналами, даже при ограничениях на использование имены. Будущие исследования будут нацелены на уточнение моделей гене

Annotation:

Text-to-music models capture broad attributes such as instrumentation or mood, but fine-grained stylistic control remains an open challenge. Existing stylization methods typically require retraining or specialized conditioning, which complicates reproducibility and limits policy compliance when artist names are restricted. We study whether lightweight, human-readable modifiers sampled from a large language model can provide a policy-robust alternative for stylistic control. Using MusicGen-small,...

ID: 2509.00654v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

📄 From Discord to Harmony: Decomposed Consonance-based Training for Improved Audio Chord Estimation

2025-09-05

Авторы:

Andrea Poltronieri, Xavier Serra, Martín Rocamora

## Контекст Аудио Чорд Эстимация (Audio Chord Estimation, ACE) — это ключевая задача в области музыкального информационного исследования, которая занимает внимание более двух десятилетий. Она играет важную роль в музыкальной транскрипции и анализе. Несмотря на прогресс, существуют значительные проблемы, которые ограничивают эффективность существующих систем. Одной из основных проблем является субъективность аннотаторов: разные люди могут давать разные оценки классов нот и аккордов, что приводит к несогласованности в данных. Другая проблема — классовая неробастность (class imbalance), когда некоторые классы нот или аккордов значительно чаще других в обучающих наборах данных. Эти особенности сильно затрудняют обучение и оценку алгоритмов. Целью настоящего исследования является адресация этих проблем с помощью новых подходов, основанных на понятии хармонической сонансности (consonance). ## Метод Мы предлагаем метод, который использует знания о хармонической сонансности для улучшения оценки нот и аккордов. Наш подход разделяет задачу на несколько подзадач, каждая из которых соответствует отдельному аспекту звучания аккорда: оценка корня (root), оценка баса (bass) и оценка других нот в аккорде. Мы также внедрили новую метрику дистанции, основанную на звуковой сонансности, которая позволяет лучше охарактеризовать музыкально-значимую схожесть между разными аннотациями. Наш алгоритм основан на многозадачной архитектуре для совместного обучения этих подзадач. Мы также применяем технику легких меток (label smoothing), использующую понятие сонансности для гашения шума в метках. Это позволяет модели более точно определять музыкальные согласованности. ## Результаты Мы провели эксперименты на различных музыкальных датасетах, сравнивая нашу модель с текущими лидерами в области ACE. Результаты показали, что наш подход значительно улучшает оценку корня и баса, а также в целом повышает точность определения аккордов. Мы также проверили эффективность новой метрики дистанции на многочисленных аннотациях, показав, что она дает более точные результаты в сравнении с традиционными метриками. Наша модель также показала значительное улучшение в обработке классов с небольшим количеством примеров, что демонстрирует ее высокую работу в условиях классовой неробастности. ## Значимость Предложенный подход имеет широкие применения в музыкальной транскрипции, анализе и создании музыкальных инструментов. Он позволяет повысить точность определения аккордов в различных музыкальных жанрах и условиях. Преимущест

Annotation:

Audio Chord Estimation (ACE) holds a pivotal role in music information research, having garnered attention for over two decades due to its relevance for music transcription and analysis. Despite notable advancements, challenges persist in the task, particularly concerning unique characteristics of harmonic content, which have resulted in existing systems' performances reaching a glass ceiling. These challenges include annotator subjectivity, where varying interpretations among annotators lead to...

ID: 2509.01588v1 cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

arXiv PDF

Показано 1 - 10 из 15 записей