📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 LTA-L2S: Lexical Tone-Aware Lip-to-Speech Synthesis for Mandarin with Cross-Lingual Transfer Learning

2025-10-02

Авторы:

Kang Yang, Yifan Liang, Fangkun Liu, Zhenping Xie, Chengshi Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Lip-to-speech (L2S) synthesis for Mandarin is a significant challenge, hindered by complex viseme-to-phoneme mappings and the critical role of lexical tones in intelligibility. To address this issue, we propose Lexical Tone-Aware Lip-to-Speech (LTA-L2S). To tackle viseme-to-phoneme complexity, our model adapts an English pre-trained audio-visual self-supervised learning (SSL) model via a cross-lingual transfer learning strategy. This strategy not only transfers universal knowledge learned from e...

ID: 2509.25670v1 cs.SD, cs.CV

arXiv PDF

📄 Discovering "Words" in Music: Unsupervised Learning of Compositional Sparse Code for Symbolic Music

2025-10-01

Авторы:

Tianle Wang, Sirui Zhang, Xinyi Tong, Peiyang Yu, Jishang Chen, Liangke Zhao, Xinpu Gao, Yves Zhu, Tiezheng Ge, Bo Zheng, Duo Xu, Yang Liu, Xin Jin, Feng Yu, Songchun Zhu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents an unsupervised machine learning algorithm that identifies recurring patterns -- referred to as ``music-words'' -- from symbolic music data. These patterns are fundamental to musical structure and reflect the cognitive processes involved in composition. However, extracting these patterns remains challenging because of the inherent semantic ambiguity in musical interpretation. We formulate the task of music-word discovery as a statistical optimization problem and propose a two...

ID: 2509.24603v1 cs.SD, cs.CV

arXiv PDF

📄 Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation

2025-09-20

Авторы:

Junhyung Park, Yonghyun Kim, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

## Контекст Исследование пианиновой игры является ключевым направлением в анализе мультимодальных данных, так как это сложная физиологическая и музыкальная деятельность, заключающаяся в комбинации физических движений и акустических результатов. Несмотря на возрастающий интерес к анализу пианиновой игры с мультимодальным подходом, значительная проблема заключается в сложности получения больших многомодальных наборов данных. Это ограничивает прогресс в развитии технологий для анализа и моделирования пианиновой игры. Для решения этой проблемы предлагается интегрированная веб-система, которая упрощает процесс сбора и анализа мультимодальных данных в сфере пианиновой игры. ## Метод Двух веб-инструментов, представленных в этой работе, лежит современная методология анализа пианиновой игры. **PiaRec (Piano Recording and Annotation)** предоставляет интерфейс для синхронного захвата аудио, видео, MIDI и метаданных исполнения. **ASDF (Annotating Speed, Dynamics, and Fingering)** предлагает интеллектуальный интерфейс для эффективной аннотации жесткости, динамики и пальцевого упорядочивания (fingering) на основе визуальных данных. Оба инструмента интегрированы в единую веб-платформу, обеспечивающую простой доступ к инструментам и упрощающую процесс сбора и анализа данных. ## Результаты Используя этот подход, был проведен эксперимент по сбору набора данных пианиновой игры, включающий аудио, видео, MIDI-данные и метаданные исполнителя. Эксперимент показал, что **PiaRec** эффективно захватывает все необходимые данные, обеспечивая согласованность и качество. Также была проведена интенсивная аннотация жестов и динамики исполнителей с помощью **ASDF**. Эти результаты позволили получить высококачественный и многомодально аннотированный набор данных, который может быть использован для предсказания и моделирования пианиновой игры. ## Значимость Предлагаемая платформа представляет собой значительный прорыв в сфере анализа пианиновой игры. Она может использоваться в области компьютерного зрения для распознавания жестов, в музыкальном анализе для понимания динамики и тембра, а также в обучении искусственных нейронных сетей для предсказания имитации пианиновой игры. Это прогресс в анализе музыкальных выступлений, позволяющий создавать более точные модели для искусственного интеллекта в музыке. ## Выводы Предложенная веб-система, состоящая из **PiaRec** и **ASDF**, является эффективным инструментом для сбора и анализа мультимодальных данных в сфере пианиновой игры. Она упрощает и ускоряет процесс сбора данных, обеспечивая высококачественные мультимодальные аннотации. Будущие исследования буду

Annotation:

Piano performance is a multimodal activity that intrinsically combines physical actions with the acoustic rendition. Despite growing research interest in analyzing the multimodal nature of piano performance, the laborious process of acquiring large-scale multimodal data remains a significant bottleneck, hindering further progress in this field. To overcome this barrier, we present an integrated web toolkit comprising two graphical user interfaces (GUIs): (i) PiaRec, which supports the synchroniz...

ID: 2509.15222v1 cs.SD, cs.CV, cs.MM, eess.AS, eess.IV

arXiv PDF

📄 Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework

2025-08-09

Авторы:

Andrea Di Pierno, Luca Guarnera, Dario Allegra, Sebastiano Battiato

Аудио deepfakes становятся все более распространенными, создавая значительные проблемы для доверия в цифровых коммуникациях. Несмотря на прогресс в области их обнаружения, подтверждение аудио deepfakes до уровня конкретной генерирующей модели остается недооцененной, но крайне важной задачей. В статье предлагается LAVA (Layered Architecture for Voice Attribution) — расширенная архитектура, основанная на автоэнкодере, для обнаружения deepfakes и их привязки к конкретным моделям. Архитектура включает две классификаторы: Audio Deepfake Attribution (ADA) для определения технологии генерации и Audio Deepfake Model Recognition (ADMR) для идентификации конкретной модели. Для повышения устойчивости к условиям open-set внедрен механизм ограничения доверия. Результаты экспериментов на ASVspoof2021, FakeOrReal и CodecFake показали высокую точность: F1-score ADA превышает 95%, а ADMR — 96.31%. Дополнительные испытания подтвердили высокую надежность LAVA. Фреймворк представляет собой новую линию развития аудио deepfake attribution с подтверждённой эффективностью на публичных бенчмарках.

Annotation:

The proliferation of audio deepfakes poses a growing threat to trust in digital communications. While detection methods have advanced, attributing audio deepfakes to their source models remains an underexplored yet crucial challenge. In this paper we introduce LAVA (Layered Architecture for Voice Attribution), a hierarchical framework for audio deepfake detection and model recognition that leverages attention-enhanced latent representations extracted by a convolutional autoencoder trained solely...

ID: 2508.02521v2 cs.SD, cs.CV, eess.AS

arXiv PDF

Показано 11 - 14 из 14 записей