📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Kang Yang, Yifan Liang, Fangkun Liu, Zhenping Xie, Chengshi Zheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Lip-to-speech (L2S) synthesis for Mandarin is a significant challenge,
hindered by complex viseme-to-phoneme mappings and the critical role of lexical
tones in intelligibility. To address this issue, we propose Lexical Tone-Aware
Lip-to-Speech (LTA-L2S). To tackle viseme-to-phoneme complexity, our model
adapts an English pre-trained audio-visual self-supervised learning (SSL) model
via a cross-lingual transfer learning strategy. This strategy not only
transfers universal knowledge learned from e...
Авторы:
Tianle Wang, Sirui Zhang, Xinyi Tong, Peiyang Yu, Jishang Chen, Liangke Zhao, Xinpu Gao, Yves Zhu, Tiezheng Ge, Bo Zheng, Duo Xu, Yang Liu, Xin Jin, Feng Yu, Songchun Zhu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents an unsupervised machine learning algorithm that
identifies recurring patterns -- referred to as ``music-words'' -- from
symbolic music data. These patterns are fundamental to musical structure and
reflect the cognitive processes involved in composition. However, extracting
these patterns remains challenging because of the inherent semantic ambiguity
in musical interpretation. We formulate the task of music-word discovery as a
statistical optimization problem and propose a two...
📄 Two Web Toolkits for Multimodal Piano Performance Dataset Acquisition and Fingering Annotation
2025-09-20Авторы:
Junhyung Park, Yonghyun Kim, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam
## Контекст
Исследование пианиновой игры является ключевым направлением в анализе мультимодальных данных, так как это сложная физиологическая и музыкальная деятельность, заключающаяся в комбинации физических движений и акустических результатов. Несмотря на возрастающий интерес к анализу пианиновой игры с мультимодальным подходом, значительная проблема заключается в сложности получения больших многомодальных наборов данных. Это ограничивает прогресс в развитии технологий для анализа и моделирования пианиновой игры. Для решения этой проблемы предлагается интегрированная веб-система, которая упрощает процесс сбора и анализа мультимодальных данных в сфере пианиновой игры.
## Метод
Двух веб-инструментов, представленных в этой работе, лежит современная методология анализа пианиновой игры. **PiaRec (Piano Recording and Annotation)** предоставляет интерфейс для синхронного захвата аудио, видео, MIDI и метаданных исполнения. **ASDF (Annotating Speed, Dynamics, and Fingering)** предлагает интеллектуальный интерфейс для эффективной аннотации жесткости, динамики и пальцевого упорядочивания (fingering) на основе визуальных данных. Оба инструмента интегрированы в единую веб-платформу, обеспечивающую простой доступ к инструментам и упрощающую процесс сбора и анализа данных.
## Результаты
Используя этот подход, был проведен эксперимент по сбору набора данных пианиновой игры, включающий аудио, видео, MIDI-данные и метаданные исполнителя. Эксперимент показал, что **PiaRec** эффективно захватывает все необходимые данные, обеспечивая согласованность и качество. Также была проведена интенсивная аннотация жестов и динамики исполнителей с помощью **ASDF**. Эти результаты позволили получить высококачественный и многомодально аннотированный набор данных, который может быть использован для предсказания и моделирования пианиновой игры.
## Значимость
Предлагаемая платформа представляет собой значительный прорыв в сфере анализа пианиновой игры. Она может использоваться в области компьютерного зрения для распознавания жестов, в музыкальном анализе для понимания динамики и тембра, а также в обучении искусственных нейронных сетей для предсказания имитации пианиновой игры. Это прогресс в анализе музыкальных выступлений, позволяющий создавать более точные модели для искусственного интеллекта в музыке.
## Выводы
Предложенная веб-система, состоящая из **PiaRec** и **ASDF**, является эффективным инструментом для сбора и анализа мультимодальных данных в сфере пианиновой игры. Она упрощает и ускоряет процесс сбора данных, обеспечивая высококачественные мультимодальные аннотации. Будущие исследования буду
Annotation:
Piano performance is a multimodal activity that intrinsically combines
physical actions with the acoustic rendition. Despite growing research interest
in analyzing the multimodal nature of piano performance, the laborious process
of acquiring large-scale multimodal data remains a significant bottleneck,
hindering further progress in this field. To overcome this barrier, we present
an integrated web toolkit comprising two graphical user interfaces (GUIs): (i)
PiaRec, which supports the synchroniz...
Авторы:
Andrea Di Pierno, Luca Guarnera, Dario Allegra, Sebastiano Battiato
Аудио deepfakes становятся все более распространенными, создавая значительные проблемы для доверия в цифровых коммуникациях. Несмотря на прогресс в области их обнаружения, подтверждение аудио deepfakes до уровня конкретной генерирующей модели остается недооцененной, но крайне важной задачей. В статье предлагается LAVA (Layered Architecture for Voice Attribution) — расширенная архитектура, основанная на автоэнкодере, для обнаружения deepfakes и их привязки к конкретным моделям. Архитектура включает две классификаторы: Audio Deepfake Attribution (ADA) для определения технологии генерации и Audio Deepfake Model Recognition (ADMR) для идентификации конкретной модели. Для повышения устойчивости к условиям open-set внедрен механизм ограничения доверия. Результаты экспериментов на ASVspoof2021, FakeOrReal и CodecFake показали высокую точность: F1-score ADA превышает 95%, а ADMR — 96.31%. Дополнительные испытания подтвердили высокую надежность LAVA. Фреймворк представляет собой новую линию развития аудио deepfake attribution с подтверждённой эффективностью на публичных бенчмарках.
Annotation:
The proliferation of audio deepfakes poses a growing threat to trust in
digital communications. While detection methods have advanced, attributing
audio deepfakes to their source models remains an underexplored yet crucial
challenge. In this paper we introduce LAVA (Layered Architecture for Voice
Attribution), a hierarchical framework for audio deepfake detection and model
recognition that leverages attention-enhanced latent representations extracted
by a convolutional autoencoder trained solely...
Показано 11 -
14
из 14 записей