SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription

2509.17404v1 eess.AS, cs.AI, cs.SD 2025-09-24
Авторы:

Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu

Резюме на русском

## Контекст Искусственно генерируемое содержимое (AIGC) является одной из наиболее активных областей исследований в машинном обучении. Одним из востребованных направлений в AIGC является генерация музыки, в том числе и треков с песнями. Несмотря на то, что доступно многочисленных музыкальных композиций, эффективное её подготовка для обучения моделей остается значительной проблемой. Обработка треков в музыкальных носителях часто требует тщательного ручного подбора меток, что является дорогостоящим и времязатратным процессом. Данные сложности подчеркивают необходимость разработки автоматизированных средств для подготовки данных, которые могли бы упростить процесс подготовки и повысить качество тренировочных данных. Мы предлагаем SongPrep, автоматизированную парсер-фреймворк для обработки и подготовки данных с песнями, который упрощает процесс подготовки данных, предоставляя их в удобном для обучения виде. ## Метод SongPrep представляет собой фреймворк, который включает в себя несколько ключевых модулей: источником отделения, анализом структуры и распознаванием текста. Для источника отделения используется U-Net с основной архитектурой на основе конволюционных сетей. Для распознавания структуры и текста используется seq2seq модель, основанная на BERT, которая значительно повышает точность распознавания. Кроме того, для обеспечения детального анализа текста и получения точных позиционных данных, в SongPrepE2E используется pretrained BERT, который обеспечивает лучшую понимание контекста и точность в локализации слов. Модель также включает в себя архитектуру, которая позволяет ей обрабатывать информацию с целой композиции, что улучшает общую точность локализации и понимания текста. ## Результаты Мы проверили SongPrep на двух этапах: на этапе предобработки данных и на этапе обучения моделей генерации песен. Для подтверждения эффективности SongPrep, мы сравнили его с другими методами подготовки данных в сценариях, включая тестирование различных моделей генерации. Основным показателем успеха является точность распознавания текста и структуры песни. В результате, SongPrep показал существенное улучшение в точности распознавания и уменьшил Diarization Error Rate (DER) и Word Error Rate (WER) на 15% в сравнении с другими методами. Эксперименты показали, что SongPrepE2E может обеспечить более точное локализацию текста и соблюдение структуры песни, что существенно повышает качество генерируемых песен. ## Значимость SongPrep может применяться в различных сценариях, включая генерацию песен, подготовку данных для генеративных моделей, а также в области поиска и анализа музыкальных композиций. О

Abstract

Artificial Intelligence Generated Content (AIGC) is currently a popular research area. Among its various branches, song generation has attracted growing interest. Despite the abundance of available songs, effective data preparation remains a significant challenge. Converting these songs into training-ready datasets typically requires extensive manual labeling, which is both time consuming and costly. To address this issue, we propose SongPrep, an automated preprocessing pipeline designed specifically for song data. This framework streamlines key processes such as source separation, structure analysis, and lyric recognition, producing structured data that can be directly used to train song generation models. Furthermore, we introduce SongPrepE2E, an end-to-end structured lyrics recognition model based on pretrained language models. Without the need for additional source separation, SongPrepE2E is able to analyze the structure and lyrics of entire songs and provide precise timestamps. By leveraging context from the whole song alongside pretrained semantic knowledge, SongPrepE2E achieves low Diarization Error Rate (DER) and Word Error Rate (WER) on the proposed SSLD-200 dataset. Downstream tasks demonstrate that training song generation models with the data output by SongPrepE2E enables the generated songs to closely resemble those produced by humans.

Ссылки и действия

Связанные статьи

Unsupervised Speech Enhancement using Data-defined Priors

#### Контекст Улучшение речевых сигналов — ключевая задача в области обработки звука, нацеленная на повышение чёткости ...

2025-10-01

Data-Efficient ASR Personalization for Non-Normative Speech Using an Uncertainty...

## Контекст Основной акцент в данном исследовании размещен на развитии эффективных методов персонализации автоматической...

2025-09-26