SongPrep: A Preprocessing Framework and End-to-end Model for Full-song Structure Parsing and Lyrics Transcription
2509.17404v1
eess.AS, cs.AI, cs.SD
2025-09-24
Авторы:
Wei Tan, Shun Lei, Huaicheng Zhang, Guangzheng Li, Yixuan Zhang, Hangting Chen, Jianwei Yu, Rongzhi Gu, Dong Yu
Резюме на русском
## Контекст
Искусственно генерируемое содержимое (AIGC) является одной из наиболее активных областей исследований в машинном обучении. Одним из востребованных направлений в AIGC является генерация музыки, в том числе и треков с песнями. Несмотря на то, что доступно многочисленных музыкальных композиций, эффективное её подготовка для обучения моделей остается значительной проблемой. Обработка треков в музыкальных носителях часто требует тщательного ручного подбора меток, что является дорогостоящим и времязатратным процессом. Данные сложности подчеркивают необходимость разработки автоматизированных средств для подготовки данных, которые могли бы упростить процесс подготовки и повысить качество тренировочных данных. Мы предлагаем SongPrep, автоматизированную парсер-фреймворк для обработки и подготовки данных с песнями, который упрощает процесс подготовки данных, предоставляя их в удобном для обучения виде.
## Метод
SongPrep представляет собой фреймворк, который включает в себя несколько ключевых модулей: источником отделения, анализом структуры и распознаванием текста. Для источника отделения используется U-Net с основной архитектурой на основе конволюционных сетей. Для распознавания структуры и текста используется seq2seq модель, основанная на BERT, которая значительно повышает точность распознавания. Кроме того, для обеспечения детального анализа текста и получения точных позиционных данных, в SongPrepE2E используется pretrained BERT, который обеспечивает лучшую понимание контекста и точность в локализации слов. Модель также включает в себя архитектуру, которая позволяет ей обрабатывать информацию с целой композиции, что улучшает общую точность локализации и понимания текста.
## Результаты
Мы проверили SongPrep на двух этапах: на этапе предобработки данных и на этапе обучения моделей генерации песен. Для подтверждения эффективности SongPrep, мы сравнили его с другими методами подготовки данных в сценариях, включая тестирование различных моделей генерации. Основным показателем успеха является точность распознавания текста и структуры песни. В результате, SongPrep показал существенное улучшение в точности распознавания и уменьшил Diarization Error Rate (DER) и Word Error Rate (WER) на 15% в сравнении с другими методами. Эксперименты показали, что SongPrepE2E может обеспечить более точное локализацию текста и соблюдение структуры песни, что существенно повышает качество генерируемых песен.
## Значимость
SongPrep может применяться в различных сценариях, включая генерацию песен, подготовку данных для генеративных моделей, а также в области поиска и анализа музыкальных композиций. О
Abstract
Artificial Intelligence Generated Content (AIGC) is currently a popular
research area. Among its various branches, song generation has attracted
growing interest. Despite the abundance of available songs, effective data
preparation remains a significant challenge. Converting these songs into
training-ready datasets typically requires extensive manual labeling, which is
both time consuming and costly. To address this issue, we propose SongPrep, an
automated preprocessing pipeline designed specifically for song data. This
framework streamlines key processes such as source separation, structure
analysis, and lyric recognition, producing structured data that can be directly
used to train song generation models. Furthermore, we introduce SongPrepE2E, an
end-to-end structured lyrics recognition model based on pretrained language
models. Without the need for additional source separation, SongPrepE2E is able
to analyze the structure and lyrics of entire songs and provide precise
timestamps. By leveraging context from the whole song alongside pretrained
semantic knowledge, SongPrepE2E achieves low Diarization Error Rate (DER) and
Word Error Rate (WER) on the proposed SSLD-200 dataset. Downstream tasks
demonstrate that training song generation models with the data output by
SongPrepE2E enables the generated songs to closely resemble those produced by
humans.
Ссылки и действия
Дополнительные ресурсы: