Segment Transformer: AI-Generated Music Detection via Music Structural Analysis

2509.08283v1 cs.SD, cs.AI, eess.AS 2025-09-12
Авторы:

Yumin Kim, Seonghyeon Go

Резюме на русском

## Контекст Развитие технологий генерирования звуковых и музыкальных композиций в области музыкального информационного внимания (MIR) позволило создавать музыку, которая почти неотличима от ручной композиции. Это приводит к возрастающим проблемам в области защиты авторских прав и определения авторства. Определение того, была ли музыка сгенерирована с помощью искусственного интеллекта (AI-generated music, AIGM) или ручным составлением, представляет собой сложную задачу. Исследование структурных характеристик музыкальных классов может помочь улучшить точность распознавания AIGM. Мы предлагаем новую модель, которая добавляет возможность анализа структурных сегментов музыки, чтобы улучшить качество и надёжность систем распознавания. ## Метод Мы предложили Segment Transformer, который основывается на трансформерной архитектуре. Для работы с короткими аудио-сегментами, мы использовали различные предварительно обученные модели, включая модели самостоятельного обучения (self-supervised learning, SSL) и модели эффектов аудио. Для анализа длинных аудиозаписей, Segment Transformer делит музыку на отдельные сегменты и изучает отношения между ними. Эта модель включает в себя ряд технических решений, таких как комбинирование входных данных с различных моделей, слои преобразования сегмента и адаптивный механизм учёта длины сегмента. Модель настраивается для работы с двумя датасетов: FakeMusicCaps и SONICS. ## Результаты Мы провели эксперименты на двух датасетах: FakeMusicCaps и SONICS. Модель Segment Transformer показала высокую точность в определении AIGM в обеих средах — коротких и длинных аудио-сегментах. Мы также сравнили результаты с другими текущими системами, чтобы подтвердить преимущества нашего подхода. Эти результаты показывают, что интеграция сегментных музыкальных признаков с помощью трансформера может значительно улучшить качество распознавания AIGM. ## Значимость Наш подход может быть применён в различных областях, таких как защита авторских прав, определение авторства и проверка прав на музыкальные работы. Он обеспечивает более точное распознавание AIGM, что помогает устранить неоднозначности в определении источника творчества. Мы считаем, что наш подход может иметь потенциал для продвижения исследований в области MIR и в области точного распознавания музыкальных работ. ## Выводы Мы успешно развили Segment Transformer — модель, которая разбирает музыку на сегменты и учитывает их отношения, чтобы улучшить распознавание AIGM. Эти результаты подтверждают эффективность нашего подхода в коротких и длинных сегментах музыки. Мы планируем продолжить исследования, чтобы улучшить систему распознавания для б

Abstract

Audio and music generation systems have been remarkably developed in the music information retrieval (MIR) research field. The advancement of these technologies raises copyright concerns, as ownership and authorship of AI-generated music (AIGM) remain unclear. Also, it can be difficult to determine whether a piece was generated by AI or composed by humans clearly. To address these challenges, we aim to improve the accuracy of AIGM detection by analyzing the structural patterns of music segments. Specifically, to extract musical features from short audio clips, we integrated various pre-trained models, including self-supervised learning (SSL) models or an audio effect encoder, each within our suggested transformer-based framework. Furthermore, for long audio, we developed a segment transformer that divides music into segments and learns inter-segment relationships. We used the FakeMusicCaps and SONICS datasets, achieving high accuracy in both the short-audio and full-audio detection experiments. These findings suggest that integrating segment-level musical features into long-range temporal analysis can effectively enhance both the performance and robustness of AIGM detection systems.

Ссылки и действия