Segment Transformer: AI-Generated Music Detection via Music Structural Analysis
2509.08283v1
cs.SD, cs.AI, eess.AS
2025-09-12
Авторы:
Yumin Kim, Seonghyeon Go
Резюме на русском
## Контекст
Развитие технологий генерирования звуковых и музыкальных композиций в области музыкального информационного внимания (MIR) позволило создавать музыку, которая почти неотличима от ручной композиции. Это приводит к возрастающим проблемам в области защиты авторских прав и определения авторства. Определение того, была ли музыка сгенерирована с помощью искусственного интеллекта (AI-generated music, AIGM) или ручным составлением, представляет собой сложную задачу. Исследование структурных характеристик музыкальных классов может помочь улучшить точность распознавания AIGM. Мы предлагаем новую модель, которая добавляет возможность анализа структурных сегментов музыки, чтобы улучшить качество и надёжность систем распознавания.
## Метод
Мы предложили Segment Transformer, который основывается на трансформерной архитектуре. Для работы с короткими аудио-сегментами, мы использовали различные предварительно обученные модели, включая модели самостоятельного обучения (self-supervised learning, SSL) и модели эффектов аудио. Для анализа длинных аудиозаписей, Segment Transformer делит музыку на отдельные сегменты и изучает отношения между ними. Эта модель включает в себя ряд технических решений, таких как комбинирование входных данных с различных моделей, слои преобразования сегмента и адаптивный механизм учёта длины сегмента. Модель настраивается для работы с двумя датасетов: FakeMusicCaps и SONICS.
## Результаты
Мы провели эксперименты на двух датасетах: FakeMusicCaps и SONICS. Модель Segment Transformer показала высокую точность в определении AIGM в обеих средах — коротких и длинных аудио-сегментах. Мы также сравнили результаты с другими текущими системами, чтобы подтвердить преимущества нашего подхода. Эти результаты показывают, что интеграция сегментных музыкальных признаков с помощью трансформера может значительно улучшить качество распознавания AIGM.
## Значимость
Наш подход может быть применён в различных областях, таких как защита авторских прав, определение авторства и проверка прав на музыкальные работы. Он обеспечивает более точное распознавание AIGM, что помогает устранить неоднозначности в определении источника творчества. Мы считаем, что наш подход может иметь потенциал для продвижения исследований в области MIR и в области точного распознавания музыкальных работ.
## Выводы
Мы успешно развили Segment Transformer — модель, которая разбирает музыку на сегменты и учитывает их отношения, чтобы улучшить распознавание AIGM. Эти результаты подтверждают эффективность нашего подхода в коротких и длинных сегментах музыки. Мы планируем продолжить исследования, чтобы улучшить систему распознавания для б
Abstract
Audio and music generation systems have been remarkably developed in the
music information retrieval (MIR) research field. The advancement of these
technologies raises copyright concerns, as ownership and authorship of
AI-generated music (AIGM) remain unclear. Also, it can be difficult to
determine whether a piece was generated by AI or composed by humans clearly. To
address these challenges, we aim to improve the accuracy of AIGM detection by
analyzing the structural patterns of music segments. Specifically, to extract
musical features from short audio clips, we integrated various pre-trained
models, including self-supervised learning (SSL) models or an audio effect
encoder, each within our suggested transformer-based framework. Furthermore,
for long audio, we developed a segment transformer that divides music into
segments and learns inter-segment relationships. We used the FakeMusicCaps and
SONICS datasets, achieving high accuracy in both the short-audio and full-audio
detection experiments. These findings suggest that integrating segment-level
musical features into long-range temporal analysis can effectively enhance both
the performance and robustness of AIGM detection systems.
Ссылки и действия
Дополнительные ресурсы: