Enhancing Automatic Modulation Recognition With a Reconstruction-Driven Vision Transformer Under Limited Labels

2508.20193v1 cs.CV, eess.SP 2025-08-30
Авторы:

Hossein Ahmadi, Banafsheh Saffari

Резюме на русском

#### Контекст Автоматическое распознавание модulations (AMR) является критическим компонентом для систем клеточного управления (сторонние), мониторинга спектра и безопасной беспроводной связи. Однако современные решения либо требуют больших объемов меток, либо задействуют многоэтапные тренировочные процессы, что снижает относительную гибкость и общий потенциал систем. Наша мотивация заключается в разработке универсальной архитектуры, способной эффективно работать даже при ограниченных метках, обеспечивая устойчивость и высокую точность. #### Метод Мы предлагаем универсальный Vision Transformer (ViT), который сочетает представление сигналов с ограниченными метками, самостоятельным обучением и реконструкцией в одной модели. Основная часть архитектуры — ViT-энкодер, который извлекает дискретные признаки из сигналов. Дополнительно, мы включили в модель кодировщик-декодир для реконструкции, чтобы оперировать с низкоуровневыми свойствами I/Q-сигналов. Это позволяет модели учить более сильные и дискретные признаки в пределах тренировочного процесса. Классификатор с линейным слоем позволяет производить модификации в рамках полученных признаков. #### Результаты Мы провели эксперименты на датасете RML2018.01A. Наше решение показало высокую точность и устойчивость к шумам в условиях ограниченных меток. Например, оно превосходит существующие CNN и ViT-модели при использовании только 15-20% меток. Также, модель поддерживает высокую точность при различных уровнях signal-to-noise ratio (SNR). Эти результаты подтверждают её гибкость и эффективность в реальных сетевых условиях. #### Значимость У нашей модели широкие возможности применения в системах беспроводной связи, мониторинге спектра и когнитивных радиосистемах. Она предлагает простой, гибкий и эффективный подход к распознаванию модляций с использованием минимальных меток. Мы считаем, что наш подход может стать ключевым инструментом для улучшения технологий спектрального мониторинга и безопасности в современных беспроводных системах. #### Выводы Мы разработали универсальную архитектуру AMR, которая использует ViT для эффективного обучения даже при ограниченных метках. Наши результаты показали, что модель превосходит существующие решения в условиях низкого количества меток. В будущем, мы планируем расширить применение этого подхода на другие области, такие как синтез речи и сигнальная обработка.

Abstract

Automatic modulation recognition (AMR) is critical for cognitive radio, spectrum monitoring, and secure wireless communication. However, existing solutions often rely on large labeled datasets or multi-stage training pipelines, which limit scalability and generalization in practice. We propose a unified Vision Transformer (ViT) framework that integrates supervised, self-supervised, and reconstruction objectives. The model combines a ViT encoder, a lightweight convolutional decoder, and a linear classifier; the reconstruction branch maps augmented signals back to their originals, anchoring the encoder to fine-grained I/Q structure. This strategy promotes robust, discriminative feature learning during pretraining, while partial label supervision in fine-tuning enables effective classification with limited labels. On the RML2018.01A dataset, our approach outperforms supervised CNN and ViT baselines in low-label regimes, approaches ResNet-level accuracy with only 15-20% labeled data, and maintains strong performance across varying SNR levels. Overall, the framework provides a simple, generalizable, and label-efficient solution for AMR.

Ссылки и действия