Enhancing Automatic Modulation Recognition With a Reconstruction-Driven Vision Transformer Under Limited Labels
2508.20193v1
cs.CV, eess.SP
2025-08-30
Авторы:
Hossein Ahmadi, Banafsheh Saffari
Резюме на русском
#### Контекст
Автоматическое распознавание модulations (AMR) является критическим компонентом для систем клеточного управления (сторонние), мониторинга спектра и безопасной беспроводной связи. Однако современные решения либо требуют больших объемов меток, либо задействуют многоэтапные тренировочные процессы, что снижает относительную гибкость и общий потенциал систем. Наша мотивация заключается в разработке универсальной архитектуры, способной эффективно работать даже при ограниченных метках, обеспечивая устойчивость и высокую точность.
#### Метод
Мы предлагаем универсальный Vision Transformer (ViT), который сочетает представление сигналов с ограниченными метками, самостоятельным обучением и реконструкцией в одной модели. Основная часть архитектуры — ViT-энкодер, который извлекает дискретные признаки из сигналов. Дополнительно, мы включили в модель кодировщик-декодир для реконструкции, чтобы оперировать с низкоуровневыми свойствами I/Q-сигналов. Это позволяет модели учить более сильные и дискретные признаки в пределах тренировочного процесса. Классификатор с линейным слоем позволяет производить модификации в рамках полученных признаков.
#### Результаты
Мы провели эксперименты на датасете RML2018.01A. Наше решение показало высокую точность и устойчивость к шумам в условиях ограниченных меток. Например, оно превосходит существующие CNN и ViT-модели при использовании только 15-20% меток. Также, модель поддерживает высокую точность при различных уровнях signal-to-noise ratio (SNR). Эти результаты подтверждают её гибкость и эффективность в реальных сетевых условиях.
#### Значимость
У нашей модели широкие возможности применения в системах беспроводной связи, мониторинге спектра и когнитивных радиосистемах. Она предлагает простой, гибкий и эффективный подход к распознаванию модляций с использованием минимальных меток. Мы считаем, что наш подход может стать ключевым инструментом для улучшения технологий спектрального мониторинга и безопасности в современных беспроводных системах.
#### Выводы
Мы разработали универсальную архитектуру AMR, которая использует ViT для эффективного обучения даже при ограниченных метках. Наши результаты показали, что модель превосходит существующие решения в условиях низкого количества меток. В будущем, мы планируем расширить применение этого подхода на другие области, такие как синтез речи и сигнальная обработка.
Abstract
Automatic modulation recognition (AMR) is critical for cognitive radio,
spectrum monitoring, and secure wireless communication. However, existing
solutions often rely on large labeled datasets or multi-stage training
pipelines, which limit scalability and generalization in practice. We propose a
unified Vision Transformer (ViT) framework that integrates supervised,
self-supervised, and reconstruction objectives. The model combines a ViT
encoder, a lightweight convolutional decoder, and a linear classifier; the
reconstruction branch maps augmented signals back to their originals, anchoring
the encoder to fine-grained I/Q structure. This strategy promotes robust,
discriminative feature learning during pretraining, while partial label
supervision in fine-tuning enables effective classification with limited
labels. On the RML2018.01A dataset, our approach outperforms supervised CNN and
ViT baselines in low-label regimes, approaches ResNet-level accuracy with only
15-20% labeled data, and maintains strong performance across varying SNR
levels. Overall, the framework provides a simple, generalizable, and
label-efficient solution for AMR.
Ссылки и действия
Дополнительные ресурсы: