Compressing Large Language Models with PCA Without Performance Loss

2508.04307v1 cs.CE, cs.AI 2025-08-09
Авторы:

Magnus Bengtsson

Резюме на русском

Огромные языковые модели, хотя и эффективны, требуют больших ресурсов для обучения и работы, что ограничивает их применение в устройствах с ограниченными мощностями и высокими требованиями к производительности. В статье "Compressing Large Language Models with PCA Without Performance Loss" авторы рассматривают метод сжатия моделей с помощью главных компонент анализа (PCA), позволяющий сократить модели без ущерба для их качества. Авторы демонстрируют результаты этого подхода на разных задачах, включая задачу классификации MNIST, обучение трансформера на данных 20 Newsgroups и генерацию токенов с помощью transformer-декодера. Они доказывают, что PCA-сжатие позволяет сократить модели до 17% от оригинального размера, при этом сохраняя высокую точность и гранулярность. Этот подход предлагается как эффективный способ уменьшить требования ресурсов для языковых моделей без потери качества.

Abstract

We demonstrate that Principal Component Analysis (PCA), when applied in a structured manner, either to polar-transformed images or segment-wise to token sequences, enables extreme compression of neural models without sacrificing performance. Across three case studies, we show that a one-layer classifier trained on PCA-compressed polar MNIST achieves over 98 percent accuracy using only 840 parameters. A two-layer transformer trained on 70-dimensional PCA-reduced MiniLM embeddings reaches 76.62 percent accuracy on the 20 Newsgroups dataset with just 81000 parameters. A decoder-only transformer generates coherent token sequences from 70-dimensional PCA embeddings while preserving over 97 percent cosine similarity with full MiniLM representations, using less than 17 percent of the parameter count of GPT-2. These results highlight PCA-based input compression as a general and effective strategy for aligning model capacity with information content, enabling lightweight architectures across multiple modalities.

Ссылки и действия