Tracing the Representation Geometry of Language Models from Pretraining to Post-training

2509.23024v1 cs.LG, cs.AI, cs.CL 2025-10-01
Авторы:

Melody Zixuan Li, Kumar Krishna Agrawal, Arna Ghosh, Komal Kumar Teru, Adam Santoro, Guillaume Lajoie, Blake A. Richards

Резюме на русском

## Контекст Modern language models (LMs), особенно те, что имеют масштабируемую архитектуру, превзошли человеческие показатели во многих задачах обработки естественного языка. Однако, несмотря на их высокую эффективность, стандартные метрики обучения, такие как loss, оказываются недостаточными для точного описания появления высокоспециализированных качеств, таких как языковое понимание и творческая генерация. Это ставит перед учеными задачу расширения понимания механизмов, которые способствуют появлению этих качеств. Работа предлагает использовать **спектральный подход** для исследования геометрии представлений внутри LMs, подход, который может предоставить более глубокий взгляд на эту проблему. ## Метод Для исследования геометрии представлений, авторы применяют спектральные меры, такие как **effective rank (RankMe)** и **eigenspectrum decay ($\alpha$-ReQ)**. Эти показатели помогают изучить структуру внутренних представлений моделей в процессе обучения. Используются две модели: **OLMo (1B–7B параметров)** и **Pythia (160M–12B параметров)**. Для оценки этих моделей, авторы используют данные, собранные во время **autoregressive pretraining**, что позволяет исследовать появление и изменение представлений во время разных этапов тренировки. Также, они проводят эксперименты с **post-training**, в том числе **supervised fine-tuning (SFT)**, **directed pre-training (DPO)** и **reward-guided learning (RLVR)**, чтобы изучить как пост-тренировка влияет на геометрию представлений. ## Результаты Авторы выявили **три основных геометрических фазы** в процессе autoregressive pretraining. Каждая фаза имеет свои характеристики: 1. **Warmup phase**: здесь представления сжимаются, что соответствует отбору самых важных контекстных сигналов. 2. **Entropy-seeking phase**: в этой фазе, представления расширяются, что соответствует увеличению диапазона генерируемых значений. 3. **Compression-seeking phase**: в последней фазе, представления становятся более аносиотропными (избирательными), что приводит к поддержанию только самых важных составляющих. Эти фазы соответствуют разным стадиям развития модели, включая улучшение в downstream tasks. **Post-training** также оказывает свой вклад в изменение геометрии: **supervised fine-tuning (SFT)** и **directed pre-training (DPO)** учат модель работать с конкретными данными, что улучшает показатели на задачах внутри распределения, но может снизить общую универсальность. В то же время, **reward-guided learning (RLVR)** улучшает геометрию в плане выполнения конкретных задач, но может снизить диверситет генерации. ## Значимость Результаты имеют большое значение для осмысления и оптимизации процесса обучения моделей. Работа показывает, что **cross-entropy optimization** и **representational bottlenecks** (когда размерность представл

Abstract

Standard training metrics like loss fail to explain the emergence of complex capabilities in large language models. We take a spectral approach to investigate the geometry of learned representations across pretraining and post-training, measuring effective rank (RankMe) and eigenspectrum decay ($\alpha$-ReQ). With OLMo (1B-7B) and Pythia (160M-12B) models, we uncover a consistent non-monotonic sequence of three geometric phases during autoregressive pretraining. The initial "warmup" phase exhibits rapid representational collapse. This is followed by an "entropy-seeking" phase, where the manifold's dimensionality expands substantially, coinciding with peak n-gram memorization. Subsequently, a "compression-seeking" phase imposes anisotropic consolidation, selectively preserving variance along dominant eigendirections while contracting others, a transition marked with significant improvement in downstream task performance. We show these phases can emerge from a fundamental interplay of cross-entropy optimization under skewed token frequencies and representational bottlenecks ($d \ll |V|$). Post-training further transforms geometry: SFT and DPO drive "entropy-seeking" dynamics to integrate specific instructional or preferential data, improving in-distribution performance while degrading out-of-distribution robustness. Conversely, RLVR induces "compression-seeking", enhancing reward alignment but reducing generation diversity.

Ссылки и действия