Tracing the Representation Geometry of Language Models from Pretraining to Post-training
2509.23024v1
cs.LG, cs.AI, cs.CL
2025-10-01
Авторы:
Melody Zixuan Li, Kumar Krishna Agrawal, Arna Ghosh, Komal Kumar Teru, Adam Santoro, Guillaume Lajoie, Blake A. Richards
Резюме на русском
## Контекст
Modern language models (LMs), особенно те, что имеют масштабируемую архитектуру, превзошли человеческие показатели во многих задачах обработки естественного языка. Однако, несмотря на их высокую эффективность, стандартные метрики обучения, такие как loss, оказываются недостаточными для точного описания появления высокоспециализированных качеств, таких как языковое понимание и творческая генерация. Это ставит перед учеными задачу расширения понимания механизмов, которые способствуют появлению этих качеств. Работа предлагает использовать **спектральный подход** для исследования геометрии представлений внутри LMs, подход, который может предоставить более глубокий взгляд на эту проблему.
## Метод
Для исследования геометрии представлений, авторы применяют спектральные меры, такие как **effective rank (RankMe)** и **eigenspectrum decay ($\alpha$-ReQ)**. Эти показатели помогают изучить структуру внутренних представлений моделей в процессе обучения. Используются две модели: **OLMo (1B–7B параметров)** и **Pythia (160M–12B параметров)**. Для оценки этих моделей, авторы используют данные, собранные во время **autoregressive pretraining**, что позволяет исследовать появление и изменение представлений во время разных этапов тренировки. Также, они проводят эксперименты с **post-training**, в том числе **supervised fine-tuning (SFT)**, **directed pre-training (DPO)** и **reward-guided learning (RLVR)**, чтобы изучить как пост-тренировка влияет на геометрию представлений.
## Результаты
Авторы выявили **три основных геометрических фазы** в процессе autoregressive pretraining. Каждая фаза имеет свои характеристики:
1. **Warmup phase**: здесь представления сжимаются, что соответствует отбору самых важных контекстных сигналов.
2. **Entropy-seeking phase**: в этой фазе, представления расширяются, что соответствует увеличению диапазона генерируемых значений.
3. **Compression-seeking phase**: в последней фазе, представления становятся более аносиотропными (избирательными), что приводит к поддержанию только самых важных составляющих.
Эти фазы соответствуют разным стадиям развития модели, включая улучшение в downstream tasks. **Post-training** также оказывает свой вклад в изменение геометрии: **supervised fine-tuning (SFT)** и **directed pre-training (DPO)** учат модель работать с конкретными данными, что улучшает показатели на задачах внутри распределения, но может снизить общую универсальность. В то же время, **reward-guided learning (RLVR)** улучшает геометрию в плане выполнения конкретных задач, но может снизить диверситет генерации.
## Значимость
Результаты имеют большое значение для осмысления и оптимизации процесса обучения моделей. Работа показывает, что **cross-entropy optimization** и **representational bottlenecks** (когда размерность представл
Abstract
Standard training metrics like loss fail to explain the emergence of complex
capabilities in large language models. We take a spectral approach to
investigate the geometry of learned representations across pretraining and
post-training, measuring effective rank (RankMe) and eigenspectrum decay
($\alpha$-ReQ). With OLMo (1B-7B) and Pythia (160M-12B) models, we uncover a
consistent non-monotonic sequence of three geometric phases during
autoregressive pretraining. The initial "warmup" phase exhibits rapid
representational collapse. This is followed by an "entropy-seeking" phase,
where the manifold's dimensionality expands substantially, coinciding with peak
n-gram memorization. Subsequently, a "compression-seeking" phase imposes
anisotropic consolidation, selectively preserving variance along dominant
eigendirections while contracting others, a transition marked with significant
improvement in downstream task performance. We show these phases can emerge
from a fundamental interplay of cross-entropy optimization under skewed token
frequencies and representational bottlenecks ($d \ll |V|$). Post-training
further transforms geometry: SFT and DPO drive "entropy-seeking" dynamics to
integrate specific instructional or preferential data, improving
in-distribution performance while degrading out-of-distribution robustness.
Conversely, RLVR induces "compression-seeking", enhancing reward alignment but
reducing generation diversity.
Ссылки и действия
Дополнительные ресурсы: