Token Homogenization under Positional Bias

2508.17126v1 cs.CL, cs.AI, cs.LG 2025-08-27

Авторы:

Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Tatiana Zaitceva, Antipina Anna, Anna Vasileva, Chenlin Liu, Rayuth Chheng, Danil Sazanakov, Andrey Chetvergov, Alina Ermilova, Egor Shvetsov

Резюме на русском

## Контекст Трансформеры, являющиеся основополагающими для современных языковых моделей, обрабатывают слова (токены) с привлечением их контекста. Несмотря на эффективность этих моделей, они могут испытывать проблемы с определением контекстной семантики, в частности, при углублении обработки в нижние слои. Это происходит, в основном, из-за искажения различий между токенами в позиционной системе координат. В определенных случаях модели могут признать почти во всех слоях токены как однородные, чтобы избежать потерь в контекстной информации. Этот эффект, называемый **homogenization**, может привести к снижению точности в задачах, требующих точного понимания контекста. **Проблема** заключается в том, что нет полного понимания того, насколько глубоко вложенные слои модели могут углубить этот эффект, а также о том, как это влияет на обучение и поведение моделей. **Мотивация** заключается в изучении того, как позиционный биаз способствует этому эффекту и как это может быть использовано для оптимизации моделей. ## Метод Мы применяем подход, основанный на анализе схожести между токенами в каждом слое модели. Для этого используется метрика **cosine similarity** для измерения отклонения токенов от однородности. Мы определяем позиционный биаз с помощью **positional token embeddings**, которые добавляются в исходные токены в модели. Далее, мы проводим контролируемные эксперименты, повторно обучая модели с убиранием позиционных признаков и изучая разное поведение токенов в зависимости от их позиции в потоке входных данных. ## Результаты Мы проводили эксперименты на двух больших языковых моделях с различными размерами слоев. Наши результаты показали, что: 1. **Homogenization** существует и проявляется во всех слоях модели, но значительнее в нижних слоях. 2. **Positional bias** сильно усиливает этот эффект, особенно в случае токенов, расположенных в крайних позициях (начало и конец потока). 3. Удаление позиционных признаков приводит к уменьшению этого эффекта, но приводит к ухудшению эффективности модели в задачах, требующих контекстной информации. ## Значимость Наши результаты имеют практическую значимость для разработки более точных языковых моделей. Известие позиционной оптимизации может привести к улучшению работы моделей в задачах, где предсказание контекста требуется с высокой точностью. Эти результаты также могут быть использованы в оптимизации архитектур трансформеров, чтобы повысить их общую производительность. ## Выводы Мы показали, что **homogenization** в трансформерах является реальным проблемом, которое сильно влияет на работу моделей в задачах, требующих точного понимани

Abstract

This paper investigates token homogenization - the convergence of token representations toward uniformity across transformer layers and its relationship to positional bias in large language models. We empirically examine whether homogenization occurs and how positional bias amplifies this effect. Through layer-wise similarity analysis and controlled experiments, we demonstrate that tokens systematically lose distinctiveness during processing, particularly when biased toward extremal positions. Our findings confirm both the existence of homogenization and its dependence on positional attention mechanisms.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Token Homogenization under Positional Bias

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Arbitrage: Efficient Reasoning via Advantage-Aware Speculation

Structured Document Translation via Format Reinforcement Learning

Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective

Agreement-Constrained Probabilistic Minimum Bayes Risk Decoding

SUPERChem: A Multimodal Reasoning Benchmark in Chemistry

Навигация