Token Homogenization under Positional Bias
2508.17126v1
cs.CL, cs.AI, cs.LG
2025-08-27
Авторы:
Viacheslav Yusupov, Danil Maksimov, Ameliia Alaeva, Tatiana Zaitceva, Antipina Anna, Anna Vasileva, Chenlin Liu, Rayuth Chheng, Danil Sazanakov, Andrey Chetvergov, Alina Ermilova, Egor Shvetsov
Резюме на русском
## Контекст
Трансформеры, являющиеся основополагающими для современных языковых моделей, обрабатывают слова (токены) с привлечением их контекста. Несмотря на эффективность этих моделей, они могут испытывать проблемы с определением контекстной семантики, в частности, при углублении обработки в нижние слои. Это происходит, в основном, из-за искажения различий между токенами в позиционной системе координат. В определенных случаях модели могут признать почти во всех слоях токены как однородные, чтобы избежать потерь в контекстной информации. Этот эффект, называемый **homogenization**, может привести к снижению точности в задачах, требующих точного понимания контекста.
**Проблема** заключается в том, что нет полного понимания того, насколько глубоко вложенные слои модели могут углубить этот эффект, а также о том, как это влияет на обучение и поведение моделей. **Мотивация** заключается в изучении того, как позиционный биаз способствует этому эффекту и как это может быть использовано для оптимизации моделей.
## Метод
Мы применяем подход, основанный на анализе схожести между токенами в каждом слое модели. Для этого используется метрика **cosine similarity** для измерения отклонения токенов от однородности. Мы определяем позиционный биаз с помощью **positional token embeddings**, которые добавляются в исходные токены в модели. Далее, мы проводим контролируемные эксперименты, повторно обучая модели с убиранием позиционных признаков и изучая разное поведение токенов в зависимости от их позиции в потоке входных данных.
## Результаты
Мы проводили эксперименты на двух больших языковых моделях с различными размерами слоев. Наши результаты показали, что:
1. **Homogenization** существует и проявляется во всех слоях модели, но значительнее в нижних слоях.
2. **Positional bias** сильно усиливает этот эффект, особенно в случае токенов, расположенных в крайних позициях (начало и конец потока).
3. Удаление позиционных признаков приводит к уменьшению этого эффекта, но приводит к ухудшению эффективности модели в задачах, требующих контекстной информации.
## Значимость
Наши результаты имеют практическую значимость для разработки более точных языковых моделей. Известие позиционной оптимизации может привести к улучшению работы моделей в задачах, где предсказание контекста требуется с высокой точностью. Эти результаты также могут быть использованы в оптимизации архитектур трансформеров, чтобы повысить их общую производительность.
## Выводы
Мы показали, что **homogenization** в трансформерах является реальным проблемом, которое сильно влияет на работу моделей в задачах, требующих точного понимани
Abstract
This paper investigates token homogenization - the convergence of token
representations toward uniformity across transformer layers and its
relationship to positional bias in large language models. We empirically
examine whether homogenization occurs and how positional bias amplifies this
effect. Through layer-wise similarity analysis and controlled experiments, we
demonstrate that tokens systematically lose distinctiveness during processing,
particularly when biased toward extremal positions. Our findings confirm both
the existence of homogenization and its dependence on positional attention
mechanisms.
Ссылки и действия
Дополнительные ресурсы: