Fractal Language Modelling by Universal Sequence Maps (USM)
2508.06641v1
cs.LG, cs.AI, cs.NA, math.NA, q-bio.QM
2025-08-13
Авторы:
Jonas S Almeida, Daniel E Russ, Susana Vinga, Ines Duarte, Lee Mason, Praphulla Bhawsar, Aaron Ge, Arlindo Oliveira, Jeya Balaji Balasubramanian
Резюме на русском
## Контекст
С Modern Language Models (MLMs), основанные на трансформерах, пользуются популярностью благодаря их универсальным возможностям в обработке символьных последовательностей. Тем не менее, для эффективного моделирования сложности текстов необходимы методы, позволяющие хранить информацию о последовательности символов в уникальном, компактном формате. Эта проблема называется **bijective encoding** и требует создания кодирований, которые сохраняют порядок и грамматические отношения между символами в последовательности, без потерь информации. Такие методы могут быть использованы для обработки текстов, генома и других последовательностей. Эти данные требуют новых подходов к кодированию, которые могут полностью сохранить информацию о последовательностях в матричном виде для моделирования.
## Метод
**Universal Sequence Maps (USM)** — это биективный фрактальный кодирований, основанный на итерационных функциях, которые называются **Chaos Game Representations (CGR)**. Эти функции преобразуют символьные последовательности в координаты в пространстве чисел. Последовательность представляется как последовательность точек на плоскости, каждая точка выбирается случайным образом в соответствии с правилами CGR. Эти точки могут быть преобразованы в частотные представления (FCGR), что позволяет использовать метрики расстояний и анализировать последовательности. **USM** позволяет решать задачу кодирования последовательностей в числовые значения с помощью итерационного преобразования, которое сохраняет последовательность в уникальном формате, не зависящем от исходного порядка символов.
## Результаты
В этом исследовании решены проблемы сейджинга в **USM**, которая влияла на точность и уникальность кодирования. Решение было получено в двух этапах:
1. **Полное согласование позиционирования с последовательностью**: **USM** был изменен таким образом, чтобы каждый символ в последовательности мог быть точно определен в конечной координате, не зависящей от начального набора данных. Это позволило достичь полного согласования между последовательностью и ее координатой.
2. **Понятие USM как эффективного численного процесса**: Было открыто, что **USM** эффективно сходится к численному решению, которое может быть представлено в виде стейт ембеддинга. Это решение позволило использовать **USM** для моделирования последовательностей в любой длине и с любым алфавитом. Было продемонстрировано, что **USM** эффективно работает с алфавитом из 4 символов (геном) и может быть расширен для алфавитов с более большим числом символов.
## Значимость
Результаты этого исследования могут быть применены в различных об
Abstract
Motivation: With the advent of Language Models using Transformers,
popularized by ChatGPT, there is a renewed interest in exploring encoding
procedures that numerically represent symbolic sequences at multiple scales and
embedding dimensions. The challenge that encoding addresses is the need for
mechanisms that uniquely retain contextual information about the succession of
individual symbols, which can then be modeled by nonlinear formulations such as
neural networks.
Context: Universal Sequence Maps(USM) are iterated functions that bijectively
encode symbolic sequences onto embedded numerical spaces. USM is composed of
two Chaos Game Representations (CGR), iterated forwardly and backwardly, that
can be projected into the frequency domain (FCGR). The corresponding USM
coordinates can be used to compute a Chebyshev distance metric as well as k-mer
frequencies, without having to recompute the embedded numeric coordinates, and,
paradoxically, allowing for non-integers values of k.
Results: This report advances the bijective fractal encoding by Universal
Sequence Maps (USM) by resolving seeding biases affecting the iterated process.
The resolution had two results, the first expected, the second an intriguing
outcome: 1) full reconciliation of numeric positioning with sequence identity;
and 2) uncovering the nature of USM as an efficient numeric process converging
towards a steady state sequence embedding solution. We illustrate these results
for genomic sequences because of the convenience of a planar representation
defined by an alphabet with only 4 tokens (the 4 nucleotides). Nevertheless,
the application to alphabet of arbitrary cardinality was found to be
straightforward.