Fractal Language Modelling by Universal Sequence Maps (USM)

2508.06641v1 cs.LG, cs.AI, cs.NA, math.NA, q-bio.QM 2025-08-13
Авторы:

Jonas S Almeida, Daniel E Russ, Susana Vinga, Ines Duarte, Lee Mason, Praphulla Bhawsar, Aaron Ge, Arlindo Oliveira, Jeya Balaji Balasubramanian

Резюме на русском

## Контекст С Modern Language Models (MLMs), основанные на трансформерах, пользуются популярностью благодаря их универсальным возможностям в обработке символьных последовательностей. Тем не менее, для эффективного моделирования сложности текстов необходимы методы, позволяющие хранить информацию о последовательности символов в уникальном, компактном формате. Эта проблема называется **bijective encoding** и требует создания кодирований, которые сохраняют порядок и грамматические отношения между символами в последовательности, без потерь информации. Такие методы могут быть использованы для обработки текстов, генома и других последовательностей. Эти данные требуют новых подходов к кодированию, которые могут полностью сохранить информацию о последовательностях в матричном виде для моделирования. ## Метод **Universal Sequence Maps (USM)** — это биективный фрактальный кодирований, основанный на итерационных функциях, которые называются **Chaos Game Representations (CGR)**. Эти функции преобразуют символьные последовательности в координаты в пространстве чисел. Последовательность представляется как последовательность точек на плоскости, каждая точка выбирается случайным образом в соответствии с правилами CGR. Эти точки могут быть преобразованы в частотные представления (FCGR), что позволяет использовать метрики расстояний и анализировать последовательности. **USM** позволяет решать задачу кодирования последовательностей в числовые значения с помощью итерационного преобразования, которое сохраняет последовательность в уникальном формате, не зависящем от исходного порядка символов. ## Результаты В этом исследовании решены проблемы сейджинга в **USM**, которая влияла на точность и уникальность кодирования. Решение было получено в двух этапах: 1. **Полное согласование позиционирования с последовательностью**: **USM** был изменен таким образом, чтобы каждый символ в последовательности мог быть точно определен в конечной координате, не зависящей от начального набора данных. Это позволило достичь полного согласования между последовательностью и ее координатой. 2. **Понятие USM как эффективного численного процесса**: Было открыто, что **USM** эффективно сходится к численному решению, которое может быть представлено в виде стейт ембеддинга. Это решение позволило использовать **USM** для моделирования последовательностей в любой длине и с любым алфавитом. Было продемонстрировано, что **USM** эффективно работает с алфавитом из 4 символов (геном) и может быть расширен для алфавитов с более большим числом символов. ## Значимость Результаты этого исследования могут быть применены в различных об

Abstract

Motivation: With the advent of Language Models using Transformers, popularized by ChatGPT, there is a renewed interest in exploring encoding procedures that numerically represent symbolic sequences at multiple scales and embedding dimensions. The challenge that encoding addresses is the need for mechanisms that uniquely retain contextual information about the succession of individual symbols, which can then be modeled by nonlinear formulations such as neural networks. Context: Universal Sequence Maps(USM) are iterated functions that bijectively encode symbolic sequences onto embedded numerical spaces. USM is composed of two Chaos Game Representations (CGR), iterated forwardly and backwardly, that can be projected into the frequency domain (FCGR). The corresponding USM coordinates can be used to compute a Chebyshev distance metric as well as k-mer frequencies, without having to recompute the embedded numeric coordinates, and, paradoxically, allowing for non-integers values of k. Results: This report advances the bijective fractal encoding by Universal Sequence Maps (USM) by resolving seeding biases affecting the iterated process. The resolution had two results, the first expected, the second an intriguing outcome: 1) full reconciliation of numeric positioning with sequence identity; and 2) uncovering the nature of USM as an efficient numeric process converging towards a steady state sequence embedding solution. We illustrate these results for genomic sequences because of the convenience of a planar representation defined by an alphabet with only 4 tokens (the 4 nucleotides). Nevertheless, the application to alphabet of arbitrary cardinality was found to be straightforward.

Ссылки и действия