📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jonas S Almeida, Daniel E Russ, Susana Vinga, Ines Duarte, Lee Mason, Praphulla Bhawsar, Aaron Ge, Arlindo Oliveira, Jeya Balaji Balasubramanian

## Контекст С Modern Language Models (MLMs), основанные на трансформерах, пользуются популярностью благодаря их универсальным возможностям в обработке символьных последовательностей. Тем не менее, для эффективного моделирования сложности текстов необходимы методы, позволяющие хранить информацию о последовательности символов в уникальном, компактном формате. Эта проблема называется **bijective encoding** и требует создания кодирований, которые сохраняют порядок и грамматические отношения между символами в последовательности, без потерь информации. Такие методы могут быть использованы для обработки текстов, генома и других последовательностей. Эти данные требуют новых подходов к кодированию, которые могут полностью сохранить информацию о последовательностях в матричном виде для моделирования. ## Метод **Universal Sequence Maps (USM)** — это биективный фрактальный кодирований, основанный на итерационных функциях, которые называются **Chaos Game Representations (CGR)**. Эти функции преобразуют символьные последовательности в координаты в пространстве чисел. Последовательность представляется как последовательность точек на плоскости, каждая точка выбирается случайным образом в соответствии с правилами CGR. Эти точки могут быть преобразованы в частотные представления (FCGR), что позволяет использовать метрики расстояний и анализировать последовательности. **USM** позволяет решать задачу кодирования последовательностей в числовые значения с помощью итерационного преобразования, которое сохраняет последовательность в уникальном формате, не зависящем от исходного порядка символов. ## Результаты В этом исследовании решены проблемы сейджинга в **USM**, которая влияла на точность и уникальность кодирования. Решение было получено в двух этапах: 1. **Полное согласование позиционирования с последовательностью**: **USM** был изменен таким образом, чтобы каждый символ в последовательности мог быть точно определен в конечной координате, не зависящей от начального набора данных. Это позволило достичь полного согласования между последовательностью и ее координатой. 2. **Понятие USM как эффективного численного процесса**: Было открыто, что **USM** эффективно сходится к численному решению, которое может быть представлено в виде стейт ембеддинга. Это решение позволило использовать **USM** для моделирования последовательностей в любой длине и с любым алфавитом. Было продемонстрировано, что **USM** эффективно работает с алфавитом из 4 символов (геном) и может быть расширен для алфавитов с более большим числом символов. ## Значимость Результаты этого исследования могут быть применены в различных об
Annotation:
Motivation: With the advent of Language Models using Transformers, popularized by ChatGPT, there is a renewed interest in exploring encoding procedures that numerically represent symbolic sequences at multiple scales and embedding dimensions. The challenge that encoding addresses is the need for mechanisms that uniquely retain contextual information about the succession of individual symbols, which can then be modeled by nonlinear formulations such as neural networks. Context: Universal Sequen...
ID: 2508.06641v1 cs.LG, cs.AI, cs.NA, math.NA, q-bio.QM