DeCAL Tokenwise Compression
2508.08514v1
cs.CL, cs.LG
2025-08-14
Авторы:
Sameer Panwar
Резюме на русском
## Контекст
Сжатие данных, особенно в области обработки языка, является ключевым инструментом для эффективного использования ресурсов, особенно в условиях ограниченной мощности вычислительных систем. На сегодняшний день, многие методы сжатия требуют серьезных вычислительных ресурсов или не могут обеспечить высокое качество сжатия. Это приводит к затруднениям в применении этих методов в реальных сценариях, в том числе в обработке текстов и контекстно-свободных задачах. Далее, существующие подходы часто не учитывают тонкие точностные потери, которые могут возникнуть при сжатии. Значительное сжатие данных, сохраняющее высокое качество, представляет большой интерес для развития технологий, поскольку это позволяет экономить ресурсы, увеличивая эффективность и повышая гибкость приложений. Например, в области распознавания речи, текстового понимания и вопроса-ответа, где размеры данных могут быть огромными, эффективное сжатие данных может привести к значительным экономиям в числе вычислительных операций и вычислительных ресурсов.
## Метод
DeCAL (Denoising Compressed-Aware Language model) предлагает новый подход к сжатию данных, опираясь на модель предсказания текста типа encoder-decoder с мощным методом pretraining на основе денуisingа (рестартирования текста). Модель DeCAL использует как кодировщик, так и декодер, которые обучаются с помощью данных, генерируемых случайным образом, для построения высококачественных компрессионных представлений. Несмотря на свою цель — максимально улучшить качество сжатия данных — DeCAL включает определенные модификации кодировщика для оптимального результата. Эти модификации направлены на то, чтобы максимизировать качество сжатия данных, даже при повышении накладных расходов на вычислительные операции. Таким образом, DeCAL стремится достичь высокого качества сжатия при минимальных потерях точности, что делает его подход работающим в реальных условиях.
## Результаты
В экспериментах, проведенных для оценки DeCAL, были использованы различные задачи, включая вопрос-ответ, суммаризацию и мульти-векторное сравнение. Данные для этих задач были получены из реальных баз данных, чтобы гарантировать реалистичность результатов. На 2x сжатии, DeCAL демонстрирует почти идентичную точность к несжатым данным, а на 8x сжатии происходит только незначительный потерь в метриках. Это показывает, что DeCAL обеспечивает высокое качество сжатия, даже при высоких степенях сжатия. Эти результаты показывают, что DeCAL может эффективно использоваться в задачах, требующих высокого качества сжатия, например, в ситуациях, где необходимо быстро обрабатывать большие объ
Abstract
This paper introduces DeCAL, a new method for tokenwise compression. DeCAL
uses an encoder-decoder language model pretrained with denoising to learn to
produce high-quality, general-purpose compressed representations by the
encoder. DeCAL applies small modifications to the encoder, with the emphasis on
maximizing compression quality, even at the expense of compute. We show that
DeCAL at 2x compression can match uncompressed on many downstream tasks, with
usually only minor dropoff in metrics up to 8x compression, among
question-answering, summarization, and multi-vector retrieval tasks. DeCAL
offers significant savings where pre-computed dense representations can be
utilized, and we believe the approach can be further developed to be more
broadly applicable.
Ссылки и действия
Дополнительные ресурсы: