DeCAL Tokenwise Compression

2508.08514v1 cs.CL, cs.LG 2025-08-14
Авторы:

Sameer Panwar

Резюме на русском

## Контекст Сжатие данных, особенно в области обработки языка, является ключевым инструментом для эффективного использования ресурсов, особенно в условиях ограниченной мощности вычислительных систем. На сегодняшний день, многие методы сжатия требуют серьезных вычислительных ресурсов или не могут обеспечить высокое качество сжатия. Это приводит к затруднениям в применении этих методов в реальных сценариях, в том числе в обработке текстов и контекстно-свободных задачах. Далее, существующие подходы часто не учитывают тонкие точностные потери, которые могут возникнуть при сжатии. Значительное сжатие данных, сохраняющее высокое качество, представляет большой интерес для развития технологий, поскольку это позволяет экономить ресурсы, увеличивая эффективность и повышая гибкость приложений. Например, в области распознавания речи, текстового понимания и вопроса-ответа, где размеры данных могут быть огромными, эффективное сжатие данных может привести к значительным экономиям в числе вычислительных операций и вычислительных ресурсов. ## Метод DeCAL (Denoising Compressed-Aware Language model) предлагает новый подход к сжатию данных, опираясь на модель предсказания текста типа encoder-decoder с мощным методом pretraining на основе денуisingа (рестартирования текста). Модель DeCAL использует как кодировщик, так и декодер, которые обучаются с помощью данных, генерируемых случайным образом, для построения высококачественных компрессионных представлений. Несмотря на свою цель — максимально улучшить качество сжатия данных — DeCAL включает определенные модификации кодировщика для оптимального результата. Эти модификации направлены на то, чтобы максимизировать качество сжатия данных, даже при повышении накладных расходов на вычислительные операции. Таким образом, DeCAL стремится достичь высокого качества сжатия при минимальных потерях точности, что делает его подход работающим в реальных условиях. ## Результаты В экспериментах, проведенных для оценки DeCAL, были использованы различные задачи, включая вопрос-ответ, суммаризацию и мульти-векторное сравнение. Данные для этих задач были получены из реальных баз данных, чтобы гарантировать реалистичность результатов. На 2x сжатии, DeCAL демонстрирует почти идентичную точность к несжатым данным, а на 8x сжатии происходит только незначительный потерь в метриках. Это показывает, что DeCAL обеспечивает высокое качество сжатия, даже при высоких степенях сжатия. Эти результаты показывают, что DeCAL может эффективно использоваться в задачах, требующих высокого качества сжатия, например, в ситуациях, где необходимо быстро обрабатывать большие объ

Abstract

This paper introduces DeCAL, a new method for tokenwise compression. DeCAL uses an encoder-decoder language model pretrained with denoising to learn to produce high-quality, general-purpose compressed representations by the encoder. DeCAL applies small modifications to the encoder, with the emphasis on maximizing compression quality, even at the expense of compute. We show that DeCAL at 2x compression can match uncompressed on many downstream tasks, with usually only minor dropoff in metrics up to 8x compression, among question-answering, summarization, and multi-vector retrieval tasks. DeCAL offers significant savings where pre-computed dense representations can be utilized, and we believe the approach can be further developed to be more broadly applicable.

Ссылки и действия