## Контекст
Сжатие данных, особенно в области обработки языка, является ключевым инструментом для эффективного использования ресурсов, особенно в условиях ограниченной мощности вычислительных систем. На сегодняшний день, многие методы сжатия требуют серьезных вычислительных ресурсов или не могут обеспечить высокое качество сжатия. Это приводит к затруднениям в применении этих методов в реальных сценариях, в том числе в обработке текстов и контекстно-свободных задачах. Далее, существующие подходы часто не учитывают тонкие точностные потери, которые могут возникнуть при сжатии. Значительное сжатие данных, сохраняющее высокое качество, представляет большой интерес для развития технологий, поскольку это позволяет экономить ресурсы, увеличивая эффективность и повышая гибкость приложений. Например, в области распознавания речи, текстового понимания и вопроса-ответа, где размеры данных могут быть огромными, эффективное сжатие данных может привести к значительным экономиям в числе вычислительных операций и вычислительных ресурсов.
## Метод
DeCAL (Denoising Compressed-Aware Language model) предлагает новый подход к сжатию данных, опираясь на модель предсказания текста типа encoder-decoder с мощным методом pretraining на основе денуisingа (рестартирования текста). Модель DeCAL использует как кодировщик, так и декодер, которые обучаются с помощью данных, генерируемых случайным образом, для построения высококачественных компрессионных представлений. Несмотря на свою цель — максимально улучшить качество сжатия данных — DeCAL включает определенные модификации кодировщика для оптимального результата. Эти модификации направлены на то, чтобы максимизировать качество сжатия данных, даже при повышении накладных расходов на вычислительные операции. Таким образом, DeCAL стремится достичь высокого качества сжатия при минимальных потерях точности, что делает его подход работающим в реальных условиях.
## Результаты
В экспериментах, проведенных для оценки DeCAL, были использованы различные задачи, включая вопрос-ответ, суммаризацию и мульти-векторное сравнение. Данные для этих задач были получены из реальных баз данных, чтобы гарантировать реалистичность результатов. На 2x сжатии, DeCAL демонстрирует почти идентичную точность к несжатым данным, а на 8x сжатии происходит только незначительный потерь в метриках. Это показывает, что DeCAL обеспечивает высокое качество сжатия, даже при высоких степенях сжатия. Эти результаты показывают, что DeCAL может эффективно использоваться в задачах, требующих высокого качества сжатия, например, в ситуациях, где необходимо быстро обрабатывать большие объ