Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality

2509.17543v2 stat.ML, cs.LG, stat.ME 2025-09-24
Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

Резюме на русском

## Контекст Современные данные часто обладают огромным размером как в выборке, так и в размерности. Это создает значительные трудности для методов, требующих их хранения и обработки. Одной из сложностей является сохранение информативности при уменьшении размера данных. Методы, ориентированные на минимизацию размера данных, часто теряют в точности или неэффективны в вычислительных ресурсах. Наличие этих проблем мотивирует развитие новых подходов, которые бы сочетали эффективность и точность. ## Метод Мы предлагаем Bilateral Distribution Compression (BDC) — двухэтапный фреймворк, который сжимает данные как по выборке, так и по размерности. Основной идеей является Decoded MMD (DMMD), которая измеряет различия между исходными данными и данными, сжатыми в низкомерном пространстве. BDC состоит из двух этапов: (i) изучение низкомерной проекции с использованием Reconstruction MMD (RMMD) и (ii) оптимизация низкомерного сжатого набора с помощью Encoded MMD (EMMD). Эта подходка гарантирует, что сжатый набор будет точно отражать исходное распределение. ## Результаты Мы проверили эффективность BDC на различных сценариях. Метод был сравнен с существующими методами, включая Ambient-space Compression. Результаты показали, что BDC сохраняет высокую точность в представлении исходного распределения, при этом требуя значительно меньших вычислительных ресурсов. Эксперименты проводились на различных типах данных, включая высокоразмерные и высоковыборочные наборы, что демонстрирует широкую применимость BDC. ## Значимость BDC может применяться в ситуациях, где необходимо эффективно сжимать данные, сохраняя их информативность. Он имеет преимущества перед различными методами сжатия, поскольку обеспечивает лучшую точность с меньшим потреблением ресурсов. Это может быть применено в областях, таких как машинное обучение, анализ данных и хранение информации, где уменьшение размера данных критично для эффективности. ## Выводы Bilateral Distribution Compression доказал свою эффективность в сжатии данных по выборке и размерности. Мы надеемся, что дальнейшие исследования будут фокусироваться на улучшении метода для более сложных данных и его применении в реальных задачах. Это может вести к еще большим улучшениям в области хранения и обработки данных.

Abstract

Existing distribution compression methods reduce dataset size by minimising the Maximum Mean Discrepancy (MMD) between original and compressed sets, but modern datasets are often large in both sample size and dimensionality. We propose Bilateral Distribution Compression (BDC), a two-stage framework that compresses along both axes while preserving the underlying distribution, with overall linear time and memory complexity in dataset size and dimension. Central to BDC is the Decoded MMD (DMMD), which quantifies the discrepancy between the original data and a compressed set decoded from a low-dimensional latent space. BDC proceeds by (i) learning a low-dimensional projection using the Reconstruction MMD (RMMD), and (ii) optimising a latent compressed set with the Encoded MMD (EMMD). We show that this procedure minimises the DMMD, guaranteeing that the compressed set faithfully represents the original distribution. Experiments show that across a variety of scenarios BDC can achieve comparable or superior performance to ambient-space compression at substantially lower cost.

Ссылки и действия