Bilateral Distribution Compression: Reducing Both Data Size and Dimensionality
2509.17543v3
stat.ML, cs.LG, stat.ME
2025-09-26
Авторы:
Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett
Резюме на русском
#### Контекст
Современные задачи анализа данных часто связаны с большими объемами данных, которые требуют эффективных методов для сжатия и упрощения. Одной из ключевых проблем является сохранение точности и структуры исходной информации при сжатии. Наиболее распространенные методы сжатия ориентированы на минимизацию расстояния между исходными и сжатыми данными в одной области. Однако некоторые данные характеризуются высокой мерностью и большим размером выборки, что способствует появлению ряда технических и вычислительных сложностей. Это задание направлено на разработку методики, максимально эффективно сжимающей данные как по объему, так и по размерности, сохраняя их оригинальные свойства.
#### Метод
Метод, предложенный в статье, называется Bilateral Distribution Compression (BDC). Это двухстадийная архитектура, которая адресует проблему сжатия как по размерности, так и по объему. В первой стадии используется Reconstruction MMD (RMMD) для выявления низкоразмерной проекции, оптимизированной с целью сохранения информации о данных. Во второй стадии эта проекция используется для оптимизации Encoded MMD (EMMD), чтобы сжатый набор данных гарантированно отражал исходное распределение. Решение основывается на Decoded MMD (DMMD), который измеряет расстояние между исходными данными и сжатыми проекциями. Это разработанный подход позволяет сократить объем и размерность данных с минимальным ущербным влиянием на их структуру и характеристики.
#### Результаты
Исследования проводились на различных типах данных, включая синтетические и реальные многомерные выборки. Результаты показали, что BDC достигает поразительного сжатия данных с сохранением высокой точности. Он сравнился с существующими методами сжатия, в том числе Ambient-space Compression, и показал сильное преимущество в скорости и эффективности. Эксперименты подтвердили, что BDC достигает похожих или лучших результатов с меньшим вычислительным и памятным влиянием.
#### Значимость
BDC может применяться в различных областях, где требуется эффективное сжатие данных, например, в машинном обучении, статистике и анализе больших данных. Преимущества BDC заключаются в своей гибкости, удобстве реализации и высокой эффективности. Он позволяет значительно сократить затраты на обработку и хранение данных без потери информационной работоспособности. Это может привести к улучшению производительности на уровне систем, повышению экономичности в предметных областях и ускорению задач обработки данных.
#### Выводы
Разработанный подход BDC доказал свою эффективность в сжатии данных с сохранением их свойств. Он готов к применению в различ
Abstract
Existing distribution compression methods reduce dataset size by minimising
the Maximum Mean Discrepancy (MMD) between original and compressed sets, but
modern datasets are often large in both sample size and dimensionality. We
propose Bilateral Distribution Compression (BDC), a two-stage framework that
compresses along both axes while preserving the underlying distribution, with
overall linear time and memory complexity in dataset size and dimension.
Central to BDC is the Decoded MMD (DMMD), which quantifies the discrepancy
between the original data and a compressed set decoded from a low-dimensional
latent space. BDC proceeds by (i) learning a low-dimensional projection using
the Reconstruction MMD (RMMD), and (ii) optimising a latent compressed set with
the Encoded MMD (EMMD). We show that this procedure minimises the DMMD,
guaranteeing that the compressed set faithfully represents the original
distribution. Experiments show that across a variety of scenarios BDC can
achieve comparable or superior performance to ambient-space compression at
substantially lower cost.