EMPEROR: Efficient Moment-Preserving Representation of Distributions
2509.16379v1
cs.LG, stat.ML
2025-09-24
Авторы:
Xinran Liu, Shansita D. Sharma, Soheil Kolouri
Резюме на русском
#### Контекст
В последние годы высокомодельные сети (например, глубокие нейронные сети) стали широко применяться в различных областях, включая визуальное восприятие, текстовый анализ и генетические исследования. Одной из ключевых задач в этой области является представление высокоразмерных распределений в низком размере, чтобы упростить вычисления, повысить эффективность хранения и обеспечить лучшую воспроизводимость моделей. Существующие подходы, такие как средние значения или максимальные значения, являются ненадежными для представления распределений, так как не сохраняют их статистические свойства. Это может привести к ошибкам в моделировании и неточности во внедренных видеоанализах. Мотивация заключается в разработке метода, позволяющего эффективно и точно представлять высокомодельные распределения, сохраняя их статистические свойства.
#### Метод
Метод EMPEROR (Efficient Moment-Preserving Representation of Distributions) основывается на теории срезовых моментов (sliced moments). Представления распределений формируются путем проекции функций распределения на несколько направлений, после чего к каждой проекции применяется легковесная модель Гауссовской смеси (Gaussian Mixture Model, GMM). Эти модели смеси позволяют локально представить распределение вдоль каждого среза. Наконец, результаты из разных проекций агрегируются в одномерный дескриптор, который извлекает ключевую информацию о распределении. Эта архитектура гарантирует уникальность представлений с помощью условия Карлемана и теоремы Лапласа. Были разработаны оценки ошибочности, которые соответствуют оптимальной эффективности в зависимости от количества срезов и выборок. Эта техника широко применима в ситуациях, где необходимо эффективное представление данных.
#### Результаты
В экспериментах проводились сравнения EMPEROR с другими подходами, такими как GAP (Global Average Pooling) и SPoC (Scatternet Pooling). Данные для экспериментов были получены из различных синтетических и реальных наборов данных, включая изображения, звуковые сигналы и генетические последовательности. Метод EMPEROR показал значительное превосходство в ситуациях, где необходимо сохранение статистических свойств распределений. Он показывал более точное представление в задачах классификации и восстановления данных, снижая ошибки в сравнении с другими представлениями. Это подтверждает то, что EMPEROR лучше подходит для задач, требующих высокой точности и эффективности.
#### Значимость
Помимо применения в глубоких нейронных сетях, EMPEROR может быть использован в ситуации, где необходимо эффективное представление данных, такие как видеоанализ и обработка гено
Abstract
We introduce EMPEROR (Efficient Moment-Preserving Representation of
Distributions), a mathematically rigorous and computationally efficient
framework for representing high-dimensional probability measures arising in
neural network representations. Unlike heuristic global pooling operations,
EMPEROR encodes a feature distribution through its statistical moments. Our
approach leverages the theory of sliced moments: features are projected onto
multiple directions, lightweight univariate Gaussian mixture models (GMMs) are
fit to each projection, and the resulting slice parameters are aggregated into
a compact descriptor. We establish determinacy guarantees via Carleman's
condition and the Cram\'er-Wold theorem, ensuring that the GMM is uniquely
determined by its sliced moments, and we derive finite-sample error bounds that
scale optimally with the number of slices and samples. Empirically, EMPEROR
captures richer distributional information than common pooling schemes across
various data modalities, while remaining computationally efficient and broadly
applicable.
Ссылки и действия
Дополнительные ресурсы: