Weighted Support Points from Random Measures: An Interpretable Alternative for Generative Modeling

2508.21255v1 stat.ML, cs.LG 2025-09-02
Авторы:

Peiqi Zhao, Carlos E. Rodríguez, Ramsés H. Mena, Stephen G. Walker

Резюме на русском

## Контекст Область исследований сосредоточена на развитии методов генерируемых моделей, которые могут эффективно представлять информацию о данных с минимальными вычислительными затратами. Существующие подходы, такие как Generative Adversarial Networks (GANs) и Denoising Diffusion Probabilistic Models (DDPMs), хотя и эффективны, часто трудно интерпретировать и требуют значительных ресурсов. Были предложены методы, основанные на бутстреп-анализе и случайных весах, которые могут генерировать действительно интерпретируемые выборки. Однако эти методы часто ограничены в своих возможностях и не всегда достаточно мощны для больших и сложных данных. Мы предлагаем новый подход, основанный на теории образцов, который может оптимизировать представление данных в меньшем пространстве, сохраняя интерпретируемость и эффективность. ## Метод Мы предлагаем новый подход к генерируемым моделям, основанный на методе образцов, который использует случайные весы, вдохновленные Дирихлевским процессом и бутстрепом байесовским. Метод эффективно оптимизирует выборку случайных точек, которые могут лучше представлять данные, чем случайные точки в обычных методах. Выборка генерируется из весов, которые образуются из случайного процесса, используя теорию Бутстрепа и Дирихлевских процессов. Мы оптимизируем эти веса с помощью Convex--Concave Procedure (CCP), что позволяет найти наилучшее представление данных в указанном пространстве. Наша методология является скелетной, но может быть расширена для работы с различными типами данных и задачей. Мы разрабатываем алгоритмы, которые позволяют оптимально выбирать точки для представления данных в том числе для моделей генерируемых моделей. ## Результаты Мы проверили наш подход на двух различных наборах данных: MNIST и CelebA-HQ. Наши результаты показывают, что наш подход генерирует высококачественные и разнообразные выборки, при этом, не требуя больших вычислительных ресурсов. На MNIST, наш метод достиг квалити-эквивалентного результата Generative Adversarial Networks (GANs), но с меньшими вычислительными затратами. На CelebA-HQ, наши результаты показали, что наш подход производит высококачественные и разнообразные изображения, сохраняя интерпретируемость и эффективность. Мы также проверили, что наши выборки могут лучше представлять структуру данных по сравнению с существующими методами. ## Значимость Наш подход имеет широкое применение в сферах, где необходимо эффективно представлять данные с минимальными ресурсами. Он может быть использован для генерирования выборок для моделей генерируемых моделей, Monte Carlo-интегрирования, и других задач, где требуется

Abstract

Support points summarize a large dataset through a smaller set of representative points that can be used for data operations, such as Monte Carlo integration, without requiring access to the full dataset. In this sense, support points offer a compact yet informative representation of the original data. We build on this idea to introduce a generative modeling framework based on random weighted support points, where the randomness arises from a weighting scheme inspired by the Dirichlet process and the Bayesian bootstrap. The proposed method generates diverse and interpretable sample sets from a fixed dataset, without relying on probabilistic modeling assumptions or neural network architectures. We present the theoretical formulation of the method and develop an efficient optimization algorithm based on the Convex--Concave Procedure (CCP). Empirical results on the MNIST and CelebA-HQ datasets show that our approach produces high-quality and diverse outputs at a fraction of the computational cost of black-box alternatives such as Generative Adversarial Networks (GANs) or Denoising Diffusion Probabilistic Models (DDPMs). These results suggest that random weighted support points offer a principled, scalable, and interpretable alternative for generative modeling. A key feature is their ability to produce genuinely interpolative samples that preserve underlying data structure.

Ссылки и действия