GEM-T: Generative Tabular Data via Fitting Moments

2509.17752v1 cs.LG, cs.AI, stat.ML 2025-09-24
Авторы:

Miao Li, Phuc Nguyen, Christopher Tam, Alexandra Morgan, Kenneth Ge, Rahul Bansal, Linzi Yu, Rima Arnaout, Ramy Arnaout

Резюме на русском

## Контекст Область исследования — генерирование синтетических табличных данных, которая играет ключевую роль в широких областях, включая машинное обучение, визуализацию и анализ. Существующие проблемы включают нехватку эффективных методов, которые могут точно генерировать реалистичные табличные данные, особенно когда данные ограничены или характеризуются сильной неоднородностью. Такие проблемы возникают в ситуациях, когда необходимо защитить конфиденциальность или увеличить гибкость в анализе. Мотивация заключается в разработке метода, который может эффективно учитывать сложные взаимосвязи в данных, обеспечивая при этом высокую точность и удобство для исследователей. ## Метод Генерирующий метод, предложенный в работе, основывается на принципе максимальной энтропии (MaxEnt). Данный подход, названный GEM-T (Generative Entropy Maximization for Tables), предназначен для генерирования табличных данных, учитывая взаимосвязи между столбцами. GEM-T активно использует не только первоочередные (парные) связи, но и высшие порядки взаимосвязей, включая трехмерные и дальше. Это позволяет ему лучше подступиться к сложной структуре табличных данных, включая категориальные и непрерывные признаки. Архитектура GEM-T характеризуется простотой и эффективностью, используя минимальное количество параметров для обучения. Метод подходит для широкого круга задач, включая генерирование данных для обучения моделей и защищенного анализа. ## Результаты ГОСТ Р 7.0.11 2023. Раздел Результаты исследований включает описание экспериментов, проведенных на 23 табличных данных из различных сфер. ГEM-Т показал себя эффективнее текущих методов в 23 из 34 датасетов, что составляет 68%. Таким образом, он доказал высокую точность в генерировании табличных данных. Одним из примечательных аспектов GEM-T является его высокая эффективность, поскольку он включает в себя существенно меньше параметров, чем многие другие глубокие нейронные сети. Это делает его более легким для работы и применимым в сценариях, где ресурсы ограничены. ## Значимость ГОСТ Р 7.0.11 2023. Результаты имеют значимость в ряде областей, включая здравоохранение, финансы и анализ данных. Метод GEM-T может применяться для генерирования синтетических данных для обучения, тестирования и защиты конфиденциальности. Основное преимущество — его легковесная архитектура, которая позволяет работать с большими табличными данными без значительных накладных расходов на ресурсы. Будущие разработки могут улучшить

Abstract

Tabular data dominates data science but poses challenges for generative models, especially when the data is limited or sensitive. We present a novel approach to generating synthetic tabular data based on the principle of maximum entropy -- MaxEnt -- called GEM-T, for ``generative entropy maximization for tables.'' GEM-T directly captures nth-order interactions -- pairwise, third-order, etc. -- among columns of training data. In extensive testing, GEM-T matches or exceeds deep neural network approaches previously regarded as state-of-the-art in 23 of 34 publicly available datasets representing diverse subject domains (68\%). Notably, GEM-T involves orders-of-magnitude fewer trainable parameters, demonstrating that much of the information in real-world data resides in low-dimensional, potentially human-interpretable correlations, provided that the input data is appropriately transformed first. Furthermore, MaxEnt better handles heterogeneous data types (continuous vs. discrete vs. categorical), lack of local structure, and other features of tabular data. GEM-T represents a promising direction for light-weight high-performance generative models for structured data.

Ссылки и действия