Structural Equation-VAE: Disentangled Latent Representations for Tabular Data

2508.06347v1 cs.LG, cs.AI, cs.NE 2025-08-12
Авторы:

Ruiyu Zhang, Ce Zhao, Xin Zhao, Lin Nie, Wai-Fung Lam

Резюме на русском

## Контекст **Область исследования:** Изучение глубоких генерирующих моделей для табличных данных сталкивается с проблемами воспринимаемости и адекватности полученных представлений. Табличные данные часто содержат многомерные характеристики, которые трудно интерпретировать без осознанного выделения факторов. **Проблемы:** Одна из основных проблем заключается в том, что существующие подходы либо недостаточно дискретизируют характеристики, либо не учитывают известную структуру данных. **Мотивация:** Необходимость создания модели, которая не только генерирует точные представления, но и обеспечивает прозрачность и интерпретируемость, вдохновила разработку **Structural Equation-VAE (SE-VAE).** ## Метод **Основная идея:** SE-VAE расширяет принципы вариационного автоэнкодера (VAE), внедряя методы структурных уравнений для улучшения дискретизации и восприятия. **Ключевые технические решения:** 1. **Модульная архитектура:** Интегрирует известную структуру данных, такую как группировки показателей, в модель. 2. **Латентное пространство с уровнем загрязнения:** Изолирует конфундирующие переменные, что позволяет эффективнее контролировать их влияние. 3. **Избавление от статистических регуляризаторов:** Дискретизация достигается не только с помощью регуляризаторов, но и благодаря логической структуре модели. **Архитектура:** SE-VAE состоит из нескольких модулей, каждый отвечающий за конкретный аспект данных: известная структура, латентное пространство и конфундирующие переменные. ## Результаты **Эксперименты:** Модель была протестирована на симулированных табличных наборах данных, позволяя сравнить ее с лидирующими альтернативами. **Использованные данные:** Данные были специально сконструированы для проверки факторного восстановления, интерпретируемости и устойчивости к загрязнениям. **Результаты:** - **Факторное восстановление:** SE-VAE показала высокую точность в восстановлении факторов. - **Интерпретируемость:** Её латентные представления были более ясными и логичными по сравнению с конкурентами. - **Устойчивость к загрязнениям:** Модель демонстрировала результаты, менее чувствительные к конфундирующим переменным. **Метрики:** Использовались стандартные метрики дискретизации, такие как FactorVAE и Mutual Information Gap (MIG). ## Значимость **Применение:** SE-VAE показала потенциал в областях с теоретически дисциплинированными латентными построениями, например, в социальных и биологических науках. **Преимущества:** - Надежная факторная восстановление. - Усовершенствованная прозрачность модели. - Устойчиво

Abstract

Learning interpretable latent representations from tabular data remains a challenge in deep generative modeling. We introduce SE-VAE (Structural Equation-Variational Autoencoder), a novel architecture that embeds measurement structure directly into the design of a variational autoencoder. Inspired by structural equation modeling, SE-VAE aligns latent subspaces with known indicator groupings and introduces a global nuisance latent to isolate construct-specific confounding variation. This modular architecture enables disentanglement through design rather than through statistical regularizers alone. We evaluate SE-VAE on a suite of simulated tabular datasets and benchmark its performance against a series of leading baselines using standard disentanglement metrics. SE-VAE consistently outperforms alternatives in factor recovery, interpretability, and robustness to nuisance variation. Ablation results reveal that architectural structure, rather than regularization strength, is the key driver of performance. SE-VAE offers a principled framework for white-box generative modeling in scientific and social domains where latent constructs are theory-driven and measurement validity is essential.

Ссылки и действия