FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation

2508.11810v1 cs.LG, cs.AI 2025-08-19

Авторы:

Nitish Nagesh, Salar Shakibhamedan, Mahdi Bagheri, Ziyu Wang, Nima TaheriNejad, Axel Jantsch, Amir M. Rahmani

Резюме на русском

## Контекст Синтезирование синтетических данных представляет собой ключевую задачу в области обработки персональных данных, особенно в случае редких или конфиденциальных данных, таких как табличные данные, которые широко используются в реальных приложениях. Однако существуют значительные вызовы, связанные с созданием табличных данных, которые не только обладают высокой практической полезностью, но и удовлетворяют критериям справедливости, в частности, касательно противоположности и каузальной справедливости. На данный момент существуют методы, которые адресуют эти проблемы, однако они либо ограничены в своих возможностях, либо не удается добиться равновесия между пользовательской полезностью и справедливостью. Было сформулировано намерение разработать новую модель, которая бы увеличила эффективность подходов к справедливости в синтетическом синтезе табличных данных, оптимизировав все при этом их качество и полезность. ## Метод Мы предлагаем FairTabGen, фреймворк построения синтетических табличных данных, основанный на большой модели языка, с функционалом поддержки различных форм справедливости, в том числе противоположности и каузальной. Для достижения баланса между полезностью и справедливостью мы внедрили методы, такие как встроенное обучение с использованием контекста, пришли к совершенствованию способа оценки результатов, а также предложили специальные методы курирования данных. Основные элементы фреймворка включают: - **Встроенное обучение с использованием контекста**: Мы используем модель с большим объемом данных, которая учитывает широкий спектр сценариев, позволяя получить подробные и применимые результаты. - **Процесс рефинемента**: Нам удалось добиться более точного определения запросов, что улучшило качество сгенерированных данных. - **Специальные методы курирования данных**: Мы вносим критерии справедливости в процесс выбора и обработки данных, чтобы обеспечить эффективность и поддержание справедливости. ## Результаты Мы проверили FairTabGen на широком спектре реальных табличных данных, сравнив его с альтернативными методами, включая методы, основанные на генеративных адверских сетях (GAN) и больших моделях языка (LLM). Наши эксперименты показали, что FairTabGen превосходит имеющиеся решения в следующих аспектах: - **Справедливость**: Мы достигли значительных улучшений в таких критериях, как демографическая равновесия и противоположность, с повышением до 10%. - **Полезность**: Наши данные сохраняют высокий уровень статистической ценности, которая необходима для реальных приложений. - **Эффективность**: FairTabGen показал вы

Abstract

Generating synthetic data is crucial in privacy-sensitive, data-scarce settings, especially for tabular datasets widely used in real-world applications. A key challenge is improving counterfactual and causal fairness, while preserving high utility. We present FairTabGen, a fairness-aware large language model-based framework for tabular synthetic data generation. We integrate multiple fairness definitions including counterfactual and causal fairness into both its generation and evaluation pipelines. We use in-context learning, prompt refinement, and fairness-aware data curation to balance fairness and utility. Across diverse datasets, our method outperforms state-of-the-art GAN-based and LLM-based methods, achieving up to 10% improvements on fairness metrics such as demographic parity and path-specific causal effects while retaining statistical utility. Remarkably, it achieves these gains using less than 20% of the original data, highlighting its efficiency in low-data regimes. These results demonstrate a principled and practical approach for generating fair and useful synthetic tabular data.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Prototype-Based Semantic Consistency Alignment for Domain Adaptive Retrieval

Diffusion Fine-Tuning via Reparameterized Policy Gradient of the Soft Q-Function

TimesNet-Gen: Deep Learning-based Site Specific Strong Motion Generation

Realizable Abstractions: Near-Optimal Hierarchical Reinforcement Learning

BEP: A Binary Error Propagation Algorithm for Binary Neural Networks Training

Навигация