FairTabGen: Unifying Counterfactual and Causal Fairness in Synthetic Tabular Data Generation
2508.11810v1
cs.LG, cs.AI
2025-08-19
Авторы:
Nitish Nagesh, Salar Shakibhamedan, Mahdi Bagheri, Ziyu Wang, Nima TaheriNejad, Axel Jantsch, Amir M. Rahmani
Резюме на русском
## Контекст
Синтезирование синтетических данных представляет собой ключевую задачу в области обработки персональных данных, особенно в случае редких или конфиденциальных данных, таких как табличные данные, которые широко используются в реальных приложениях. Однако существуют значительные вызовы, связанные с созданием табличных данных, которые не только обладают высокой практической полезностью, но и удовлетворяют критериям справедливости, в частности, касательно противоположности и каузальной справедливости. На данный момент существуют методы, которые адресуют эти проблемы, однако они либо ограничены в своих возможностях, либо не удается добиться равновесия между пользовательской полезностью и справедливостью. Было сформулировано намерение разработать новую модель, которая бы увеличила эффективность подходов к справедливости в синтетическом синтезе табличных данных, оптимизировав все при этом их качество и полезность.
## Метод
Мы предлагаем FairTabGen, фреймворк построения синтетических табличных данных, основанный на большой модели языка, с функционалом поддержки различных форм справедливости, в том числе противоположности и каузальной. Для достижения баланса между полезностью и справедливостью мы внедрили методы, такие как встроенное обучение с использованием контекста, пришли к совершенствованию способа оценки результатов, а также предложили специальные методы курирования данных. Основные элементы фреймворка включают:
- **Встроенное обучение с использованием контекста**: Мы используем модель с большим объемом данных, которая учитывает широкий спектр сценариев, позволяя получить подробные и применимые результаты.
- **Процесс рефинемента**: Нам удалось добиться более точного определения запросов, что улучшило качество сгенерированных данных.
- **Специальные методы курирования данных**: Мы вносим критерии справедливости в процесс выбора и обработки данных, чтобы обеспечить эффективность и поддержание справедливости.
## Результаты
Мы проверили FairTabGen на широком спектре реальных табличных данных, сравнив его с альтернативными методами, включая методы, основанные на генеративных адверских сетях (GAN) и больших моделях языка (LLM). Наши эксперименты показали, что FairTabGen превосходит имеющиеся решения в следующих аспектах:
- **Справедливость**: Мы достигли значительных улучшений в таких критериях, как демографическая равновесия и противоположность, с повышением до 10%.
- **Полезность**: Наши данные сохраняют высокий уровень статистической ценности, которая необходима для реальных приложений.
- **Эффективность**: FairTabGen показал вы
Abstract
Generating synthetic data is crucial in privacy-sensitive, data-scarce
settings, especially for tabular datasets widely used in real-world
applications. A key challenge is improving counterfactual and causal fairness,
while preserving high utility. We present FairTabGen, a fairness-aware large
language model-based framework for tabular synthetic data generation. We
integrate multiple fairness definitions including counterfactual and causal
fairness into both its generation and evaluation pipelines. We use in-context
learning, prompt refinement, and fairness-aware data curation to balance
fairness and utility. Across diverse datasets, our method outperforms
state-of-the-art GAN-based and LLM-based methods, achieving up to 10%
improvements on fairness metrics such as demographic parity and path-specific
causal effects while retaining statistical utility. Remarkably, it achieves
these gains using less than 20% of the original data, highlighting its
efficiency in low-data regimes. These results demonstrate a principled and
practical approach for generating fair and useful synthetic tabular data.
Ссылки и действия
Дополнительные ресурсы: