LightFair: Towards an Efficient Alternative for Fair T2I Diffusion via Debiasing Pre-trained Text Encoders

2509.23639v1 cs.CV, cs.AI, cs.LG 2025-10-01
Авторы:

Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Kangli Zi, Qingming Huang

Резюме на русском

#### Контекст Текст-на-изображение (T2I) диффузионные модели (T2I DMs) широко применяются в области генерации изображений по тексту, но существуют проблемы с равенством в выводе. Одной из основных причин является несбалансированный текстовый энкодер, который может внедрять склонность в представление изображений. Это приводит к привязанности к контексту, неточности и несправедливости в генерируемых изображениях. Достижение справедливости в T2I DMs является ключевым целям для улучшения качества и универсальности моделей, особенно для сценариев, требующих нейтрального вывода. Несмотря на то, что существуют методы, нацеленные на устранение этой проблемы, они часто требуют тяжелых вычислительных затрат или дополнительных сетей, что ограничивает их применение в практических сценариях. Таким образом, цель нашего исследования состоит в разработке эффективного и экономичного метода для устранения склонности в текстовых энкодерах T2I DMs. #### Метод Мы предлагаем LightFair, новая легковесная стратегия для достижения справедливости в T2I DMs путем шлифовки текстовых энкодеров. Работа начинается с нашего наблюдения: текстовый энкодер T2I DMs выдает нейтральные текстовые признаки, которые показывают незначительную, но заметную склонность в пространстве CLIP. Эта склонность может быть акцентирована ноутсой предсказателем шума. Для устранения этой склонности, мы предлагаем стратегию дезбалансировки с ограничением расстояния, которая гарантирует, что признаки пространства текста остаются близки к исходной справедливости. Для сохранения качества генерации мы предлагаем двухэтапную стратегию текстового управляемого вывода, которая ограничивает вмешательство дезбалансированного энкодера в зависимости от контекста. Эта модель демонстрирует высокую эффективность и экономичность. #### Результаты Мы проводим эксперименты на Stable Diffusion v1.5, используя широкий набор данных для тестирования равенства и качества генерации. В сравнении с другими подходами, LightFair демонстрирует существенное улучшение справедливости в выводе, сохраняя высокую точность и подробность изображений. Например, она достигает лидирующих показателей по метрикам логического справедливости с меньшим количеством тренировочных эпох и минимальным увеличением нагрузки при выводе. Наши результаты подтверждают эффективность и практичность LightFair в решении проблемы склонности в T2I DMs. #### Значимость LightFair предлагается как эффективная альтернатива для достижения справедливости в T2I DMs. Ее основное применение — в области генерирования изображений, где требуется нейт

Abstract

This paper explores a novel lightweight approach LightFair to achieve fair text-to-image diffusion models (T2I DMs) by addressing the adverse effects of the text encoder. Most existing methods either couple different parts of the diffusion model for full-parameter training or rely on auxiliary networks for correction. They incur heavy training or sampling burden and unsatisfactory performance. Since T2I DMs consist of multiple components, with the text encoder being the most fine-tunable and front-end module, this paper focuses on mitigating bias by fine-tuning text embeddings. To validate feasibility, we observe that the text encoder's neutral embedding output shows substantial skewness across image embeddings of various attributes in the CLIP space. More importantly, the noise prediction network further amplifies this imbalance. To finetune the text embedding, we propose a collaborative distance-constrained debiasing strategy that balances embedding distances to improve fairness without auxiliary references. However, mitigating bias can compromise the original generation quality. To address this, we introduce a two-stage text-guided sampling strategy to limit when the debiased text encoder intervenes. Extensive experiments demonstrate that LightFair is effective and efficient. Notably, on Stable Diffusion v1.5, our method achieves SOTA debiasing at just $1/4$ of the training burden, with virtually no increase in sampling burden. The code is available at https://github.com/boyuh/LightFair.

Ссылки и действия