LightFair: Towards an Efficient Alternative for Fair T2I Diffusion via Debiasing Pre-trained Text Encoders
2509.23639v1
cs.CV, cs.AI, cs.LG
2025-10-01
Авторы:
Boyu Han, Qianqian Xu, Shilong Bao, Zhiyong Yang, Kangli Zi, Qingming Huang
Резюме на русском
#### Контекст
Текст-на-изображение (T2I) диффузионные модели (T2I DMs) широко применяются в области генерации изображений по тексту, но существуют проблемы с равенством в выводе. Одной из основных причин является несбалансированный текстовый энкодер, который может внедрять склонность в представление изображений. Это приводит к привязанности к контексту, неточности и несправедливости в генерируемых изображениях. Достижение справедливости в T2I DMs является ключевым целям для улучшения качества и универсальности моделей, особенно для сценариев, требующих нейтрального вывода. Несмотря на то, что существуют методы, нацеленные на устранение этой проблемы, они часто требуют тяжелых вычислительных затрат или дополнительных сетей, что ограничивает их применение в практических сценариях. Таким образом, цель нашего исследования состоит в разработке эффективного и экономичного метода для устранения склонности в текстовых энкодерах T2I DMs.
#### Метод
Мы предлагаем LightFair, новая легковесная стратегия для достижения справедливости в T2I DMs путем шлифовки текстовых энкодеров. Работа начинается с нашего наблюдения: текстовый энкодер T2I DMs выдает нейтральные текстовые признаки, которые показывают незначительную, но заметную склонность в пространстве CLIP. Эта склонность может быть акцентирована ноутсой предсказателем шума. Для устранения этой склонности, мы предлагаем стратегию дезбалансировки с ограничением расстояния, которая гарантирует, что признаки пространства текста остаются близки к исходной справедливости. Для сохранения качества генерации мы предлагаем двухэтапную стратегию текстового управляемого вывода, которая ограничивает вмешательство дезбалансированного энкодера в зависимости от контекста. Эта модель демонстрирует высокую эффективность и экономичность.
#### Результаты
Мы проводим эксперименты на Stable Diffusion v1.5, используя широкий набор данных для тестирования равенства и качества генерации. В сравнении с другими подходами, LightFair демонстрирует существенное улучшение справедливости в выводе, сохраняя высокую точность и подробность изображений. Например, она достигает лидирующих показателей по метрикам логического справедливости с меньшим количеством тренировочных эпох и минимальным увеличением нагрузки при выводе. Наши результаты подтверждают эффективность и практичность LightFair в решении проблемы склонности в T2I DMs.
#### Значимость
LightFair предлагается как эффективная альтернатива для достижения справедливости в T2I DMs. Ее основное применение — в области генерирования изображений, где требуется нейт
Abstract
This paper explores a novel lightweight approach LightFair to achieve fair
text-to-image diffusion models (T2I DMs) by addressing the adverse effects of
the text encoder. Most existing methods either couple different parts of the
diffusion model for full-parameter training or rely on auxiliary networks for
correction. They incur heavy training or sampling burden and unsatisfactory
performance. Since T2I DMs consist of multiple components, with the text
encoder being the most fine-tunable and front-end module, this paper focuses on
mitigating bias by fine-tuning text embeddings. To validate feasibility, we
observe that the text encoder's neutral embedding output shows substantial
skewness across image embeddings of various attributes in the CLIP space. More
importantly, the noise prediction network further amplifies this imbalance. To
finetune the text embedding, we propose a collaborative distance-constrained
debiasing strategy that balances embedding distances to improve fairness
without auxiliary references. However, mitigating bias can compromise the
original generation quality. To address this, we introduce a two-stage
text-guided sampling strategy to limit when the debiased text encoder
intervenes. Extensive experiments demonstrate that LightFair is effective and
efficient. Notably, on Stable Diffusion v1.5, our method achieves SOTA
debiasing at just $1/4$ of the training burden, with virtually no increase in
sampling burden. The code is available at https://github.com/boyuh/LightFair.
Ссылки и действия
Дополнительные ресурсы: