Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing
2508.11258v1
cs.LG, cs.CL, cs.CY
2025-08-19
Авторы:
Ruicheng Xian, Yuxuan Wan, Han Zhao
Резюме на русском
## Контекст
Инструкционно оптимизированные большие языковые модели (LLMs) способны выполнять определенные задачи с помощью простого парадигмы "простая модель - простой ввод", которая позволяет использовать их в качестве скелета для создания моделей предсказаний. Эта гибкость, в сочетании с постоянными улучшениями в силе моделей, делает их универсальными для различных сфер, включая важные приложения, где групповая справедливость -- предотвращение дискриминации между демографическими группами -- является ключевым. Однако, большинство существующих подходов к обеспечению групповой справедливости в моделях на основе LLMs основываются на традиционных методах, таких как моделирование или модификация последних слоёв модели, что не применимо для закрытых моделей управления (closed-weight LLMs), таких как GPT-4 и Gemini, которые не позволяют доступа к внутренним параметрам модели. Мы предлагаем новый подход к обеспечению групповой справедливости в LLMs с помощью опорного вывода (post-processing): LLM используется как функция выделения признаков, а затем применяются специально сконструированные пробы (prompts) для получения информации о признаках, необходимых для обеспечения справедливости, после чего основываются новые методы для обучения моделей справедливости.
## Метод
Мы предлагаем фреймворк для обеспечения групповой справедливости в закрытых LLMs, используя пост-обработку (post-processing). Модель LLMs используется как функция выделения признаков, то есть вывод LLM (например, вероятности текстовых токенов) используется для получения данных, которые будут использованы в качестве признаков в функции справедливости. Для этого используются специально построенные пробы (prompts), которые позволяют выделить признаки, необходимые для обеспечения справедливости. Затем эти признаки используются в существующих методах для обучения модели справедливости. Мы также предлагаем новый тип проб, который может быть использован для получения данных для обучения моделей справедливости в закрытых LLMs.
## Результаты
Мы проверили наш фреймворк на пяти различных датасетах, включая два табулярных датасета. Мы сравнили наш подход с другими подходами к обеспечению справедливости в LLMs, такими как моделирование и модификация моделей. Наши результаты показали, что наш фреймворк дает значительное улучшение точности моделей и улучшает групповую справедливость в сравнении с другими методами. В частности, у нас вышло лучше, чем модели, обучаемые на слоях модели или напрямую на текстовых данных.
## Значимость
Наш подход может быть применен в различных сферах, где групповая справедливость крайне важна, например, в сфере здравоох
Abstract
Instruction fine-tuned large language models (LLMs) enable a simple zero-shot
or few-shot prompting paradigm, also known as in-context learning, for building
prediction models. This convenience, combined with continued advances in LLM
capability, has the potential to drive their adoption across a broad range of
domains, including high-stakes applications where group fairness -- preventing
disparate impacts across demographic groups -- is essential. The majority of
existing approaches to enforcing group fairness on LLM-based classifiers rely
on traditional fair algorithms applied via model fine-tuning or head-tuning on
final-layer embeddings, but they are no longer applicable to closed-weight LLMs
under the in-context learning setting, which include some of the most capable
commercial models today, such as GPT-4, Gemini, and Claude. In this paper, we
propose a framework for deriving fair classifiers from closed-weight LLMs via
prompting: the LLM is treated as a feature extractor, and features are elicited
from its probabilistic predictions (e.g., token log probabilities) using
prompts strategically designed for the specified fairness criterion to obtain
sufficient statistics for fair classification; a fair algorithm is then applied
to these features to train a lightweight fair classifier in a post-hoc manner.
Experiments on five datasets, including three tabular ones, demonstrate strong
accuracy-fairness tradeoffs for the classifiers derived by our framework from
both open-weight and closed-weight LLMs; in particular, our framework is
data-efficient and outperforms fair classifiers trained on LLM embeddings
(i.e., head-tuning) or from scratch on raw tabular features.
Ссылки и действия
Дополнительные ресурсы: