Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing

2508.11258v1 cs.LG, cs.CL, cs.CY 2025-08-19
Авторы:

Ruicheng Xian, Yuxuan Wan, Han Zhao

Резюме на русском

## Контекст Инструкционно оптимизированные большие языковые модели (LLMs) способны выполнять определенные задачи с помощью простого парадигмы "простая модель - простой ввод", которая позволяет использовать их в качестве скелета для создания моделей предсказаний. Эта гибкость, в сочетании с постоянными улучшениями в силе моделей, делает их универсальными для различных сфер, включая важные приложения, где групповая справедливость -- предотвращение дискриминации между демографическими группами -- является ключевым. Однако, большинство существующих подходов к обеспечению групповой справедливости в моделях на основе LLMs основываются на традиционных методах, таких как моделирование или модификация последних слоёв модели, что не применимо для закрытых моделей управления (closed-weight LLMs), таких как GPT-4 и Gemini, которые не позволяют доступа к внутренним параметрам модели. Мы предлагаем новый подход к обеспечению групповой справедливости в LLMs с помощью опорного вывода (post-processing): LLM используется как функция выделения признаков, а затем применяются специально сконструированные пробы (prompts) для получения информации о признаках, необходимых для обеспечения справедливости, после чего основываются новые методы для обучения моделей справедливости. ## Метод Мы предлагаем фреймворк для обеспечения групповой справедливости в закрытых LLMs, используя пост-обработку (post-processing). Модель LLMs используется как функция выделения признаков, то есть вывод LLM (например, вероятности текстовых токенов) используется для получения данных, которые будут использованы в качестве признаков в функции справедливости. Для этого используются специально построенные пробы (prompts), которые позволяют выделить признаки, необходимые для обеспечения справедливости. Затем эти признаки используются в существующих методах для обучения модели справедливости. Мы также предлагаем новый тип проб, который может быть использован для получения данных для обучения моделей справедливости в закрытых LLMs. ## Результаты Мы проверили наш фреймворк на пяти различных датасетах, включая два табулярных датасета. Мы сравнили наш подход с другими подходами к обеспечению справедливости в LLMs, такими как моделирование и модификация моделей. Наши результаты показали, что наш фреймворк дает значительное улучшение точности моделей и улучшает групповую справедливость в сравнении с другими методами. В частности, у нас вышло лучше, чем модели, обучаемые на слоях модели или напрямую на текстовых данных. ## Значимость Наш подход может быть применен в различных сферах, где групповая справедливость крайне важна, например, в сфере здравоох

Abstract

Instruction fine-tuned large language models (LLMs) enable a simple zero-shot or few-shot prompting paradigm, also known as in-context learning, for building prediction models. This convenience, combined with continued advances in LLM capability, has the potential to drive their adoption across a broad range of domains, including high-stakes applications where group fairness -- preventing disparate impacts across demographic groups -- is essential. The majority of existing approaches to enforcing group fairness on LLM-based classifiers rely on traditional fair algorithms applied via model fine-tuning or head-tuning on final-layer embeddings, but they are no longer applicable to closed-weight LLMs under the in-context learning setting, which include some of the most capable commercial models today, such as GPT-4, Gemini, and Claude. In this paper, we propose a framework for deriving fair classifiers from closed-weight LLMs via prompting: the LLM is treated as a feature extractor, and features are elicited from its probabilistic predictions (e.g., token log probabilities) using prompts strategically designed for the specified fairness criterion to obtain sufficient statistics for fair classification; a fair algorithm is then applied to these features to train a lightweight fair classifier in a post-hoc manner. Experiments on five datasets, including three tabular ones, demonstrate strong accuracy-fairness tradeoffs for the classifiers derived by our framework from both open-weight and closed-weight LLMs; in particular, our framework is data-efficient and outperforms fair classifiers trained on LLM embeddings (i.e., head-tuning) or from scratch on raw tabular features.

Ссылки и действия

Связанные статьи

Accept or Deny? Evaluating LLM Fairness and Performance in Loan Approval across ...

## Контекст Логические языки программирования (LLP) широко применяются в различных областях, включая системы принятия ре...

2025-09-02