#################################
## Контекст
#################################
Large Language Models (LLMs) широко используются в различных областях, но при этом могут содержать систематические биазы, которые влияют на результаты задач на уровне пользователя. Эти биазы могут быть "внутренними" (intrinsic) — встроенными в модель при обучении, и "внешними" (extrinsic) — возникающими при их применении в реальной жизни. Биазы, особенно в области финансовой индустрии, могут привести к ущербному влиянию на ключевые решения, такие как работа, кредитоспособность и зарплата. Многие исследования поднимают вопрос о том, как эти биазы влияют на результаты задач, но мало четкого понимания того, как именно внутренние биазы связаны с задачами на уровне пользователя. Наша работа ориентирована на анализ и устранение этих биаз, чтобы сократить их негативное влияние на решения в различных сферах.
#################################
## Метод
#################################
Мы предлагаем универсальный фреймворк для сравнения форм биаз-минимизации: "внутреннего" (intrinsic) через концептуальное неучение (concept unlearning) и "внешнего" (extrinsic) через применение данных для каунтерфактального дополнения (counterfactual data augmentation, CDA). Мы применяем этот подход к реальным задачам финансового классификации, таким как определение зарплаты, работоспособности и кредитоспособности. Модели тестируются как замороженные слои (frozen embedding extractors), так и тренируемые слои (fine-tuned classifiers). Это позволяет оценить не только эффективность биаз-минимизации, но и её влияние на качество задач. Мы использовали три открытых LLMs для того, чтобы проверить наш фреймворк на различных моделях и получить полное представление о результатах.
#################################
## Результаты
#################################
Наши эксперименты показали, что метод концептуального неучения снижает внутреннюю биазность модели до 94.9%, когда она изучается на таких задачах, как кредитоспособность и зарплата. Это существенно повышает метрики справедливости, такие как демографическое равенство (demographic parity), на 82%. Эти результаты не вызывают ухудшения точности (accuracy) модели. Мы также проверили, насколько эффективен этот подход при использовании моделей как замороженных, так и тренируемых, и обнаружили, что качество задач в большинстве случаев улучшается более эффективно, когда минимизация биаз проводится на ранней стадии, до того, как модель будет применена на уровне пользователя.
#################################
## Значимость
#################################
Наши результаты показывают, что биаз-минимизация не только улучшает справедливость в решениях, но и может быть применена в различных сферах, где существуют внутренние биазы, таких как финансы, здравоохранение и правосудие. Наш фреймворк дает более чёткую инструкцию о том, как можно применять различные стратегии биаз-минимизации в зависимости от кон