Argumentative Debates for Transparent Bias Detection [Technical Report]

2508.04511v1 cs.AI, cs.LG 2025-08-09
Авторы:

Hamed Ayoobi, Nico Potyka, Anna Rapberger, Francesca Toni

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА С ростом применения искусственного интеллекта (ИИ) в обществе возрастает необходимость решения проблем, связанных с потенциальными смещениями (байес) в данных или моделях. Такие смещения могут приводить к систематическим недостаткам для определенных групп людей, что вызывает проблемы справедливости и социальной ответственности. В литературе было предложено множество понятий несправедливости (unfairness), а также алгоритмические методы для их выявления и смягчения. Однако большинство этих методов игнорируют важный аспект – прозрачность. Прозрачность является ключевым требованием для алгоритмов, оперирующих в области справедливости. Это обусловлено тем, что справедливость является ориентированной на человека понятием, и пользователи должны понимать, как и почему были приняты то или иное решение. Интерпретируемость и объяснимость являются необходимыми компонентами для достижения прозрачности в алгоритмах, особенно в контексте справедливости. Несмотря на это, существующие подходы к обнаружению и смягчению несправедливости часто не обеспечивают достаточного уровня прозрачности. В этой статье авторы предлагают новый метод для обнаружения смещений, основанный на аргументации. Метод использует дебаты (рассуждения) о наличии смещений в отношении отдельных лиц на основе значений защищенных признаков для этих лиц и их соседей. Этот подход использует методы формальной и вычислительной аргументации, где дебаты происходят как внутри, так и между соседними группами. Такой подход позволяет достигнуть более высокого уровня прозрачности и объяснимости решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод основывается на техниках формальной и вычислительной аргументации для обнаружения смещений. Он использует концепцию "соседей" (neighbourhoods), где каждый индивид анализируется не только по своим характеристикам, но и по характеристикам других людей в его окружении. Дебаты формируются на основе аргументов о наличии смещений, связанных с защищенными признаками (например, расой, полу, возрастом). Аргументы формируются на основе двух видов дебатов: внутри соседства (intra-neighbourhood) и между соседствами (inter-neighbourhood). Эти дебаты позволяют выявить несогласованности и смещения в распределении ресурсов или решений между различными группами. Метод также использует формальные методы аргументации для квантификации и анализа этих дебатов, что позволяет получить количественные оценки смещений. Ключевым моментом этого метода является его интерпретируемость. Дебаты и аргументы представлены в форме, которая понятна человеку, что позволяет обеспечить высокую прозрачность в процессе обнаружения смещений. Этот подход также позволяет пользователям получить подробные объяснения о том, почему было принято то или иное решение, что является важной частью процесса обеспечения справедливости. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности предлагаемого метода. Эксперименты были проведены на различных наборах данных, которые содержали информацию о защищенных признаках и решениях, которые могут быть подвержены смещениям. Для сравнения были использованы базовые методы, которые не используют аргументацию. Результаты экспериментов показали, что предлагаемый метод выявляет смещения с высокой точностью и предлагает более прозрачные объяснения для своих решений по сравнению с базовыми методами. Интерпретируемость метода позволила пользователям лучше понимать причины обнаруженных смещений, что является важной частью процесса обеспечения справедливости. Кроме того, метод показал хорошие результаты в выявлении смещений в различных контекстах, включая различные типы данных и признаков. Это подтверждает его универсальность и применимость в различных областях, где важна справедливость и прозрачность. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкое применение в областях, где важна справедливость и прозрачность принятия решений. Он может быть использован в таких областях, как кредитование, найм персонала, медицинская диагностика и другие области, где важно обеспечить равное обращение с различными группами людей. Преимущества этого метода включают высокую прозрачность и объяснимость решений, что позволяет пользователям лучше понимать и контролировать процесс принятия решений. Это может привести к более справедливому и этическому использованию ИИ в обществе, предотвращая дискриминацию и несправедливость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В этой статье был представлен новый метод для обнаружения смещений на основе аргументации, который обеспечивает высокий уровень прозрачности и объяснимости. Метод показал хорошие результаты в экспериментах и имеет широкое применение в различных областях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая расширение его применимости к более сложным данным и контекстам. Также может быть исследовано влияние этого метода на реальные приложения ИИ и его влияние на социальную справедливость.

Abstract

As the use of AI systems in society grows, addressing potential biases that emerge from data or are learned by models is essential to prevent systematic disadvantages against specific groups. Several notions of (un)fairness have been proposed in the literature, alongside corresponding algorithmic methods for detecting and mitigating unfairness, but, with very few exceptions, these tend to ignore transparency. Instead, interpretability and explainability are core requirements for algorithmic fairness, even more so than for other algorithmic solutions, given the human-oriented nature of fairness. In this paper, we contribute a novel interpretable, explainable method for bias detection relying on debates about the presence of bias against individuals, based on the values of protected features for the individuals and others in their neighbourhoods. Our method builds upon techniques from formal and computational argumentation, whereby debates result from arguing about biases within and across neighbourhoods. We provide formal, quantitative, and qualitative evaluations of our method, highlighting its strengths in performance against baselines, as well as its interpretability and explainability.

Ссылки и действия