How Quantization Shapes Bias in Large Language Models

2508.18088v1 cs.CL, cs.LG 2025-08-27
Авторы:

Federico Marcuzzi, Xuefei Ning, Roy Schwartz, Iryna Gurevych

Резюме на русском

#### Контекст В последние годы движутся вперед технологии обработки естественного языка, в том числе большие языковые модели (LLM). Однако эти модели часто содержат принципиальные ошибки в области биаса и несправедливости. Биаз может основываться на полах, группах, расовых и этнических признаках. Такие ошибки могут привести к недостаточной точности, необоснованным предпочтениям и даже ущербу этичным нормам. В то же время, внедрение эффективных стратегий уменьшения модели, таких как квантизация, становится ключевым фактором в улучшении производительности и экономии ресурсов. Изучение влияния квантизации на биаз моделей является актуальным и относительно неизученным в области ИИ. #### Метод Мы используем многогранный подход для оценки влияния квантизации на биаз моделей. Методология включает в себя как проблемы текстов, так и целые тексты, используя широкий круг метрик, включая зависимость скрытых векторов, пространственную структуру, и потоковую целостность. Мы изучаем различные стратегии квантизации с различными уровнями сжатия. Модели, используемые в экспериментах, содержат различные архитектуры и уровни разума. Методы включают в себя изучение текстов с открытым кодом и машинно выученных систем, включая RoBERTa, BERT, и T5. Эксперименты проводятся на девяти различных тестовых наборах, включая проблемы скрытых стереотипов, токсичности, сентимента и справедливости. #### Результаты Наши эксперименты показали, что квантизация может снизить модельный биаз, особенно в случае культурных или этнических предрассудков. Однако она незначительно увеличивает женские стереотипы и несправедливости в случае жестокости и негатива. Также обнаружено, что степень увеличения биаса зависит от уровня сжатия и типа квантизации. Например, агрессивное сжатие приводит к большему увеличению несправедливости. Мы также обнаружили, что тип модели (например, текстовый генератор или базовая модель) и ее разумный потенциал влияют на степень изменения биаса. #### Значимость Наши результаты могут помочь значительно улучшить практику использования моделей языка в сферах, где этичность и нейтральность ключевые. Эффективное управление биазом моделей после квантизации может привести к улучшению практических решений в таких областях, как медицина, правосудие, и образование. Мы также отмечаем, что наш подход может быть расширен для изучения других эффектов, таких как изменение токсичности и эмоционального звучания, в зависимости от квантизационных стратегий. #### Выво

Abstract

This work presents a comprehensive evaluation of how quantization affects model bias, with particular attention to its impact on individual demographic subgroups. We focus on weight and activation quantization strategies and examine their effects across a broad range of bias types, including stereotypes, toxicity, sentiment, and fairness. We employ both probabilistic and generated text-based metrics across nine benchmarks and evaluate models varying in architecture family and reasoning ability. Our findings show that quantization has a nuanced impact on bias: while it can reduce model toxicity and does not significantly impact sentiment, it tends to slightly increase stereotypes and unfairness in generative tasks, especially under aggressive compression. These trends are generally consistent across demographic categories and model types, although their magnitude depends on the specific setting. Overall, our results highlight the importance of carefully balancing efficiency and ethical considerations when applying quantization in practice.

Ссылки и действия