"Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2508.07284v1 cs.CL, cs.AI, cs.CY 2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

Резюме на русском

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Abstract

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language justifications, enabling analysis along axes of decisional assertiveness, explanation answer consistency, public moral alignment, and sensitivity to ethically irrelevant cues. Our findings reveal significant variability across ethical frames and model types: reasoning enhanced models demonstrate greater decisiveness and structured justifications, yet do not always align better with human consensus. Notably, "sweet zones" emerge in altruistic, fairness, and virtue ethics framings, where models achieve a balance of high intervention rates, low explanation conflict, and minimal divergence from aggregated human judgments. However, models diverge under frames emphasizing kinship, legality, or self interest, often producing ethically controversial outcomes. These patterns suggest that moral prompting is not only a behavioral modifier but also a diagnostic tool for uncovering latent alignment philosophies across providers. We advocate for moral reasoning to become a primary axis in LLM alignment, calling for standardized benchmarks that evaluate not just what LLMs decide, but how and why.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

"Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

No Free Lunch in Language Model Bias Mitigation? Targeted Bias Reduction Can Exa...

Reinforcing Stereotypes of Anger: Emotion AI on African American Vernacular Engl...

Moral Susceptibility and Robustness under Persona Role-Play in Large Language Mo...

LocalBench: Benchmarking LLMs on County-Level Local Knowledge and Reasoning

AI Diffusion in Low Resource Language Countries

Навигация