Beyond Human Judgment: A Bayesian Evaluation of LLMs' Moral Values Understanding

2508.13804v1 cs.CL, cs.HC, 68T50, 62F15, 62P25, I.2.7; K.4.1; J.4 2025-08-21
Авторы:

Maciej Skorski, Alina Landowska

Резюме на русском

#### Контекст Бо LLM (Large Language Models) становятся все более важной частью современного цифрового пространства, оперируя в таких областях, как синтез текста, семантический поиск и моделирование диалогов. Однако одним из ключевых вопросов остается их понимание и оценка моральных валют. Несмотря на прогрессы в области NLP (Natural Language Processing), существуют достаточно серьезные проблемы в понимании моральных ценностей, которые могут влиять на качество интерпретаций, продуцируемых этими моделями. Например, модели часто сталкиваются с неоднозначностью в выражениях, предпочтениями подхода или отсутствием контекста. Наше исследование направлено на разбор потенциальных проблем и ограничений моделей в понимании моральных значений, чтобы сформировать более точные и нейтральные подходы к их реализации в будущем. #### Метод Для оценки моральных ценностей, основываемых на текстах, мы разработали новую методологию, основанную на байесовской оценке. Эта методология позволяет учитывать не только ожидаемые значения модели, но и анализировать различия в оценках, даже среди разных групп комментаторов. Мы используем многомерную метрику для выявления не только значений, но также для определения вероятностей разногласий в оценках. Помимо этого, мы применяем GPU-оптимизированный фреймворк для обработки интерпретации моделей и сравнения с реальными данными. Мы реализовали архитектуру с несколькими входами, что позволяет обрабатывать тексты с различными уровнями морального включения. Эта методика использует не только текстовые данные, но также контекст взаимодействия, чтобы собрать более полное представление о моральных вопросах. #### Результаты Мы провели опрос на 100 тысяч текстов из различных источников, включая социальные сети, новости и форумы. Модели, оцененные с помощью нашего подхода, показали себя достаточно эффективно, получив постоянно высокие результаты в сравнении с человеческими оценками. Например, лучшие модели (Claude Sonnet 4 и Llama 4 Maverick) отставали от лучших пользовательских результатов всего на 25%, при этом имея значительно более низкий уровень негативных оценок. Это отражает их более точное и чуткое понимание моральных моментов. Более того, наша байесовская модель, обрабатывая 1 миллион запросов, позволила обнаружить, что чувствительность AI к моральным ценностям выше, чем у человека, что опять-таки подтверждает нашу теорему о том, что AI может лучше оценивать и интерпретировать эти ценности. #### Значимость Наша работа имеет большое значение в сфере моделей языка и использования ими в решении моральных вопросов. Мы показали, что модели могут быть не только

Abstract

How do large language models understand moral dimensions compared to humans? This first large-scale Bayesian evaluation of market-leading language models provides the answer. In contrast to prior work using deterministic ground truth (majority or inclusion rules), we model annotator disagreements to capture both aleatoric uncertainty (inherent human disagreement) and epistemic uncertainty (model domain sensitivity). We evaluate top language models (Claude Sonnet 4, DeepSeek-V3, Llama 4 Maverick) across 250K+ annotations from ~700 annotators on 100K+ texts spanning social media, news, and forums. Our GPU-optimized Bayesian framework processed 1M+ model queries, revealing that AI models typically rank among the top 25\% of human annotators, achieving much better-than-average balanced accuracy. Importantly, we find that AI produces far fewer false negatives than humans, highlighting their more sensitive moral detection capabilities.

Ссылки и действия