Street-Level AI: Are Large Language Models Ready for Real-World Judgments?

2508.08193v1 cs.CY, cs.AI 2025-08-13
Авторы:

Gaurab Pokharel, Shafkat Farabi, Patrick J. Fowler, Sanmay Das

Резюме на русском

#### Контекст Область исследования "Street-Level AI" фокусируется на исследовании технологий, которые принимают решения в сферах, требующих социальной ответственности и человеческого вмешательства. Задача LLM (Large Language Models) в этой области — помогать или заменять "street-level bureaucrats", лица, которые принимают решения о присвоении ресурсов и поддержке в условиях ограниченных возможностей. Несмотря на то, что существует обширная литература о философских, этических и юридических аспектах гомонестового браунианского моделирования, есть недостаточно исследований о конкретных реалиях, в которых AI применяется в реальных условиях. Особенно важно рассмотреть, насколько AI может согласовываться с человеческими и официальными методами принятия решений в критически важных областях, таких как распределение ресурсов для бездомных. #### Метод Эксперименты были проведены на реальных данных, маскированных в соответствии с конфиденциальностью, которые отражают реальные ситуации в сфере помощи бездомным. Методология включала сравнение решений LLM с локальным моделированием и человеческими принятием решений. Использовались модели, которые были обучены на регулярных данных и применялись для оценки важности или приоритета. Было изучено соответствие решений, принятых AI моделями, с реальными жизненными ситуациями, включая вопросы несоответствия и упущений. #### Результаты Основные находки показывают, что LLM оказываются непоследовательными в своих решениях, что заметно в разных повторных экспериментах на одних и тех же данных, а также в сравнении решений разных моделей. Эти несоответствия отмечаются как внутри LLM, так и в сравнении с официальными методами, такими как scoring systems, которые используются для оценки возможностей помощи. Однако, в парном тестировании с человеческими решениями, LLM демонстрируют качественную консистентность, в том числе в сравнении с людьми, которые не имеют специальной экспертной подготовки. #### Значимость Находки доказывают, что нынешние LLM еще не готовы к применению в реальных условиях, где решения критически важны. Они могут быть полезны в качестве вспомогательных средств для экспертов, но не для непосредственного принятия решений. Их потенциальное влияние может быть ограничено, пока не будут решены проблемы непоследовательности и несовпадения с методами, которые используются в реальных условиях. Этот подход может быть расширен для других критически важных областей, таких как распределение здравоохранения или услуг в области образования. #### Выводы Основные достижения этих исследований заключаются в том, что невозможность LLM постоянно согласовываться с реальными нуждами и официа

Abstract

A surge of recent work explores the ethical and societal implications of large-scale AI models that make "moral" judgments. Much of this literature focuses either on alignment with human judgments through various thought experiments or on the group fairness implications of AI judgments. However, the most immediate and likely use of AI is to help or fully replace the so-called street-level bureaucrats, the individuals deciding to allocate scarce social resources or approve benefits. There is a rich history underlying how principles of local justice determine how society decides on prioritization mechanisms in such domains. In this paper, we examine how well LLM judgments align with human judgments, as well as with socially and politically determined vulnerability scoring systems currently used in the domain of homelessness resource allocation. Crucially, we use real data on those needing services (maintaining strict confidentiality by only using local large models) to perform our analyses. We find that LLM prioritizations are extremely inconsistent in several ways: internally on different runs, between different LLMs, and between LLMs and the vulnerability scoring systems. At the same time, LLMs demonstrate qualitative consistency with lay human judgments in pairwise testing. Findings call into question the readiness of current generation AI systems for naive integration in high-stakes societal decision-making.

Ссылки и действия