Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making

2508.15926v1 cs.CE, cs.AI 2025-08-26
Авторы:

Yuanjun Feng, Vivek Choudhary, Yash Raj Shrestha

Резюме на русском

## Контекст Обширное использование бо LLM (Large Language Models) в сфере социальных наук позволяет эмулировать сложные процессы с точки зрения имитации человеческого мышления. Однако, несмотря на успехи в распознавании текста, логических задач и оптимизации, способность этих моделей воспроизводить человеческую разнообразность в поведении и способность адаптироваться к разным ситуациям остается мало исследована. Особенно это актуально в ситуациях, где модели применяются для моделирования решений в условиях неопределенности и волатильности. Наша исследовательская мотивация состоит в том, чтобы разработать рамочный подход для оценки LLM в контексте этих недостатков, сфокусировавшись на их уровней логической и стратегической адаптации. ## Метод Мы предлагаем процессно-ориентированный подход к оценке LLM, включая три уровня вмешательств: Интрисикальность (Intrinsicality), Инструкция (Instruction) и Имитация (Imitation). **Интрисикальность** исследует логические и стратегические характеристики модели без дополнительных указаний. **Инструкция** применяет различные указания, чтобы измерить поведение модели в условиях стратегического руководства. **Имитация** вводит элементы человеческих тенденций, которые модель должна воспроизвести. Мы проверяем этот подход на двух классических экономических задачах: **иррациональности во вторичном торге аукционов** и **упущения в решении проблемы новострейджера (newsvendor problem)**. Эти задачи позволяют изучить, насколько LLM могут воспроизвести человеческий уровень риска, предпочтений и стратегических решений. ## Результаты Мы обнаружили, что LLM, по умолчанию, приходят к устойчивым, но скромным стратегиям, которые отстают от реальных поведенческих тенденций человека. Указания о риске (risk-framed instructions) оказали сковывающий эффект, приводя к более консервативным решениям, но не достигая человеческой разнообразности. Добавление человеческих данных в **in-context learning** уменьшило промежуток в поведении, но не создало желаемой громадности вариативности. Эти результаты показывают, что, несмотря на успех в распознавании, LLM все еще существенно отстают в полноценной адаптации к социально-экономическим моделям. ## Значимость Наша работа может быть применена в синтетическом моделировании, особенно в социальных науках, где человеческий поведенческий аспект играет ключевую роль. Это позволяет систематически оценить, насколько LLM могут удовлетворить важные критерии воспроизведения реальности в моделях системных решений. Кроме того, наш подход может помочь улучить их доверительность в решениях, где важность человеческого

Abstract

Large language models (LLMs) are increasingly used in social science simulations. While their performance on reasoning and optimization tasks has been extensively evaluated, less attention has been paid to their ability to simulate human decision-making's variability and adaptability. We propose a process-oriented evaluation framework with progressive interventions (Intrinsicality, Instruction, and Imitation) to examine how LLM agents adapt under different levels of external guidance and human-derived noise. We validate the framework on two classic economics tasks, irrationality in the second-price auction and decision bias in the newsvendor problem, showing behavioral gaps between LLMs and humans. We find that LLMs, by default, converge on stable and conservative strategies that diverge from observed human behaviors. Risk-framed instructions impact LLM behavior predictably but do not replicate human-like diversity. Incorporating human data through in-context learning narrows the gap but fails to reach human subjects' strategic variability. These results highlight a persistent alignment gap in behavioral fidelity and suggest that future LLM evaluations should consider more process-level realism. We present a process-oriented approach for assessing LLMs in dynamic decision-making tasks, offering guidance for their application in synthetic data for social science research.

Ссылки и действия