Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making
2508.15926v1
cs.CE, cs.AI
2025-08-26
Авторы:
Yuanjun Feng, Vivek Choudhary, Yash Raj Shrestha
Резюме на русском
## Контекст
Обширное использование бо LLM (Large Language Models) в сфере социальных наук позволяет эмулировать сложные процессы с точки зрения имитации человеческого мышления. Однако, несмотря на успехи в распознавании текста, логических задач и оптимизации, способность этих моделей воспроизводить человеческую разнообразность в поведении и способность адаптироваться к разным ситуациям остается мало исследована. Особенно это актуально в ситуациях, где модели применяются для моделирования решений в условиях неопределенности и волатильности. Наша исследовательская мотивация состоит в том, чтобы разработать рамочный подход для оценки LLM в контексте этих недостатков, сфокусировавшись на их уровней логической и стратегической адаптации.
## Метод
Мы предлагаем процессно-ориентированный подход к оценке LLM, включая три уровня вмешательств: Интрисикальность (Intrinsicality), Инструкция (Instruction) и Имитация (Imitation). **Интрисикальность** исследует логические и стратегические характеристики модели без дополнительных указаний. **Инструкция** применяет различные указания, чтобы измерить поведение модели в условиях стратегического руководства. **Имитация** вводит элементы человеческих тенденций, которые модель должна воспроизвести. Мы проверяем этот подход на двух классических экономических задачах: **иррациональности во вторичном торге аукционов** и **упущения в решении проблемы новострейджера (newsvendor problem)**. Эти задачи позволяют изучить, насколько LLM могут воспроизвести человеческий уровень риска, предпочтений и стратегических решений.
## Результаты
Мы обнаружили, что LLM, по умолчанию, приходят к устойчивым, но скромным стратегиям, которые отстают от реальных поведенческих тенденций человека. Указания о риске (risk-framed instructions) оказали сковывающий эффект, приводя к более консервативным решениям, но не достигая человеческой разнообразности. Добавление человеческих данных в **in-context learning** уменьшило промежуток в поведении, но не создало желаемой громадности вариативности. Эти результаты показывают, что, несмотря на успех в распознавании, LLM все еще существенно отстают в полноценной адаптации к социально-экономическим моделям.
## Значимость
Наша работа может быть применена в синтетическом моделировании, особенно в социальных науках, где человеческий поведенческий аспект играет ключевую роль. Это позволяет систематически оценить, насколько LLM могут удовлетворить важные критерии воспроизведения реальности в моделях системных решений. Кроме того, наш подход может помочь улучить их доверительность в решениях, где важность человеческого
Abstract
Large language models (LLMs) are increasingly used in social science
simulations. While their performance on reasoning and optimization tasks has
been extensively evaluated, less attention has been paid to their ability to
simulate human decision-making's variability and adaptability. We propose a
process-oriented evaluation framework with progressive interventions
(Intrinsicality, Instruction, and Imitation) to examine how LLM agents adapt
under different levels of external guidance and human-derived noise. We
validate the framework on two classic economics tasks, irrationality in the
second-price auction and decision bias in the newsvendor problem, showing
behavioral gaps between LLMs and humans.
We find that LLMs, by default, converge on stable and conservative strategies
that diverge from observed human behaviors. Risk-framed instructions impact LLM
behavior predictably but do not replicate human-like diversity. Incorporating
human data through in-context learning narrows the gap but fails to reach human
subjects' strategic variability. These results highlight a persistent alignment
gap in behavioral fidelity and suggest that future LLM evaluations should
consider more process-level realism. We present a process-oriented approach for
assessing LLMs in dynamic decision-making tasks, offering guidance for their
application in synthetic data for social science research.
Ссылки и действия
Дополнительные ресурсы: