Pay What LLM Wants: Can LLM Simulate Economics Experiment with 522 Real-human Persona?

2508.03262v1 cs.CL, cs.AI 2025-08-06
Авторы:

Junhyuk Choi, Hyeonchu Park, Haemin Lee, Hyebeen Shin, Hyun Joung Jin, Bugeun Kim

Резюме на русском

**Резюме:** В статье исследуется способность современных Large Language Models (LLMs) моделировать экономическое поведение реальных людей на основе данных о 522 корейских участниках эксперимента Pay-What-You-Want (PWYW). Авторы сравнивают три современных мультимодальных LLMs, оценивая их способность предсказывать индивидуальные решения в сценариях культурного потребления. Обнаружено, что, несмотря на неточность предсказаний на индивидуальном уровне, LLMs успешно отражают групповые тенденции поведения. Также выяснено, что распространённые методы подачи запросов (prompting), такие как улучшенная генерация с дополнительным контекстом (retrieval-augmented generation) или реконструкция личностных портретов, не дают значимого преимущества по сравнению с простыми методами. Исследование представляет первую полную оценку возможностей LLMs в моделировании экономического поведения на основе реальных данных, оказывая полезные рекомендации для применения LLMs в вычислительных социальных науках.

Abstract

Recent advances in Large Language Models (LLMs) have generated significant interest in their capacity to simulate human-like behaviors, yet most studies rely on fictional personas rather than actual human data. We address this limitation by evaluating LLMs' ability to predict individual economic decision-making using Pay-What-You-Want (PWYW) pricing experiments with real 522 human personas. Our study systematically compares three state-of-the-art multimodal LLMs using detailed persona information from 522 Korean participants in cultural consumption scenarios. We investigate whether LLMs can accurately replicate individual human choices and how persona injection methods affect prediction performance. Results reveal that while LLMs struggle with precise individual-level predictions, they demonstrate reasonable group-level behavioral tendencies. Also, we found that commonly adopted prompting techniques are not much better than naive prompting methods; reconstruction of personal narrative nor retrieval augmented generation have no significant gain against simple prompting method. We believe that these findings can provide the first comprehensive evaluation of LLMs' capabilities on simulating economic behavior using real human data, offering empirical guidance for persona-based simulation in computational social science.

Ссылки и действия