Validating Generative Agent-Based Models for Logistics and Supply Chain Management Research
2508.20234v1
cs.MA, cs.AI, cs.CY
2025-08-30
Авторы:
Vincent E. Castillo
Резюме на русском
## Контекст
Generative Agent-Based Models (GABMs), основанные на больших языковых моделях (LLMs), представляют собой перспективный инструмент для исследований в области логистики и управления цепями поставок (LSCM). Они могут гибко и реалистично моделировать человеческое поведение благодаря применению естественного языка. Тем не менее, неясно, насколько эти модели эффективно воспроизводят реальность и могут заменить классические методы исследования. Эта проблема начинает приобретать важность в свет роста интереса к искусственному интеллекту в задачах, требующих реалистичных симуляций. В этом контексте возникает необходимость проверки того, насколько хорошо GABMs могут эмпирически описывать логистические ситуации, а также выявление потенциальных проблем в их методологии.
## Метод
Для проверки GABMs была применена управляемая экспериментальная модель, в которой участники (477 диадных пар) решали задачи в сценарии доставки питания. Для сравнения использовались шесть современных LLMs, которые выступали в роли симулируемых агентов. Использованный подход включал моделирование диалогов, анализ решений и использование метода структурного эквивалентности (structural equivalence) для оценки того, насколько GABMs согласовываются с реальным поведением. Также в эксперименте были использованы значимые условия и структурная модель (structural equation modeling, SEM), чтобы изучить решаемость и эквивалентность решений.
## Результаты
Эксперимент показал, что некоторые LLMs могут эффективно эмулировать поведение людей в задачах доставки питания, при этом другие LLMs демонстрировали решаемость, но с отклонениями в решениях, не соответствующими реальному поведению. Например, ряд тестов на эквивалентность (Two One-Sided Tests, TOST) показал, что некоторые LLMs согласовывались с реальным поведением на поверхностном уровне, но структурные модели показали, что некоторые LLMs генерировали решательные процессы, отличные от тех, что присутствовали у участников. Это значит, что GABMs могут стать полезным инструментом, но их требуется проверить с точки зрения эмуляции и решательных процессов.
## Значимость
Результаты имеют практическое значение для логистики и LSCM, поскольку они показывают, что GABMs могут быть применены для симуляции логистических ситуаций, но необходимо проводить две основные проверки: эмуляция поведения и проверка решательных процессов. Это также может быть полезно для разработчиков, которые используют LLMs в логистических решениях, так как оно дает рекомендации по выбору LLMs, основанные на реальных данных. Будущие исследования должны сосредоточиться на улучшении этих проверок, чтобы сделать GABMs более надёжными и реалистич
Abstract
Generative Agent-Based Models (GABMs) powered by large language models (LLMs)
offer promising potential for empirical logistics and supply chain management
(LSCM) research by enabling realistic simulation of complex human behaviors.
Unlike traditional agent-based models, GABMs generate human-like responses
through natural language reasoning, which creates potential for new
perspectives on emergent LSCM phenomena. However, the validity of LLMs as
proxies for human behavior in LSCM simulations is unknown. This study evaluates
LLM equivalence of human behavior through a controlled experiment examining
dyadic customer-worker engagements in food delivery scenarios. I test six
state-of-the-art LLMs against 957 human participants (477 dyads) using a
moderated mediation design. This study reveals a need to validate GABMs on two
levels: (1) human equivalence testing, and (2) decision process validation.
Results reveal GABMs can effectively simulate human behaviors in LSCM; however,
an equivalence-versus-process paradox emerges. While a series of Two One-Sided
Tests (TOST) for equivalence reveals some LLMs demonstrate surface-level
equivalence to humans, structural equation modeling (SEM) reveals artificial
decision processes not present in human participants for some LLMs. These
findings show GABMs as a potentially viable methodological instrument in LSCM
with proper validation checks. The dual-validation framework also provides LSCM
researchers with a guide to rigorous GABM development. For practitioners, this
study offers evidence-based assessment for LLM selection for operational tasks.
Ссылки и действия
Дополнительные ресурсы: