Validating Generative Agent-Based Models for Logistics and Supply Chain Management Research

2508.20234v1 cs.MA, cs.AI, cs.CY 2025-08-30

Авторы:

Vincent E. Castillo

Резюме на русском

## Контекст Generative Agent-Based Models (GABMs), основанные на больших языковых моделях (LLMs), представляют собой перспективный инструмент для исследований в области логистики и управления цепями поставок (LSCM). Они могут гибко и реалистично моделировать человеческое поведение благодаря применению естественного языка. Тем не менее, неясно, насколько эти модели эффективно воспроизводят реальность и могут заменить классические методы исследования. Эта проблема начинает приобретать важность в свет роста интереса к искусственному интеллекту в задачах, требующих реалистичных симуляций. В этом контексте возникает необходимость проверки того, насколько хорошо GABMs могут эмпирически описывать логистические ситуации, а также выявление потенциальных проблем в их методологии. ## Метод Для проверки GABMs была применена управляемая экспериментальная модель, в которой участники (477 диадных пар) решали задачи в сценарии доставки питания. Для сравнения использовались шесть современных LLMs, которые выступали в роли симулируемых агентов. Использованный подход включал моделирование диалогов, анализ решений и использование метода структурного эквивалентности (structural equivalence) для оценки того, насколько GABMs согласовываются с реальным поведением. Также в эксперименте были использованы значимые условия и структурная модель (structural equation modeling, SEM), чтобы изучить решаемость и эквивалентность решений. ## Результаты Эксперимент показал, что некоторые LLMs могут эффективно эмулировать поведение людей в задачах доставки питания, при этом другие LLMs демонстрировали решаемость, но с отклонениями в решениях, не соответствующими реальному поведению. Например, ряд тестов на эквивалентность (Two One-Sided Tests, TOST) показал, что некоторые LLMs согласовывались с реальным поведением на поверхностном уровне, но структурные модели показали, что некоторые LLMs генерировали решательные процессы, отличные от тех, что присутствовали у участников. Это значит, что GABMs могут стать полезным инструментом, но их требуется проверить с точки зрения эмуляции и решательных процессов. ## Значимость Результаты имеют практическое значение для логистики и LSCM, поскольку они показывают, что GABMs могут быть применены для симуляции логистических ситуаций, но необходимо проводить две основные проверки: эмуляция поведения и проверка решательных процессов. Это также может быть полезно для разработчиков, которые используют LLMs в логистических решениях, так как оно дает рекомендации по выбору LLMs, основанные на реальных данных. Будущие исследования должны сосредоточиться на улучшении этих проверок, чтобы сделать GABMs более надёжными и реалистич

Abstract

Generative Agent-Based Models (GABMs) powered by large language models (LLMs) offer promising potential for empirical logistics and supply chain management (LSCM) research by enabling realistic simulation of complex human behaviors. Unlike traditional agent-based models, GABMs generate human-like responses through natural language reasoning, which creates potential for new perspectives on emergent LSCM phenomena. However, the validity of LLMs as proxies for human behavior in LSCM simulations is unknown. This study evaluates LLM equivalence of human behavior through a controlled experiment examining dyadic customer-worker engagements in food delivery scenarios. I test six state-of-the-art LLMs against 957 human participants (477 dyads) using a moderated mediation design. This study reveals a need to validate GABMs on two levels: (1) human equivalence testing, and (2) decision process validation. Results reveal GABMs can effectively simulate human behaviors in LSCM; however, an equivalence-versus-process paradox emerges. While a series of Two One-Sided Tests (TOST) for equivalence reveals some LLMs demonstrate surface-level equivalence to humans, structural equation modeling (SEM) reveals artificial decision processes not present in human participants for some LLMs. These findings show GABMs as a potentially viable methodological instrument in LSCM with proper validation checks. The dual-validation framework also provides LSCM researchers with a guide to rigorous GABM development. For practitioners, this study offers evidence-based assessment for LLM selection for operational tasks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Validating Generative Agent-Based Models for Logistics and Supply Chain Management Research

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

From Narrative to Action: A Hierarchical LLM-Agent Framework for Human Mobility ...

Emergent Social Dynamics of LLM Agents in the El Farol Bar Problem

Навигация