LLM Agent Meets Agentic AI: Can LLM Agents Simulate Customers to Evaluate Agentic-AI-based Shopping Assistants?

2509.21501v1 cs.HC, cs.CL 2025-09-30

Авторы:

Lu Sun, Shihan Fu, Bingsheng Yao, Yuxuan Lu, Wenbo Li, Hansu Gu, Jiri Gesi, Jing Huang, Chen Luo, Dakuo Wang

Резюме на русском

## Контекст Появление Agentic AI, таких как Amazon Rufus для покупок или GitHub Copilot для кодирования, представляет новую модель взаимодействия через естественный язык. Эти системы могут выполнять сложные задачи, активируясь по простым командам от пользователей. Однако их оценка представляет собой значительную проблему, так как традиционные методы оценки человеком становятся быстро неадекватными, успевая не до конца отставать за темпами инноваций. Наблюдается рост интереса к использованию Логических Лингвистических Моделей (LLM Agents) для создания "цифровых двойников" пользователей, которые могут духовно воспроизводить поведение каждого отдельного человека. Однако вопрос о том, насколько точно LLM Agent может отобразить социально-культурные и психологические особенности человека в многократном взаимодействии с Agentic AI, остается открытым. ## Метод Исследование включало 40 человек-участников, которые покупали товары с помощью Amazon Rufus, а затем создавались "цифровые двойники", которые повторяли тот же процесс. Цифровые двойники построились на основе анализа интервью, журналов пользователей и отзывов о UX. Методом сравнения парных трасс (human-digital twin) проводилась оценка того, насколько хорошо цифровые двойники могут воспроизводить поведение многократного взаимодействия. Данные о поведении взаимодействия (например, выбор товаров, вопросы, которые задавались, дизайнерские комментарии) были сборены и сравнивались между реальными людьми и их цифровыми двойниками. ## Результаты Логические Лингвистические Модели в своих цифровых двойниках способны воспроизводить многократные пользовательские взаимодействия с Agentic AI в тех же областях, что и реальные пользователи. Эксперименты показали, что цифровые двойники могут делать дизайнерские выводы похожими на те, что делают реальные пользователи. Кроме того, LLM Agents могут хорошо отражать человеческие стратегии интеракции, включая интересы, предпочтения и факторы, влияющие на оптимизацию полезности. Это позволяет имитировать поведение пользователей в условиях реального мира, чтобы оценить работоспособность Agentic AI. ## Значимость Этот подход может иметь широкое применение в сценариях, где необходимо эффективно оценивать новые системы общения с Agentic AI. Например, он может использоваться для тестирования новых сервисов покупок, технологий поддержки клиентов, или даже для создания более интеллектуальных чат-ботов. Этот подход также может увеличить эффективность разработки систем Agentic AI, устраняя необходимость в частом вмешательстве людьми в процесс. ## Выводы Исследование показало, что LLM Agents

Abstract

Agentic AI is emerging, capable of executing tasks through natural language, such as Copilot for coding or Amazon Rufus for shopping. Evaluating these systems is challenging, as their rapid evolution outpaces traditional human evaluation. Researchers have proposed LLM Agents to simulate participants as digital twins, but it remains unclear to what extent a digital twin can represent a specific customer in multi-turn interaction with an agentic AI system. In this paper, we recruited 40 human participants to shop with Amazon Rufus, collected their personas, interaction traces, and UX feedback, and then created digital twins to repeat the task. Pairwise comparison of human and digital-twin traces shows that while agents often explored more diverse choices, their action patterns aligned with humans and yielded similar design feedback. This study is the first to quantify how closely LLM agents can mirror human multi-turn interaction with an agentic AI system, highlighting their potential for scalable evaluation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LLM Agent Meets Agentic AI: Can LLM Agents Simulate Customers to Evaluate Agentic-AI-based Shopping Assistants?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Is Passive Expertise-Based Personalization Enough? A Case Study in AI-Assisted T...

Designing and Evaluating Hint Generation Systems for Science Education

Taxonomy of User Needs and Actions

What Makes LLM Agent Simulations Useful for Policy? Insights From an Iterative D...

Human-AI Narrative Synthesis to Foster Shared Understanding in Civic Decision-Ma...

Навигация