Emergent Crowds Dynamics from Language-Driven Multi-Agent Interactions

2508.15047v1 cs.AI, cs.GR 2025-08-23
Авторы:

Yibo Liu, Liam Shatzel, Brandon Haworth, Teseo Schneider

Резюме на русском

## Контекст Область анимации и симуляции массовых мероприятий является важной частью искусственного зрения и интерактивных систем. Несмотря на то, что существуют многочисленные работы по моделированию поведения массовых мероприятий с использованием методов управления агентами, существуют значительные проблемы. Традиционные подходы ограничиваются линейными моделями, ограничивающимися локальными взаимодействиями между агентами, такими как стееринг или исполнение целей. Несмотря на то, что такие методы могут справляться с простыми сценариями, они не учитывают важность социальных и эмоциональных отношений, которые значительно влияют на поведение в реальной жизни. Эти проблемы могут привести к неестественному поведению агентов и недостаточно реалистичным сценариям. Было решено развить новый подход, который использует языковые модели, чтобы улучшить реалистичность симуляции. ## Метод Метод, предлагаемый в статье, основан на интеграции языковых моделей (LLMs) для управления движением агентов. Он состоит из двух основных компонентов: системы диалога и языкового управления навигацией. Локальное взаимодействие агентов в задаче управления определяется системой диалога, которая считывает личность, цели, эмоциональные состояния и социальные отношения агентов. Эти свойства используются для генерации диалогов между агентами в зависимости от своей роли и целей. Для управления движением каждого агента используется его личность, эмоциональное состояние, визуальные данные и физические параметры. Таким образом, агенты могут принимать решения о движении, учитывая их взаимодействия с другими агентами и окружающей средой. ## Результаты Набор экспериментов был проведен для исследования эффективности предложенного подхода. В экспериментах использовались данные, описывающие социальные взаимодействия и движение в толпе. Результаты показали, что языковые модели позволяют агентам реагировать на социальные ситуации, что приводит к эмергентным групповым поведениям. Агенты могут автоматически объединяться и распадаться на группы, работая согласно сценарию. Эксперименты также подтвердили, что метод способен передавать информацию внутри толпы, что дает более реалистичное представление общей системы. Эти результаты демонстрируют, что предложенный подход может значительно улучшить реалистичность моделей массовых мероприятий. ## Значимость Предлагаемый подход может быть применен в различных областях, включая игры, виртуальные реальности и симуляции реальных сценариев. Он предоставляет более точные и реалистичные модели д

Abstract

Animating and simulating crowds using an agent-based approach is a well-established area where every agent in the crowd is individually controlled such that global human-like behaviour emerges. We observe that human navigation and movement in crowds are often influenced by complex social and environmental interactions, driven mainly by language and dialogue. However, most existing work does not consider these dimensions and leads to animations where agent-agent and agent-environment interactions are largely limited to steering and fixed higher-level goal extrapolation. We propose a novel method that exploits large language models (LLMs) to control agents' movement. Our method has two main components: a dialogue system and language-driven navigation. We periodically query agent-centric LLMs conditioned on character personalities, roles, desires, and relationships to control the generation of inter-agent dialogue when necessitated by the spatial and social relationships with neighbouring agents. We then use the conversation and each agent's personality, emotional state, vision, and physical state to control the navigation and steering of each agent. Our model thus enables agents to make motion decisions based on both their perceptual inputs and the ongoing dialogue. We validate our method in two complex scenarios that exemplify the interplay between social interactions, steering, and crowding. In these scenarios, we observe that grouping and ungrouping of agents automatically occur. Additionally, our experiments show that our method serves as an information-passing mechanism within the crowd. As a result, our framework produces more realistic crowd simulations, with emergent group behaviours arising naturally from any environmental setting.

Ссылки и действия