AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise

2509.10769v1 cs.AI, cs.CL, cs.MA 2025-09-17
Авторы:

Tara Bogavelli, Roshnee Sharma, Hari Subramani

Резюме на русском

## Контекст Организованные живые системы, или **agentic architecture**, представляют собой ключевой аспект в корпоративных системах, включая агенты, которые выполняют комплексные задачи с использованием знаний, логики и размышлений. Хотя отдельные компоненты этих систем были изучены в изоляции, существует довольно ограниченное понимание того, как различные дизайн-дименсии взаимодействуют в рамках сложных многоагентных систем. Эта проблема была адресована в настоящем исследовании с целью сформировать полный предприятий-ориентированный бенчмарк для оценки 18 различных конфигураций агентных архитектур на базе современных моделей языка. Основной целью является подчеркнуть значимость выбора соответствующих компонентов в агентных системах для повышения качества решений в корпоративных средах. ## Метод Для оценки агентных систем была разработана комплексная методология, включающая в себя следующие аспекты: 1. **Организационная стратегия** - изучены различные стратегии, такие как синхронное и асинхронное взаимодействие, для оптимизации взаимодействия между агентами. 2. **Инструменты мышления** - были проанализированы различные стратегии интеграции инструментов, таких как графы знаний и аналитические инструменты, для улучшения логического мышления агентов. 3. **Мемори-архитектура** - были протестированы различные подходы к хранению и восстановлению информации, включая внедрение внешних источников памяти и локальные структуры. 4. **Реализация агентных запросов** - были проанализированы два основных подхода: **ReAct** (активная реакция) и **Функциональное Обращение**. Было проведено тщательное сравнение моделей с разными конфигурациями на основании выполнения корпоративных задач. ## Результаты На основе проведенных экспериментов, были выявлены следующие результаты: - **Высокая хрупкость агентных систем** - самые высоко оцененные модели (для простой задачи) достигли только 70.8% успеха, в то время как для сложных задач удалось достичь только 35.3% успеха. - **Индивидуальные предпочтения моделей** - были выявлены существенные различия в производительности в зависимости от выбранных конфигураций. Например, некоторые модели показали значительные преимущества в использовании **ReAct**, в том числе в случаях, когда внешние источники памяти были недоступны. - **Сложность взаимодействия** - было продемонстрировано, что взаимодействие между агентами, особенно в сложных ситуациях, является одной из самых сложных задач, в которых даже самые продвинутые модели сталкиваются с трудностями. ## Значимо

Abstract

While individual components of agentic architectures have been studied in isolation, there remains limited empirical understanding of how different design dimensions interact within complex multi-agent systems. This study aims to address these gaps by providing a comprehensive enterprise-specific benchmark evaluating 18 distinct agentic configurations across state-of-the-art large language models. We examine four critical agentic system dimensions: orchestration strategy, agent prompt implementation (ReAct versus function calling), memory architecture, and thinking tool integration. Our benchmark reveals significant model-specific architectural preferences that challenge the prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals significant weaknesses in overall agentic performance on enterprise tasks with the highest scoring models achieving a maximum of only 35.3\% success on the more complex task and 70.8\% on the simpler task. We hope these findings inform the design of future agentic systems by enabling more empirically backed decisions regarding architectural components and model selection.

Ссылки и действия