AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise
2509.10769v1
cs.AI, cs.CL, cs.MA
2025-09-17
Авторы:
Tara Bogavelli, Roshnee Sharma, Hari Subramani
Резюме на русском
## Контекст
Организованные живые системы, или **agentic architecture**, представляют собой ключевой аспект в корпоративных системах, включая агенты, которые выполняют комплексные задачи с использованием знаний, логики и размышлений. Хотя отдельные компоненты этих систем были изучены в изоляции, существует довольно ограниченное понимание того, как различные дизайн-дименсии взаимодействуют в рамках сложных многоагентных систем. Эта проблема была адресована в настоящем исследовании с целью сформировать полный предприятий-ориентированный бенчмарк для оценки 18 различных конфигураций агентных архитектур на базе современных моделей языка. Основной целью является подчеркнуть значимость выбора соответствующих компонентов в агентных системах для повышения качества решений в корпоративных средах.
## Метод
Для оценки агентных систем была разработана комплексная методология, включающая в себя следующие аспекты:
1. **Организационная стратегия** - изучены различные стратегии, такие как синхронное и асинхронное взаимодействие, для оптимизации взаимодействия между агентами.
2. **Инструменты мышления** - были проанализированы различные стратегии интеграции инструментов, таких как графы знаний и аналитические инструменты, для улучшения логического мышления агентов.
3. **Мемори-архитектура** - были протестированы различные подходы к хранению и восстановлению информации, включая внедрение внешних источников памяти и локальные структуры.
4. **Реализация агентных запросов** - были проанализированы два основных подхода: **ReAct** (активная реакция) и **Функциональное Обращение**.
Было проведено тщательное сравнение моделей с разными конфигурациями на основании выполнения корпоративных задач.
## Результаты
На основе проведенных экспериментов, были выявлены следующие результаты:
- **Высокая хрупкость агентных систем** - самые высоко оцененные модели (для простой задачи) достигли только 70.8% успеха, в то время как для сложных задач удалось достичь только 35.3% успеха.
- **Индивидуальные предпочтения моделей** - были выявлены существенные различия в производительности в зависимости от выбранных конфигураций. Например, некоторые модели показали значительные преимущества в использовании **ReAct**, в том числе в случаях, когда внешние источники памяти были недоступны.
- **Сложность взаимодействия** - было продемонстрировано, что взаимодействие между агентами, особенно в сложных ситуациях, является одной из самых сложных задач, в которых даже самые продвинутые модели сталкиваются с трудностями.
## Значимо
Abstract
While individual components of agentic architectures have been studied in
isolation, there remains limited empirical understanding of how different
design dimensions interact within complex multi-agent systems. This study aims
to address these gaps by providing a comprehensive enterprise-specific
benchmark evaluating 18 distinct agentic configurations across state-of-the-art
large language models. We examine four critical agentic system dimensions:
orchestration strategy, agent prompt implementation (ReAct versus function
calling), memory architecture, and thinking tool integration. Our benchmark
reveals significant model-specific architectural preferences that challenge the
prevalent one-size-fits-all paradigm in agentic AI systems. It also reveals
significant weaknesses in overall agentic performance on enterprise tasks with
the highest scoring models achieving a maximum of only 35.3\% success on the
more complex task and 70.8\% on the simpler task. We hope these findings inform
the design of future agentic systems by enabling more empirically backed
decisions regarding architectural components and model selection.
Ссылки и действия
Дополнительные ресурсы: