Maestro: Joint Graph & Config Optimization for Reliable AI Agents
2509.04642v1
cs.AI, cs.CL, cs.LG, cs.SE
2025-09-09
Авторы:
Wenxiao Wang, Priyatham Kattakinda, Soheil Feizi
Резюме на русском
## Контекст
В последние годы широко распространены подходы к созданию машинного обучения моделей с использованием трансформеров. Однако конструирование доверенных агентов, основанных на генеративных моделях естественного языка, остается сложной задачей. Эти агенты должны обеспечивать не только качественно высокие результаты, но и гарантировать надёжность при выполнении задач. Ложные срабатывания, неточности и проблемы с гибкостью остаются значительными проблемами. Одним из ключевых аспектов достижения надёжности является адекватное графовое и конфигурационное оптимизирование. Наиболее популярные подходы оптимизируют только конфигурации моделей, не учитывая оптимизации структуры графа, что приводит к значительным проблемам с надёжностью. Был предложен фреймворк Maestro, который предлагает полностью автоматизированную оптимизацию графа и конфигураций для генерации надёжных генеративных моделей.
## Метод
Проект Maestro предлагает новую методологию, которая объединяет оптимизацию графа и конфигураций в единое комплексное решение. Граф определяет структуру модулей, а конфигурация каждого модуля включает гиперпараметры модели, предварительно обработанные входные данные, инструменты и другие контрольные параметры. Maestro применяет векторное управление над генеративными моделями, чтобы найти оптимальное сочетание структуры графа и конфигураций моделей. Метод использует визуализацию трассировок, которая позволяет обнаруживать системные проблемы и корректировывать их. Был предложен алгоритм для поиска оптимальных комбинаций графа и конфигураций, согласованных с целями качества и бюджетом токенов.
## Результаты
В экспериментах были использованы данные, включающие IFBench и HotpotQA. Агент Maestro был сравнен с такими популярными оптимизаторами, как MIPROv2, GEPA и GEPA+Merge. Результаты показали, что Maestro превосходит все три оптимизатора по точности результатов. В бенчмарке IFBench он показал среднее улучшение в 12%, в HotpotQA - 4,9%. Даже при ограничении себя только оптимизацией промптов, Maestro превосходит MIPROv2 на 9,65%, GEPA на 2,37% и GEPA+Merge на 2,41%. Также было проверено, что Maestro эффективно обнаруживает и исправляет структурные проблемы, которые не могут быть разрешены стандартными методами поиска конфигураций.
## Значимость
Maestro может быть применен в различных областях, где требуется надёжность и качество результатов для генеративных моделей. Он применим в области роботов-интервьюеров, систем генеративного вопрошания и ответов, а также в приложениях, требующих структурной надёжности
Abstract
Building reliable LLM agents requires decisions at two levels: the graph
(which modules exist and how information flows) and the configuration of each
node (models, prompts, tools, control knobs). Most existing optimizers tune
configurations while holding the graph fixed, leaving structural failure modes
unaddressed. We introduce Maestro, a framework-agnostic holistic optimizer for
LLM agents that jointly searches over graphs and configurations to maximize
agent quality, subject to explicit rollout/token budgets. Beyond numeric
metrics, Maestro leverages reflective textual feedback from traces to
prioritize edits, improving sample efficiency and targeting specific failure
modes. On the IFBench and HotpotQA benchmarks, Maestro consistently surpasses
leading prompt optimizers--MIPROv2, GEPA, and GEPA+Merge--by an average of 12%,
4.9%, and 4.86%, respectively; even when restricted to prompt-only
optimization, it still leads by 9.65%, 2.37%, and 2.41%. Maestro achieves these
results with far fewer rollouts than GEPA. We further show large gains on two
applications (interviewer & RAG agents), highlighting that joint graph &
configuration search addresses structural failure modes that prompt tuning
alone cannot fix.