Context Engineering for Multi-Agent LLM Code Assistants Using Elicit, NotebookLM, ChatGPT, and Claude Code
2508.08322v1
cs.SE, cs.AI, 68T07, 68N01, D.2.2; I.2.6; D.2.5; I.2.8
2025-08-14
Авторы:
Muhammad Haseeb
Резюме на русском
## Контекст
Область исследования сосредоточена на улучшении AI-помощников для разработки программного обеспечения, которые используют трансформационные ларже-лангуэжности (LLMs). Несмотря на выдающиеся достижения в автоматизации задач, таких как автодополнение кода и оптимизация, эти системы терпят неудачу при работе с комплексными многофайловыми проектами. Это связано с ограниченностью контекста, пониманием проектных структур и нехваткой специализированного знания. Эти проблемы порождают высокую частоту ошибок и неэффективность в разработке. Мотивация заключается в создании более умных, контекстуализированных систем, которые могут адекватно работать с мощными трансформационными LLMs для решения задач в реальном мире.
## Метод
Методология основывается на создании интегрированного контекстного подхода, включающего несколько AI-компонентов. Интент-транслятор (GPT-5) анализирует пользовательские запросы, чтобы выявить их конкретные цели. Используя семантический поиск Elicit, система инъектирует доменную знания из литературы. NotebookLM синтезирует документацию и контекстные сведения для повышения понимания. Наконец, генерация и проверка кода осуществляется с помощью Claude Code multi-agent system, в которой каждый агент отвечает за определенную задачу. Эта система построена на декомпозиции ролей и синхронной координации нескольких AI-агентов.
## Результаты
Эксперименты проводились на реальных кодовых репозиториях, включая Next.js и другие большие проекты. Интегрированный подход показал важное улучшение в точности и надежности в сравнении с одноагентными системами. Например, в сравнении с CodePlan и HyperAgent, система показала значительное уменьшение ошибок в первом запросе (single-shot success rate) и более высокую точность при выполнении задач в контексте проекта. Квалитативные результаты показали, что система эффективно выполняет задачи, такие как планирование функций, редактирование и тестирование, с минимальным участием человека.
## Значимость
Предложенная система может быть применима в разработке, тестировании и деплое программного обеспечения. Она предоставляет преимущества в виде уменьшения частоты ошибок, увеличения точности и лучшего понимания контекста проекта. Это особенно важно при работе с жесткими проектными структурами, где современные системы часто терпят неудачу. Будущие исследования будут направлены на улучшение эффективности координации между агентами и расширение системы для поддержки дополнительных языков программирования и системных технологий.
## Выводы
Предложенный подход достиг существенных улучшений в сфере контекстно-зависимого помощника для разработ
Abstract
Large Language Models (LLMs) have shown promise in automating code generation
and software engineering tasks, yet they often struggle with complex,
multi-file projects due to context limitations and knowledge gaps. We propose a
novel context engineering workflow that combines multiple AI components: an
Intent Translator (GPT-5) for clarifying user requirements, an Elicit-powered
semantic literature retrieval for injecting domain knowledge, NotebookLM-based
document synthesis for contextual understanding, and a Claude Code multi-agent
system for code generation and validation. Our integrated approach leverages
intent clarification, retrieval-augmented generation, and specialized
sub-agents orchestrated via Claude's agent framework. We demonstrate that this
method significantly improves the accuracy and reliability of code assistants
in real-world repositories, yielding higher single-shot success rates and
better adherence to project context than baseline single-agent approaches.
Qualitative results on a large Next.js codebase show the multi-agent system
effectively plans, edits, and tests complex features with minimal human
intervention. We compare our system with recent frameworks like CodePlan,
MASAI, and HyperAgent, highlighting how targeted context injection and agent
role decomposition lead to state-of-the-art performance. Finally, we discuss
the implications for deploying LLM-based coding assistants in production, along
with lessons learned on context management and future research directions.