AI-Guided Exploration of Large-Scale Codebases
2508.05799v1
cs.SE, cs.AI, cs.HC
2025-08-12
Авторы:
Yoseph Berhanu Alebachew
Резюме на русском
## Контекст
Исследование фокусируется на улучшении процесса понимания больших и сложных систем программного обеспечения, что является ключевой проблемой для разработчиков. Одним из главных вызовов является то, что процесс компреhension программы требует много времени и трудоемкий. Существующие инструменты, такие как статические визуализации и техники реверс-инжиниринга, недостаточно эффективны в плане интерактивности и адаптивности, а также часто не интегрируются с контекстным окружением. Недавние развития в области больших языковых моделей (LLM) предлагают новые возможности для решения этой проблемы. Однако их недостаток в грандировании и неполная интеграция с структурированными представлениями снижает их эффективность. Таким образом, целью данного исследования является разработка гибридного подхода, который объединяет определительные техники реверс-инжиниринга с LLM-ориентированной, интент-связанной визуальной исследовательской системой.
## Метод
Предложенная методология включает в себя структурированный подход, который сочетает в себе детерминированные технологии реверс-инжиниринга с использованием языковых моделей. Основным функционалом является использование технологии UML для визуализации структуры кода в интерактивной форме. Для повышения производительности используется гибридная модель, где LLM понимает запросы пользователя и адаптирует отображение в зависимости от потребностей пользователя. Динамический интерфейс, включающий в себя исторический контекст и возможности совместной работы, дает возможность быстрого и эффективного понимания кода. Разработанная архитектура включает в себя слой визуального представления, интерактивную систему ввода/вывода, а также модель LLM, которая обеспечивает адаптивность и понимание контекста.
## Результаты
Для проверки эффективности подхода был проведен эксперимент с использованием Java-кода. Было сгенерировано специфическое UML-диаграммное представление, которое позволило пользователям быстро ориентироваться в структуре кода. Использование LLM позволило пользователям задавать запросы и получать конкретные ответы, повышая эффективность понимания. Эксперименты показали, что интеграция LLM с визуальными инструментами увеличивает эффективность работы с кодом, уменьшая время, необходимое для понимания сложных систем. В результате была получена гибкая система, которая может отображать и изменять код в зависимости от пользовательских запросов.
## Значимость
Области применения данного подхода включают в себя разработку программного обеспечения, поддер
Abstract
Understanding large-scale, complex software systems is a major challenge for
developers, who spend a significant portion of their time on program
comprehension. Traditional tools such as static visualizations and reverse
engineering techniques provide structural insights but often lack
interactivity, adaptability, and integration with contextual information.
Recent advancements in large language models (LLMs) offer new opportunities to
enhance code exploration workflows, yet their lack of grounding and integration
with structured views limits their effectiveness. This work introduces a hybrid
approach that integrates deterministic reverse engineering with LLM-guided,
intent-aware visual exploration. The proposed system combines UML-based
visualization, dynamic user interfaces, historical context, and collaborative
features into an adaptive tool for code comprehension. By interpreting user
queries and interaction patterns, the LLM helps developers navigate and
understand complex codebases more effectively. A prototype implementation for
Java demonstrates the feasibility of this approach. Future work includes
empirical evaluation, scaling to polyglot systems, and exploring GUI-driven LLM
interaction models. This research lays the groundwork for intelligent,
interactive environments that align with developer cognition and collaborative
workflows.
Ссылки и действия
Дополнительные ресурсы: