The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

2508.21433v1 cs.SE, cs.AI 2025-09-02

Авторы:

Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov

Резюме на русском

## Контекст Контекст управления — ключевая задача для машинных людей (LLM-based agents), которые решают сложные задачи через итеративное разумание, исследование и использование инструментов. Эти процессы часто приводят к длинным и дорогостоящим историям контекста. Многие современные SE-агенты, такие как OpenHands и Cursor, используют LLM-based summarization для управления контекстом. Однако неясно, действительно ли такой сложный подход дает более высокую эффективность и экономичность по сравнению с простым методом, где старые наблюдения игнорируются. Наша работа направлена на сравнение эффективности этих стратегий в системе SWE-agent на SWE-bench Verified. ## Метод Для сравнения LLM-based summarization и observation-masking мы использовали SWE-agent, который решает задачи на SWE-bench Verified. Мы проверили пять моделей: Qwen3-Coder 480B, Qwen3-Coder 120B, Qwen3-Coder 3B, Qwen3-Coder 2B и Qwen3-Coder 1.3B. Для каждой модели мы сравнили решаемую процентность задач при использовании обеих стратегий. Эксперименты проводились с использованием данных SWE-bench Verified, чтобы обеспечить последовательность и стандартность тестирования. ## Результаты Мы обнаружили, что метод observation-masking существенно экономит ресурсы по сравнению с LLM-based summarization. Например, в модели Qwen3-Coder 480B, метод masking увеличил решаемую процентность от 53.8% (при использовании raw agent) до 54.8%, при этом оставаясь конкурентоспособным с LLM summarization, но с значительно более низкими затратами. Другие модели показали аналогичный тренд. Эти результаты показали, что observation-masking не только эффективнее, но и экономичнее, чем LLM summarization в системе SWE-agent на SWE-bench Verified. ## Значимость Наши результаты имеют значение для развития SE-агентов, особенно в контексте управления контекстом. Мы показали, что простой подход observation-masking может быть как эффективнее, так и эффективнее LLM summarization в системе SWE-agent. Это открывает новые пути для улучшения производительности SE-агентов, уменьшая необходимые ресурсы и стоимость. Мы также открыли код и данные для достижения прозрачности и поддержки будущих исследований. ## Выводы Наши результаты показали, что observation-masking может быть эффективной и экономичной стратегией для управления контекстом в SE-агентах. Мы заключаем, что данный подход может быть применен в системах SE-agent для улучшения производительности и экономии ресурсов. В будущем направлены на продолжение исследований для уточнения и дополнения найденных результатов.

Abstract

Large Language Model (LLM)-based agents solve complex tasks through iterative reasoning, exploration, and tool-use, a process that can result in long, expensive context histories. While state-of-the-art Software Engineering ( SE) agents like OpenHands or Cursor use LLM-based summarization to tackle this issue, it is unclear whether the increased complexity offers tangible performance benefits compared to simply omitting older observations. We present a systematic comparison of these strategies within SWE-agent on SWE-bench Verified across five diverse model configurations. We find that a simple observation-masking strategy halves cost relative to a raw agent while matching, and sometimes slightly exceeding, the solve rate of LLM summarization. For example, with Qwen3-Coder 480B, masking improves solve rate from 53.8% (raw agent) to 54.8%, while remaining competitive with summarization at a lower cost. These results suggest that, at least within SWE-agent on SWE-bench Verified, the most effective and efficient context management can be the simplest. We release code and data for reproducibility

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация