The Complexity Trap: Simple Observation Masking Is as Efficient as LLM Summarization for Agent Context Management
2508.21433v1
cs.SE, cs.AI
2025-09-02
Авторы:
Tobias Lindenbauer, Igor Slinko, Ludwig Felder, Egor Bogomolov, Yaroslav Zharov
Резюме на русском
## Контекст
Контекст управления — ключевая задача для машинных людей (LLM-based agents), которые решают сложные задачи через итеративное разумание, исследование и использование инструментов. Эти процессы часто приводят к длинным и дорогостоящим историям контекста. Многие современные SE-агенты, такие как OpenHands и Cursor, используют LLM-based summarization для управления контекстом. Однако неясно, действительно ли такой сложный подход дает более высокую эффективность и экономичность по сравнению с простым методом, где старые наблюдения игнорируются. Наша работа направлена на сравнение эффективности этих стратегий в системе SWE-agent на SWE-bench Verified.
## Метод
Для сравнения LLM-based summarization и observation-masking мы использовали SWE-agent, который решает задачи на SWE-bench Verified. Мы проверили пять моделей: Qwen3-Coder 480B, Qwen3-Coder 120B, Qwen3-Coder 3B, Qwen3-Coder 2B и Qwen3-Coder 1.3B. Для каждой модели мы сравнили решаемую процентность задач при использовании обеих стратегий. Эксперименты проводились с использованием данных SWE-bench Verified, чтобы обеспечить последовательность и стандартность тестирования.
## Результаты
Мы обнаружили, что метод observation-masking существенно экономит ресурсы по сравнению с LLM-based summarization. Например, в модели Qwen3-Coder 480B, метод masking увеличил решаемую процентность от 53.8% (при использовании raw agent) до 54.8%, при этом оставаясь конкурентоспособным с LLM summarization, но с значительно более низкими затратами. Другие модели показали аналогичный тренд. Эти результаты показали, что observation-masking не только эффективнее, но и экономичнее, чем LLM summarization в системе SWE-agent на SWE-bench Verified.
## Значимость
Наши результаты имеют значение для развития SE-агентов, особенно в контексте управления контекстом. Мы показали, что простой подход observation-masking может быть как эффективнее, так и эффективнее LLM summarization в системе SWE-agent. Это открывает новые пути для улучшения производительности SE-агентов, уменьшая необходимые ресурсы и стоимость. Мы также открыли код и данные для достижения прозрачности и поддержки будущих исследований.
## Выводы
Наши результаты показали, что observation-masking может быть эффективной и экономичной стратегией для управления контекстом в SE-агентах. Мы заключаем, что данный подход может быть применен в системах SE-agent для улучшения производительности и экономии ресурсов. В будущем направлены на продолжение исследований для уточнения и дополнения найденных результатов.
Abstract
Large Language Model (LLM)-based agents solve complex tasks through iterative
reasoning, exploration, and tool-use, a process that can result in long,
expensive context histories. While state-of-the-art Software Engineering ( SE)
agents like OpenHands or Cursor use LLM-based summarization to tackle this
issue, it is unclear whether the increased complexity offers tangible
performance benefits compared to simply omitting older observations. We present
a systematic comparison of these strategies within SWE-agent on SWE-bench
Verified across five diverse model configurations. We find that a simple
observation-masking strategy halves cost relative to a raw agent while
matching, and sometimes slightly exceeding, the solve rate of LLM
summarization. For example, with Qwen3-Coder 480B, masking improves solve rate
from 53.8% (raw agent) to 54.8%, while remaining competitive with summarization
at a lower cost. These results suggest that, at least within SWE-agent on
SWE-bench Verified, the most effective and efficient context management can be
the simplest. We release code and data for reproducibility
Ссылки и действия
Дополнительные ресурсы: