Cognitive Duality for Adaptive Web Agents
2508.05081v1
cs.AI, cs.CL, cs.MA
2025-08-09
Авторы:
Jiarun Liu, Chunhong Zhang, Zheng Hu
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Преодоление сложностей навигации в веб-среде является ключевым тестом для искусственного общего интеллекта (Artificial General Intelligence, AGI). Окружения веб-навигации отличаются высокой энтропией, динамичностью и экспоненциально быстрым ростом возможных действий, что делает их крайне сложными для автономных агентов. Существующие подходы в этой области разделяются на две категории: офлайн обучение подразумевает имитацию поведения на основе предварительно собранных данных, тогда как онлайн-исследования фокусируются на динамическом поиске решений в реальном времени. Однако ни один из этих подходов не успешно интегрирует оба парадигмы, что является ключевым ограничением для создания эффективных веб-агентов.
Эта проблема вдохновила исследование, основанное на двойной системе когнитивных процессов, известной как двойная система человеческого мышления. Эта теория подразумевает существование двух типов когнитивных процессов: быстрый, интуитивный «Система 1» и медленный, рациональный «Система 2». Такой подход может помочь в создании агентов, способных адаptive переключения между интуитивными реактивными реагированиями и рациональными, плановыми действиями в зависимости от сложности задачи. Это открывает путь к более эффективной и адаптивной навигации в веб-средах, но до сих пор не было предпринято попыток реализовать эту идею в практическом агентском фреймворке.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения этой проблемы авторы предлагают фреймворк CogniWeb, основанный на принципах двойной системы когнитивных процессов. Этот фреймворк состоит из двух основных компонентов: System 1, отвечающий за быстрое, интуитивное реагирование на внешние стимулы, и System 2, который выполняет более глубокий анализ и планирование. Архитектура CogniWeb построена таким образом, чтобы эти два компонента могли работать вместе, адаптируясь к сложности задачи.
System 1 основан на моделях обучения с имитацией, которые позволяют агенту быстро реагировать на распространенные ситуации. Этот компонент использует предварительно обученные модели для выполнения простых задач без необходимости глубокого анализа. С другой стороны, System 2 использует более сложные модели, такие как модели планирования и принятия решений, которые позволяют агенту анализировать ситуацию более тщательно и выбирать оптимальный путь действий в более сложных ситуациях.
CogniWeb также включает в себя механизм адаптивного переключения между System 1 и System 2. Этот механизм основан на оценке сложности задачи и выборе наиболее подходящего подхода. Например, если задача относительно простая, агент может использовать System 1 для быстрого решения. Если же задача требует более сложного анализа, агент переключается на System 2 для более глубокого рассмотрения.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности CogniWeb авторы провели серию экспериментов на платформе WebArena, которая представляет собой симулятор веб-навигации с высокой сложностью и динамическими условиями. В эксперименте были использованы различные сценарии навигации, включая простые и сложные задачи.
Результаты показали, что CogniWeb достиг 43,96% успешности в выполнении задач, что является конкурентноспособным результатом по сравнению с другими методами. Однако основным достижением было значительное сокращение использования токенов (то есть ресурсов, необходимых для обработки данных) на 75% по сравнению с другими подходами. Это говорит о более эффективном использовании ресурсов и потенциальной экономии вычислительной мощности.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
CogniWeb имеет широкое применение в области автономных веб-агентов. Его способность эффективно переключаться между интуитивным и рациональным мышлением делает его подходящим для решения задач с различным уровнем сложности. Это может быть использовано в различных приложениях, таких как поисковые системы, рекомендательные системы и автоматизированные сервисы навигации.
Преимущества этого подхода заключаются в более эффективном использовании ресурсов, снижении времени выполнения и повышении точности принятия решений. Это может привести к значительному улучшению производительности веб-агентов и повышению их пригодности для реального мира.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В результате исследования было показано, что фреймворк CogniWeb предлагает эффективный способ решения проблем навигации в веб-средах, используя принципы двойной системы когнитивных процессов. Этот подход не только показал высокую эффективность в решении задач, но также открыл новые возможности для дальнейших исследований в области AGI.
Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры CogniWeb, включая оптимизацию механизма переключения между System 1 и System 2, а также расширение его применимости к более широкому кругу задач. Также важно исследовать возможности интеграции этого подхода с другими методами AGI для создания еще более мощных и адаптивных систем.
Abstract
Web navigation represents a critical and challenging domain for evaluating
artificial general intelligence (AGI), demanding complex decision-making within
high-entropy, dynamic environments with combinatorially explosive action
spaces. Current approaches to building autonomous web agents either focus on
offline imitation learning or online exploration, but rarely integrate both
paradigms effectively. Inspired by the dual-process theory of human cognition,
we derive a principled decomposition into fast System 1 and slow System 2
cognitive processes. This decomposition provides a unifying perspective on
existing web agent methodologies, bridging the gap between offline learning of
intuitive reactive behaviors and online acquisition of deliberative planning
capabilities. We implement this framework in CogniWeb, a modular agent
architecture that adaptively toggles between fast intuitive processing and
deliberate reasoning based on task complexity. Our evaluation on WebArena
demonstrates that CogniWeb achieves competitive performance (43.96% success
rate) while maintaining significantly higher efficiency (75% reduction in token
usage).
Ссылки и действия
Дополнительные ресурсы: