HarmonyGuard: Toward Safety and Utility in Web Agents via Adaptive Policy Enhancement and Dual-Objective Optimization
2508.04010v1
cs.CL, cs.AI
2025-08-09
Авторы:
Yurun Chen, Xavier Hu, Yuhan Liu, Keting Yin, Juncheng Li, Zhuosheng Zhang, Shengyu Zhang
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В современных веб-окружениях автономные агенты, основанные на крупных языках моделей, сталкиваются с значительными вызовами при выполнении длительных последовательностей задач. Основные проблемы заключаются в балансировке между эффективностью выполнения задач и обеспечением безопасности в условиях постоянно меняющихся угроз. Существующие исследования в этой области часто ограничены оптимизацией одного из этих аспектов или рассматривают только однократные взаимодействия, что не позволяет создать агентов, способных эффективно работать в динамических веб-средах.
Традиционные подходы к оптимизации политик безопасности часто игнорируют динамическую природу угроз, что приводит к устареванию политик и неэффективному взаимодействию с внешними источниками данных. Кроме того, многие существующие модели не учитывают взаимозависимость безопасности и эффективности, что может привести к снижению общей производительности агентов.
HarmonyGuard предлагает решение этой проблематике, ориентированное на совместную оптимизацию безопасности и эффективности. Разработанный фреймворк интегрирует многоагентную кооперацию, адаптивное обновление политик безопасности и реальновременную оптимизацию двух целей: соблюдение политик и выполнение задач.
## ПРЕДЛОЖЕННЫЙ МЕТОД
HarmonyGuard представляет собой многоагентный фреймворк, который состоит из двух ключевых компонентов: **Policy Agent** и **Utility Agent**.
**Policy Agent** отвечает за адаптивное извлечение и обновление политик безопасности из неструктурированных внешних источников. Этот агент использует специальные методы для структурирования информации и регулярное обновление политик в соответствии с эволюцией внешних угроз.
**Utility Agent**, в свою очередь, основан на марковской реальновременной логике и предназначен для оптимизации двух целей: безопасности и эффективности. Он использует метакогнитивные способности для оценки состояния системы и принятия решений, которые максимизируют оба этих показателя.
Архитектура HarmonyGuard позволяет агентам сотрудничать, обеспечивая динамическое обновление политик безопасности и оптимизацию решений в реальном времени.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки HarmonyGuard проведены исследования на нескольких бенчмарках. Результаты показывают, что фреймворк повышает соблюдение политик безопасности до 38% и улучшает эффективность выполнения задач на 20% по сравнению с существующими базовыми моделями. Кроме того, HarmonyGuard достигает более 90% соблюдения политик безопасности на всех задачах.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
HarmonyGuard может быть применен в различных областях, где критично обеспечить баланс между безопасностью и эффективностью, таких как автоматизированные системы управления, финансовые технологии и цифровая безопасность. Его адаптивный подход к обновлению политик и реальновременная оптимизация делают его важным инструментом для обеспечения безопасности в динамических веб-окружениях.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
HarmonyGuard является важным шагом в создании более безопасных и эффективных веб-агентов. Будущие исследования могут расширить этот подход, включив большее количество динамических факторов и улучшив взаимодействие между агентами.
Abstract
Large language models enable agents to autonomously perform tasks in open web
environments. However, as hidden threats within the web evolve, web agents face
the challenge of balancing task performance with emerging risks during
long-sequence operations. Although this challenge is critical, current research
remains limited to single-objective optimization or single-turn scenarios,
lacking the capability for collaborative optimization of both safety and
utility in web environments. To address this gap, we propose HarmonyGuard, a
multi-agent collaborative framework that leverages policy enhancement and
objective optimization to jointly improve both utility and safety. HarmonyGuard
features a multi-agent architecture characterized by two fundamental
capabilities: (1) Adaptive Policy Enhancement: We introduce the Policy Agent
within HarmonyGuard, which automatically extracts and maintains structured
security policies from unstructured external documents, while continuously
updating policies in response to evolving threats. (2) Dual-Objective
Optimization: Based on the dual objectives of safety and utility, the Utility
Agent integrated within HarmonyGuard performs the Markovian real-time reasoning
to evaluate the objectives and utilizes metacognitive capabilities for their
optimization. Extensive evaluations on multiple benchmarks show that
HarmonyGuard improves policy compliance by up to 38% and task completion by up
to 20% over existing baselines, while achieving over 90% policy compliance
across all tasks. Our project is available here:
https://github.com/YurunChen/HarmonyGuard.
Ссылки и действия
Дополнительные ресурсы: