Multi-Agent Penetration Testing AI for the Web
2508.20816v1
cs.CR, cs.AI
2025-08-30
Авторы:
Isaac David, Arthur Gervais
Резюме на русском
## Контекст
В последние годы AI-powered development platforms стали значительно облегчать создание программного обеспечения, делая его доступным для широкой аудитории. Однако эта демократизация привела к скалирующейся проблеме в области тестирования безопасности. Изучения показывают, что до 40% АI-генерируемого кода содержит уязвимости, что делает традиционные методы тестирования неэффективными. Быстрота развития AI-технологий стала значительно выше, чем мощность современного тестирования безопасности, что приводит к угрозе для развития системного программного обеспечения. Наша работа, MAPTA (Multi-Agent Penetration Testing AI for the Web), предлагает решение этой проблемы, предлагая многоагентную систему, которая может автоматически проводить безопасность сетевых приложений, используя лучшие практики в области тестирования безопасности.
## Метод
MAPTA является многоагентной системой, которая объединяет orchestration large language models с инструментами выполнения и end-to-end exploit validation. Она автоматически определяет уязвимости в web-приложениях, используя различные атаки, такие как SSRF, broken authorization, SQL и template injection. Метод также включает в себя широко известные технологии, такие как rule-based agents, tool-grounded execution и end-to-end exploit validation, чтобы обеспечить эффективность и точность. Используя эти методы, мы можем создавать современные и практичные решения для тестирования безопасности, которые могут быть использованы вместе с AI-системами.
## Результаты
Мы провели тестирование MAPTA на 104-частоте XBOW benchmark, получив 76.9% overall success. Мы достигли 100% success на SSRF и misconfiguration vulnerabilities, 83% на broken authorization, и высокие результаты на injection attacks, таких как server-side template injection (85%) и SQL injection (83%). Однако мы столкнулись с проблемами в области cross-site scripting (57%) и blind SQL injection (0%). Наша система также провела подробный cost analysis, показав, что успешные попытки имели медианный cost $0.073, в то время как неудачные попытки имели cost $0.357. Это демонстрирует эффективность MAPTA в выборе ресурсов, что позволяет ставить ранние точки остановки при примерно 40 tool calls или $0.30 per challenge.
## Значимость
MAPTA имеет реальное значение в сфере тестирования безопасности. Она была применена к open-source GitHub-репозиториям с 8K-70K stars, и нашла критические уязвимости, такие как RCEs, command injections, secret exposure и arbitrary file write. Все найденные уязвимости были responsibly disclosed, и 10 из них находятся под CVE review. MAPTA также показывает эффективность своего работы с малыми затратами, что демонстрирует возможность быстрого и эффективного тестирования безопасности для разработчиков.
## Выводы
MAPTA представляет собой прорыв в области автономного тестирования безопасности. Она доказывает свою эффективность в сложных условиях и предлагает перспективы для будущих исследований в
Abstract
AI-powered development platforms are making software creation accessible to a
broader audience, but this democratization has triggered a scalability crisis
in security auditing. With studies showing that up to 40% of AI-generated code
contains vulnerabilities, the pace of development now vastly outstrips the
capacity for thorough security assessment.
We present MAPTA, a multi-agent system for autonomous web application
security assessment that combines large language model orchestration with
tool-grounded execution and end-to-end exploit validation. On the 104-challenge
XBOW benchmark, MAPTA achieves 76.9% overall success with perfect performance
on SSRF and misconfiguration vulnerabilities, 83% success on broken
authorization, and strong results on injection attacks including server-side
template injection (85%) and SQL injection (83%). Cross-site scripting (57%)
and blind SQL injection (0%) remain challenging. Our comprehensive cost
analysis across all challenges totals $21.38 with a median cost of $0.073 for
successful attempts versus $0.357 for failures. Success correlates strongly
with resource efficiency, enabling practical early-stopping thresholds at
approximately 40 tool calls or $0.30 per challenge.
MAPTA's real-world findings are impactful given both the popularity of the
respective scanned GitHub repositories (8K-70K stars) and MAPTA's low average
operating cost of $3.67 per open-source assessment: MAPTA discovered critical
vulnerabilities including RCEs, command injections, secret exposure, and
arbitrary file write vulnerabilities. Findings are responsibly disclosed, 10
findings are under CVE review.
Ссылки и действия
Дополнительные ресурсы: