SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents

2509.23694v1 cs.AI, cs.CL, cs.CR 2025-10-01
Авторы:

Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu

Резюме на русском

## Контекст В последние годы искусственный интеллект (ИИ), изобретенный для улучшения жизни человека, приобрел новый уровень своего развития в виде люминных генеративных моделей. Интеллектуальные агенты с подключением к Интернету, основанные на технологии трансформации языка (LLM), широко используются в различных сферах, таких как поисковые системы и системы рекомендаций. Однако данное использование ИИ не без проблем. Например, недостаточное качество поисковых результатов может привести к неправильному восприятию информации, сказывающемуся на поведении пользователя. В этом решении мы рассматриваем новый подход для идентификации и устранения угроз для безопасности LLM-подобных поисковых агентов. ## Метод Методология, используемая в данном решении, включает в себя два основных элемента. Во-первых, мы разрабатываем автоматизированный ред-тиминг-автоматизированный тестирований информационных систем. Это позволяет проводить систематические, масштабируемые и стоимостно-эффективные оценки безопасности. Во-вторых, мы предлагаем концепцию бенчмарка SafeSearch, который состоит из 300 тестовых случаев, разделенных на 5 категорий рисков, включая ложную информацию и негативные последствия изменения структуры запроса с помощью индиректного вызова. ## Результаты Мы проводим эксперименты в "реальных условиях" для оценки безопасности LLM-подобных поисковых агентов. Наши результаты показывают, что многие существующие поисковые системы остаются ненадежными с целью исследования идеального поиска. Мы показываем, что риски, связанные с недостаточностью качества результатов поиска, могут привести к нежелательным последствиям для пользователей. Благодаря нашей модели, мы устанавливаем, что самая высокая производительность LLM-подобных поисковых агентов составляет 90,5% для GPT-4.1-mini, что демонстрирует важность этой проблемы. ## Значимость Выполняя роль автоматизированного тестирования безопасности, данный подход может быть применен в разных областях, включая ИИ-системы для поиска, рекомендации и обработки текста. Наша модель помогает обеспечить безопасность и надежность пользовательских интеллектуальных систем. Мы открываем новый уровень прозрачности в разработке поисковых агентов, что позволяет улучшить их качество и обеспечить лучший опыт использования пользователями. ## Выводы В итоге, мы разрабатываем масштабируемый и эффективный подход к тестированию безопасности LLM-подобных поисковых агентов. Мы устанавливаем значительные уязвимости в существующих системах и показываем, что наша

Abstract

Search agents connect LLMs to the Internet, enabling access to broader and more up-to-date information. However, unreliable search results may also pose safety threats to end users, establishing a new threat surface. In this work, we conduct two in-the-wild experiments to demonstrate both the prevalence of low-quality search results and their potential to misguide agent behaviors. To counter this threat, we introduce an automated red-teaming framework that is systematic, scalable, and cost-efficient, enabling lightweight and harmless safety assessments of search agents. Building on this framework, we construct the SafeSearch benchmark, which includes 300 test cases covering five categories of risks (e.g., misinformation and indirect prompt injection). Using this benchmark, we evaluate three representative search agent scaffolds, covering search workflow, tool-calling, and deep research, across 7 proprietary and 8 open-source backend LLMs. Our results reveal substantial vulnerabilities of LLM-based search agents: when exposed to unreliable websites, the highest ASR reached 90.5% for GPT-4.1-mini under a search workflow setting. Moreover, our analysis highlights the limited effectiveness of common defense practices, such as reminder prompting. This emphasizes the value of our framework in promoting transparency for safer agent development. Our codebase and test cases are publicly available: https://github.com/jianshuod/SafeSearch.

Ссылки и действия

Связанные статьи

Defend LLMs Through Self-Consciousness

Огромное повышение популярности Large Language Models (LLMs) подвергло их неожиданному риску — подконтрольным атакам, та...

2025-08-09