ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal
2508.11222v1
cs.SE, cs.AI, cs.CL, cs.IR
2025-08-19
Авторы:
Haonan Zhang, Dongxia Wang, Yi Liu, Kexin Chen, Jiashui Wang, Xinlei Ying, Long Liu, Wenhai Wang
Резюме на русском
## Контекст
Large Language Models (LLMs) постоянно совершают ошибки в виде "over-refusal", то есть необоснованного отказа от обработки подозрительно безопасных запросов пользователей. Это проблема возникает из-за слишком утонченных мер безопасности, которые могут приводить к отказам даже в случае присутствия негативных последствий. Так как подобные ошибки могут серьёзно снижать надежность и пользовательский доверие к моделям, они являются критическим функциональным недостатком. На данный момент существуют ограниченные методы для тестирования такого поведения, так как тестирующие бенчмарки и генерация тестовых случаев остаются недостаточно эффективными. Наша работа является первой попыткой создания систематического подхода к обнаружению и анализу таких ошибок.
## Метод
Мы предлагаем ORFuzz - первый развивающийся фреймворк для тестирования "over-refusal" в LLMs. Он включает три основных компонента: (1) выбор семян с учётом категорий безопасности для полного покрытия, (2) адаптивная оптимизация мутатора с применением логики логических моделей для произвольного генерирования тестовых случаев, и (3) OR-Judge - модель, которая подтверждена как близка к потребностям пользователя в определении токсичности и отказа. Предложенный подход позволяет генерировать разнообразные, проверенные случаи over-refusal, которые позволяют обнаруживать уязвимости в LLMs.
## Результаты
Наши эксперименты показали, что ORFuzz способен генерировать значительно большее число тестовых случаев over-refusal по сравнению с текущими методами, благодаря использованию разнообразия семян и оптимизации логики. Мы обнаружили, что ORFuzz увеличивает среднюю процентную долю over-refusal в десяти разных LLMs до 6.98%, что значительно превышает результаты базовых методов. Благодаря этому, был создан ORFuzzSet - новый бенчмарк с 1,855 случаями over-refusal, который показал 63.56% успеха в тестах на 10 LLMs. Этот результат значительно превосходит существующие бенчмарки.
## Значимость
Предложенный подход может быть применён в различных областях, где LLMs используются, таких как клиент-серверные системы, мобильные приложения и системы предсказания. ORFuzz является более продвинутым инструментом для обнаружения over-refusal, что помогает улучшить надежность и доверие к моделям. Мы считаем, что наша работа может способствовать развитию более надежных и пользователь-ориентированных систем на основе LLMs.
## Выводы
ORFuzz является первым инструментом для систематического тестирования over-refusal в LLMs. Мы показали, что он способен генерировать более разнообразные и эффективные тестовые случаи, что позволяет обнаружить уязвимости. Мы предлагаем ORFu
Abstract
Large Language Models (LLMs) increasingly exhibit over-refusal - erroneously
rejecting benign queries due to overly conservative safety measures - a
critical functional flaw that undermines their reliability and usability.
Current methods for testing this behavior are demonstrably inadequate,
suffering from flawed benchmarks and limited test generation capabilities, as
highlighted by our empirical user study. To the best of our knowledge, this
paper introduces the first evolutionary testing framework, ORFuzz, for the
systematic detection and analysis of LLM over-refusals. ORFuzz uniquely
integrates three core components: (1) safety category-aware seed selection for
comprehensive test coverage, (2) adaptive mutator optimization using reasoning
LLMs to generate effective test cases, and (3) OR-Judge, a human-aligned judge
model validated to accurately reflect user perception of toxicity and refusal.
Our extensive evaluations demonstrate that ORFuzz generates diverse, validated
over-refusal instances at a rate (6.98% average) more than double that of
leading baselines, effectively uncovering vulnerabilities. Furthermore,
ORFuzz's outputs form the basis of ORFuzzSet, a new benchmark of 1,855 highly
transferable test cases that achieves a superior 63.56% average over-refusal
rate across 10 diverse LLMs, significantly outperforming existing datasets.
ORFuzz and ORFuzzSet provide a robust automated testing framework and a
valuable community resource, paving the way for developing more reliable and
trustworthy LLM-based software systems.