Overcoming Black-box Attack Inefficiency with Hybrid and Dynamic Select Algorithms

2509.20699v1 cs.CL, I.2.7 2025-09-27
Авторы:

Abhinay Shankar Belde, Rohit Ramkumar, Jonathan Rusert

Резюме на русском

## Контекст Область исследования, посвященная созданию атак на текстовые модели, является ключевой для оценки работы естественных языковых моделей (NLP) на прочность. Несмотря на то, что такие атаки помогают исследователям уязвимости моделей, они становятся все более сложными при работе с современными трансформер-моделями. Эти модели требуют больших вычислительных ресурсов для эффективного тестирования атак. Это особенно заметно для исследователей с ограниченными ресурсами, такими как доступ к GPU. Традиционные методы, такие как BinarySelect и GreedySelect, хотя и эффективны, но часто требуют много запросов для того, чтобы получить эффективные атаки. Это создает серьезные проблемы для исследователей, которые не могут позволить себе такие затраты на ресурсы. Для решения этой проблемы, предлагается два новых подхода, которые объединяют сильные стороны предыдущих алгоритмов. ## Метод Метод Hybrid Select является комбинацией BinarySelect и GreedySelect с использованием размышления о том, какой метод лучше подходит для той или иной ситуации. Для этого вводится размерный порог, при котором один из методов (Binary или Greedy) будет применен. Это позволяет оптимизировать выбор метода в зависимости от конкретной задачи. Метод Dynamic Select, в свою очередь, работает по-другому, оптимизируя выбор методов Greedy и Binary в зависимости от длины текста. Это подход решает проблему, когда один из методов может быть более эффективен на определенных длинах текста. Эти два метода, Hybrid и Dynamic Select, могут быть использованы на разных уровнях (токен, предложение, и т.д.) для создания более эффективных текстовых атак с меньшим количеством запросов. ## Результаты Исследователи проверили два новых метода на 4 разных датасетах и 6 различных моделях. Они сравнивали Hybrid и Dynamic Select с исходными BinarySelect и GreedySelect. На тестировании вы most of the cases была проверена эффективность и экономия на запросах. Например, на одной из моделей, Hybrid Select позволил сократить количество запросов на 25.82% в среднем, при этом сохранив эффективность атаки. Этот подход показал себя эффективнее для различных моделей, в том числе для LLMs. Dynamic Select показал похожие результаты, но имел некоторые ограничения в случае очень длинных текстов. ## Значимость Предложенные методы Hybrid и Dynamic Select представляют собой значительный шаг в направлении улучшения текстовых атак. Они могут использоваться во многих областях, таких как оценка уязвимости моделей, моделирование надежных текстовых систем и снижение риска атак на текстовые модели. Эти методы позволяют экономить ресурсы для исследователей, уменьшая количество запросов, необходимых для того, чтобы протестировать уязвимость моделей. Это может сде

Abstract

Adversarial text attack research plays a crucial role in evaluating the robustness of NLP models. However, the increasing complexity of transformer-based architectures has dramatically raised the computational cost of attack testing, especially for researchers with limited resources (e.g., GPUs). Existing popular black-box attack methods often require a large number of queries, which can make them inefficient and impractical for researchers. To address these challenges, we propose two new attack selection strategies called Hybrid and Dynamic Select, which better combine the strengths of previous selection algorithms. Hybrid Select merges generalized BinarySelect techniques with GreedySelect by introducing a size threshold to decide which selection algorithm to use. Dynamic Select provides an alternative approach of combining the generalized Binary and GreedySelect by learning which lengths of texts each selection method should be applied to. This greatly reduces the number of queries needed while maintaining attack effectiveness (a limitation of BinarySelect). Across 4 datasets and 6 target models, our best method(sentence-level Hybrid Select) is able to reduce the number of required queries per attack up 25.82\% on average against both encoder models and LLMs, without losing the effectiveness of the attack.

Ссылки и действия