SafeProtein: Red-Teaming Framework and Benchmark for Protein Foundation Models

2509.03487v1 cs.LG, cs.AI, cs.CR, q-bio.BM, q-bio.QM 2025-09-05
Авторы:

Jigang Fan, Zhenghong Zhou, Ruofan Jin, Le Cong, Mengdi Wang, Zaixi Zhang

Резюме на русском

## Контекст Построение protein foundation models (PFMs) представляет собой ключевой аспект развития систем понимания и моделирования белков. Эти модели опираются на последовательности аминокислот и используют глубокое обучение для решения проблем, связанных с пониманием и моделированием белков. Несмотря на их неоценимую полезность в биологических исследованиях, технологиях частичного синтеза и других областях, они не являются иммунными к злоупотреблению. Например, PFMs могут быть использованы для синтеза белков с биологически опасными свойствами, что может привести к серьезным последствиям. Однако существующие методы тестирования и аудита PFMs недостаточно систематизированы, что создает риск появления серьезных проблем безопасности в использовании таких моделей. ## Метод SafeProtein представляет собой первую систему red-teaming, разработанную специально для PFMs. Методология SafeProtein основывается на комбинации модального предложения и трансформационной технологии. Multimodal prompt engineering используется для формирования надёжных запросов, которые позволяют тестировать модели безопасности PFMs. Для поиска потенциальных угроз используется инновационная техника heuristic beam search, которая позволяет расширить поиск возможных угроз, охватив многообразие вариантов поведения моделей. Эта архитектура обеспечивает многоуровневый подход к анализу уязвимостей PFMs и позволяет глубоко раскрыть биологические риски, связанные с их использованием. ## Результаты Используя SafeProtein, авторы провели эксперименты на нескольких современных PFMs, включая ESM3, и получили высокие результаты в проведении тестирования безопасности. Тесты показали, что модели, такие как ESM3, подвержены опасностям, таким как jailbreak-атаки, с успешной стойкостью до 70%. Эти результаты подтверждают значительные биологические и системные риски, связанные с нехваткой тестирования безопасности PFMs. Также был разработан SafeProtein-Bench, который включает в себя руководство по классификации угроз, многомодальные данные и протоколы экспериментов, позволяющие проводить тщательные эксперименты для тестирования и оценки безопасности PFMs. ## Значимость SafeProtein представляет собой важный вклад в область анализа и защиты PFMs. Он предоставляет мощный инструмент для анализа угроз безопасности, который может быть использован в различных приложениях, таких как биоинформатика, технологии построения белков, и синтез белков. Результаты SafeProtein показывают, что существуют серьезные проблемы в полной безопасности PFMs, и что эти модели должны быть подвергнуты тщательному тестированию. Обнаружение этих проблем может способствовать развитию новых

Abstract

Proteins play crucial roles in almost all biological processes. The advancement of deep learning has greatly accelerated the development of protein foundation models, leading to significant successes in protein understanding and design. However, the lack of systematic red-teaming for these models has raised serious concerns about their potential misuse, such as generating proteins with biological safety risks. This paper introduces SafeProtein, the first red-teaming framework designed for protein foundation models to the best of our knowledge. SafeProtein combines multimodal prompt engineering and heuristic beam search to systematically design red-teaming methods and conduct tests on protein foundation models. We also curated SafeProtein-Bench, which includes a manually constructed red-teaming benchmark dataset and a comprehensive evaluation protocol. SafeProtein achieved continuous jailbreaks on state-of-the-art protein foundation models (up to 70% attack success rate for ESM3), revealing potential biological safety risks in current protein foundation models and providing insights for the development of robust security protection technologies for frontier models. The codes will be made publicly available at https://github.com/jigang-fan/SafeProtein.

Ссылки и действия