Estimating Worst-Case Frontier Risks of Open-Weight LLMs
2508.03153v1
cs.LG, cs.AI
2025-08-09
Авторы:
Eric Wallace, Olivia Watkins, Miles Wang, Kai Chen, Chris Koch
Резюме на русском
Заголовок: Оценка худшего сценария рисков от общедоступных грандиозных языковых моделей
Аннотация: В статье рассматривается оценка худшего сценария рисков, связанных с релизом модели gpt-oss. Авторы представляют метод мальтинтенционного оточения (Malicious Fine-Tuning, MFT), нацеленный на максимизацию возможностей модели gpt-oss в сферах биологии и кибербезопасности. Для этого используются задачи, связанные с рисками создания угроз в биологии и задачи компьютерного кодирования в сфере безопасности. Результаты показывают, что MFT-модели gpt-oss менее эффективны по сравнению с существующими открытыми моделями в области биориска и кибербезопасности. Тем не менее, при маргинальном увеличении биориска, модель не значительно повышает риски в других сферах. Эти выводы подкрепляют решение авторов о релизе модели и предлагают подход MFT в качестве метода для оценки рисков от будущих релизов.
Abstract
In this paper, we study the worst-case frontier risks of releasing gpt-oss.
We introduce malicious fine-tuning (MFT), where we attempt to elicit maximum
capabilities by fine-tuning gpt-oss to be as capable as possible in two
domains: biology and cybersecurity. To maximize biological risk (biorisk), we
curate tasks related to threat creation and train gpt-oss in an RL environment
with web browsing. To maximize cybersecurity risk, we train gpt-oss in an
agentic coding environment to solve capture-the-flag (CTF) challenges. We
compare these MFT models against open- and closed-weight LLMs on frontier risk
evaluations. Compared to frontier closed-weight models, MFT gpt-oss
underperforms OpenAI o3, a model that is below Preparedness High capability
level for biorisk and cybersecurity. Compared to open-weight models, gpt-oss
may marginally increase biological capabilities but does not substantially
advance the frontier. Taken together, these results contributed to our decision
to release the model, and we hope that our MFT approach can serve as useful
guidance for estimating harm from future open-weight releases.
Ссылки и действия
Дополнительные ресурсы: