Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, and More: Probing GPT-OSS-20B
2509.23882v1
cs.AI, cs.CR
2025-10-01
Авторы:
Shuyi Lin, Tian Lu, Zikai Wang, Bo Wen, Yibo Zhao, Cheng Tan
Резюме на русском
## Контекст
Открытые языковые модели, такие как GPT-OSS-20B, становятся все более популярными в сфере искусственного интеллекта. Они обладают широким спектром применений, включая техническую поддержку, образовательные цели и даже диалоговые системы. Однако эти модели не являются идеальными и могут встречаться значительными проблемами, особенно при выполнении задач, требующих высокого уровня точности и логического рассуждения. Такие проблемы могут привести к нежелательным последствиям в системах, которые используют эти модели.
"Quant Fever", "Reasoning Blackholes", "Schrodinger's Compliance" и другие подобные проблемы отражают распространенные модели ошибок в логическом процессе на уровне глубинного рассуждения. Эти проблемы могут быть воспроизведены в различных сценариях, включая финансовые модели, диагностические системы, а также другие технологические структуры, которые используют такие технологии. Это стимулирует исследования, направленные на понимание этих проблем и развитие методов их преодоления.
## Метод
Исследование основывается на Jailbreak Oracle (JO), системном инструменте для проверки логической системы. Этот инструмент предназначен для оценки уязвимостей моделей в различных сценариях, включая атаки со стороны злоумышленников, которые могут использоваться для подрыва работы модели. Метод включает в себя последовательную проверку моделей GPT-OSS-20B с различными входными данными и условиями, чтобы выявить возможные недочеты и уязвимости.
Техническая архитектура Jailbreak Oracle (JO) подразумевает собой сложный набор процедур, включая анализ принципов глубинного обучения, анализ результатов системы и прогностический анализ вероятности ошибок. Метод основывается на формальных моделях и систематических процедурах, которые позволяют выявить индивидуальные модели ошибок и определить, как эти модели могут привести к нежелательным последствиям в работе моделей глубинного обучения.
## Результаты
В ходе экспериментов были выявлены несколько типичных моделей ошибок, таких как "Quant Fever" (высокая вероятность ошибочного понимания логических задач), "Reasoning Blackholes" (невозможность вывода результатов в ситуациях, требующих сложного рассуждения), "Schrodinger's Compliance" (непоследовательность в принятии решений) и "Reasoning Procedure Mirage" (ошибочное отображение процесса рассуждения). Также был выявлен "Chain-Oriented Prompting", когда модель ориентируется на структуру инструкций, а не на их логическую последовательность.
Эксперименты проводились на различных наборах данных, включая финансовые данные, юридические тексты и другие структурированные и неструктурированные данные. Рез
Abstract
OpenAI's GPT-OSS family provides open-weight language models with explicit
chain-of-thought (CoT) reasoning and a Harmony prompt format. We summarize an
extensive security evaluation of GPT-OSS-20B that probes the model's behavior
under different adversarial conditions. Using the Jailbreak Oracle (JO) [1], a
systematic LLM evaluation tool, the study uncovers several failure modes
including quant fever, reasoning blackholes, Schrodinger's compliance,
reasoning procedure mirage, and chain-oriented prompting. Experiments
demonstrate how these behaviors can be exploited on GPT-OSS-20B models, leading
to severe consequences.
Ссылки и действия
Дополнительные ресурсы: