Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, and More: Probing GPT-OSS-20B

2509.23882v1 cs.AI, cs.CR 2025-10-01

Авторы:

Shuyi Lin, Tian Lu, Zikai Wang, Bo Wen, Yibo Zhao, Cheng Tan

Резюме на русском

## Контекст Открытые языковые модели, такие как GPT-OSS-20B, становятся все более популярными в сфере искусственного интеллекта. Они обладают широким спектром применений, включая техническую поддержку, образовательные цели и даже диалоговые системы. Однако эти модели не являются идеальными и могут встречаться значительными проблемами, особенно при выполнении задач, требующих высокого уровня точности и логического рассуждения. Такие проблемы могут привести к нежелательным последствиям в системах, которые используют эти модели. "Quant Fever", "Reasoning Blackholes", "Schrodinger's Compliance" и другие подобные проблемы отражают распространенные модели ошибок в логическом процессе на уровне глубинного рассуждения. Эти проблемы могут быть воспроизведены в различных сценариях, включая финансовые модели, диагностические системы, а также другие технологические структуры, которые используют такие технологии. Это стимулирует исследования, направленные на понимание этих проблем и развитие методов их преодоления. ## Метод Исследование основывается на Jailbreak Oracle (JO), системном инструменте для проверки логической системы. Этот инструмент предназначен для оценки уязвимостей моделей в различных сценариях, включая атаки со стороны злоумышленников, которые могут использоваться для подрыва работы модели. Метод включает в себя последовательную проверку моделей GPT-OSS-20B с различными входными данными и условиями, чтобы выявить возможные недочеты и уязвимости. Техническая архитектура Jailbreak Oracle (JO) подразумевает собой сложный набор процедур, включая анализ принципов глубинного обучения, анализ результатов системы и прогностический анализ вероятности ошибок. Метод основывается на формальных моделях и систематических процедурах, которые позволяют выявить индивидуальные модели ошибок и определить, как эти модели могут привести к нежелательным последствиям в работе моделей глубинного обучения. ## Результаты В ходе экспериментов были выявлены несколько типичных моделей ошибок, таких как "Quant Fever" (высокая вероятность ошибочного понимания логических задач), "Reasoning Blackholes" (невозможность вывода результатов в ситуациях, требующих сложного рассуждения), "Schrodinger's Compliance" (непоследовательность в принятии решений) и "Reasoning Procedure Mirage" (ошибочное отображение процесса рассуждения). Также был выявлен "Chain-Oriented Prompting", когда модель ориентируется на структуру инструкций, а не на их логическую последовательность. Эксперименты проводились на различных наборах данных, включая финансовые данные, юридические тексты и другие структурированные и неструктурированные данные. Рез

Abstract

OpenAI's GPT-OSS family provides open-weight language models with explicit chain-of-thought (CoT) reasoning and a Harmony prompt format. We summarize an extensive security evaluation of GPT-OSS-20B that probes the model's behavior under different adversarial conditions. Using the Jailbreak Oracle (JO) [1], a systematic LLM evaluation tool, the study uncovers several failure modes including quant fever, reasoning blackholes, Schrodinger's compliance, reasoning procedure mirage, and chain-oriented prompting. Experiments demonstrate how these behaviors can be exploited on GPT-OSS-20B models, leading to severe consequences.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Quant Fever, Reasoning Blackholes, Schrodinger's Compliance, and More: Probing GPT-OSS-20B

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

ASTRIDE: A Security Threat Modeling Platform for Agentic-AI Applications

Reasoning Under Pressure: How do Training Incentives Influence Chain-of-Thought ...

LLM-CSEC: Empirical Evaluation of Security in C/C++ Code Generated by Large Lang...

Mapping Smarter, Not Harder: A Test-Time Reinforcement Learning Agent That Impro...

Evaluating and Mitigating LLM-as-a-judge Bias in Communication Systems

Навигация