Securing Educational LLMs: A Generalised Taxonomy of Attacks on LLMs and DREAD Risk Assessment

2508.08629v1 cs.CY, cs.AI 2025-08-14
Авторы:

Farzana Zahid, Anjalika Sewwandi, Lee Brandon, Vimal Kumar, Roopak Sinha

Резюме на русском

#### Контекст В последние годы большинство организаций, включая образовательные учреждения, начали внедрять большие языковые модели (LLMs) в свои рабочие процессы для улучшения производительности и эффективности. Из-за повышенного интереса к поддержке обучения и управления, большие языковые модели (LLMs) в образовательной сфере, которые включают в себя модели для преподавателей, студентов и учреждений, называются Образовательными Большими Языковыми Моделями (eLLMs). Однако их интеграция в образовательный процесс вызывает значительные проблемы безопасности. Отсутствие полного знакомства с типами, распространенными нападениями на LLMs и их последствиями в образовательных организациях является значительной проблемой. Данная работа предлагает комплексный подход к разработке концептуальной номенклатуры атак на LLMs, который может помочь улучшить их безопасность в образовательной сфере. #### Метод Разработанная методология включает в себя углубленный анализ текущего состояния исследований в области безопасности LLMs. Был разработан специальный спектр атак, направленных на модели и их инфраструктуру. Эти атаки разделены на 50 категорий, которые охватывают различные аспекты безопасности. Далее, для оценки риска атак в образовательной сфере был использован фреймворк DREAD. Этот фреймворк предназначен для оценки уровня риска и потенциального воздействия атак, основываясь на нескольких критериях. Результаты оценки позволяют определить наиболее критичные угрозы для образовательных LLM, чтобы принять меры по их устранению. #### Результаты На основе проведенных экспериментов и оценок было выявлено, что некоторые атаки, такие как token smuggling, adversarial prompts, direct injection и multi-step jailbreak, являются самыми критичными для образовательных LLM. Эти атаки могут привести к значительным последствиям, включая повреждение данных, недостоверность ответов модели и даже пресечение обучения. Оценка риска с помощью DREAD показала, что эти атаки имеют высокий потенциальный уровень вреда и риска. Таким образом, результаты экспериментов подтверждают важность создания конкретных мер для защиты образовательных LLM от этих угроз. #### Значимость Разработанная номенклатура и фреймворк DREAD могут применяться в области образования для разработки более надежных и безопасных LLM. Они подходят для обеспечения безопасности обучения, обучения самостоятельно и управления учебными процессами. Помимо этого, их можно использовать для проверки и создания новых безопасных LLM-решений, которые могут воспользоваться всеми участниками образовательного процесса. Важность этой работы заключается в том, что она предо

Abstract

Due to perceptions of efficiency and significant productivity gains, various organisations, including in education, are adopting Large Language Models (LLMs) into their workflows. Educator-facing, learner-facing, and institution-facing LLMs, collectively, Educational Large Language Models (eLLMs), complement and enhance the effectiveness of teaching, learning, and academic operations. However, their integration into an educational setting raises significant cybersecurity concerns. A comprehensive landscape of contemporary attacks on LLMs and their impact on the educational environment is missing. This study presents a generalised taxonomy of fifty attacks on LLMs, which are categorized as attacks targeting either models or their infrastructure. The severity of these attacks is evaluated in the educational sector using the DREAD risk assessment framework. Our risk assessment indicates that token smuggling, adversarial prompts, direct injection, and multi-step jailbreak are critical attacks on eLLMs. The proposed taxonomy, its application in the educational environment, and our risk assessment will help academic and industrial practitioners to build resilient solutions that protect learners and institutions.

Ссылки и действия