Building Effective Safety Guardrails in AI Education Tools

2508.05360v1 cs.CY, cs.AI 2025-08-09

Авторы:

Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времени генеративные искусственные интеллектуальные (ИИ) инструменты получили широкое распространение в сфере образования, что привело к увеличению их использования преподавателями. Однако этот рост вызвал опасения относительно безопасности и соответствия возрасту генерируемого контента, который предназначен для использования в классах. При разработке таких инструментов возникают сложности, связанные с обеспечением того, чтобы контент соответствовал педагогическим стандартам и был безопасен для учеников в возрасте от 5 до 16 лет. Одним из ключевых вызовов является необходимость защиты от потенциальных угроз, таких как непреднамеренное создание неподходящего контента, а также внедрение мер, которые позволяют обеспечить высокий уровень качества и соответствия учебным целям. Дополнительным фактором является необходимость создания инструментов, которые не только генерируют контент, но и позволяют преподавателям контролировать и проверять его до использования в классе. Таким образом, разработка эффективных механизмов безопасности является ключевым элементом для успешного внедрения генеративных ИИ-инструментов в образовательную практику. В статье рассматривается подход Oak National Academy к разработке первого открытого генеративного ИИ-инструмента для образования, поддерживаемого правительством Великобритании – AI-powered lesson planning assistant (Aila). Целью Aila является поддержка преподавателей в создании уроков, соответствующих национальному учебному плану. Однако, чтобы смягчить риски, связанные с генерируемым контентом, были реализованы четыре ключевые меры безопасности: prompt engineering, защита от угроз входных данных, Independent Asynchronous Content Moderation Agent (IACMA) и подход human-in-the-loop, поощряющий преподавателей к проверке генерируемого контента перед его использованием в классе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработка Aila основывается на четырех основных компонентах безопасности. Во-первых, prompt engineering используется для того, чтобы генерируемый контент оставался в рамках педагогически звучных и учебно-плановых параметров. Во-вторых, система защиты от угроз входных данных (input threat detection) предназначена для предотвращения возможных атак и непреднамеренного использования неправильных запросов. Третьей составляющей является Independent Asynchronous Content Moderation Agent (IACMA), который оценивает генерируемый контент на соответствие предопределенным категориям безопасности. Наконец, подход human-in-the-loop включает преподавателей в процесс проверки и утверждения контента перед его применением в классе. Этот подход позволяет обеспечить дополнительный уровень контроля и ответственности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В ходе оценки эффективности безопасности Aila было проведено ряд экспериментов. Данные, использованные для этих экспериментов, включали различные сценарии использования генерируемого контента в учебной практике. Результаты показали, что prompt engineering значительно повысил точность и соответствие контента учебным целям. Защита от угроз входных данных успешно предотвратила потенциальные атаки. IACMA эффективно оценивал контент на соответствие безопасности, а подход human-in-the-loop позволил преподавателям выявить и исправить потенциальные проблемы перед использованием контента в классе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость этого исследования заключается в том, что оно предлагает комплексный подход к обеспечению безопасности генеративных ИИ-инструментов в образовании. Реализация таких мер может быть применена в различных образовательных учреждениях, чтобы гарантировать безопасность и качество генерируемого контента. Кроме того, открытые исходные коды, наборы данных и опыт, полученный в процессе разработки Aila, могут стать основой для сотрудничества между различными секторами и улучшения безопасности в будущем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования были выявлены несколько ключевых выводов. При реализации безопасности в генеративных ИИ-инструментах важно постоянно отталкиваться от итеративного процесса улучшения и оценки эффективности мер безопасности. Кроме того, сотрудничество между различными секторами и обмен открытыми ресурсами может способствовать развитию более эффективных методов защиты. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов и расширении областей их применения.

Abstract

There has been rapid development in generative AI tools across the education sector, which in turn is leading to increased adoption by teachers. However, this raises concerns regarding the safety and age-appropriateness of the AI-generated content that is being created for use in classrooms. This paper explores Oak National Academy's approach to addressing these concerns within the development of the UK Government's first publicly available generative AI tool - our AI-powered lesson planning assistant (Aila). Aila is intended to support teachers planning national curriculum-aligned lessons that are appropriate for pupils aged 5-16 years. To mitigate safety risks associated with AI-generated content we have implemented four key safety guardrails - (1) prompt engineering to ensure AI outputs are generated within pedagogically sound and curriculum-aligned parameters, (2) input threat detection to mitigate attacks, (3) an Independent Asynchronous Content Moderation Agent (IACMA) to assess outputs against predefined safety categories, and (4) taking a human-in-the-loop approach, to encourage teachers to review generated content before it is used in the classroom. Through our on-going evaluation of these safety guardrails we have identified several challenges and opportunities to take into account when implementing and testing safety guardrails. This paper highlights ways to build more effective safety guardrails in generative AI education tools including the on-going iteration and refinement of guardrails, as well as enabling cross-sector collaboration through sharing both open-source code, datasets and learnings.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Building Effective Safety Guardrails in AI Education Tools

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Humanity in the Age of AI: Reassessing 2025's Existential-Risk Narratives

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Fro...

Artificial Intelligence / Human Intelligence: Who Controls Whom?

First, do NOHARM: towards clinically safe large language models

AI-Driven Document Redaction in UK Public Authorities: Implementation Gaps, Regu...

Навигация