Building Effective Safety Guardrails in AI Education Tools
2508.05360v1
cs.CY, cs.AI
2025-08-09
Авторы:
Hannah-Beth Clark, Laura Benton, Emma Searle, Margaux Dowland, Matthew Gregory, Will Gayne, John Roberts
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее времени генеративные искусственные интеллектуальные (ИИ) инструменты получили широкое распространение в сфере образования, что привело к увеличению их использования преподавателями. Однако этот рост вызвал опасения относительно безопасности и соответствия возрасту генерируемого контента, который предназначен для использования в классах. При разработке таких инструментов возникают сложности, связанные с обеспечением того, чтобы контент соответствовал педагогическим стандартам и был безопасен для учеников в возрасте от 5 до 16 лет.
Одним из ключевых вызовов является необходимость защиты от потенциальных угроз, таких как непреднамеренное создание неподходящего контента, а также внедрение мер, которые позволяют обеспечить высокий уровень качества и соответствия учебным целям. Дополнительным фактором является необходимость создания инструментов, которые не только генерируют контент, но и позволяют преподавателям контролировать и проверять его до использования в классе. Таким образом, разработка эффективных механизмов безопасности является ключевым элементом для успешного внедрения генеративных ИИ-инструментов в образовательную практику.
В статье рассматривается подход Oak National Academy к разработке первого открытого генеративного ИИ-инструмента для образования, поддерживаемого правительством Великобритании – AI-powered lesson planning assistant (Aila). Целью Aila является поддержка преподавателей в создании уроков, соответствующих национальному учебному плану. Однако, чтобы смягчить риски, связанные с генерируемым контентом, были реализованы четыре ключевые меры безопасности: prompt engineering, защита от угроз входных данных, Independent Asynchronous Content Moderation Agent (IACMA) и подход human-in-the-loop, поощряющий преподавателей к проверке генерируемого контента перед его использованием в классе.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Разработка Aila основывается на четырех основных компонентах безопасности. Во-первых, prompt engineering используется для того, чтобы генерируемый контент оставался в рамках педагогически звучных и учебно-плановых параметров. Во-вторых, система защиты от угроз входных данных (input threat detection) предназначена для предотвращения возможных атак и непреднамеренного использования неправильных запросов.
Третьей составляющей является Independent Asynchronous Content Moderation Agent (IACMA), который оценивает генерируемый контент на соответствие предопределенным категориям безопасности. Наконец, подход human-in-the-loop включает преподавателей в процесс проверки и утверждения контента перед его применением в классе. Этот подход позволяет обеспечить дополнительный уровень контроля и ответственности.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
В ходе оценки эффективности безопасности Aila было проведено ряд экспериментов. Данные, использованные для этих экспериментов, включали различные сценарии использования генерируемого контента в учебной практике. Результаты показали, что prompt engineering значительно повысил точность и соответствие контента учебным целям. Защита от угроз входных данных успешно предотвратила потенциальные атаки. IACMA эффективно оценивал контент на соответствие безопасности, а подход human-in-the-loop позволил преподавателям выявить и исправить потенциальные проблемы перед использованием контента в классе.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Практическая значимость этого исследования заключается в том, что оно предлагает комплексный подход к обеспечению безопасности генеративных ИИ-инструментов в образовании. Реализация таких мер может быть применена в различных образовательных учреждениях, чтобы гарантировать безопасность и качество генерируемого контента. Кроме того, открытые исходные коды, наборы данных и опыт, полученный в процессе разработки Aila, могут стать основой для сотрудничества между различными секторами и улучшения безопасности в будущем.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В результате исследования были выявлены несколько ключевых выводов. При реализации безопасности в генеративных ИИ-инструментах важно постоянно отталкиваться от итеративного процесса улучшения и оценки эффективности мер безопасности. Кроме того, сотрудничество между различными секторами и обмен открытыми ресурсами может способствовать развитию более эффективных методов защиты. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов и расширении областей их применения.
Abstract
There has been rapid development in generative AI tools across the education
sector, which in turn is leading to increased adoption by teachers. However,
this raises concerns regarding the safety and age-appropriateness of the
AI-generated content that is being created for use in classrooms. This paper
explores Oak National Academy's approach to addressing these concerns within
the development of the UK Government's first publicly available generative AI
tool - our AI-powered lesson planning assistant (Aila). Aila is intended to
support teachers planning national curriculum-aligned lessons that are
appropriate for pupils aged 5-16 years. To mitigate safety risks associated
with AI-generated content we have implemented four key safety guardrails - (1)
prompt engineering to ensure AI outputs are generated within pedagogically
sound and curriculum-aligned parameters, (2) input threat detection to mitigate
attacks, (3) an Independent Asynchronous Content Moderation Agent (IACMA) to
assess outputs against predefined safety categories, and (4) taking a
human-in-the-loop approach, to encourage teachers to review generated content
before it is used in the classroom. Through our on-going evaluation of these
safety guardrails we have identified several challenges and opportunities to
take into account when implementing and testing safety guardrails. This paper
highlights ways to build more effective safety guardrails in generative AI
education tools including the on-going iteration and refinement of guardrails,
as well as enabling cross-sector collaboration through sharing both open-source
code, datasets and learnings.
Ссылки и действия
Дополнительные ресурсы: