SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth

2508.11009v1 cs.CL, cs.AI 2025-08-19
Авторы:

Wenpeng Xing, Lanyi Wei, Haixiao Hu, Rongchang Li, Mohan Li, Changting Lin, Meng Han

Резюме на русском

## Контекст Современные бо LLM (большие языковые модели) широко применяются в различных сферах, включая образование, развлечения и карьеру. Однако применение таких моделей для детей и подростков поднимает серьезные вопросы о безопасности и этичности. Дети и подростки отличаются от взрослых своими уникальными развитий на физическом, эмоциональном и социальном уровнях. На данный момент, большинство существующих бенчмарков безопасности бо для взрослых не учитывают эти различия. Это может привести к значительным рискам, таким как приведение к эмоциональной зависимости, повлечение частной информации, пропаганда опасных поведений. Разработанная работа адресована этим проблемам, предлагая новую методологию для оценки безопасности и этичности бо, ориентированных на детей и подростков. ## Метод Для выявления рисков, специфичных для детей и подростков, разработаны 1 283 тестовых запросов, ориентированные на развитие. Эти запросы разделены на три группы, соответствующие разным возрастным группам: раннее детство (0-6 лет), среднее детство (7-12 лет) и подростковое возраст (13-18 лет). Набор тестов включает в себя такие запросы, как вызовы к эмоциональной зависимости, вымогательство частной информации и мотивацию к опасным поведениям. Для разбиения на группы запросов использовалась теория развития детей и подростков. Набор тестов был протестирован на 47 различных моделях бо, включая широкий спектр технологий и конфигураций. Это позволило проверить их безопасность и этичность в контексте развития детей и подростков. ## Результаты Различные модели бо были тестированы на наборе тестов, и их безопасность и этичность были оценены в зависимости от развития. Оказалось, что многие модели имеют уязвимости, особенно в сфере эмоциональной зависимости и воздействия на поведение. Например, модели для подростков проявили большую уязвимость в отношении мотивации к опасным поведениям по сравнению с моделями для младших детей. Также были выявлены сильные корреляции между различными аспектами безопасности и этичности, например, между риском и безопасностью. Также была отмечена значимая проблема старших моделей, которые, несмотря на их высокую точность в общих задачах, часто не соответствуют развитию детей и подростков. ## Значимость Результаты исследования могут быть применены в различных сферах, включая разработку безопасных и этичных моделей для детей и подростков, а также в образовательных программах и карьерных трекинг-системах. Выявленные проблемы и рекомендации мог

Abstract

The rapid proliferation of large language models (LLMs) in applications targeting children and adolescents necessitates a fundamental reassessment of prevailing AI safety frameworks, which are largely tailored to adult users and neglect the distinct developmental vulnerabilities of minors. This paper highlights key deficiencies in existing LLM safety benchmarks, including their inadequate coverage of age-specific cognitive, emotional, and social risks spanning early childhood (ages 0--6), middle childhood (7--12), and adolescence (13--18). To bridge these gaps, we introduce SproutBench, an innovative evaluation suite comprising 1,283 developmentally grounded adversarial prompts designed to probe risks such as emotional dependency, privacy violations, and imitation of hazardous behaviors. Through rigorous empirical evaluation of 47 diverse LLMs, we uncover substantial safety vulnerabilities, corroborated by robust inter-dimensional correlations (e.g., between Safety and Risk Prevention) and a notable inverse relationship between Interactivity and Age Appropriateness. These insights yield practical guidelines for advancing child-centric AI design and deployment.

Ссылки и действия