SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth
2508.11009v1
cs.CL, cs.AI
2025-08-19
Авторы:
Wenpeng Xing, Lanyi Wei, Haixiao Hu, Rongchang Li, Mohan Li, Changting Lin, Meng Han
Резюме на русском
## Контекст
Современные бо LLM (большие языковые модели) широко применяются в различных сферах, включая образование, развлечения и карьеру. Однако применение таких моделей для детей и подростков поднимает серьезные вопросы о безопасности и этичности. Дети и подростки отличаются от взрослых своими уникальными развитий на физическом, эмоциональном и социальном уровнях. На данный момент, большинство существующих бенчмарков безопасности бо для взрослых не учитывают эти различия. Это может привести к значительным рискам, таким как приведение к эмоциональной зависимости, повлечение частной информации, пропаганда опасных поведений. Разработанная работа адресована этим проблемам, предлагая новую методологию для оценки безопасности и этичности бо, ориентированных на детей и подростков.
## Метод
Для выявления рисков, специфичных для детей и подростков, разработаны 1 283 тестовых запросов, ориентированные на развитие. Эти запросы разделены на три группы, соответствующие разным возрастным группам: раннее детство (0-6 лет), среднее детство (7-12 лет) и подростковое возраст (13-18 лет). Набор тестов включает в себя такие запросы, как вызовы к эмоциональной зависимости, вымогательство частной информации и мотивацию к опасным поведениям. Для разбиения на группы запросов использовалась теория развития детей и подростков. Набор тестов был протестирован на 47 различных моделях бо, включая широкий спектр технологий и конфигураций. Это позволило проверить их безопасность и этичность в контексте развития детей и подростков.
## Результаты
Различные модели бо были тестированы на наборе тестов, и их безопасность и этичность были оценены в зависимости от развития. Оказалось, что многие модели имеют уязвимости, особенно в сфере эмоциональной зависимости и воздействия на поведение. Например, модели для подростков проявили большую уязвимость в отношении мотивации к опасным поведениям по сравнению с моделями для младших детей. Также были выявлены сильные корреляции между различными аспектами безопасности и этичности, например, между риском и безопасностью. Также была отмечена значимая проблема старших моделей, которые, несмотря на их высокую точность в общих задачах, часто не соответствуют развитию детей и подростков.
## Значимость
Результаты исследования могут быть применены в различных сферах, включая разработку безопасных и этичных моделей для детей и подростков, а также в образовательных программах и карьерных трекинг-системах. Выявленные проблемы и рекомендации мог
Abstract
The rapid proliferation of large language models (LLMs) in applications
targeting children and adolescents necessitates a fundamental reassessment of
prevailing AI safety frameworks, which are largely tailored to adult users and
neglect the distinct developmental vulnerabilities of minors. This paper
highlights key deficiencies in existing LLM safety benchmarks, including their
inadequate coverage of age-specific cognitive, emotional, and social risks
spanning early childhood (ages 0--6), middle childhood (7--12), and adolescence
(13--18). To bridge these gaps, we introduce SproutBench, an innovative
evaluation suite comprising 1,283 developmentally grounded adversarial prompts
designed to probe risks such as emotional dependency, privacy violations, and
imitation of hazardous behaviors. Through rigorous empirical evaluation of 47
diverse LLMs, we uncover substantial safety vulnerabilities, corroborated by
robust inter-dimensional correlations (e.g., between Safety and Risk
Prevention) and a notable inverse relationship between Interactivity and Age
Appropriateness. These insights yield practical guidelines for advancing
child-centric AI design and deployment.
Ссылки и действия
Дополнительные ресурсы: