A Survey on Data Security in Large Language Models

2508.02312v1 cs.CR, cs.AI 2025-08-09
Авторы:

Kang Chen, Xiuze Zhou, Yuanguo Lin, Jinhe Su, Yuanhui Yu, Li Shen, Fan Lin

Резюме на русском

Модели больших языковых моделей (LLMs), являющимися основополагающими для развития естественного языкового обработки (NLP), оперируют огромными объемами данных, часто извлекаемыми из неконтролируемых источников. Это создает серьезные риски для их безопасности, такие как ввод злонамеренных команд, ядерные явления и уязвимости к действиям, направленным на токсичность или дата-подделку. Такие риски становятся критичными при использовании LLMs в критически важных системах, где требуется доверие пользователей и надёжность системы. В данном исследовании анализируются основные данные-риски для LLMs и предлагается набор мер по их устранению, включая адверсарный тренинг, RLHF и данных Augmentation. Также проводится классификация и анализ специальных датасета для тестирования защищенности моделей в различных сферах. Основные выводы статьи — это выделение перспективных направлений, таких как безопасное обновление моделей, объяснимость защитных механизмов и централизованное руководство, для поддержания безопасного и этичного развития LLMs.

Abstract

Large Language Models (LLMs), now a foundation in advancing natural language processing, power applications such as text generation, machine translation, and conversational systems. Despite their transformative potential, these models inherently rely on massive amounts of training data, often collected from diverse and uncurated sources, which exposes them to serious data security risks. Harmful or malicious data can compromise model behavior, leading to issues such as toxic output, hallucinations, and vulnerabilities to threats such as prompt injection or data poisoning. As LLMs continue to be integrated into critical real-world systems, understanding and addressing these data-centric security risks is imperative to safeguard user trust and system reliability. This survey offers a comprehensive overview of the main data security risks facing LLMs and reviews current defense strategies, including adversarial training, RLHF, and data augmentation. Additionally, we categorize and analyze relevant datasets used for assessing robustness and security across different domains, providing guidance for future research. Finally, we highlight key research directions that focus on secure model updates, explainability-driven defenses, and effective governance frameworks, aiming to promote the safe and responsible development of LLM technology. This work aims to inform researchers, practitioners, and policymakers, driving progress toward data security in LLMs.

Ссылки и действия