A Survey on Data Security in Large Language Models
2508.02312v1
cs.CR, cs.AI
2025-08-09
Авторы:
Kang Chen, Xiuze Zhou, Yuanguo Lin, Jinhe Su, Yuanhui Yu, Li Shen, Fan Lin
Резюме на русском
Модели больших языковых моделей (LLMs), являющимися основополагающими для развития естественного языкового обработки (NLP), оперируют огромными объемами данных, часто извлекаемыми из неконтролируемых источников. Это создает серьезные риски для их безопасности, такие как ввод злонамеренных команд, ядерные явления и уязвимости к действиям, направленным на токсичность или дата-подделку. Такие риски становятся критичными при использовании LLMs в критически важных системах, где требуется доверие пользователей и надёжность системы.
В данном исследовании анализируются основные данные-риски для LLMs и предлагается набор мер по их устранению, включая адверсарный тренинг, RLHF и данных Augmentation. Также проводится классификация и анализ специальных датасета для тестирования защищенности моделей в различных сферах. Основные выводы статьи — это выделение перспективных направлений, таких как безопасное обновление моделей, объяснимость защитных механизмов и централизованное руководство, для поддержания безопасного и этичного развития LLMs.
Abstract
Large Language Models (LLMs), now a foundation in advancing natural language
processing, power applications such as text generation, machine translation,
and conversational systems. Despite their transformative potential, these
models inherently rely on massive amounts of training data, often collected
from diverse and uncurated sources, which exposes them to serious data security
risks. Harmful or malicious data can compromise model behavior, leading to
issues such as toxic output, hallucinations, and vulnerabilities to threats
such as prompt injection or data poisoning. As LLMs continue to be integrated
into critical real-world systems, understanding and addressing these
data-centric security risks is imperative to safeguard user trust and system
reliability. This survey offers a comprehensive overview of the main data
security risks facing LLMs and reviews current defense strategies, including
adversarial training, RLHF, and data augmentation. Additionally, we categorize
and analyze relevant datasets used for assessing robustness and security across
different domains, providing guidance for future research. Finally, we
highlight key research directions that focus on secure model updates,
explainability-driven defenses, and effective governance frameworks, aiming to
promote the safe and responsible development of LLM technology. This work aims
to inform researchers, practitioners, and policymakers, driving progress toward
data security in LLMs.
Ссылки и действия
Дополнительные ресурсы: