Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs
2509.02372v1
cs.CR, cs.AI, cs.SE
2025-09-05
Авторы:
Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long
Резюме на русском
## Контекст
Large Language Models (LLMs) широко применяются в сферах, таких как кодирование, документация, и трансляция языка. Однако их обучение на основе интернет-данных создает опасность поглощения и воспроизведения вредоносного контента. Это не только опасно для пользователей, но и может привести к значительным финансовым и безопасностным потерям. Несмотря на значительные усилия, поддерживающие создание этих моделей, существуют сомнения в их безопасности. Целью этой работы является оценка уровня подверженности LLMs к атакам через вредоносный контент в их обучающих данных.
## Метод
Для оценки проблемы был разработан автоматизированный фреймворк, который использует шаблоны проверочных запросов, созданных на основе знакомых баз данных мошеннических сайтов. Эти запросы были поданы в качестве входных данных для 4 популярных LLMs: GPT-4o, GPT-4o-mini, Llama-4-Scout, и DeepSeek-V3. Цель заключалась в определении вероятности возникновения вредоносного кода в программах, сгенерированных этими моделями. Набор данных для экспериментов состоял из синтетических проверочных запросов, отфильтрованных из баз данных мошеннических сайтов. Эксперименты проводились в реальных условиях, чтобы оценить точность и работу моделей на практике.
## Результаты
Опытные результаты показали, что все тестируемые модели генерируют вредоносный код в ответ на гуманных-стилевые запросы, сгенерированные с помощью автоматического фреймворка. Общая статистическая ошибка составила 4.2%, что значительно превышает допустимую погрешность для безопасных систем. Были определены 177 невинных запросов, которые вызвали воспроизведение вредоносного кода во всех тестируемых моделях. Эти результаты подтверждают, что LLMs жертвы масштабного токсического обучения, что может привести к возникновению безопасностных уязвимостей.
## Значимость
Результаты этого исследования имеют большую полезность в различных областях. В первую очередь, они могут быть использованы для создания безопасных систем обработки текста, которые будут отказываться от вывода потенциально вредоносных выражений. Во вторую очередь, они могут помочь в разработке методов, которые будут автоматически фильтровать потенциально опасные выходы моделей. Эти инновации могут быть применены в сферах, таких как системы безопасности, финансовые системы и даже образовательные системы, где использование LLMs является критичным. Уменьшение риска порождения вредоносного кода может иметь значительное влияние на уровень безопасности и доверия к LLMs в различных приложениях.
## Выводы
Результаты исследования являются си
Abstract
Large Language Models (LLMs) have become critical to modern software
development, but their reliance on internet datasets for training introduces a
significant security risk: the absorption and reproduction of malicious
content. To evaluate this threat, this paper introduces a scalable, automated
audit framework that synthesizes innocuous, developer-style prompts from known
scam databases to query production LLMs and determine if they generate code
containing harmful URLs. We conducted a large-scale evaluation across four
production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), and
found a systemic vulnerability, with all tested models generating malicious
code at a non-negligible rate. On average, 4.2\% of programs generated in our
experiments contained malicious URLs. Crucially, this malicious code is often
generated in response to benign prompts. We manually validate the prompts which
cause all four LLMs to generate malicious code, and resulting in 177 innocuous
prompts that trigger all models to produce harmful outputs. These results
provide strong empirical evidence that the training data of production LLMs has
been successfully poisoned at scale, underscoring the urgent need for more
robust defense mechanisms and post-generation safety checks to mitigate the
propagation of hidden security threats.
Ссылки и действия
Дополнительные ресурсы: