Poisoned at Scale: A Scalable Audit Uncovers Hidden Scam Endpoints in Production LLMs

2509.02372v1 cs.CR, cs.AI, cs.SE 2025-09-05
Авторы:

Zhiyang Chen, Tara Saba, Xun Deng, Xujie Si, Fan Long

Резюме на русском

## Контекст Large Language Models (LLMs) широко применяются в сферах, таких как кодирование, документация, и трансляция языка. Однако их обучение на основе интернет-данных создает опасность поглощения и воспроизведения вредоносного контента. Это не только опасно для пользователей, но и может привести к значительным финансовым и безопасностным потерям. Несмотря на значительные усилия, поддерживающие создание этих моделей, существуют сомнения в их безопасности. Целью этой работы является оценка уровня подверженности LLMs к атакам через вредоносный контент в их обучающих данных. ## Метод Для оценки проблемы был разработан автоматизированный фреймворк, который использует шаблоны проверочных запросов, созданных на основе знакомых баз данных мошеннических сайтов. Эти запросы были поданы в качестве входных данных для 4 популярных LLMs: GPT-4o, GPT-4o-mini, Llama-4-Scout, и DeepSeek-V3. Цель заключалась в определении вероятности возникновения вредоносного кода в программах, сгенерированных этими моделями. Набор данных для экспериментов состоял из синтетических проверочных запросов, отфильтрованных из баз данных мошеннических сайтов. Эксперименты проводились в реальных условиях, чтобы оценить точность и работу моделей на практике. ## Результаты Опытные результаты показали, что все тестируемые модели генерируют вредоносный код в ответ на гуманных-стилевые запросы, сгенерированные с помощью автоматического фреймворка. Общая статистическая ошибка составила 4.2%, что значительно превышает допустимую погрешность для безопасных систем. Были определены 177 невинных запросов, которые вызвали воспроизведение вредоносного кода во всех тестируемых моделях. Эти результаты подтверждают, что LLMs жертвы масштабного токсического обучения, что может привести к возникновению безопасностных уязвимостей. ## Значимость Результаты этого исследования имеют большую полезность в различных областях. В первую очередь, они могут быть использованы для создания безопасных систем обработки текста, которые будут отказываться от вывода потенциально вредоносных выражений. Во вторую очередь, они могут помочь в разработке методов, которые будут автоматически фильтровать потенциально опасные выходы моделей. Эти инновации могут быть применены в сферах, таких как системы безопасности, финансовые системы и даже образовательные системы, где использование LLMs является критичным. Уменьшение риска порождения вредоносного кода может иметь значительное влияние на уровень безопасности и доверия к LLMs в различных приложениях. ## Выводы Результаты исследования являются си

Abstract

Large Language Models (LLMs) have become critical to modern software development, but their reliance on internet datasets for training introduces a significant security risk: the absorption and reproduction of malicious content. To evaluate this threat, this paper introduces a scalable, automated audit framework that synthesizes innocuous, developer-style prompts from known scam databases to query production LLMs and determine if they generate code containing harmful URLs. We conducted a large-scale evaluation across four production LLMs (GPT-4o, GPT-4o-mini, Llama-4-Scout, and DeepSeek-V3), and found a systemic vulnerability, with all tested models generating malicious code at a non-negligible rate. On average, 4.2\% of programs generated in our experiments contained malicious URLs. Crucially, this malicious code is often generated in response to benign prompts. We manually validate the prompts which cause all four LLMs to generate malicious code, and resulting in 177 innocuous prompts that trigger all models to produce harmful outputs. These results provide strong empirical evidence that the training data of production LLMs has been successfully poisoned at scale, underscoring the urgent need for more robust defense mechanisms and post-generation safety checks to mitigate the propagation of hidden security threats.

Ссылки и действия