Investigating Security Implications of Automatically Generated Code on the Software Supply Chain

2509.20277v1 cs.CR, cs.AI 2025-09-26
Авторы:

Xiaofan Li, Xing Gao

Резюме на русском

## Контекст В последние годы атаки на поставку программного обеспечения (Software Supply Chain, SSC) стали вызывать всё большую озабоченность в мировой сфере. Такие атаки могут привести к серьёзным последствиям, если разработчики внедрят небезопасный или уязвимый код в свои продукты. Особенно актуальным становится вопрос внедрения кода, сгенерированного с помощью машинного обучения и генеративных технологий. Отдельно стоит выделить широкое применение технологий типа Large Language Models (LLMs) в процессе разработки программного обеспечения. Несмотря на их полезность, LLMs имеют недостатки, включая фабрикацию информации, искажение данных и зависимость от устаревшего тренировочного корпуса. Все эти недостатки могут привести к повышению риска SSC-атак. В данной статье рассматривается ряд технических проблем, связанных с рисками для поставки программного обеспечения, возникающих из-за ограничений LLMs. ## Метод Для изучения проблемы было разработано инструмент SSCGuard, которое основывается на 439,138 сгенерированных запросах, органиченных к вопросам, связанным с поставкой программного обеспечения. Этот инструмент был применён для анализа ответов, полученных от четырёх популярных LLMs, включая модели GPT и Llama. В результате были определены три категории угроз, касающиеся использования LLMs в процессе разработки, включая угрозы, связанные с внешними компонентами и конфигурационными файлами непрерывной интеграции. Анализ результатов позволил выявить потенциальные угрозы, которые могут позволить злоумышленникам контролировать процессы разработки и скрыть угрозы, которые могут привести к последствиям в будущем. ## Результаты Исследование показало, что все выявленные угрозы, связанные с поставкой программного обеспечения, остаются актуальными при использовании LLMs. В частности, было выявлено, что LLMs могут фабрицировать код, что приводит к наличию вредоносных фрагментов в программном обеспечении. Были также выявлены ситуации, в которых LLMs распространяют неточные данные, что может привести к последующим уязвимостям в системах. Изучение этих угроз позволило понять, что они могут позволить злоумышленникам захватить управление программным обеспечением, а также создать угрозы, которые могут вызвать последствия в дальнейшем. ## Значимость Результаты этого исследования имеют значительное значение для сферы безопасности информационных технологий. Они могут использоваться для создания более безопасных систем разработки и управления программным обеспечением. Одним из ключевых преимуществ модели является возможность снизить риск внедрения уязвимого кода в SSC

Abstract

In recent years, various software supply chain (SSC) attacks have posed significant risks to the global community. Severe consequences may arise if developers integrate insecure code snippets that are vulnerable to SSC attacks into their products. Particularly, code generation techniques, such as large language models (LLMs), have been widely utilized in the developer community. However, LLMs are known to suffer from inherent issues when generating code, including fabrication, misinformation, and reliance on outdated training data, all of which can result in serious software supply chain threats. In this paper, we investigate the security threats to the SSC that arise from these inherent issues. We examine three categories of threats, including eleven potential SSC-related threats, related to external components in source code, and continuous integration configuration files. We find some threats in LLM-generated code could enable attackers to hijack software and workflows, while some others might cause potential hidden threats that compromise the security of the software over time. To understand these security impacts and severity, we design a tool, SSCGuard, to generate 439,138 prompts based on SSC-related questions collected online, and analyze the responses of four popular LLMs from GPT and Llama. Our results show that all identified SSC-related threats persistently exist. To mitigate these risks, we propose a novel prompt-based defense mechanism, namely Chain-of-Confirmation, to reduce fabrication, and a middleware-based defense that informs users of various SSC threats.

Ссылки и действия