HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing

2509.23835v1 cs.SE, cs.AI 2025-10-01

Авторы:

Yukai Zhao, Menghan Wu, Xing Hu, Xin Xia

Резюме на русском

#### Контекст Хранилища пакетов (репозитории) являются ключевым компонентом современных систем разработки программного обеспечения, обеспечивая доступ к библиотекам и фреймворкам, необходимым для разработки. Однако существует ряд проблем, связанных с надежностью и безопасностью этих репозиториев. Одна из самых критических проблем — это **package hallucinations**, когда системы, такие как Large Language Models (LLMs), рекомендуют пакеты, которые не существуют в реальности. Эти hallucinations могут быть использованы в атаках на цепочку поставок программного обеспечения, где злоумышленники регистрируют искусственные пакеты для злонамеренных целей. Таким образом, проверка LLMs на наличие таких недоразумений становится критически важной для защиты от подобных угроз. Несмотря на то, что существуют исследования по тестированию LLMs на наличие бессмысленных или неточных ответов, недостаточно уделяется внимания конкретной проблеме пакетных hallucinations. Для заполнения этой лаборатории мы предлагаем HFUZZER — новый подход к тестированию LLMs. #### Метод HFUZZER — это фреймворк тестирования, основанный на технологии fuzzing, который использует фразы для стимулирования LLMs к поиску более широкого круга релевантной информации. Основная идея заключается в том, что фразы, извлеченные из существующих пакетов или задач, используются для генерирования задач, которые могут вызвать package hallucinations. HFUZZER генерирует задачи, которые не только вызывают возможные неточности в ответах LLMs, но и убеждается в их корректности и релевантности. Для этого используется алгоритм, который анализирует текст задачи и выделяет фразы, которые могут вызвать зависания или неточности во время выполнения кода. Эта методика позволяет HFUZZER генерировать более разнообразные и сложные задачи, что дает более полное изображение проблем во LLMs. #### Результаты HFUZZER протестировал несколько актуальных LLMs, включая GPT-4. Он удачно вызвал пакетные hallucinations во всех подвергнутых исследованию моделях. В частности, HFUZZER выявил 46 уникальных несуществующих пакетов при тестировании GPT-4. Дополнительный анализ показал, что LLMs не только могут создавать несуществующие пакеты во время генерации кода, но и при создании окружения для разработки (например, конфигурации инструментов). Это указывает на широкий спектр уязвимостей, связанных с package hallucinations. Наконец, HFUZZER показал значительное увеличение числа уникальных выявленных несуществующих пакетов по сравнению с другими методами тестирования. #### Значимость HFUZZER имеет значительное значение в нескольких областях. Во-первых, он позволяет оценивать и улучшать безопасность LLMs в производственных си

Abstract

Large Language Models (LLMs) are widely used for code generation, but they face critical security risks when applied to practical production due to package hallucinations, in which LLMs recommend non-existent packages. These hallucinations can be exploited in software supply chain attacks, where malicious attackers exploit them to register harmful packages. It is critical to test LLMs for package hallucinations to mitigate package hallucinations and defend against potential attacks. Although researchers have proposed testing frameworks for fact-conflicting hallucinations in natural language generation, there is a lack of research on package hallucinations. To fill this gap, we propose HFUZZER, a novel phrase-based fuzzing framework to test LLMs for package hallucinations. HFUZZER adopts fuzzing technology and guides the model to infer a wider range of reasonable information based on phrases, thereby generating enough and diverse coding tasks. Furthermore, HFUZZER extracts phrases from package information or coding tasks to ensure the relevance of phrases and code, thereby improving the relevance of generated tasks and code. We evaluate HFUZZER on multiple LLMs and find that it triggers package hallucinations across all selected models. Compared to the mutational fuzzing framework, HFUZZER identifies 2.60x more unique hallucinated packages and generates more diverse tasks. Additionally, when testing the model GPT-4o, HFUZZER finds 46 unique hallucinated packages. Further analysis reveals that for GPT-4o, LLMs exhibit package hallucinations not only during code generation but also when assisting with environment configuration.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Automating Complex Document Workflows via Stepwise and Rollback-Enabled Operatio...

Quantitative Analysis of Technical Debt and Pattern Violation in Large Language ...

MANTRA: a Framework for Multi-stage Adaptive Noise TReAtment During Training

Beyond Greenfield: The D3 Framework for AI-Driven Productivity in Brownfield Eng...

LLM-as-a-Judge for Scalable Test Coverage Evaluation: Accuracy, Operational Reli...

Навигация