HFuzzer: Testing Large Language Models for Package Hallucinations via Phrase-based Fuzzing
2509.23835v1
cs.SE, cs.AI
2025-10-01
Авторы:
Yukai Zhao, Menghan Wu, Xing Hu, Xin Xia
Резюме на русском
#### Контекст
Хранилища пакетов (репозитории) являются ключевым компонентом современных систем разработки программного обеспечения, обеспечивая доступ к библиотекам и фреймворкам, необходимым для разработки. Однако существует ряд проблем, связанных с надежностью и безопасностью этих репозиториев. Одна из самых критических проблем — это **package hallucinations**, когда системы, такие как Large Language Models (LLMs), рекомендуют пакеты, которые не существуют в реальности. Эти hallucinations могут быть использованы в атаках на цепочку поставок программного обеспечения, где злоумышленники регистрируют искусственные пакеты для злонамеренных целей. Таким образом, проверка LLMs на наличие таких недоразумений становится критически важной для защиты от подобных угроз. Несмотря на то, что существуют исследования по тестированию LLMs на наличие бессмысленных или неточных ответов, недостаточно уделяется внимания конкретной проблеме пакетных hallucinations. Для заполнения этой лаборатории мы предлагаем HFUZZER — новый подход к тестированию LLMs.
#### Метод
HFUZZER — это фреймворк тестирования, основанный на технологии fuzzing, который использует фразы для стимулирования LLMs к поиску более широкого круга релевантной информации. Основная идея заключается в том, что фразы, извлеченные из существующих пакетов или задач, используются для генерирования задач, которые могут вызвать package hallucinations. HFUZZER генерирует задачи, которые не только вызывают возможные неточности в ответах LLMs, но и убеждается в их корректности и релевантности. Для этого используется алгоритм, который анализирует текст задачи и выделяет фразы, которые могут вызвать зависания или неточности во время выполнения кода. Эта методика позволяет HFUZZER генерировать более разнообразные и сложные задачи, что дает более полное изображение проблем во LLMs.
#### Результаты
HFUZZER протестировал несколько актуальных LLMs, включая GPT-4. Он удачно вызвал пакетные hallucinations во всех подвергнутых исследованию моделях. В частности, HFUZZER выявил 46 уникальных несуществующих пакетов при тестировании GPT-4. Дополнительный анализ показал, что LLMs не только могут создавать несуществующие пакеты во время генерации кода, но и при создании окружения для разработки (например, конфигурации инструментов). Это указывает на широкий спектр уязвимостей, связанных с package hallucinations. Наконец, HFUZZER показал значительное увеличение числа уникальных выявленных несуществующих пакетов по сравнению с другими методами тестирования.
#### Значимость
HFUZZER имеет значительное значение в нескольких областях. Во-первых, он позволяет оценивать и улучшать безопасность LLMs в производственных си
Abstract
Large Language Models (LLMs) are widely used for code generation, but they
face critical security risks when applied to practical production due to
package hallucinations, in which LLMs recommend non-existent packages. These
hallucinations can be exploited in software supply chain attacks, where
malicious attackers exploit them to register harmful packages. It is critical
to test LLMs for package hallucinations to mitigate package hallucinations and
defend against potential attacks. Although researchers have proposed testing
frameworks for fact-conflicting hallucinations in natural language generation,
there is a lack of research on package hallucinations. To fill this gap, we
propose HFUZZER, a novel phrase-based fuzzing framework to test LLMs for
package hallucinations. HFUZZER adopts fuzzing technology and guides the model
to infer a wider range of reasonable information based on phrases, thereby
generating enough and diverse coding tasks. Furthermore, HFUZZER extracts
phrases from package information or coding tasks to ensure the relevance of
phrases and code, thereby improving the relevance of generated tasks and code.
We evaluate HFUZZER on multiple LLMs and find that it triggers package
hallucinations across all selected models. Compared to the mutational fuzzing
framework, HFUZZER identifies 2.60x more unique hallucinated packages and
generates more diverse tasks. Additionally, when testing the model GPT-4o,
HFUZZER finds 46 unique hallucinated packages. Further analysis reveals that
for GPT-4o, LLMs exhibit package hallucinations not only during code generation
but also when assisting with environment configuration.
Ссылки и действия
Дополнительные ресурсы: