A Taxonomy of Prompt Defects in LLM Systems
2509.14404v1
cs.SE, cs.AI, cs.CL, cs.PL
2025-09-20
Авторы:
Haoye Tian, Chong Wang, BoYang Yang, Lyuye Zhang, Yang Liu
Резюме на русском
## Контекст
Large Language Models (LLMs) являются основными компонентами современного программного обеспечения, используя prompts как интерфейс для программирования. Однако проектирование prompts остается жизнерадостным и часто приводит к непредсказуемому поведению моделей. Ошибки в проектировании могут привести к небезопасному, неэффективному или небезошибочному поведению. Данная статья представляет первую систематизированную статистическую выборку и категоризацию дефектов в prompts, опираясь на примеры из реальных рабочих процессов.
## Метод
Статья привносит новую лингвистическую модель, которая используется для категоризации дефектов prompts во время их проектирования. Метод включает в себя четыре шага: (1) Определение категорий дефектов и их характеристик, (2) Использование примеров из реальных рабочих процессов, (3) Определение корневых причин дефектов, (4) Создание алгоритмов для разделения категорий и подтипов. Этот подход позволяет анализировать как основные, так и мелкие дефекты в LLMs.
## Результаты
В работе было проанализировано более 2000 дефектов в prompts, полученных из различных источников, включая рабочие процессы и тестирующие программы. Был разработан каталог дефектов, разделенный на шесть основных классов: Specification and Intent, Input and Content, Structure and Formatting, Context and Memory, Performance and Efficiency, и Maintainability and Engineering. Для каждого класса были извлечены подтипы дефектов, иллюстрированные примерами.
## Значимость
Разработанная категоризация может быть использована в разработке программного обеспечения, которое использует LLMs, для того, чтобы улучшить надежность, безопасность и эффективность. Она помогает разработчикам выявлять и устранять дефекты в ранней стадии разработки, а также выявлять потенциальные проблемы, которые могут возникнуть в будущем. Этот подход может иметь значительное влияние на развитие новых технологий LLM.
## Выводы
Основные достижения статьи заключаются в создании систематизированной категории дефектов в prompts, которая может быть использована в разработке и тестировании LLMs. Будущие исследования будут направлены на развитие автоматизированных систем для диагностики и устранения дефектов в prompts, а также на развитие методов для улучшения разработки и тестирования LLMs. Эти исследования будут способствовать улучшению надёжности и эффективности LLM-driven систем.
Abstract
Large Language Models (LLMs) have become key components of modern software,
with prompts acting as their de-facto programming interface. However, prompt
design remains largely empirical and small mistakes can cascade into
unreliable, insecure, or inefficient behavior. This paper presents the first
systematic survey and taxonomy of prompt defects, recurring ways that prompts
fail to elicit their intended behavior from LLMs. We organize defects along six
dimensions: (1) Specification and Intent, (2) Input and Content, (3) Structure
and Formatting, (4) Context and Memory, (5) Performance and Efficiency, and (6)
Maintainability and Engineering. Each dimension is refined into fine-grained
subtypes, illustrated with concrete examples and root cause analysis. Grounded
in software engineering principles, we show how these defects surface in real
development workflows and examine their downstream effects. For every subtype,
we distill mitigation strategies that span emerging prompt engineering
patterns, automated guardrails, testing harnesses, and evaluation frameworks.
We then summarize these strategies in a master taxonomy that links defect,
impact, and remedy. We conclude with open research challenges and a call for
rigorous engineering-oriented methodologies to ensure that LLM-driven systems
are dependable by design.