Refining Critical Thinking in LLM Code Generation: A Faulty Premise-based Evaluation Framework

2508.03622v1 cs.AI 2025-08-06
Авторы:

Jialin Li, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА С развитием возможностей генерации кода в крупных языковых моделях (LLM) их зависимость от вводных предпосылок значительно возросла. Современные технологии генерации кода сталкиваются с проблемой, когда пользователи предоставляют вводные данные с ошибочными предпосылками, что приводит к увеличению вероятности появления "галлюцинаций" — ошибок или некорректных результатов в сгенерированном коде. Такие ситуации подчеркивают недостатки в способностях моделей к самопроверке и самокоррекции. Несмотря на значительные успехи в развитии LLM, их способность критически оценивать предоставляемые данные и исправлять ошибки остается недостаточно изученной. Стремление к улучшению этих аспектов генерации кода мотивирует исследователей на создание новых методик и инструментов, способных оценивать и улучшать умение моделей справляться с ошибочными предпосылками. В этом контексте возникает необходимость в разработке специализированных фреймворков, которые позволят систематически оценивать и анализировать поведение моделей в условиях неопределенности и ошибок. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предложен новый фреймворк для оценки генерации кода в условиях ошибочных предпосылок, названный Faulty Premises Bench (FPBench). Этот фреймворк впервые систематически классифицирует три категории ошибочных предпосылок и интегрирует многомерные метрики оценки, что позволяет проводить глубокий анализ поведения языковых моделей. Методология включает создание различных сценариев с ошибочными предпосылками, в которых модели тестируются на их способность выявлять и исправлять ошибки. FPBench использует комплексный подход к оценке, который учитывает не только качество сгенерированного кода, но и способность моделей к самопроверке и самокоррекции. Архитектура фреймворка предусматривает использование наборов данных, содержащих разнообразные ошибочные предпосылки, которые служат основой для тестирования 15 представительных LLM. Такой подход позволяет выделить особенности и недостатки каждой модели, что, в свою очередь, способствует разработке более надежных и человекоориентированных моделей генерации кода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты, проведенные с использованием FPBench, включали тестирование 15 различных языковых моделей на способность обрабатывать ошибочные предпосылки. Для оценки использовались наборы данных, специально разработанные для создания сценариев с тремя типами ошибочных предпосылок. Результаты показали, что большинство моделей демонстрируют недостаточные способности к логическому мышлению и генерации кода в условиях ошибочных предпосылок, сильно завися от явных подсказок для обнаружения ошибок. Также выяснилось, что увеличение длины вводных данных в условиях ошибочных предпосылок не приводит к улучшению качества генерации, а наоборот, вызывает перегрузку ресурсов. Наблюдения показали, что различные типы ошибочных предпосылок активируют разные дефектные паттерны в моделях, что свидетельствует о тройной диссоциации в когнитивных механизмах генерации кода. Эти результаты подчеркивают необходимость разработки новых методов, которые позволят LLM более эффективно проверять вводные данные на наличие ошибок и самостоятельно их исправлять. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный фреймворк FPBench имеет значительное практическое значение для улучшения качества и надежности генерации кода с использованием языковых моделей. Его применение позволяет выявлять слабые места в моделях и разрабатывать стратегии для их устранения. Это может существенно повысить доверие пользователей к автоматическим системам генерации кода, особенно в критически важных областях, таких как разработка программного обеспечения и анализ данных. Преимущества использования FPBench заключаются в его способности систематически оценивать модели в условиях неопределенности и ошибочных предпосылок, что способствует созданию более адаптивных и точных моделей. Потенциальное влияние данной работы заключается в формировании новых стандартов для оценки и разработки LLM, которые будут учитывать необходимость критического мышления и самопроверки в процессе генерации кода. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование подчеркивает необходимость улучшения способностей языковых моделей к критическому мышлению и самопроверке в условиях ошибочных предпосылок. Основным достижением работы является разработка фреймворка FPBench, который предоставляет теоретическую основу и практический подход для систематической оценки и улучшения моделей генерации кода. В результате проведенных экспериментов было выявлено, что большинство моделей недостаточно эффективно справляются с ошибочными предпосылками, что указывает на необходимость дальнейших исследований в этой области. Перспективы будущих исследований включают разработку новых архитектур и алгоритмов, которые будут учитывать выявленные недостатки и способствовать созданию более надежных и человекоориентированных систем генерации кода. Также важным направлением является интеграция методов машинного обучения, которые позволят моделям более эффективно адаптироваться к различным типам ошибочных предпосылок и повышать общую точность и качество работы.

Abstract

With the advancement of code generation capabilities in large language models (LLMs), their reliance on input premises has intensified. When users provide inputs containing faulty premises, the probability of code generation hallucinations rises significantly, exposing deficiencies in their self-scrutiny capabilities. This paper proposes Faulty Premises Bench (FPBench), the first code generation evaluation framework targeting faulty premises. By systematically constructing three categories of faulty premises and integrating multi-dimensional evaluation metrics, it conducts in-depth assessments of 15 representative LLMs. The key findings are as follows: (1) Most models exhibit poor reasoning abilities and suboptimal code generation performance under faulty premises, heavily relying on explicit prompts for error detection, with limited self-scrutiny capabilities; (2) Faulty premises trigger a point of diminishing returns in resource investment, leading to blindly increasing length fails to enhance quality; (3) The three types of faulty premises respectively activate distinct defect patterns in models, revealing a triple dissociation in the cognitive mechanisms of code generation models. This study not only highlights the urgent need for LLMs to proactively verify premises in code generation but also, through the proposed FPBench framework and multi-dimensional evaluation system, provides a theoretical foundation and practical pathway for developing reliable, human-centric code generation models.

Ссылки и действия