Is General-Purpose AI Reasoning Sensitive to Data-Induced Cognitive Biases? Dynamic Benchmarking on Typical Software Engineering Dilemmas

2508.11278v1 cs.HC, cs.AI, cs.SE 2025-08-19
Авторы:

Francesco Sovrano, Gabriele Dominici, Rita Sevastjanova, Alessandra Stramiglio, Alberto Bacchelli

Резюме на русском

#### Контекст Область исследования — обнаружение и изучение возможности возникновения когнитивных биаз в общеприменных искусственных интеллектах (GPAI) в контексте программного обеспечения. Мотивация заключается в том, что человеческие когнитивные биаз могут привести к серьёзным ошибкам в программном обеспечении, а GPAI, как нечеловеческий актор, может способствовать их устранению. Однако тренировка GPAI на людских данных приводит к возможности возникновения имитации человеческих структур мышления, в том числе и биаз. Таким образом, возникает вопрос: являются ли GPAI системы сами подвержены когнитивным биазум и, если да, то в какой степени? Данная работа стремится оценить эту проблему в сфере программного обеспечения. #### Метод Для изучения этой проблемы был разработан динамический фреймворк, ориентированный на оценку уязвимости GPAI к когнитивным биазум в контексте реальных дилемм программного обеспечения. Основной эксперимент начинался с семинарного набора 16 ручной работы, каждая из которых содержала один из 8 разных биаз (например, привязка, фрейминг) и соответствующих неизбилих вариантов. Для увеличения масштаба была разработана методика генерации новых задач, основывающаяся на GPAI-системах. Эта методика позволяла сохранять биаз-индуцирующие лексические сигналы, в то же время изменяя лишь поверхностные детали задач. Для проверки того, что новые задачи сохраняют биаз, использовались методы проверки логики (Prolog) и валидации с помощью LLM-системы. Это позволило гарантировать, что биаз являются вредными и невосприимчивыми для безуклонного логического анализа. #### Результаты В результате было протестировано несколько ведущих GPAI-систем (GPT, LLaMA, DeepSeek). На ранних этапах оказалось, что все протестированные системы подвержены когнитивным биазум, возникающим из-за учёта лексических сигналов, не относящихся к логике задачи. Это привело к некорректным выводам, особенно при простых задачах, где часто использовались глубинные выводы. Однако с увеличением сложности задач системы становились все более чувствительными к биазум (до 49%), что указывает на существенный риск в реальных производственных условиях. #### Значимость Полученные результаты имеют применимость в разных областях, где GPAI используется для автоматизации решений или помощи в программной деятельности. Они показывают, что GPAI может представлять собой не только инструмент для устранения биаз, но и источник новых биаз, которые могут иметь влияние на решения. Изучение этой проблемы может привести к более безопасному и эффективно

Abstract

Human cognitive biases in software engineering can lead to costly errors. While general-purpose AI (GPAI) systems may help mitigate these biases due to their non-human nature, their training on human-generated data raises a critical question: Do GPAI systems themselves exhibit cognitive biases? To investigate this, we present the first dynamic benchmarking framework to evaluate data-induced cognitive biases in GPAI within software engineering workflows. Starting with a seed set of 16 hand-crafted realistic tasks, each featuring one of 8 cognitive biases (e.g., anchoring, framing) and corresponding unbiased variants, we test whether bias-inducing linguistic cues unrelated to task logic can lead GPAI systems from correct to incorrect conclusions. To scale the benchmark and ensure realism, we develop an on-demand augmentation pipeline relying on GPAI systems to generate task variants that preserve bias-inducing cues while varying surface details. This pipeline ensures correctness (88--99% on average, according to human evaluation), promotes diversity, and controls reasoning complexity by leveraging Prolog-based reasoning and LLM-as-a-judge validation. It also verifies that the embedded biases are both harmful and undetectable by logic-based, unbiased reasoners. We evaluate leading GPAI systems (GPT, LLaMA, DeepSeek) and find a consistent tendency to rely on shallow linguistic heuristics over deep reasoning. All systems exhibit cognitive biases (ranging from 5.9% to 35% across types), with bias sensitivity increasing sharply with task complexity (up to 49%), highlighting critical risks in real-world software engineering deployments.

Ссылки и действия

Связанные статьи

ChatGPT on the Road: Leveraging Large Language Model-Powered In-vehicle Conversa...

## Контекст В настоящее время технологии в сфере транспорта стремятся к созданию безопасных, удобных и эффективных систе...

2025-08-13