Experimental Analysis of Productive Interaction Strategy with ChatGPT: User Study on Function and Project-level Code Generation Tasks
2508.04125v1
cs.SE, cs.AI
2025-08-09
Авторы:
Sangwon Hyun, Hyunjun Kim, Jinhyuk Jang, Hyojin Choi, M. Ali Babar
Резюме на русском
**Резюме**
Статья рассматривает проблему недостаточного исследования эффективных методов взаимодействия с Large Language Models (LLMs) в контексте реальных задач программирования, ограниченных простыми проблемами и выборочными приемами. Авторы предлагают комплексный эксперимент, охватывающий более сложные сценарии, в том числе задачи на уровне проекта, а не только функций. В ходе исследования, в котором приняли участие 36 участников разных уровней подготовки, были оценены 15 основных черт взаимодействия (HLI), влияющих на производительность в генерации кода. Отмечены пять ключевых рекомендаций для улучшения этих процессов и разработана категоризация 29 типов ошибок с предложенными мерами их устранения. Основной вывод: три HLI-функции значительно повлияли на производительность, что демонстрирует значимость широкого изучения воздействия человеко-LLM-интеракций на результативность.
Abstract
The application of Large Language Models (LLMs) is growing in the productive
completion of Software Engineering tasks. Yet, studies investigating the
productive prompting techniques often employed a limited problem space,
primarily focusing on well-known prompting patterns and mainly targeting
function-level SE practices. We identify significant gaps in real-world
workflows that involve complexities beyond class-level (e.g., multi-class
dependencies) and different features that can impact Human-LLM Interactions
(HLIs) processes in code generation. To address these issues, we designed an
experiment that comprehensively analyzed the HLI features regarding the code
generation productivity. Our study presents two project-level benchmark tasks,
extending beyond function-level evaluations. We conducted a user study with 36
participants from diverse backgrounds, asking them to solve the assigned tasks
by interacting with the GPT assistant using specific prompting patterns. We
also examined the participants' experience and their behavioral features during
interactions by analyzing screen recordings and GPT chat logs. Our statistical
and empirical investigation revealed (1) that three out of 15 HLI features
significantly impacted the productivity in code generation; (2) five primary
guidelines for enhancing productivity for HLI processes; and (3) a taxonomy of
29 runtime and logic errors that can occur during HLI processes, along with
suggested mitigation plans.
Ссылки и действия
Дополнительные ресурсы: