Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting

2509.06770v1 cs.AI, cs.HC 2025-09-10

Авторы:

Shashidhar Reddy Javaji, Bhavul Gauri, Zining Zhu

Резюме на русском

#### Контекст Large language models (LLMs) стали неотъемлемой частью многократных итераций в различных процессах, таких как генерация кода, решение математических задач и идейное творчество. Тем не менее, существуют ограничения в понимании того, как итерации влияют на качество выходных данных и как оптимально ими пользоваться. Недостаток отразиться на развитии систем, которые должны интеллектуально манипулировать терминами, сложными темами и техническими данными. Цель этого исследования — создать фреймворк, позволяющий измерить, когда итеративный процесс улучшает результаты, а когда же сопряжен с риском ухудшения. #### Метод Методология построения этого исследования базируется на разработке конкретного экспериментального протокола. Он включает в себя 12-тачные диалоги с LLM, применяя различные виды предложений — от неопределенных «улучшить» до целенаправленных, конкретных подсказок. Для каждого таска проводятся сложные вычисления для измерения качества продукта в зависимости от типа задачи. Используются три ключевых семейства метрик: измерение семантического движения в течение всего диалога, анализ изменений с шага к шагу, а также измерение изменения размера выходных данных. Этот подход позволяет измерить и сравнить поведение моделей в различных сценариях. #### Результаты На основе 12-тачных диалогов с LLM получены результаты, показавшие, что полученные выгоды от итерации зависят от конкретной области применения. В области идейного творчества и кодирования итерации приводят к существенным улучшениям ранних шагов, но поздние итерации могут привести к разгоранию погрешности и изменению целей. В области математических задач итерации, особенно те, которые интерпретируются как разъяснение, позволяют достичь повышения качества не только в получаемых результатах, но и в логике, которая используется в решении задачи. Отдельно отмечены доменные характеристики: идеи подвергаются более значительным изменениям с каждым шагом, код — только мелкие изменения, даже когда итерации продолжаются, а в математике стабильность решения может быть подрывана совершенно новым взглядом в последних шагах. #### Значимость Результаты имеют значительное значение для развития LLM в области многошаговых работ. Они позволяют измерить и сравнивать выгоды от итераций между моделями и задачами. Это значит, что итерации могут быть контролируемыми и стратегически использованы в различных сферах. Также, результаты помогают определять моменты, когда нужно переориентироваться или изменить стратегию. Это может быть полезно для развития новых моделей, которые будут учитывать эти наблюдения в своих работах. #### Выводы Ис

Abstract

Large language models (LLMs) are now used in multi-turn workflows, but we still lack a clear way to measure when iteration helps and when it hurts. We present an evaluation framework for iterative refinement that spans ideation, code, and math. Our protocol runs controlled 12-turn conversations per task, utilizing a variety of prompts ranging from vague ``improve it'' feedback to targeted steering, and logs per-turn outputs. We score outcomes with domain-appropriate checks (unit tests for code; answer-equivalence plus reasoning-soundness for math; originality and feasibility for ideation) and track turn-level behavior with three families of metrics: semantic movement across turns, turn-to-turn change, and output size growth. Across models and tasks, gains are domain-dependent: they arrive early in ideas and code, but in math late turns matter when guided by elaboration. After the first few turns, vague feedback often plateaus or reverses correctness, while targeted prompts reliably shift the intended quality axis (novelty vs. feasibility in ideation; speed vs. readability in code; in math, elaboration outperforms exploration and drives late-turn gains). We also observe consistent domain patterns: ideation moves more in meaning across turns, code tends to grow in size with little semantic change, and math starts fixed but can break that path with late, elaborative iteration.Together, the framework and metrics make iteration measurable and comparable across models, and signal when to steer, stop, or switch strategies.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Another Turn, Better Output? A Turn-Wise Analysis of Iterative LLM Prompting

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Persona-based Multi-Agent Collaboration for Brainstorming

Agentic AI Framework for Individuals with Disabilities and Neurodivergence: A Mu...

Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audi...

MoodBench 1.0: An Evaluation Benchmark for Emotional Companionship Dialogue Syst...

Using Wearable Devices to Improve Chronic PainTreatment among Patients with Opio...

Навигация