Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization

2509.02093v1 cs.CL, cs.AI, cs.IR 2025-09-05
Авторы:

Juhyeon Lee, Wonduk Seo, Hyunjin An, Seunghyun Lee, Yi Bu

Резюме на русском

## Контекст Automatic prompt optimization (APO) является ключевым подходом для улучшения качества работы Large Language Models (LLMs), способствуя получению более точных и полезных ответов. Традиционно, APO ориентируется на прямое модифицирование предложений или на fine-tuning моделей, недостаточно используя возможности LLMs для использования внутренних методов разума. Существуют ряд проблем в текущем подходе: недостаточное использование разметки качества, ограниченный анализ структуры и выразительности ответов, а также недостаток гибкости в адаптации к различным задачам. Наша мотивация заключается в развитии рационального метода, который использует отличия в качестве сигналов для более точной оптимизации. ## Метод Мы предлагаем Contrastive Reasoning Prompt Optimization (CRPO) — новую архитектуру, которая формализует APO как процесс retrieval-augmented reasoning. CRPO построен на двух основных компонентах: (1) **tiered contrastive reasoning**, где LLM сравнивает высококачественные, среднекачественные и низкокачественные предложения, чтобы уточнить их собственное генерирование, и (2) **multi-metric contrastive reasoning**, где LLM анализирует лучшие предложения в отношении разных метрик (точность, глубина, согласованность, простота) и объединяет их сильные стороны в оптимизированное предложение. Мы используем HelpSteer2, открытую базу данных с разметкой помощности, точности, согласованности и других параметров. Данный подход позволяет LLM точно определять причины успеха и неудачи в предложениях, предоставляя более прозрачную и интерпретируемую оптимизацию. ## Результаты Мы проводили эксперименты на HelpSteer2, сравнивая CRPO с тремя современными подходами в APO. Результаты показали, что CRPO превосходит базовые модели на 15% в метрике helpfulness и 12% в точности. Также, CRPO демонстрирует значительное улучшение в объеме и структуре ответов, стабильно делая их более осмысленными и наглядными. Эти показатели указывают на успех CRPO в закладке модели разума, которая способна учитывать различия в качестве и структуре при оптимизации. ## Значимость CRPO открывает новые пути в улучшении LLMs, используя способность к разумному сравнению и анализу. Его применение может быть распространено во многих областях, где необходима качественная сформулированная помощь, например, в образовательных системах, системах поддержки принятия решений и системах знаний. Помимо прямых применений в рефинейминге и моделировании речи, CRPO может быть применен для анализа и оптимизации глубины и выразительности текста. Это демонстрирует потенциал CRPO в повышении качества и понимания в машинном обучении. ## Выводы CRPO представляет собой перспективный подход к APO, который использует contrastive reasoning и retrieval-augmented архитектуры. Данный

Abstract

Automatic prompt optimization has recently emerged as a strategy for improving the quality of prompts used in Large Language Models (LLMs), with the goal of generating more accurate and useful responses. However, most prior work focuses on direct prompt refinement or model fine-tuning, overlooking the potential of leveraging LLMs' inherent reasoning capability to learn from contrasting examples. In this paper, we present Contrastive Reasoning Prompt Optimization (CRPO), a novel framework that formulates prompt optimization as a retrieval augmented reasoning process. Our approach retrieves top k reference prompts from the HelpSteer2 dataset, an open-source collection annotated for helpfulness, correctness, coherence, complexity, and verbosity, and constructs two complementary optimization paradigms: (1) tiered contrastive reasoning, where the LLM compares high, medium, and low quality prompts to refine its own generation through reflective reasoning, and (2) multi-metric contrastive reasoning, where the LLM analyzes the best prompts along each evaluation dimension and integrates their strengths into an optimized prompt. By explicitly contrasting high and low quality exemplars, CRPO enables the model to deduce why certain prompts succeed while others fail, thereby achieving more robust and interpretable optimization. Experimental results on the HelpSteer2 benchmark demonstrate that CRPO significantly outperforms baselines. Our findings highlight the promise of contrastive, retrieval-augmented reasoning for advancing automatic prompt optimization.

Ссылки и действия