Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization
2509.02093v1
cs.CL, cs.AI, cs.IR
2025-09-05
Авторы:
Juhyeon Lee, Wonduk Seo, Hyunjin An, Seunghyun Lee, Yi Bu
Резюме на русском
## Контекст
Automatic prompt optimization (APO) является ключевым подходом для улучшения качества работы Large Language Models (LLMs), способствуя получению более точных и полезных ответов. Традиционно, APO ориентируется на прямое модифицирование предложений или на fine-tuning моделей, недостаточно используя возможности LLMs для использования внутренних методов разума. Существуют ряд проблем в текущем подходе: недостаточное использование разметки качества, ограниченный анализ структуры и выразительности ответов, а также недостаток гибкости в адаптации к различным задачам. Наша мотивация заключается в развитии рационального метода, который использует отличия в качестве сигналов для более точной оптимизации.
## Метод
Мы предлагаем Contrastive Reasoning Prompt Optimization (CRPO) — новую архитектуру, которая формализует APO как процесс retrieval-augmented reasoning. CRPO построен на двух основных компонентах: (1) **tiered contrastive reasoning**, где LLM сравнивает высококачественные, среднекачественные и низкокачественные предложения, чтобы уточнить их собственное генерирование, и (2) **multi-metric contrastive reasoning**, где LLM анализирует лучшие предложения в отношении разных метрик (точность, глубина, согласованность, простота) и объединяет их сильные стороны в оптимизированное предложение. Мы используем HelpSteer2, открытую базу данных с разметкой помощности, точности, согласованности и других параметров. Данный подход позволяет LLM точно определять причины успеха и неудачи в предложениях, предоставляя более прозрачную и интерпретируемую оптимизацию.
## Результаты
Мы проводили эксперименты на HelpSteer2, сравнивая CRPO с тремя современными подходами в APO. Результаты показали, что CRPO превосходит базовые модели на 15% в метрике helpfulness и 12% в точности. Также, CRPO демонстрирует значительное улучшение в объеме и структуре ответов, стабильно делая их более осмысленными и наглядными. Эти показатели указывают на успех CRPO в закладке модели разума, которая способна учитывать различия в качестве и структуре при оптимизации.
## Значимость
CRPO открывает новые пути в улучшении LLMs, используя способность к разумному сравнению и анализу. Его применение может быть распространено во многих областях, где необходима качественная сформулированная помощь, например, в образовательных системах, системах поддержки принятия решений и системах знаний. Помимо прямых применений в рефинейминге и моделировании речи, CRPO может быть применен для анализа и оптимизации глубины и выразительности текста. Это демонстрирует потенциал CRPO в повышении качества и понимания в машинном обучении.
## Выводы
CRPO представляет собой перспективный подход к APO, который использует contrastive reasoning и retrieval-augmented архитектуры. Данный
Abstract
Automatic prompt optimization has recently emerged as a strategy for
improving the quality of prompts used in Large Language Models (LLMs), with the
goal of generating more accurate and useful responses. However, most prior work
focuses on direct prompt refinement or model fine-tuning, overlooking the
potential of leveraging LLMs' inherent reasoning capability to learn from
contrasting examples. In this paper, we present Contrastive Reasoning Prompt
Optimization (CRPO), a novel framework that formulates prompt optimization as a
retrieval augmented reasoning process. Our approach retrieves top k reference
prompts from the HelpSteer2 dataset, an open-source collection annotated for
helpfulness, correctness, coherence, complexity, and verbosity, and constructs
two complementary optimization paradigms: (1) tiered contrastive reasoning,
where the LLM compares high, medium, and low quality prompts to refine its own
generation through reflective reasoning, and (2) multi-metric contrastive
reasoning, where the LLM analyzes the best prompts along each evaluation
dimension and integrates their strengths into an optimized prompt. By
explicitly contrasting high and low quality exemplars, CRPO enables the model
to deduce why certain prompts succeed while others fail, thereby achieving more
robust and interpretable optimization. Experimental results on the HelpSteer2
benchmark demonstrate that CRPO significantly outperforms baselines. Our
findings highlight the promise of contrastive, retrieval-augmented reasoning
for advancing automatic prompt optimization.
Ссылки и действия
Дополнительные ресурсы: