Automatic Prompt Optimization with Prompt Distillation
2508.18992v1
cs.CL, cs.AI, cs.LG
2025-08-28
Авторы:
Viktor N. Zhuravlev, Artur R. Khairullin, Ernest A. Dyagin, Alena N. Sitkina, Nikita I. Kulin
Резюме на русском
## Контекст
Современная информатика сталкивается с вопросами улучшения качества работы языковых моделей (LLMs), которые являются ключевым инструментом в машинном обучении и многих приложениях, таких как синтез речи, генерация текста и представление знаний. Одна из наиболее актуальных проблем является автоматическая оптимизация триггеров (prompts) для языковых моделей. Достоверные и эффективные триггеры являются критически важными для повышения точности и надежности моделей в решении задач NLP. Несмотря на развитие методов, включая градиентные подходы и методы без градиентов, существуют значительные ограничения в сфере эффективности и универсальности существующих алгоритмов. Мотивация для разработки DistillPrompt постулируется тем, что текущие решения часто либо недостаточно эффективны, либо требуют объемных вычислений, что не приемлемо для работы на больших объемах данных.
## Метод
DistillPrompt представляет собой инновационный подход к автоматической оптимизации триггеров, основанный на многоэтапном интегрировании задач-специфической информации в процесс тренировки моделей. Основываясь на технологиях дистилляции, сжатия и агрегации, метод позволяет проводить более глубокую исследовательскую работу в пространстве триггеров. Используются любительские языковые модели, оснащенные слоями сжатия, которые позволяют получать более точные и оптимальные триггеры. Эта архитектура включает множество этапов обучения, при этом каждый этап производится с учетом конкретной задачи, что дает значительные выгоды в точности и универсальности решений.
## Результаты
В ходе экспериментов DistillPrompt был протестирован на различных датасетах с обучением на текстах, включая задачи текстового классификации и генерации. Используемая модель — t-lite-instruct-0.1. Результаты показали существенное улучшение ключевых метрик по сравнению с существующими методами. Например, продемонстрировано 20.12% увеличение точности в целом датасете относительно Grips в задачах текстового классификации. Эти результаты подтверждают эффективность DistillPrompt в контексте неградиентных подходов к оптимизации триггеров.
## Значимость
Разработанный подход имеет широкие перспективы применения в области NLP, включая текстовую генерацию, классификацию и анализ отзывов. Он предоставляет значительные преимущества по сравнению с другими методами, включая улучшенную эффективность, простоту реализации и универсальность применения. Это может способствовать развитию более точных и надежных языковых моделей, а также повлиять на развити
Abstract
Autoprompting is the process of automatically selecting optimized prompts for
language models, which is gaining popularity due to the rapid development of
prompt engineering driven by extensive research in the field of large language
models (LLMs). This paper presents DistillPrompt -- a novel autoprompting
method based on large language models that employs a multi-stage integration of
task-specific information into prompts using training data. DistillPrompt
utilizes distillation, compression, and aggregation operations to explore the
prompt space more thoroughly. The method was tested on different datasets for
text classification and generation tasks using the t-lite-instruct-0.1 language
model. The results demonstrate a significant average improvement (e.g., 20.12%
across the entire dataset compared to Grips) in key metrics over existing
methods in the field, establishing DistillPrompt as one of the most effective
non-gradient approaches in autoprompting.
Ссылки и действия
Дополнительные ресурсы: