Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs

2509.17314v1 cs.SE, cs.LG 2025-09-24
Авторы:

Juyeon Yoon, Somin Kim, Robert Feldt, Shin Yoo

Резюме на русском

## Контекст В последние годы роль крупных языковых моделей (LLMs) в программном обеспечении неуклонно растет. Они применяются в широком круге задач, включая естественное языковое понимание, программный анализ и генерацию. Однако тестирование LLMs на заданную задачу остается нетривиальной и дорогостоящей задачей. Особенно проблематична проверка качества ввода (input adequacy) для LLMs, которая должна отражать специфику задачи. Традиционные меры доверия или неопределенности часто требуют полного вывода модели, что увеличивает стоимость тестирования. Для улучшения этого процесса необходимо разработать метод, который предварительно оценивал качество ввода относительно задачи, идеально — до начала генерации. ## Метод Мы предлагаем **CLOTHO** — метод оценки качества ввода, ориентированный на конкретную задачу и работающий до начала генерации ответов модели. CLOTHO основывается на **Gaussian Mixture Model (GMM)**, которая адаптивно определяет наиболее информативные случаи для ручного обозначения. Выбор этих случаев осуществляется на основе широкой выборки необъявленных входов для задачи. Алгоритм CLOTHO ведет себя следующим образом: после инициализации на основе выборки, он может оценивать вероятность неудачи для других входов, не требуя полного вывода модели. Это позволяет эффективно структурировать тестирование, оптимизировав набор входов для последующей проверки. ## Результаты Мы провели эксперименты на восьми задачах с использованием трех LLMs с открытыми весами. Метод CLOTHO продемонстрировал высокую точность в предсказании неудач, достигнув ROC-AUC 0.716 при оценке только 5.4% от общего количества входов. Мы также провели сравнение CLOTHO с другими методами оценки неопределенности, показав, что он эффективнее раннего определения неудач. Кроме того, мы продемонстрировали, что классификаторы, обученные на открытых моделях LLMs, эффективно переводятся и на подходящие задачи при использовании проприетарных моделей. ## Значимость CLOTHO может применяться в различных областях, где LLMs применяются для задач, требующих высокого качества ввода. Он позволяет экономить время и ресурсы, делая тестирование более эффективным. Наши результаты показывают, что CLOTHO может значительно увеличить число определяемых неудачных входов, обеспечивая повышенное качество теста. Это делает его привлекательным для использования в контексте тестирования новых LLMs, в том числе в сценариях, где используются закрытые модели. ## Выводы Результаты наших исследований показали, что CLOTHO эффективно оценивает качество ввода до начала генерации, позволяя экономить ресурсы. Мы также доказали, что модели, обученные на открытых моделях LLMs

Abstract

Software increasingly relies on the emergent capabilities of Large Language Models (LLMs), from natural language understanding to program analysis and generation. Yet testing them on specific tasks remains difficult and costly: many prompts lack ground truth, forcing reliance on human judgment, while existing uncertainty and adequacy measures typically require full inference. A key challenge is to assess input adequacy in a way that reflects the demands of the task, ideally before even generating any output. We introduce CLOTHO, a task-specific, pre-generation adequacy measure that estimates input difficulty directly from hidden LLM states. Given a large pool of unlabelled inputs for a specific task, CLOTHO uses a Gaussian Mixture Model (GMM) to adaptively sample the most informative cases for human labelling. Based on this reference set the GMM can then rank unseen inputs by their likelihood of failure. In our empirical evaluation across eight benchmark tasks and three open-weight LLMs, CLOTHO can predict failures with a ROC-AUC of 0.716, after labelling reference sets that are on average only 5.4% of inputs. It does so without generating any outputs, thereby reducing costs compared to existing uncertainty measures. Comparison of CLOTHO and post-generation uncertainty measures shows that the two approaches complement each other. Crucially, we show that adequacy scores learnt from open-weight LLMs transfer effectively to proprietary models, extending the applicability of the approach. When prioritising test inputs for proprietary models, CLOTHO increases the average number of failing inputs from 18.7 to 42.5 out of 100, compared to random prioritisation.

Ссылки и действия