Clotho: Measuring Task-Specific Pre-Generation Test Adequacy for LLM Inputs

2509.17314v2 cs.SE, cs.LG 2025-09-25
Авторы:

Juyeon Yoon, Somin Kim, Robert Feldt, Shin Yoo

Резюме на русском

#### Контекст Современное программирование становится все более зависимым от возможностей Large Language Models (LLMs), которые применяются в областях, таких как естественномочный понимание, анализ и генерация кода. Однако тестирование LLMs на специфических задачах остается нетривиальной и дорогостоящей задачей. Одна из проблем заключается в том, что многие промежуточные промежуточные модели не имеют полного множества тестов, что приводит к необходимости использовать человеческое суждение. Другая проблема заключается в том, что существующие методы оценки полноты и неопределенности часто требуют полного выполнения модели, что увеличивает затраты на тестирование. Ключевым вызовом является разработка метода, который мог бы оценивать критерии соответствия тестов к задачам до генерации выходных данных. #### Метод Мы предлагаем CLOTHO, подход к оценке критериев соответствия задач на основе предварительной модели, который основывается на анализе скрытых состояний LLM. Для набора необученных входных данных CLOTHO использует Гауссову смесь моделей (GMM) для примерно отображения самых проблемных случаев, которые могут быть отнесены к человеческой оценке. Этот метод позволяет генерировать набор примеров, который можно оценить в пределах 5-10% от всего набора данных. Затем эти примеры могут быть использованы для определения неопределенности и более точной оценки других входных данных. CLOTHO также может работать с LLMs разных типов, включая проприетарные модели, что увеличивает гибкость и эффективность. #### Результаты В нашем исследовании мы применили CLOTHO к 8 бенчмаркам и 3 LLMs. Мы показали, что метод может предсказать неуспехи с ROC-AUC в 0.716, используя только 5.4% от входных данных для тестирования. Таким образом, CLOTHO уменьшает затраты на тестирование, поскольку оценивает критерии соответствия до генерации выходных данных. По сравнению с безрандонным тестированием, CLOTHO увеличивает количество неудачных примеров с 18.7 до 42.5 на 100, что позволяет более эффективно использовать модели. Наши результаты также показали, что критерии соответствия, выявленные на open-weight моделях, могут быть эффективно перенесены на проприетарные модели, что увеличивает широту применения метода. #### Значимость CLOTHO может быть применен в различных областях, где LLMs используются для тестирования специфических задач. Он обеспечивает эффективный и компактный подход к оценке критериев соответствия, что позволяет экономить ресурсы при тестировании. Важно, что CLOTHO может применяться к обоим открытым и закрытым моделям, что расширяет его область применения. Будущие исследования будут направлены на улучшение точности о

Abstract

Software increasingly relies on the emergent capabilities of Large Language Models (LLMs), from natural language understanding to program analysis and generation. Yet testing them on specific tasks remains difficult and costly: many prompts lack ground truth, forcing reliance on human judgment, while existing uncertainty and adequacy measures typically require full inference. A key challenge is to assess input adequacy in a way that reflects the demands of the task, ideally before even generating any output. We introduce CLOTHO, a task-specific, pre-generation adequacy measure that estimates input difficulty directly from hidden LLM states. Given a large pool of unlabelled inputs for a specific task, CLOTHO uses a Gaussian Mixture Model (GMM) to adaptively sample the most informative cases for human labelling. Based on this reference set the GMM can then rank unseen inputs by their likelihood of failure. In our empirical evaluation across eight benchmark tasks and three open-weight LLMs, CLOTHO can predict failures with a ROC-AUC of 0.716, after labelling reference sets that are on average only 5.4% of inputs. It does so without generating any outputs, thereby reducing costs compared to existing uncertainty measures. Comparison of CLOTHO and post-generation uncertainty measures shows that the two approaches complement each other. Crucially, we show that adequacy scores learnt from open-weight LLMs transfer effectively to proprietary models, extending the applicability of the approach. When prioritising test inputs for proprietary models, CLOTHO increases the average number of failing inputs from 18.7 to 42.5 out of 100, compared to random prioritisation.

Ссылки и действия