LaQual: A Novel Framework for Automated Evaluation of LLM App Quality
2508.18636v1
cs.SE, cs.AI
2025-08-28
Авторы:
Yan Wang, Xinyi Hou, Yanjie Zhao, Weiguo Lin, Haoyu Wang, Junjun Si
Резюме на русском
#### Контекст
LLM (Large Language Model) приложения получили широкое распространение в сферах, таких как создание контента, поддержка программирования, образовательные ресурсы и др. Создание LLM-приложений требует сложных навыков и ресурсов, что приводит к возникновению многочисленных проблем при их использовании. Одним из ключевых вопросов является качество приложений: в текущих магазинах приложений LLM трудно выделить качественные решения из многообразия вариантов. Классические методы рекомендаций основываются на статичных метриках, таких как число пользователей или количество добавлений в избранное, которые не всегда коррелируют с реальным качеством приложений. Это приводит к ограниченному возможностям пользователей найти наиболее подходящие приложения. Чтобы улучшить эту ситуацию, предлагается LaQual - автоматизированный фреймворк для оценки качества LLM-приложений.
#### Метод
LaQual предлагает трехэтапную модель оценки качества LLM-приложений. Первый этап заключается в ландшафтной картинке приложений и их классификации в соответствии с логическими сценариями, такими как образовательные приложения или инструменты для кодинга. Это позволяет точнее оценивать приложения в различных сценариях использования. Второй этап основывается на статических метриках, таких как временно-взвешенная активность пользователей и метрики функциональных возможностей. Эти метрики позволяют отфильтровать приложения с низким качеством. Третий этап включает сценарий-адаптивную оценку, в которой LLM-система сама сформировала метрики, правила сравнения и задачи для подробного анализа качества. Эта стратегия обеспечивает гибкость и адаптацию к различным сценариям.
#### Результаты
Эксперименты проводились на данных из одного из крупнейших магазинов приложений LLM. LaQual производила автоматическую оценку качества приложений, которая показала высокую корреляцию с оценками, даваемыми человеком. Например, в сфере юридического консультирования коэффициент Спирмена составил 0.62 (p=0.006), в сфере планирования путешествий - 0.60 (p=0.009). Было показано, что LaQual обеспечивает удаление 66.7% до 81.3% низкокачественных приложений, уменьшая трудности пользователей в поиске качественных решений. Дополнительные исследования показали, что эта система существенно повышает уверенность пользователей в своих выборах (от 3.30 до 5.45), улучшает эффективность сравнения и повышает оценку пользователей по качеству отчетов оценки (от 2.25 до 4.75).
#### Значимость
LaQual предлагает многочисленные преимущества для различных областей. Это может быть применено в магазинах приложений, в системах рекомендаций, в процессах вы
Abstract
LLM app stores are quickly emerging as platforms that gather a wide range of
intelligent applications based on LLMs, giving users many choices for content
creation, coding support, education, and more. However, the current methods for
ranking and recommending apps in these stores mostly rely on static metrics
like user activity and favorites, which makes it hard for users to efficiently
find high-quality apps. To address these challenges, we propose LaQual, an
automated framework for evaluating the quality of LLM apps. LaQual consists of
three main stages: first, it labels and classifies LLM apps in a hierarchical
way to accurately match them to different scenarios; second, it uses static
indicators, such as time-weighted user engagement and functional capability
metrics, to filter out low-quality apps; and third, it conducts a dynamic,
scenario-adaptive evaluation, where the LLM itself generates scenario-specific
evaluation metrics, scoring rules, and tasks for a thorough quality assessment.
Experiments on a popular LLM app store show that LaQual is effective. Its
automated scores are highly consistent with human judgments (with Spearman's
rho of 0.62 and p=0.006 in legal consulting, and rho of 0.60 and p=0.009 in
travel planning). By effectively screening, LaQual can reduce the pool of
candidate LLM apps by 66.7% to 81.3%. User studies further confirm that LaQual
significantly outperforms baseline systems in decision confidence, comparison
efficiency (with average scores of 5.45 compared to 3.30), and the perceived
value of its evaluation reports (4.75 versus 2.25). Overall, these results
demonstrate that LaQual offers a scalable, objective, and user-centered
solution for finding and recommending high-quality LLM apps in real-world use
cases.
Ссылки и действия
Дополнительные ресурсы: