LaQual: A Novel Framework for Automated Evaluation of LLM App Quality

2508.18636v1 cs.SE, cs.AI 2025-08-28
Авторы:

Yan Wang, Xinyi Hou, Yanjie Zhao, Weiguo Lin, Haoyu Wang, Junjun Si

Резюме на русском

#### Контекст LLM (Large Language Model) приложения получили широкое распространение в сферах, таких как создание контента, поддержка программирования, образовательные ресурсы и др. Создание LLM-приложений требует сложных навыков и ресурсов, что приводит к возникновению многочисленных проблем при их использовании. Одним из ключевых вопросов является качество приложений: в текущих магазинах приложений LLM трудно выделить качественные решения из многообразия вариантов. Классические методы рекомендаций основываются на статичных метриках, таких как число пользователей или количество добавлений в избранное, которые не всегда коррелируют с реальным качеством приложений. Это приводит к ограниченному возможностям пользователей найти наиболее подходящие приложения. Чтобы улучшить эту ситуацию, предлагается LaQual - автоматизированный фреймворк для оценки качества LLM-приложений. #### Метод LaQual предлагает трехэтапную модель оценки качества LLM-приложений. Первый этап заключается в ландшафтной картинке приложений и их классификации в соответствии с логическими сценариями, такими как образовательные приложения или инструменты для кодинга. Это позволяет точнее оценивать приложения в различных сценариях использования. Второй этап основывается на статических метриках, таких как временно-взвешенная активность пользователей и метрики функциональных возможностей. Эти метрики позволяют отфильтровать приложения с низким качеством. Третий этап включает сценарий-адаптивную оценку, в которой LLM-система сама сформировала метрики, правила сравнения и задачи для подробного анализа качества. Эта стратегия обеспечивает гибкость и адаптацию к различным сценариям. #### Результаты Эксперименты проводились на данных из одного из крупнейших магазинов приложений LLM. LaQual производила автоматическую оценку качества приложений, которая показала высокую корреляцию с оценками, даваемыми человеком. Например, в сфере юридического консультирования коэффициент Спирмена составил 0.62 (p=0.006), в сфере планирования путешествий - 0.60 (p=0.009). Было показано, что LaQual обеспечивает удаление 66.7% до 81.3% низкокачественных приложений, уменьшая трудности пользователей в поиске качественных решений. Дополнительные исследования показали, что эта система существенно повышает уверенность пользователей в своих выборах (от 3.30 до 5.45), улучшает эффективность сравнения и повышает оценку пользователей по качеству отчетов оценки (от 2.25 до 4.75). #### Значимость LaQual предлагает многочисленные преимущества для различных областей. Это может быть применено в магазинах приложений, в системах рекомендаций, в процессах вы

Abstract

LLM app stores are quickly emerging as platforms that gather a wide range of intelligent applications based on LLMs, giving users many choices for content creation, coding support, education, and more. However, the current methods for ranking and recommending apps in these stores mostly rely on static metrics like user activity and favorites, which makes it hard for users to efficiently find high-quality apps. To address these challenges, we propose LaQual, an automated framework for evaluating the quality of LLM apps. LaQual consists of three main stages: first, it labels and classifies LLM apps in a hierarchical way to accurately match them to different scenarios; second, it uses static indicators, such as time-weighted user engagement and functional capability metrics, to filter out low-quality apps; and third, it conducts a dynamic, scenario-adaptive evaluation, where the LLM itself generates scenario-specific evaluation metrics, scoring rules, and tasks for a thorough quality assessment. Experiments on a popular LLM app store show that LaQual is effective. Its automated scores are highly consistent with human judgments (with Spearman's rho of 0.62 and p=0.006 in legal consulting, and rho of 0.60 and p=0.009 in travel planning). By effectively screening, LaQual can reduce the pool of candidate LLM apps by 66.7% to 81.3%. User studies further confirm that LaQual significantly outperforms baseline systems in decision confidence, comparison efficiency (with average scores of 5.45 compared to 3.30), and the perceived value of its evaluation reports (4.75 versus 2.25). Overall, these results demonstrate that LaQual offers a scalable, objective, and user-centered solution for finding and recommending high-quality LLM apps in real-world use cases.

Ссылки и действия