Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions
2509.11206v2
cs.HC, cs.AI, cs.CL
2025-09-17
Авторы:
Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim
Резюме на русском
## Контекст
Огромный рост интереса к генерирующимся с помощью искусственного интеллекта выводам привел к популяризации использования ЛСМ (Ло Lаrge Language Mоdels) в качестве средств оценки генерируемого контента. Однако, личные оценки, производящиеся всеми существующими методами, приводят к проблемам в доступности результатов для людей, не имеющих опыта в области моделей языков. Более того, получаемые целостные оценки не дают понять, какие конкретные элементы влияют на полученный результат. Данная проблема может привести к ошибкам в выводах и снижению доверия к ЛСМ.
## Метод
Для решения данных проблем была предложена новая методология, основанная на разбиении вывода ЛСМ на функциональные фрагменты, которые значительно упрощает обработку результатов. Функциональные фрагменты вывода определяются с помощью ретрикторских функций, которые используются в качестве критериев оценки. Эта новая подходность позволяет моделировать и отображать результаты в таком виде, чтобы пользователь мог провести глубокий анализ элементов и понять, как они влияют на общую оценку. Метод был реализован в системе Evalet, которая использует интерактивные визуализации для поддержки инспекции, оценки и сравнения выводов.
## Результаты
В ходе экспериментов был проведен исследовательский эксперимент, в котором участвовали 10 участников. Они использовали Evalet в тестировании генерируемых выводов ЛСМ. Результаты показали, что техника функционального разделения позволила увеличить число обнаруженных проблем в выводах на 48% в сравнении с традиционными методами. Это позволило улучшить надежность и возможность отслеживать точные проблемы в модели. Таким образом, Evalet делает процесс оценки более транспарентным и эффективным.
## Значимость
Результаты Evalet показали, что система оказалась особенно полезна в профессиональных задачах, где необходимо понять не только оценку, но и ее конкретные аспекты. Интерактивные возможности Evalet делают ее инструментом для быстрого и точного анализа моделей языков. Данный подход может быть применен в различных областях, включая технологии поддержки решений, системы мониторинга качества и контент-аналитику.
## Выводы
Выводы исследования подтвердили, что Evalet значительно улучшает процесс оценки выводов ЛСМ, помогая пользователям обнаруживать больше проблем и делать более тщательный анализ результатов. Более того, обнаружено, что Evalet может стать залогом будущих исследований в области оценки генерируемых выводов и моделей языков. В будущем можно рассмотреть возможность расширения Evalet для поддержки других способов о
Abstract
Practitioners increasingly rely on Large Language Models (LLMs) to evaluate
generative AI outputs through "LLM-as-a-Judge" approaches. However, these
methods produce holistic scores that obscure which specific elements influenced
the assessments. We propose functional fragmentation, a method that dissects
each output into key fragments and interprets the rhetoric functions that each
fragment serves relative to evaluation criteria -- surfacing the elements of
interest and revealing how they fulfill or hinder user goals. We instantiate
this approach in Evalet, an interactive system that visualizes fragment-level
functions across many outputs to support inspection, rating, and comparison of
evaluations. A user study (N=10) found that, while practitioners struggled to
validate holistic scores, our approach helped them identify 48% more evaluation
misalignments. This helped them calibrate trust in LLM evaluations and rely on
them to find more actionable issues in model outputs. Our work shifts LLM
evaluation from quantitative scores toward qualitative, fine-grained analysis
of model behavior.
Ссылки и действия
Дополнительные ресурсы: