Evalet: Evaluating Large Language Models by Fragmenting Outputs into Functions

2509.11206v2 cs.HC, cs.AI, cs.CL 2025-09-17
Авторы:

Tae Soo Kim, Heechan Lee, Yoonjoo Lee, Joseph Seering, Juho Kim

Резюме на русском

## Контекст Огромный рост интереса к генерирующимся с помощью искусственного интеллекта выводам привел к популяризации использования ЛСМ (Ло Lаrge Language Mоdels) в качестве средств оценки генерируемого контента. Однако, личные оценки, производящиеся всеми существующими методами, приводят к проблемам в доступности результатов для людей, не имеющих опыта в области моделей языков. Более того, получаемые целостные оценки не дают понять, какие конкретные элементы влияют на полученный результат. Данная проблема может привести к ошибкам в выводах и снижению доверия к ЛСМ. ## Метод Для решения данных проблем была предложена новая методология, основанная на разбиении вывода ЛСМ на функциональные фрагменты, которые значительно упрощает обработку результатов. Функциональные фрагменты вывода определяются с помощью ретрикторских функций, которые используются в качестве критериев оценки. Эта новая подходность позволяет моделировать и отображать результаты в таком виде, чтобы пользователь мог провести глубокий анализ элементов и понять, как они влияют на общую оценку. Метод был реализован в системе Evalet, которая использует интерактивные визуализации для поддержки инспекции, оценки и сравнения выводов. ## Результаты В ходе экспериментов был проведен исследовательский эксперимент, в котором участвовали 10 участников. Они использовали Evalet в тестировании генерируемых выводов ЛСМ. Результаты показали, что техника функционального разделения позволила увеличить число обнаруженных проблем в выводах на 48% в сравнении с традиционными методами. Это позволило улучшить надежность и возможность отслеживать точные проблемы в модели. Таким образом, Evalet делает процесс оценки более транспарентным и эффективным. ## Значимость Результаты Evalet показали, что система оказалась особенно полезна в профессиональных задачах, где необходимо понять не только оценку, но и ее конкретные аспекты. Интерактивные возможности Evalet делают ее инструментом для быстрого и точного анализа моделей языков. Данный подход может быть применен в различных областях, включая технологии поддержки решений, системы мониторинга качества и контент-аналитику. ## Выводы Выводы исследования подтвердили, что Evalet значительно улучшает процесс оценки выводов ЛСМ, помогая пользователям обнаруживать больше проблем и делать более тщательный анализ результатов. Более того, обнаружено, что Evalet может стать залогом будущих исследований в области оценки генерируемых выводов и моделей языков. В будущем можно рассмотреть возможность расширения Evalet для поддержки других способов о

Abstract

Practitioners increasingly rely on Large Language Models (LLMs) to evaluate generative AI outputs through "LLM-as-a-Judge" approaches. However, these methods produce holistic scores that obscure which specific elements influenced the assessments. We propose functional fragmentation, a method that dissects each output into key fragments and interprets the rhetoric functions that each fragment serves relative to evaluation criteria -- surfacing the elements of interest and revealing how they fulfill or hinder user goals. We instantiate this approach in Evalet, an interactive system that visualizes fragment-level functions across many outputs to support inspection, rating, and comparison of evaluations. A user study (N=10) found that, while practitioners struggled to validate holistic scores, our approach helped them identify 48% more evaluation misalignments. This helped them calibrate trust in LLM evaluations and rely on them to find more actionable issues in model outputs. Our work shifts LLM evaluation from quantitative scores toward qualitative, fine-grained analysis of model behavior.

Ссылки и действия

Связанные статьи

Perspectra: Choosing Your Experts Enhances Critical Thinking in Multi-Agent Rese...

## Контекст Одним из самых захватывающих направлений в ИИ является развитие мультиагентских систем (MAS), которые способ...

2025-09-26