LaajMeter: A Framework for LaaJ Evaluation

2508.10161v1 cs.CL, cs.AI 2025-08-16

Авторы:

Gal Amram, Eitan Farchi, Shmulik Froimovich, Raviv Gal, Avi Ziv

Резюме на русском

## Контекст Область исследования: Large Language Models (LLMs) используются в качестве оценщиков в естественном языковом процессовании, в частности в качестве LLM-as-a-Judge (LaaJ). Данный подход показывается эффективным в общих задачах естественного языка, но сталкивается с трудностями в доменных контекстах, где данные с аннотациями недостаточны и экспертная оценка требует больших затрат. LaaJs в таких ситуациях оцениваются с помощью метрик, которые часто не проверены в конкретном домене. Это затрудняет определение качества оценщиков и наличия достаточного порога для их эффективности. В настоящем исследовании предлагается LaaJMeter — рамформда для систематического meta-evaluation LaaJ, которая позволяет генерировать синтетические данные, представляющие виртуальные модели и оценщики. Этот подход позволяет провести методический анализ различных метрик в реалистичных условиях. ## Метод LaaJMeter — это симуляционная фреймворк, который позволяет моделировать виртуальные модели и оценщики, чтобы проводить систематический анализ метрик оценивания. Он обеспечивает контролируемую среду для тестирования различных метрик, позволяя инженерам проверить, правильно ли они отличают лучшие и худшие LaaJs, а также определять подходящие пороги для оценщиков. Фреймворк расширяет возможности для повышения достоверности и повторяемости оценки в NLP, особенно в ситуациях с ограниченными ресурсами. Технически, LaaJMeter позволяет генерировать синтетические наборы данных, представляющие виртуальные модели и оценщики, для построения интеллектуальных вариантов оценки. ## Результаты В ходе исследования использовались синтетические данные, представляющие задачи перевода кода из легаси-программирования. Эксперименты показали разницу в чувствительности различных метрик к качеству оценщика. Например, некоторые метрики оказались более чувствительными к ошибкам оценщиков, чем другие. Эти результаты подтверждают значимость инструмента LaaJMeter для отбора и применение подходящих метрик, а также выявляют ограничения существующих методов. ## Значимость LaaJMeter может быть применен в различных доменах, где требуется надежная и эффективная оценка LaaJ, в том числе в ситуациях с ограниченным объемом данных. Он позволяет провести подробный анализ метрик и выбрать подходящий порог для определения качества оценщика. Этот подход может способствовать развитию более надежных и репродуцируемых систем оценки в NLP. ## Выводы LaaJMeter предоставляет новую форма meta-evaluation систем LaaJ, которая позволяет глубоко анализировать и повышать качество оценщиков. Результаты показывают, что существу

Abstract

Large Language Models (LLMs) are increasingly used as evaluators in natural language processing tasks, a paradigm known as LLM-as-a-Judge (LaaJ). While effective in general domains, LaaJs pose significant challenges in domain-specific contexts, where annotated data is scarce and expert evaluation is costly. In such cases, meta-evaluation is often performed using metrics that have not been validated for the specific domain in which they are applied. As a result, it becomes difficult to determine which metrics effectively identify LaaJ quality, and further, what threshold indicates sufficient evaluator performance. In this work, we introduce LaaJMeter, a simulation-based framework for controlled meta-evaluation of LaaJs. LaaJMeter enables engineers to generate synthetic data representing virtual models and judges, allowing systematic analysis of evaluation metrics under realistic conditions. This helps practitioners validate and refine LaaJs for specific evaluation tasks: they can test whether their metrics correctly distinguish between better and worse (virtual) LaaJs, and estimate appropriate thresholds for evaluator adequacy. We demonstrate the utility of LaaJMeter in a code translation task involving a legacy programming language, showing how different metrics vary in sensitivity to evaluator quality. Our results highlight the limitations of common metrics and the importance of principled metric selection. LaaJMeter provides a scalable and extensible solution for assessing LaaJs in low-resource settings, contributing to the broader effort to ensure trustworthy and reproducible evaluation in NLP.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

LaajMeter: A Framework for LaaJ Evaluation

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

UW-BioNLP at ChemoTimelines 2025: Thinking, Fine-Tuning, and Dictionary-Enhanced...

AdmTree: Compressing Lengthy Context with Adaptive Semantic Trees

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quan...

Mitigating Catastrophic Forgetting in Target Language Adaptation of LLMs via Sou...

SEAL: Self-Evolving Agentic Learning for Conversational Question Answering over ...

Навигация