IDEAlign: Comparing Large Language Models to Human Experts in Open-ended Interpretive Annotations

2509.02855v1 cs.CL, cs.CY 2025-09-05
Авторы:

Hyunji Nam, Lucia Langlois, James Malamut, Mei Tan, Dorottya Demszky

Резюме на русском

## Контекст Открытые, интерпретируемые задачи аннотации, такие как тематический анализ или генерация обратной связи на работе студентов, широко применяются в образовательных, научных и профессиональных контекстах. Эти задачи требуют бесед с экспертами, которые вносят свои тематические оценки, превращая неструктурированные данные в осмысленные выводы. Несмотря на то, что технологии глубокого обучения, такие как большие лингвистические модели (LLM), постепенно применяются к этим задачам, оценивать точность их результатов в сравнении с экспертными оценками в полном масштабе остается сложной задачей. Существуют недостатки в метриках, которые могли бы достоверно оценить степень согласованности LLM-подобных аннотаций с экспертными. Мотивацией для настоящего исследования является необходимость развитияскорабельного и универсального подхода, позволяющего эффективно сравнить LLM-генерируемые аннотации с экспертными. ## Метод Предложенный подход, IDEAlign, основывается на бенчмарке, основанном на триplet-задаче "выберите неподходящий". В этой задаче участники (включая LLM) сравнивают три варианта аннотаций и выбирают тот, который наиболее выделяется из тройки. Этот подход позволяет собирать экспертные оценки, используя "метод отрицания", чтобы представлять согласованность с целевым экспертным контекстом. Архитектура использовалась несколько моделей LLM, таких как RoBERTa и T5, как субъекты для этих задач, а также различные метрики векторного пространства, включая различные тематические модели и модели представления слов. IDEAlign предлагает эффективность и гибкость для сравнения этих моделей с экспертными оценками. ## Результаты В экспериментах применялись два реальных образовательных набора данных: один для тематического анализа, другой для генерации обратной связи на работе студентов. Метрики векторного пространства, такие как embeddings и topic models, провалились в точности, показав незначительную или отрицательную корреляцию с экспертными оценками (до 10%). Лексические метрики (например, cosine similarity) показали незначительный улучшение, но не достигли уровня согласованности с экспертными оценками. Однако применение предложенной LLM-дискриминаторной модели в рамках IDEAlign показало значительные улучшения, с 9% до 30% увеличения точности в сравнении с экспертными оценками в зависимости от набора данных. Это подтверждает значительный потенциал LLMs, особенно когда они используются в сочетании с нужным методом оценки. ## Значимость Исследование имеет решающее значение для сферы образования, где открытые интерпретируемые задачи аннотации являются ключевыми.

Abstract

Large language models (LLMs) are increasingly applied to open-ended, interpretive annotation tasks, such as thematic analysis by researchers or generating feedback on student work by teachers. These tasks involve free-text annotations requiring expert-level judgments grounded in specific objectives (e.g., research questions or instructional goals). Evaluating whether LLM-generated annotations align with those generated by expert humans is challenging to do at scale, and currently, no validated, scalable measure of similarity in ideas exists. In this paper, we (i) introduce the scalable evaluation of interpretive annotation by LLMs as a critical and understudied task, (ii) propose IDEAlgin, an intuitive benchmarking paradigm for capturing expert similarity ratings via a "pick-the-odd-one-out" triplet judgment task, and (iii) evaluate various similarity metrics, including vector-based ones (topic models, embeddings) and LLM-as-a-judge via IDEAlgin, against these human benchmarks. Applying this approach to two real-world educational datasets (interpretive analysis and feedback generation), we find that vector-based metrics largely fail to capture the nuanced dimensions of similarity meaningful to experts. Prompting LLMs via IDEAlgin significantly improves alignment with expert judgments (9-30% increase) compared to traditional lexical and vector-based metrics. These results establish IDEAlgin as a promising paradigm for evaluating LLMs against open-ended expert annotations at scale, informing responsible deployment of LLMs in education and beyond.

Ссылки и действия