LongRecall: A Structured Approach for Robust Recall Evaluation in Long-Form Text
2508.15085v1
cs.CL, cs.AI, cs.IR, cs.LG
2025-08-23
Авторы:
MohamamdJavad Ardestani, Ehsan Kamalloo, Davood Rafiei
Резюме на русском
#### Контекст
Оценка заполненности (recall) в машинно-генерируемом тексте является ключевым аспектом в областях, таких как медицина, право и списочная оценка вопросов (list-based question answering, QA). Ошибки в заполненности могут привести к серьезным последствиям. Существующие метрики заполненности часто основываются на лексическом совпадении, что приводит к ошибкам при работе с неподтвержденными сущностями и парафразированными ответами. Методы LLM-as-a-Judge, основанные на широком контексте, могут повысить покрытие семантических отношений, но остаются подверженными ошибкам, таким как халлуцинации и неподтвержденные заявления. Наша мотивация заключается в разработке глобального подхода, который обеспечит точную и структурированную оценку заполненности в долгих форматах текста.
#### Метод
Мы предлагаем LongRecall, который представляет собой структурированный трехступенчатый подход к оценке заполненности. В первой стадии ответ разбивается на самодостаточные факты, второй стадии подвергаются лексическому и семантическому фильтрации, чтобы ограничить круг возможных совпадений. На третьей стадии применяется структурированная проверка вывода для подтверждения аллергенности ответов. Этот подход уменьшает число ложноположительных и ложноотрицательных результатов, а также учитывает различные фразирования и контекстные изменения. Мы использовали данные из трех сложных бенчмарков QA для оценки нашего подхода, включая людские аннотации и методы LLM-as-a-Judge.
#### Результаты
Наши эксперименты показали, что LongRecall улучшает точность оценки заполненности по сравнению с лексическими методами и LLM-as-a-Judge. Мы измерили статистически значимые повышения в достижении точных результатов, особенно при работе с парафразированными ответами и неподтвержденными сущностями. Данные результаты демонстрируют высокую точность и разрешительность нашего подхода в области оценки заполненности в долгих формах текста.
#### Значимость
Наш подход может применяться в различных задачах, таких как медицинская экспертиза, юридическая практика и сложные списковые задачи QA. Он обеспечивает точную оценку заполненности, уменьшает ошибки и позволяет работать с различными формами выражения ответов. Это делает LongRecall основополагающим элементом для систематической оценки заполненности в различных областях приложений.
#### Выводы
Мы представили LongRecall — новую структурированную методику для оценки заполненности в долгих формах текста. Наши результаты показали, что LongRecall превосходит существующие методы в точности и широком покрытии ответов. Будущие исследования будут направлены на усовер
Abstract
LongRecall. The completeness of machine-generated text, ensuring that it
captures all relevant information, is crucial in domains such as medicine and
law and in tasks like list-based question answering (QA), where omissions can
have serious consequences. However, existing recall metrics often depend on
lexical overlap, leading to errors with unsubstantiated entities and
paraphrased answers, while LLM-as-a-Judge methods with long holistic prompts
capture broader semantics but remain prone to misalignment and hallucinations
without structured verification. We introduce LongRecall, a general three-stage
recall evaluation framework that decomposes answers into self-contained facts,
successively narrows plausible candidate matches through lexical and semantic
filtering, and verifies their alignment through structured entailment checks.
This design reduces false positives and false negatives while accommodating
diverse phrasings and contextual variations, serving as a foundational building
block for systematic recall assessment. We evaluate LongRecall on three
challenging long-form QA benchmarks using both human annotations and LLM-based
judges, demonstrating substantial improvements in recall accuracy over strong
lexical and LLM-as-a-Judge baselines.