PRELUDE: A Benchmark Designed to Require Global Comprehension and Reasoning over Long Contexts

2508.09848v2 cs.CL, cs.AI 2025-08-15
Авторы:

Mo Yu, Tsz Ting Chung, Chulun Zhou, Tong Li, Rui Lu, Jiangnan Li, Liyan Xu, Haoshu Lu, Ning Zhang, Jing Li, Jie Zhou

Резюме на русском

#### Контекст Понимание текста и рассуждение в нем являются основными задачами в области обработки естественного языка. Однако существующие бенчмарки часто ограничиваются короткими контекстами, не требуя глобального понимания и глубокого рассуждения. Библиотечные книги, включая их предшествующие части (преквоты), являются источником информации, включающим многоуровневые связи и сложные структуры. Такие источники требуют от моделей значительного усилия для понимания и точного рассуждения. Бенчмарк PRELUDE (Prequel Consistency Evaluation for Long-Context Understanding and Reasoning) предназначен для оценки моделей по способности к глобальному пониманию и логическому рассуждению на основе длинных контекстов. #### Метод Benchmark PRELUDE состоит из 1,558 предложенных вопросов, построенных на основе 12 литературных произведений, включая классические романы. Ответы на вопросы требуют не только понимания отдельных фрагментов текста, но и объединения сведений из разных частей текста, чтобы оценить предварительное рассуждение. Модели были проверены на множестве экспериментов с различными подходами: стандартными вспомогательными сетями, глубокими обучением (LLMs), вспомогательными системами поиска информации (RAG) и вспомогательными системами глубокого поиска информации (DeepResearch). #### Результаты Эксперименты показали, что существующие модели сталкиваются с значительными трудностями в выполнении задачи. Наилучшие результаты были достигнуты с помощью вспомогательных систем DeepResearch, но они оставались ниже уровня человеческого уровня на 15% в общем понимании и 30% в правильности логического рассуждения. Биологические исследования показали, что модели часто приходят к правильным ответам, но с использованием неточных или неполных логических доказательств, что приводит к заметному разрыву с уровнем логического рассуждения человека. #### Значимость Предложенный бенчмарк имеет широкое назначение в области обучения глубоких новых моделей. Он позволяет оценить способность моделей к глобальному пониманию, которое является ключевым для решения задач в области глубокого текстового рассуждения. Бенчмарк также помогает оценить текущий уровень технологий и направляет направления для будущих исследований в области расширения глубины и точности анализа текста. #### Выводы PRELUDE — это первый бенчмарк, оценивающий модели по способности к глобальному пониманию и логическому рассуждению на основе длинных контекстов. Результаты экспериментов показали, что текущие модели значительно отстают от уровня человеческого уровня. Этот результат подчеркивает необходимость улучшения моделей

Abstract

We introduce PRELUDE, a benchmark for evaluating long-context understanding through the task of determining whether a character's prequel story is consistent with the canonical narrative of the original book. Our task poses a stronger demand for global comprehension and deep reasoning than existing benchmarks -- as the prequels are not part of the original story, assessing their plausibility typically requires searching and integrating information that is only indirectly related. Empirically, 88% of instances require evidence from multiple parts of the narrative. Experimental results highlight the challenge of our task: in-context learning, RAG and in-domain training with state-of-the-art LLMs, and commercial DeepResearch services, lag behind humans by >15%. A further human study reveals that models often produce correct answers with flawed reasoning, leading to an over 30% gap in reasoning accuracy compared to humans. These findings underscore the substantial room for improvement in long-context understanding and reasoning.

Ссылки и действия