A Question Answering Dataset for Temporal-Sensitive Retrieval-Augmented Generation

2508.12282v1 cs.CL, cs.IR, 68T50, 68P20, I.2.7; H.3.3 2025-08-20
Авторы:

Ziyang Chen, Erxue Min, Xiang Zhao, Yunxin Li, Xin Jia, Jinzhi Liao, Jichao Li, Shuaiqiang Wang, Baotian Hu, Dawei Yin

Резюме на русском

#### Контекст Современная Интернет-информационная среда характеризуется наличием массы данных, которые требуют эффективной обработки и анализа. Задачи восстановления информации часто включают поиск и анализ специфических фрагментов в больших наборах данных. Одним из важных аспектов является возможность структурированного поиска и анализа временных данных в случае запросов, требующих учета контекста времени. Недостаток данных и алгоритмов для эффективного обработки временных запросов в системах восстановления информации ставит перед разработчиками задачу создания ресурсов, позволяющих развивать эффективные методы для таких задач. #### Метод Чтобы решить эту проблему, авторы предлагают методологию, основанную на создании большого датасета, адаптированного для воспроизведения реальных сценариев восстановления информации. Данные собраны из 300 000 новостных статей, охватывающих период с 2019 по 2024 годы. Данные подвергались структурированному анализу с использованием аннотаций, которые позволяют отделять и различать временные выражения в запросах и ответах. Для обеспечения качества данных применялись различные методы, включая правила, глубокое обучение и ручную проверку. Результат – датасет, который позволяет выполнять задачи восстановления информации в окружении временных запросов. #### Результаты Эксперименты проводились на датасете ChronoQA, что позволяло проверить качество работы моделей в сценариях восстановления информации. Использовались многочисленные вопросы, относящиеся к различным типам времени (абсолютный, агрегированный и относительный), что дало возможность проверить модели на различных типах вопросов. Результаты показали, что модели, использовавшие данные из ChronoQA, демонстрировали высокую точность и гибкость в обработке временных запросов. #### Значимость Датасет ChronoQA имеет широкое применение в сфере восстановления информации, а именно в области вопросно-ответных систем, где временные ограничения играют ключевую роль. Он позволяет проводить структурированные эксперименты и оценки возможностей моделей во временных задачах. Благодаря своему значительному размеру и качественному аннотированию, ChronoQA является первым датасетом, который полностью поддерживает временные задачи в области восстановления информации. Это дает возможность развития методов восстановления информации с учетом контекста времени, что может стать значительным шагом в развитии ИИ. #### Выводы Работа представляет собой важный вклад в область восстановления информации, особенно в сфере вопросно-ответных систем с времен

Abstract

We introduce ChronoQA, a large-scale benchmark dataset for Chinese question answering, specifically designed to evaluate temporal reasoning in Retrieval-Augmented Generation (RAG) systems. ChronoQA is constructed from over 300,000 news articles published between 2019 and 2024, and contains 5,176 high-quality questions covering absolute, aggregate, and relative temporal types with both explicit and implicit time expressions. The dataset supports both single- and multi-document scenarios, reflecting the real-world requirements for temporal alignment and logical consistency. ChronoQA features comprehensive structural annotations and has undergone multi-stage validation, including rule-based, LLM-based, and human evaluation, to ensure data quality. By providing a dynamic, reliable, and scalable resource, ChronoQA enables structured evaluation across a wide range of temporal tasks, and serves as a robust benchmark for advancing time-sensitive retrieval-augmented question answering systems.

Ссылки и действия