A Question Answering Dataset for Temporal-Sensitive Retrieval-Augmented Generation
2508.12282v1
cs.CL, cs.IR, 68T50, 68P20, I.2.7; H.3.3
2025-08-20
Авторы:
Ziyang Chen, Erxue Min, Xiang Zhao, Yunxin Li, Xin Jia, Jinzhi Liao, Jichao Li, Shuaiqiang Wang, Baotian Hu, Dawei Yin
Резюме на русском
#### Контекст
Современная Интернет-информационная среда характеризуется наличием массы данных, которые требуют эффективной обработки и анализа. Задачи восстановления информации часто включают поиск и анализ специфических фрагментов в больших наборах данных. Одним из важных аспектов является возможность структурированного поиска и анализа временных данных в случае запросов, требующих учета контекста времени. Недостаток данных и алгоритмов для эффективного обработки временных запросов в системах восстановления информации ставит перед разработчиками задачу создания ресурсов, позволяющих развивать эффективные методы для таких задач.
#### Метод
Чтобы решить эту проблему, авторы предлагают методологию, основанную на создании большого датасета, адаптированного для воспроизведения реальных сценариев восстановления информации. Данные собраны из 300 000 новостных статей, охватывающих период с 2019 по 2024 годы. Данные подвергались структурированному анализу с использованием аннотаций, которые позволяют отделять и различать временные выражения в запросах и ответах. Для обеспечения качества данных применялись различные методы, включая правила, глубокое обучение и ручную проверку. Результат – датасет, который позволяет выполнять задачи восстановления информации в окружении временных запросов.
#### Результаты
Эксперименты проводились на датасете ChronoQA, что позволяло проверить качество работы моделей в сценариях восстановления информации. Использовались многочисленные вопросы, относящиеся к различным типам времени (абсолютный, агрегированный и относительный), что дало возможность проверить модели на различных типах вопросов. Результаты показали, что модели, использовавшие данные из ChronoQA, демонстрировали высокую точность и гибкость в обработке временных запросов.
#### Значимость
Датасет ChronoQA имеет широкое применение в сфере восстановления информации, а именно в области вопросно-ответных систем, где временные ограничения играют ключевую роль. Он позволяет проводить структурированные эксперименты и оценки возможностей моделей во временных задачах. Благодаря своему значительному размеру и качественному аннотированию, ChronoQA является первым датасетом, который полностью поддерживает временные задачи в области восстановления информации. Это дает возможность развития методов восстановления информации с учетом контекста времени, что может стать значительным шагом в развитии ИИ.
#### Выводы
Работа представляет собой важный вклад в область восстановления информации, особенно в сфере вопросно-ответных систем с времен
Abstract
We introduce ChronoQA, a large-scale benchmark dataset for Chinese question
answering, specifically designed to evaluate temporal reasoning in
Retrieval-Augmented Generation (RAG) systems. ChronoQA is constructed from over
300,000 news articles published between 2019 and 2024, and contains 5,176
high-quality questions covering absolute, aggregate, and relative temporal
types with both explicit and implicit time expressions. The dataset supports
both single- and multi-document scenarios, reflecting the real-world
requirements for temporal alignment and logical consistency. ChronoQA features
comprehensive structural annotations and has undergone multi-stage validation,
including rule-based, LLM-based, and human evaluation, to ensure data quality.
By providing a dynamic, reliable, and scalable resource, ChronoQA enables
structured evaluation across a wide range of temporal tasks, and serves as a
robust benchmark for advancing time-sensitive retrieval-augmented question
answering systems.