MegaWika 2: A More Comprehensive Multilingual Collection of Articles and their Sources
2508.03828v1
cs.DL, cs.CL
2025-08-09
Авторы:
Samuel Barham, Chandler May, Benjamin Van Durme
Резюме на русском
MegaWika 2 — это обновленная, многоязычная коллекция из Wikipedia-статей, их цитат и сопутствующих веб-источников. Эта коллекция представлена в улучшенной структуре данных, обеспечивая гибкость и точность в анализе. В отличие от первой версии, MegaWika 2 включает шесть раз в большее количество статей и вдвое больше полностью сканированных цитат. Основной целью данного ресурса является поддержка исследований в области создания отчетов, а также развития приложений в области факт-чеккинга и анализа данных в процессе их изменения с течением времени и через различные языки. Это инновационный инструмент для расширения возможностей в анализе многоязычных данных и поддержке решений в сфере машинного обучения.
Abstract
We introduce MegaWika 2, a large, multilingual dataset of Wikipedia articles
with their citations and scraped web sources; articles are represented in a
rich data structure, and scraped source texts are stored inline with precise
character offsets of their citations in the article text. MegaWika 2 is a major
upgrade from the original MegaWika, spanning six times as many articles and
twice as many fully scraped citations. Both MegaWika and MegaWika 2 support
report generation research ; whereas MegaWika also focused on supporting
question answering and retrieval applications, MegaWika 2 is designed to
support fact checking and analyses across time and language.
Ссылки и действия
Дополнительные ресурсы: