📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Rdgai: Classifying transcriptional changes using Large Language Models with a test case from an Arabic Gospel tradition

2025-11-19

Авторы:

Robert Turnbull

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Application of phylogenetic methods to textual traditions has traditionally treated all changes as equivalent even though it is widely recognized that certain types of variants were more likely to be introduced than others. While it is possible to give weights to certain changes using a maximum parsimony evaluation criterion, it is difficult to state a priori what these weights should be. Probabilistic methods, such as Bayesian phylogenetics, allow users to create categories of changes, and the ...

ID: 2511.13801v1 cs.DL, cs.CL

arXiv PDF

📄 SciRAG: Adaptive, Citation-Aware, and Outline-Guided Retrieval and Synthesis for Scientific Literature

2025-11-19

Авторы:

Hang Ding, Yilun Zhao, Tiansheng Hu, Manasi Patwardhan, Arman Cohan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The accelerating growth of scientific publications has intensified the need for scalable, trustworthy systems to synthesize knowledge across diverse literature. While recent retrieval-augmented generation (RAG) methods have improved access to scientific information, they often overlook citation graph structure, adapt poorly to complex queries, and yield fragmented, hard-to-verify syntheses. We introduce SciRAG, an open-source framework for scientific literature exploration that addresses these g...

ID: 2511.14362v1 cs.DL, cs.CL

arXiv PDF

📄 Quantifying the Impact of CU: A Systematic Literature Review

2025-11-15

Авторы:

Thomas Compton

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Community Unionism has served as a pivotal concept in debates on trade union renewal since the early 2000s, yet its theoretical coherence and political significance remain unresolved. This article investigates why CU has gained such prominence -- not by testing its efficacy, but by mapping how it is constructed, cited, and contested across the scholarly literature. Using two complementary systematic approaches -- a citation network analysis of 114 documents and a thematic review of 18 core CU ca...

ID: 2511.07491v1 cs.DL, cs.CL

arXiv PDF

📄 CC30k: A Citation Contexts Dataset for Reproducibility-Oriented Sentiment Analysis

2025-11-15

Авторы:

Rochana R. Obadage, Sarah M. Rajtmajer, Jian Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Sentiments about the reproducibility of cited papers in downstream literature offer community perspectives and have shown as a promising signal of the actual reproducibility of published findings. To train effective models to effectively predict reproducibility-oriented sentiments and further systematically study their correlation with reproducibility, we introduce the CC30k dataset, comprising a total of 30,734 citation contexts in machine learning papers. Each citation context is labeled with ...

ID: 2511.07790v1 cs.DL, cs.CL

arXiv PDF

📄 S2Doc -- Spatial-Semantic Document Format

2025-11-06

Авторы:

Sebastian Kempf, Frank Puppe

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Documents are a common way to store and share information, with tables being an important part of many documents. However, there is no real common understanding of how to model documents and tables in particular. Because of this lack of standardization, most scientific approaches have their own way of modeling documents and tables, leading to a variety of different data structures and formats that are not directly compatible. Furthermore, most data models focus on either the spatial or the seman...

ID: 2511.01113v1 cs.DL, cs.CL, H.3.7; I.7.5; I.7.2

arXiv PDF

📄 Overview of SCIDOCA 2025 Shared Task on Citation Prediction, Discovery, and Placement

2025-10-01

Авторы:

An Dao, Vu Tran, Le-Minh Nguyen, Yuji Matsumoto

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present an overview of the SCIDOCA 2025 Shared Task, which focuses on citation discovery and prediction in scientific documents. The task is divided into three subtasks: (1) Citation Discovery, where systems must identify relevant references for a given paragraph; (2) Masked Citation Prediction, which requires selecting the correct citation for masked citation slots; and (3) Citation Sentence Prediction, where systems must determine the correct reference for each cited sentence. We release a ...

ID: 2509.24283v1 cs.DL, cs.CL

arXiv PDF

📄 Leveraging Large Language Models for Generating Research Topic Ontologies: A Multi-Disciplinary Study

2025-08-30

Авторы:

Tanay Aggarwal, Angelo Salatino, Francesco Osborne, Enrico Motta

#### Контекст Организация и классификация научного знания являются важными задачами, позволяющими обеспечить эффективное хранение, распространение и поиск информации. Для этого используются иерархические структуры, такие как онтологии и таксономии. Однако создание и поддержание таких структур требует значительных ресурсов, включая время и экспертные знания. Поэтому, онтологии часто имеют неполную охвату различных дисциплин, ограниченную связность между областями и редкую актуализацию. В данном исследовании рассматривается возможность использования больших языковых моделей для создания и обновления таких структур, что может существенно упростить процесс. #### Метод Для изучения этой проблемы были использованы три крупных языковые модели: GPT-3, T5 и BERT. Методология включала три основных подхода: zero-shot prompting, chain-of-thought prompting и fine-tuning моделей на основе существующих онтологий. Для оценки результатов была разработана новая датасет PEM-Rel-8K, содержащая 8000+ связей между темами из трёх областей: биомедицина, физика и инженерия. Эта датасет была сформирована на основе широко принятых таксономий MeSH, PhySH и IEEE. Результаты были получены с помощью метрик точности, полноты и F1-меры. #### Результаты Исследование показало, что fine-tuning моделей на датасете PEM-Rel-8K приводит к высокому показателю точности и полноты во всех трёх областях. Кроме того, было продемонстрировано, что модели по отдельности имеют разные сильные стороны: GPT-3 превосходит в zero-shot prompting, T5 — в chain-of-thought prompting, а BERT — в fine-tuning. Была также показана возможность переноса моделей между дисциплинами, что указывает на потенциал для создания универсальных моделей. #### Значимость Результаты исследования открывают новые возможности для автоматизации создания и обновления онтологий в научных дисциплинах. Это может существенно сократить время и стоимость процесса, а также улучшить качество и полноту таких структур. Благодаря высокой переносимости моделей, можно использовать их в различных научных областях без необходимости полного переучения. #### Выводы В данном исследовании была показана эффективность использования больших языковых моделей для создания и обновления онтологий в различных научных дисциплинах. Было продемонстрировано, что fine-tuning на PEM-Rel-8K даёт значительные улучшения в точности и полноте. Будущие исследования будут ориентированы на улучшение точности моделей, увеличение размера датасетов и расширение применения к другим областям.

Annotation:

Ontologies and taxonomies of research fields are critical for managing and organising scientific knowledge, as they facilitate efficient classification, dissemination and retrieval of information. However, the creation and maintenance of such ontologies are expensive and time-consuming tasks, usually requiring the coordinated effort of multiple domain experts. Consequently, ontologies in this space often exhibit uneven coverage across different disciplines, limited inter-domain connectivity, and...

ID: 2508.20693v1 cs.DL, cs.CL

arXiv PDF

📄 Exploring the Technical Knowledge Interaction of Global Digital Humanities: Three-decade Evidence from Bibliometric-based perspectives

2025-08-14

Авторы:

Jiayi Li, Chengxi Yan, Yurong Zeng, Zhichao Fang, Huiru Wang

## Контекст Digital Humanities (DH) представляет собой междисциплинарное научное поле, которое объединяет вычислительные методы с исследованиями гуманитарных наук. Оно сформировано в результате интеграции технологий и гуманитарных исследований, чтобы рассматривать новые темы и получать новые знания. Однако, несмотря на растущую популярность DH, существуют проблемы в том, что многие исследования остаются на поверхности, не углубляясь в технические аспекты и отношения между методами и темами. Это влечет за собой недостаток в глубоком понимании того, как развивается DH и как интегрируются технические методы и гуманитарные темы. Данное исследование направлено на заполнение этого пробела, предлагая новый подход для изучения интеграции технических знаний в DH. ## Метод Для анализа использовалось библиометрическое анализирование, позволяющее изучать историю развития и современное состояние гуманитарных исследований с использованием вычислительных технологий. Методология включает в себя три основных этапа: 1) **библиометрическая аналитика**, для выявления трендов и горячих тем в DH; 2) **темплейт моделирования**, для выявления тематических групп; 3) **сетевой анализ**, для изучения взаимосвязей между темами и методами. Эта стратегия позволяет получить подробное представление о развитии DH, определяя тематические композиции (TMC) и их взаимодействия. ## Результаты В ходе исследования были обнаружены тренды в развитии DH за три декады. Было выявлено, что тематические композиции (TMC) не только отражают текущие тенденции в гуманитарных исследованиях, но и показывают, как технологии влияют на гуманитарные темы. Например, использование технических методов в анализе текстов и звука имеет особую значимость в гуманитарных дисциплинах. Также был разработан специальный подход для анализа взаимодействия тем и методов, что дает более глубокое понимание того, как технологии влияют на развитие гуманитарных наук. ## Значимость Исследование имеет потенциал для применения в разных гуманитарных дисциплинах, позволяя понять, как технологии влияют на темы и технические методы в каждой отдельной дисциплине. Этот подход может быть применен для изучения развития других междисциплинарных научных областей. Анализ TMC также позволяет понять, какие технологии имеют наибольшее влияние на различные гуманитарные темы, а также какие технические новшества могут быть применены в будущих исследованиях. ## Выводы Исследование показало, что в DH имеется значительная интеграция технических методо

Annotation:

Digital Humanities (DH) is an interdisciplinary field that integrates computational methods with humanities scholarship to investigate innovative topics. Each academic discipline follows a unique developmental path shaped by the topics researchers investigate and the methods they employ. With the help of bibliometric analysis, most of previous studies have examined DH across multiple dimensions such as research hotspots, co-author networks, and institutional rankings. However, these studies have...

ID: 2508.08347v1 cs.DL, cs.CL

arXiv PDF

📄 MegaWika 2: A More Comprehensive Multilingual Collection of Articles and their Sources

2025-08-09

Авторы:

Samuel Barham, Chandler May, Benjamin Van Durme

MegaWika 2 — это обновленная, многоязычная коллекция из Wikipedia-статей, их цитат и сопутствующих веб-источников. Эта коллекция представлена в улучшенной структуре данных, обеспечивая гибкость и точность в анализе. В отличие от первой версии, MegaWika 2 включает шесть раз в большее количество статей и вдвое больше полностью сканированных цитат. Основной целью данного ресурса является поддержка исследований в области создания отчетов, а также развития приложений в области факт-чеккинга и анализа данных в процессе их изменения с течением времени и через различные языки. Это инновационный инструмент для расширения возможностей в анализе многоязычных данных и поддержке решений в сфере машинного обучения.

Annotation:

We introduce MegaWika 2, a large, multilingual dataset of Wikipedia articles with their citations and scraped web sources; articles are represented in a rich data structure, and scraped source texts are stored inline with precise character offsets of their citations in the article text. MegaWika 2 is a major upgrade from the original MegaWika, spanning six times as many articles and twice as many fully scraped citations. Both MegaWika and MegaWika 2 support report generation research ; whereas M...

ID: 2508.03828v1 cs.DL, cs.CL

arXiv PDF