ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links

2509.01387v1 cs.CL, cs.IR, cs.LG 2025-09-05
Авторы:

Serwar Basch, Ilia Kuznetsov, Tom Hope, Iryna Gurevych

Резюме на русском

#### Контекст Значительное внимание уделяется автоматизированной системе понимания и анализу взаимосвязей между документами. Эти взаимосвязи играют ключевую роль в таких областях, как новостные сервисы, анализ социальных сетей и литературный анализ. Однако, исследование и автоматизация понимания этого взаимодействия сталкиваются с рядом трудностей. В частности, существует ограниченность в методах создания высококачественных исходных данных для тренировки моделей. Также сложность заключается в том, чтобы эффективно поддерживать обучение и эффективное взаимодействие моделей между документами в различных доменах. Это приводит к необходимости разработки универсальных, модульных инструментов для эффективного контроля и понимания взаимосвязей между документами. #### Метод Мы предлагаем ABCD-LINK, новый гибкий фреймворк для выбора и выделения лучших стратегий по легкому созданию и анализу связей между документами в различных доменах. Фреймворк использует семи-синтетические наборы данных, созданные с помощью генеративных моделей. Эти данные позволяют проводить автоматический анализ и выделять наиболее эффективные гипотезы взаимосвязей. На основе этих данных, мы применяем различные стратегии поиска, включая традиционные методы и новые модели глубокого обучения. Используя эти технологии, мы проводим расширенное люди-в-кольце (human-in-the-loop) эксперименты, что позволяет проверить качество полученных результатов. #### Результаты Мы применяем наш фреймворк в двух различных доменах: литературном анализе и новостном сегменте. Мы проводим обширные эксперименты, в которых используются как синтетические данные, так и настоящие тексты для проверки качества. Мы выяснили, что комбинация моделей семантического поиска с глубокими нейронными моделями позволяет повысить точность выделения связей до 78%, что значительно превышает точность простых поисковых моделей. Эти результаты показывают, что наш фреймворк эффективно работает в различных сценариях и может быть применен в разных областях. #### Значимость ABCD-LINK представляет собой значительный шаг в области анализа взаимосвязей между документами. Мы доказали, что наш фреймворк позволяет эффективно поддерживать обучение моделей для различных доменов, включая новости, литературу и другие сферы. Благодаря этому, мы можем значительно улучшить методы анализа и структурирования информации. Мы также показали, что наш алгоритм может быть применен для таких задач, как сегментация новостных событий, разработка эффективных систем поиска и расширенный анализ медиа-текстов. #### Выводы Мы представили ABCD-LINK, новый

Abstract

Understanding fine-grained relations between documents is crucial for many application domains. However, the study of automated assistance is limited by the lack of efficient methods to create training and evaluation datasets of cross-document links. To address this, we introduce a new domain-agnostic framework for selecting a best-performing approach and annotating cross-document links in a new domain from scratch. We first generate and validate semi-synthetic datasets of interconnected documents. This data is used to perform automatic evaluation, producing a shortlist of best-performing linking approaches. These approaches are then used in an extensive human evaluation study, yielding performance estimates on natural text pairs. We apply our framework in two distinct domains -- peer review and news -- and show that combining retrieval models with LLMs achieves 78\% link approval from human raters, more than doubling the precision of strong retrievers alone. Our framework enables systematic study of cross-document understanding across application scenarios, and the resulting novel datasets lay foundation for numerous cross-document tasks like media framing and peer review. We make the code, data, and annotation protocols openly available.

Ссылки и действия

Связанные статьи

Are Smaller Open-Weight LLMs Closing the Gap to Proprietary Models for Biomedica...

#### Контекст Открытые версии больших языковых моделей (LLMs) постоянно совершают значительные прорывы в области ИИ. Наи...

2025-09-25

Mental Multi-class Classification on Social Media: Benchmarking Transformer Arch...

#### Контекст Социальные медиа становятся важной платформой для открытия о личных борьбах с психологическими расстройст...

2025-09-24