ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links
2509.01387v1
cs.CL, cs.IR, cs.LG
2025-09-05
Авторы:
Serwar Basch, Ilia Kuznetsov, Tom Hope, Iryna Gurevych
Резюме на русском
#### Контекст
Значительное внимание уделяется автоматизированной системе понимания и анализу взаимосвязей между документами. Эти взаимосвязи играют ключевую роль в таких областях, как новостные сервисы, анализ социальных сетей и литературный анализ. Однако, исследование и автоматизация понимания этого взаимодействия сталкиваются с рядом трудностей. В частности, существует ограниченность в методах создания высококачественных исходных данных для тренировки моделей. Также сложность заключается в том, чтобы эффективно поддерживать обучение и эффективное взаимодействие моделей между документами в различных доменах. Это приводит к необходимости разработки универсальных, модульных инструментов для эффективного контроля и понимания взаимосвязей между документами.
#### Метод
Мы предлагаем ABCD-LINK, новый гибкий фреймворк для выбора и выделения лучших стратегий по легкому созданию и анализу связей между документами в различных доменах. Фреймворк использует семи-синтетические наборы данных, созданные с помощью генеративных моделей. Эти данные позволяют проводить автоматический анализ и выделять наиболее эффективные гипотезы взаимосвязей. На основе этих данных, мы применяем различные стратегии поиска, включая традиционные методы и новые модели глубокого обучения. Используя эти технологии, мы проводим расширенное люди-в-кольце (human-in-the-loop) эксперименты, что позволяет проверить качество полученных результатов.
#### Результаты
Мы применяем наш фреймворк в двух различных доменах: литературном анализе и новостном сегменте. Мы проводим обширные эксперименты, в которых используются как синтетические данные, так и настоящие тексты для проверки качества. Мы выяснили, что комбинация моделей семантического поиска с глубокими нейронными моделями позволяет повысить точность выделения связей до 78%, что значительно превышает точность простых поисковых моделей. Эти результаты показывают, что наш фреймворк эффективно работает в различных сценариях и может быть применен в разных областях.
#### Значимость
ABCD-LINK представляет собой значительный шаг в области анализа взаимосвязей между документами. Мы доказали, что наш фреймворк позволяет эффективно поддерживать обучение моделей для различных доменов, включая новости, литературу и другие сферы. Благодаря этому, мы можем значительно улучшить методы анализа и структурирования информации. Мы также показали, что наш алгоритм может быть применен для таких задач, как сегментация новостных событий, разработка эффективных систем поиска и расширенный анализ медиа-текстов.
#### Выводы
Мы представили ABCD-LINK, новый
Abstract
Understanding fine-grained relations between documents is crucial for many
application domains. However, the study of automated assistance is limited by
the lack of efficient methods to create training and evaluation datasets of
cross-document links. To address this, we introduce a new domain-agnostic
framework for selecting a best-performing approach and annotating
cross-document links in a new domain from scratch. We first generate and
validate semi-synthetic datasets of interconnected documents. This data is used
to perform automatic evaluation, producing a shortlist of best-performing
linking approaches. These approaches are then used in an extensive human
evaluation study, yielding performance estimates on natural text pairs. We
apply our framework in two distinct domains -- peer review and news -- and show
that combining retrieval models with LLMs achieves 78\% link approval from
human raters, more than doubling the precision of strong retrievers alone. Our
framework enables systematic study of cross-document understanding across
application scenarios, and the resulting novel datasets lay foundation for
numerous cross-document tasks like media framing and peer review. We make the
code, data, and annotation protocols openly available.
Ссылки и действия
Дополнительные ресурсы: