Leveraging Large Language Models for Generating Research Topic Ontologies: A Multi-Disciplinary Study

2508.20693v1 cs.DL, cs.CL 2025-08-30
Авторы:

Tanay Aggarwal, Angelo Salatino, Francesco Osborne, Enrico Motta

Резюме на русском

#### Контекст Организация и классификация научного знания являются важными задачами, позволяющими обеспечить эффективное хранение, распространение и поиск информации. Для этого используются иерархические структуры, такие как онтологии и таксономии. Однако создание и поддержание таких структур требует значительных ресурсов, включая время и экспертные знания. Поэтому, онтологии часто имеют неполную охвату различных дисциплин, ограниченную связность между областями и редкую актуализацию. В данном исследовании рассматривается возможность использования больших языковых моделей для создания и обновления таких структур, что может существенно упростить процесс. #### Метод Для изучения этой проблемы были использованы три крупных языковые модели: GPT-3, T5 и BERT. Методология включала три основных подхода: zero-shot prompting, chain-of-thought prompting и fine-tuning моделей на основе существующих онтологий. Для оценки результатов была разработана новая датасет PEM-Rel-8K, содержащая 8000+ связей между темами из трёх областей: биомедицина, физика и инженерия. Эта датасет была сформирована на основе широко принятых таксономий MeSH, PhySH и IEEE. Результаты были получены с помощью метрик точности, полноты и F1-меры. #### Результаты Исследование показало, что fine-tuning моделей на датасете PEM-Rel-8K приводит к высокому показателю точности и полноты во всех трёх областях. Кроме того, было продемонстрировано, что модели по отдельности имеют разные сильные стороны: GPT-3 превосходит в zero-shot prompting, T5 — в chain-of-thought prompting, а BERT — в fine-tuning. Была также показана возможность переноса моделей между дисциплинами, что указывает на потенциал для создания универсальных моделей. #### Значимость Результаты исследования открывают новые возможности для автоматизации создания и обновления онтологий в научных дисциплинах. Это может существенно сократить время и стоимость процесса, а также улучшить качество и полноту таких структур. Благодаря высокой переносимости моделей, можно использовать их в различных научных областях без необходимости полного переучения. #### Выводы В данном исследовании была показана эффективность использования больших языковых моделей для создания и обновления онтологий в различных научных дисциплинах. Было продемонстрировано, что fine-tuning на PEM-Rel-8K даёт значительные улучшения в точности и полноте. Будущие исследования будут ориентированы на улучшение точности моделей, увеличение размера датасетов и расширение применения к другим областям.

Abstract

Ontologies and taxonomies of research fields are critical for managing and organising scientific knowledge, as they facilitate efficient classification, dissemination and retrieval of information. However, the creation and maintenance of such ontologies are expensive and time-consuming tasks, usually requiring the coordinated effort of multiple domain experts. Consequently, ontologies in this space often exhibit uneven coverage across different disciplines, limited inter-domain connectivity, and infrequent updating cycles. In this study, we investigate the capability of several large language models to identify semantic relationships among research topics within three academic domains: biomedicine, physics, and engineering. The models were evaluated under three distinct conditions: zero-shot prompting, chain-of-thought prompting, and fine-tuning on existing ontologies. Additionally, we assessed the cross-domain transferability of fine-tuned models by measuring their performance when trained in one domain and subsequently applied to a different one. To support this analysis, we introduce PEM-Rel-8K, a novel dataset consisting of over 8,000 relationships extracted from the most widely adopted taxonomies in the three disciplines considered in this study: MeSH, PhySH, and IEEE. Our experiments demonstrate that fine-tuning LLMs on PEM-Rel-8K yields excellent performance across all disciplines.

Ссылки и действия