📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
📄 A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora
2025-08-09Авторы:
Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo Salatino
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Разработка таксономий и онтологий исследовательских тем является ключевой задачей в области управления научным знанием. Такие ресурсы, например, MeSH, UMLS, CSO или NLM, обеспечивают основу для интеллектуальных систем, позволяющих анализировать и интерпретировать научную литературу. Однако традиционные подходы к созданию таких онтологий основывались на ручном кураторстве, что характеризуется высокой трудоемкостью, подверженностью устареванию и ограниченностью в гранулярности. Эти ограничения существенно снижают эффективность их использования в современных интеллектуальных системах.
Проблема ускорения и улучшения процесса создания таксономий становится все более актуальной с увеличением объемов научных публикаций. Традиционные методы не справляются с высокой скоростью появления новых тем и их взаимосвязей. Кроме того, существующие онтологии часто не обладают достаточной детализацией для эффективного использования в современных приложениях, таких как научные системы поиска, рекомендательные системы или инструменты для анализа литературы.
В данной работе предлагается решение этих проблем путем разработки методологии Sci-OG, которая объединяет автоматизированные и полуавтоматизированные подходы. Целью является создание более точных, актуальных и гранулярных онтологий исследовательских тем за счет интеграции технологий естественного языка и машинного обучения.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Методология Sci-OG основывается на трех основных этапах: 1) Topic Discovery, 2) Relationship Classification, и 3) Ontology Construction. На этапе Topic Discovery выявляются потенциальные исследовательские темы путем анализа научных статей. Этот процесс основывается на идентификации ключевых фраз и терминов, которые потенциально могут представлять собой новые или существующие темы.
На втором этапе, Relationship Classification, выполняется классификация семантических взаимосвязей между парами тем. Основным компонентом этого этапа является интеграция модели языка на основе энкодера с дополнительными признаками, описывающими встречаемость тем в научной литературе. Это позволяет точнее определять семантические отношения, такие как родственные, иерархические или ассоциативные связи между темами.
На последнем этапе, Ontology Construction, производится организация и обогащение полученных тем в структурированную онтологию. Этот шаг включает в себя уточнение и переорганизацию взаимосвязей, создание иерархической структуры и проверку консистенции.
Решение интегрирует энкодер-основу языковой модели совместно с метриками встречаемости тем, что позволяет достичь высокой точности классификации. Этот подход был протестирован на датасете из 21 649 ручной аннотации семантических троек, показав высокую эффективность.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки методологии Sci-OG был использован датасет, содержащий 21 649 семантических троек, которые были ручной аннотированы. Эксперименты проводились сравнением с несколькими альтернативными подходами, включая SciBERT и другие модели языкового моделирования, такие как GPT4-mini. Результаты показали, что Sci-OG достигает наивысшего значения F1-меры (0.951), превосходя другие модели.
Кроме того, был проведен исследовательский кейс, в котором Sci-OG была применена для расширения онтологии CSO в области кибербезопасности. Этот кейс демонстрирует практическую эффективность методологии в реальных условиях.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемая методология имеет широкие возможности применения в области управления научным знанием. Sci-OG позволяет автоматизировать и ускорить процесс создания и обновления онтологий, что важно в условиях быстрого роста научных публикаций. Это открывает новые возможности для улучшения научных поисковых систем, рекомендательных сервисов и инструментов анализа литературы.
Кроме того, Sci-OG может быть использована для расширения существующих онтологий, таких как CSO, в различных научных областях, что позволяет повысить их актуальность и гранулярность.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
Разработанная методология Sci-OG является важной шагом вперед в области автоматизации создания онтологий исследовательских тем. Её высокая точность и эффективность демонстрируют потенциал для практического использования в различных научных и технологических областях.
В будущем можно рассмотреть возможность дальнейшего улучшения модели за счет интеграции более продвинутых языковых моделей и увеличения разнообразия данных для обучения. Также предлагается исследовать возможности применения этого подхода к другим областям, таким как медицина, биология или социальные науки.
Annotation:
Taxonomies and ontologies of research topics (e.g., MeSH, UMLS, CSO, NLM)
play a central role in providing the primary framework through which
intelligent systems can explore and interpret the literature. However, these
resources have traditionally been manually curated, a process that is
time-consuming, prone to obsolescence, and limited in granularity. This paper
presents Sci-OG, a semi-auto\-mated methodology for generating research topic
ontologies, employing a multi-step approach: 1) Topic ...