Animer une base de connaissance: des ontologies aux mod{è}les d'I.A. g{é}n{é}rative
2509.01304v1
cs.DL, cs.AI
2025-09-05
Авторы:
Peter Stockinger
Резюме на русском
## Контекст
В условиях вырастающего интереса к неантропоцентрическим аналитическим моделям в области социальных и гуманитарных наук, данная статья предлагает семиотический (структурный) подход к гибридизации символьной ИИ и нейронаучной (или под-символьной) ИИ в контексте разработки и использования знаний базы для областей исследований. Авторы описывают экосистему LaCAS (Open Archives in Linguistic and Cultural Studies), которая включает в себя таксономию, RDF/OWL-онтологию, сервисы Linked Open Data (LOD), сборку и экспертную деятельность, а также публикационные функции. Эта система развернута в Национальном Институте Вост Acronym (INA) в Париже и использует программный комплекс Okapi (Open Knowledge and Annotation Interface) для управления документами. LaCAS в настоящее время содержит около 160 000 документальных ресурсов и десять макро-областей знаний, собравших несколько тысяч компонентов. Особое внимание уделяется значимости исследований в области языков мира (около 540 языков) и конкретному языку (например, кечуа).
## Метод
Проект LaCAS разработан с использованием гибридной модели, объединяющей моделируемый и данным-ориентированный подходы. Он использует стандартные технологии Интернета ресурсов (RDF, OWL) и программное обеспечение Okapi для управления документами. Система Okapi обеспечивает интерфейс для управления знаниями, включая разработку тематических коллекций, агрегацию индексов, поиск и внедрение подсказок. База знаний построена на основе терминологического словаря и использует семантические технологии (RDF/OWL) для организации знаний. Особенностью методологии является применение контекстуализированных моделей для генерации процесса разработки контекстуальных моделей, а также для оценки и интеграции нейронных моделей.
## Результаты
В рамках экспериментов использовались данные из LaCAS, включая около 160 000 ресурсов и 10 макро-областей знаний. Авторы проводили подробный анализ структуры базы знаний, в том числе тематических коллекций и семантических связей. Они применяли контекстуализированные модели для генерации контекстуальных моделей и интеграции нейронных моделей. На примере языка кечуа были продемонстрированы возможности системы для выявления и агрегирования индексов, поиска связанных сведений и предложения контекстуальных моделей. Эти результаты позволяют увидеть, как гибридный подход обеспечивает эффективное управление базой знаний, сохраняя структурные значимости.
## Значимость
Результаты имеют широкое применение в области контролируемого использования нейронных технологий в гуманитарных
Abstract
In a context where the social sciences and humanities are experimenting with
non-anthropocentric analytical frames, this article proposes a semiotic
(structural) reading of the hybridization between symbolic AI and neural (or
sub-symbolic) AI based on a field of application: the design and use of a
knowledge base for area studies. We describe the LaCAS ecosystem -- Open
Archives in Linguistic and Cultural Studies (thesaurus; RDF/OWL ontology; LOD
services; harvesting; expertise; publication), deployed at Inalco (National
Institute for Oriental Languages and Civilizations) in Paris with the Okapi
(Open Knowledge and Annotation Interface) software environment from Ina
(National Audiovisual Institute), which now has around 160,000 documentary
resources and ten knowledge macro-domains grouping together several thousand
knowledge objects. We illustrate this approach using the knowledge domain
''Languages of the world'' (~540 languages) and the knowledge object ''Quechua
(language)''. On this basis, we discuss the controlled integration of neural
tools, more specifically generative tools, into the life cycle of a knowledge
base: assistance with data localization/qualification, index extraction and
aggregation, property suggestion and testing, dynamic file generation, and
engineering of contextualized prompts (generic, contextual, explanatory,
adjustment, procedural) aligned with a domain ontology. We outline an ecosystem
of specialized agents capable of animating the database while respecting its
symbolic constraints, by articulating model-driven and data-driven methods.
Ссылки и действия
Дополнительные ресурсы: