Extracting Structured Requirements from Unstructured Building Technical Specifications for Building Information Modeling
2508.13833v1
cs.CL, cs.AI
2025-08-21
Авторы:
Insaf Nahri, Romain Pinquié, Philippe Véron, Nicolas Bus, Mathieu Thorel
Резюме на русском
## Контекст
Область строительной индустрии стремится к оптимизации процессов, уменьшению ошибок и повышению эффективности. Одна из сложностей в этой области заключается в автоматизации извлечения структурированных спецификаций из неструктурированных технических документов в сфере зданий и сооружений. Эта проблема становится еще более актуальной при внедрении Building Information Modeling (BIM), требующего точных данных для моделирования и управления проектами. Несовместимость существующих автоматизированных методов с техническими особенностями французских технических спецификаций (BTS) делает их неэффективными. Этот аспект подчеркивает необходимость разработки специализированных технологий для решения этой задачи.
## Метод
Для решения этой задачи разработана методология, основанная на подходах машинного обучения и естественного языка. Использована классификация Named Entity Recognition (NER) и Relation Extraction (RE) для извлечения информации из неструктурированных документов. Модель CamemBERT, трансформер-базированная, была применена с предварительно обученным языковым моделем Fr_core_news_lg на основе данных в общем французском домене. Для вариации и сравнения результатов разработаны дополнительные подходы, включая правила и глубокое обучение. Для Relation Extraction (RE) разработаны модели на основе Random Forest и других супервизированных техник, используя пользовательские векторы признаков.
## Результаты
Эксперименты проводились на качественной (ручной) коллекции данных, подготовленной специально для этих целей. Модели CamemBERT и Fr_core_news_lg показали выдающиеся результаты в NER, с F1-метрикой выше 90%. Методы RE, в том числе Random Forest, показали F1-метрику выше 80%. Эти результаты демонстрируют эффективность трансформер-моделей в контексте технических спецификаций с низким контекстно-зависимым языком.
## Значимость
Результаты имеют большое значение для автоматизации процессов в строительной индустрии. Они могут быть применимы для BIM-систем, чтобы сократить время на вручную производимые задачи и внести улучшения в качество моделирования. Например, полученные данные могут использоваться для создания графов знаний, улучшения автоматических процедур верификации, а также для поддержки процессов разработки и управления проектами.
## Выводы
Разработанная методология демонстрирует высокую эффективность в извлечении структурированных спецификаций из неструктурированных документов. Она может быть расширена для создания графов знаний и использована в поддержке автоматических систем верификации. Будущие исследования будут ориентированы на улучшение точности моделей, расширение д
Abstract
This study explores the integration of Building Information Modeling (BIM)
with Natural Language Processing (NLP) to automate the extraction of
requirements from unstructured French Building Technical Specification (BTS)
documents within the construction industry. Employing Named Entity Recognition
(NER) and Relation Extraction (RE) techniques, the study leverages the
transformer-based model CamemBERT and applies transfer learning with the French
language model Fr\_core\_news\_lg, both pre-trained on a large French corpus in
the general domain. To benchmark these models, additional approaches ranging
from rule-based to deep learning-based methods are developed. For RE, four
different supervised models, including Random Forest, are implemented using a
custom feature vector. A hand-crafted annotated dataset is used to compare the
effectiveness of NER approaches and RE models. Results indicate that CamemBERT
and Fr\_core\_news\_lg exhibited superior performance in NER, achieving
F1-scores over 90\%, while Random Forest proved most effective in RE, with an
F1 score above 80\%. The outcomes are intended to be represented as a knowledge
graph in future work to further enhance automatic verification systems.
Ссылки и действия
Дополнительные ресурсы: