Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking
2508.07286v1
cs.CL, cs.IR
2025-08-13
Авторы:
Jian Chen, Jinbao Tian, Yankui Li, Zhou Li
Резюме на русском
## Контекст
Название статьи — Arce: Augmented Roberta with Contextualized Elucidations for Ner in Automated Rule Checking. Авторы: Jian Chen, Jinbao Tian, Yankui Li, Zhou Li. Основная цель — решение проблемы точного извлечения информации из специализированных текстов, в частности, для автоматизированного проверки правил (ARC) в сфере архитектуры, инженерии и строительства (AEC). Несмотря на развитие методов предобучения моделей на обширных текстовых корпусах, стандартные модели всё же сталкиваются с проблемами, связанными с границей домена. Они сталкиваются с трудностями при понимании специальной терминологии и сложных связей в AEC-текстах. Решение этой проблемы через дополнительное предобучение на доменных корпусах требует значительных ресурсов и времени. В этом контексте роль генерации знаний с использованием крупных языковых моделей (LLM) становится ключевой. Однако, необходимо разработать эффективный подход для повышения эффективности меньших моделей, таких как RoBERTa, с помощью знаний, генерируемых моделями LLM.
## Метод
Предложенный подход ARCE (Augmented RoBERTa with Contextualized Elucidations) состоит из двух этапов: 1) генерация простых, ясных объяснений с помощью LLM в виде корпуса, названного Cote (Contextualized Explanations); 2) применение этого корпуса для дополнительного предобучения модели RoBERTa. Основной идеей является то, что простые объяснения помогают модели лучше понять специальную терминологию и связи в AEC-данных. Модель ARCE включает в себя ряд технических решений, которые улучшают процесс предобучения и работы модели на задаче NER в сфере AEC.
## Результаты
Авторы провели эксперименты на бенчмарк-датасете AEC. Модель ARCE показала результат Macro-F1 77.20%, установив новый состояние технологии для этого задания. Эксперименты также продемонстрировали, что простые, напрямую понятные объяснения (Cote) дают более эффективные результаты, чем более сложные, ролевые рационализации. Эта модель демонстрирует высокую эффективность в извлечении специальных сущностей из сложных текстов AEC.
## Значимость
Решение ARCE может быть применено во многих областях, где требуется точное извлечение информации из специализированных текстов, включая АЭК и другие технические сферы. Основное преимущество ARCE заключается в своей эффективности и простоте. Вместо сложных ролевых моделей, он использует простые объяснения, что упрощает понимание модели и повышает точность. Это может существенно снизить затраты на обучение и развитие моделей для сложных доменов. Будущие исследования будут сфокусированы на расширении этого подхода к другим доменам и моделям.
## Выводы
Результаты ARCE подтверждают зна
Abstract
Accurate information extraction from specialized texts is a critical
challenge, particularly for named entity recognition (NER) in the architecture,
engineering, and construction (AEC) domain to support automated rule checking
(ARC). The performance of standard pre-trained models is often constrained by
the domain gap, as they struggle to interpret the specialized terminology and
complex relational contexts inherent in AEC texts. Although this issue can be
mitigated by further pre-training on large, human-curated domain corpora, as
exemplified by methods like ARCBERT, this approach is both labor-intensive and
cost-prohibitive. Consequently, leveraging large language models (LLMs) for
automated knowledge generation has emerged as a promising alternative. However,
the optimal strategy for generating knowledge that can genuinely enhance
smaller, efficient models remains an open question. To address this, we propose
ARCE (augmented RoBERTa with contextualized elucidations), a novel approach
that systematically explores and optimizes this generation process. ARCE
employs an LLM to first generate a corpus of simple, direct explanations, which
we term Cote, and then uses this corpus to incrementally pre-train a RoBERTa
model prior to its fine-tuning on the downstream task. Our extensive
experiments show that ARCE establishes a new state-of-the-art on a benchmark
AEC dataset, achieving a Macro-F1 score of 77.20%. This result also reveals a
key finding: simple, explanation-based knowledge proves surprisingly more
effective than complex, role-based rationales for this task. The code is
publicly available at:https://github.com/nxcc-lab/ARCE.
Ссылки и действия
Дополнительные ресурсы: