Contextual Graph Transformer: A Small Language Model for Enhanced Engineering Document Information Extraction
2508.02532v1
cs.CL, cs.LG
2025-08-09
Авторы:
Karan Reddy, Mayukha Pal
Резюме на русском
Технические документы часто содержат сложные синтаксические структуры и сложносвязанные сущности, что создает сложности для стандартных трансформерных моделей. Мы предлагаем Contextual Graph Transformer (CGT) — гибридную модель, объединяющую Graph Neural Networks (GNNs) и Transformer для эффективного справки в доменах с особыми требованиями. CGT строит динамическую графовую структуру над токенами, используя последовательные, skip-gram и семантические связи, а затем эти структуры обрабатываются GATv2Conv-слоями для извлечения локальных структур. Обобщенные эмбеддинги передаются в Transformer-энкодер для построения глобальных зависимостей. CGT эффективнее базовых моделей, таких как GPT-2 и BERT, с меньшим количеством параметров и лучшим адаптированным к техническим документам подходом. Модель протестирована в контексте Retrieval-Augmented Generation (RAG) и показала себя эффективнее, повысив точность на 24.7% с меньшим потреблением ресурсов. Это подтверждает её подходительность для решения задач восстановления информации в технических документах.
Abstract
Standard transformer-based language models, while powerful for general text,
often struggle with the fine-grained syntax and entity relationships in complex
technical, engineering documents. To address this, we propose the Contextual
Graph Transformer (CGT), a hybrid neural architecture that combines Graph
Neural Networks (GNNs) and Transformers for domain-specific question answering.
CGT constructs a dynamic graph over input tokens using sequential, skip-gram,
and semantic similarity edges, which is processed by GATv2Conv layers for local
structure learning. These enriched embeddings are then passed to a Transformer
encoder to capture global dependencies. Unlike generic large models, technical
domains often require specialized language models with stronger
contextualization and structure awareness. CGT offers a parameter-efficient
solution for such use cases. Integrated into a Retrieval-Augmented Generation
(RAG) pipeline, CGT outperforms baselines like GPT-2 and BERT, achieving 24.7%
higher accuracy than GPT-2 with 62.4% fewer parameters. This gain stems from
CGTs ability to jointly model structural token interactions and long-range
semantic coherence. The model is trained from scratch using a two-phase
approach: pretraining on general text followed by fine-tuning on
domain-specific manuals. This highlights CGTs adaptability to technical
language, enabling better grounding, entity tracking, and retrieval-augmented
responses in real-world applications.
Ссылки и действия
Дополнительные ресурсы: