Patent Language Model Pretraining with ModernBERT
2509.14926v1
cs.CL, cs.AI, cs.LG
2025-09-20
Авторы:
Amirhossein Yousefiramandi, Ciaran Cooney
Резюме на русском
## Контекст
Патентные документы являются ключевым источником информации для технологического прогресса и анализа технических областей. Однако, по сравнению с общеупотребительным текстом, патентные документы обладают уникальными характеристиками: они характеризуются длинными, техническими, легально структурированными фрагментами текста. Нейронные модели направленные на общий язык (такие как BERT) имеют проблемы при применении к таким документам, поскольку недостаточно приспособлены для успешного понимания такой специализированной лексики и структуры. Таким образом, существует необходимость в разработке моделей, которые бы специализировались в обработке патентной лексики, обеспечивая более высокую точность и эффективность в патентном НЛП.
## Метод
Для решения этих проблем была разработана модель ModernBERT, ориентированная на патентный домен. Модель основывается на архитектуре Transformer и использует ансамбль из трех моделей различного размера: base-PT, base-VX и large. Модели были обучены с помощью около 60 миллионов патентных документов, которые были аккуратно подготовлены для учебного процесса. В качестве оптимизаций внедрены техники, такие как FlashAttention, rotary embeddings и GLU feed-forward layers, чтобы повысить производительность и эффективность моделей. Для оценки производительности были выбраны четыре задачи классификации патентных документов.
## Результаты
Проведенные эксперименты показали, что модель ModernBERT-base-PT овладевает трех из четырех датасетов более эффективно, чем генеральная модель ModernBERT. Также были получены доказательства того, что модели ModernBERT-base-VX и Mosaic-BERT-large показали высокую точность на определенных задачах, особенно при увеличении размера модели и использовании настраиваемых токенизаторов. Область применения моделей охватывает многочисленные аспекты патентного НЛП, включая классификацию, тегирование и поиск аналогов. Эти модели обладают высокой производительностью и могут быть применены в задачах, требующих быстрого реагирования.
## Значимость
Результаты этих исследований демонстрируют значительные преимущества данной модели в специализированной области НЛП. Она позволяет повысить точность и эффективность анализа патентных документов, что полезно в таких областях, как технологический мониторинг, юридический анализ и инновационное развитие. Благодаря настраиваемой архитектуре и оптимизациям модель ModernBERT подходит для время от времени выполнения задач, что делает ее эффективной для ряда практических приложений.
## Выводы
Результаты показывают, что domain-specific pretraining и архитектурные усовершенствования значительно повышают эффективно
Abstract
Transformer-based language models such as BERT have become foundational in
NLP, yet their performance degrades in specialized domains like patents, which
contain long, technical, and legally structured text. Prior approaches to
patent NLP have primarily relied on fine-tuning general-purpose models or
domain-adapted variants pretrained with limited data. In this work, we pretrain
3 domain-specific masked language models for patents, using the ModernBERT
architecture and a curated corpus of over 60 million patent records. Our
approach incorporates architectural optimizations, including FlashAttention,
rotary embeddings, and GLU feed-forward layers. We evaluate our models on four
downstream patent classification tasks. Our model, ModernBERT-base-PT,
consistently outperforms the general-purpose ModernBERT baseline on three out
of four datasets and achieves competitive performance with a baseline
PatentBERT. Additional experiments with ModernBERT-base-VX and
Mosaic-BERT-large demonstrate that scaling the model size and customizing the
tokenizer further enhance performance on selected tasks. Notably, all
ModernBERT variants retain substantially faster inference over - 3x that of
PatentBERT - underscoring their suitability for time-sensitive applications.
These results underscore the benefits of domain-specific pretraining and
architectural improvements for patent-focused NLP tasks.
Ссылки и действия
Дополнительные ресурсы: