Patent Language Model Pretraining with ModernBERT

2509.14926v1 cs.CL, cs.AI, cs.LG 2025-09-20
Авторы:

Amirhossein Yousefiramandi, Ciaran Cooney

Резюме на русском

## Контекст Патентные документы являются ключевым источником информации для технологического прогресса и анализа технических областей. Однако, по сравнению с общеупотребительным текстом, патентные документы обладают уникальными характеристиками: они характеризуются длинными, техническими, легально структурированными фрагментами текста. Нейронные модели направленные на общий язык (такие как BERT) имеют проблемы при применении к таким документам, поскольку недостаточно приспособлены для успешного понимания такой специализированной лексики и структуры. Таким образом, существует необходимость в разработке моделей, которые бы специализировались в обработке патентной лексики, обеспечивая более высокую точность и эффективность в патентном НЛП. ## Метод Для решения этих проблем была разработана модель ModernBERT, ориентированная на патентный домен. Модель основывается на архитектуре Transformer и использует ансамбль из трех моделей различного размера: base-PT, base-VX и large. Модели были обучены с помощью около 60 миллионов патентных документов, которые были аккуратно подготовлены для учебного процесса. В качестве оптимизаций внедрены техники, такие как FlashAttention, rotary embeddings и GLU feed-forward layers, чтобы повысить производительность и эффективность моделей. Для оценки производительности были выбраны четыре задачи классификации патентных документов. ## Результаты Проведенные эксперименты показали, что модель ModernBERT-base-PT овладевает трех из четырех датасетов более эффективно, чем генеральная модель ModernBERT. Также были получены доказательства того, что модели ModernBERT-base-VX и Mosaic-BERT-large показали высокую точность на определенных задачах, особенно при увеличении размера модели и использовании настраиваемых токенизаторов. Область применения моделей охватывает многочисленные аспекты патентного НЛП, включая классификацию, тегирование и поиск аналогов. Эти модели обладают высокой производительностью и могут быть применены в задачах, требующих быстрого реагирования. ## Значимость Результаты этих исследований демонстрируют значительные преимущества данной модели в специализированной области НЛП. Она позволяет повысить точность и эффективность анализа патентных документов, что полезно в таких областях, как технологический мониторинг, юридический анализ и инновационное развитие. Благодаря настраиваемой архитектуре и оптимизациям модель ModernBERT подходит для время от времени выполнения задач, что делает ее эффективной для ряда практических приложений. ## Выводы Результаты показывают, что domain-specific pretraining и архитектурные усовершенствования значительно повышают эффективно

Abstract

Transformer-based language models such as BERT have become foundational in NLP, yet their performance degrades in specialized domains like patents, which contain long, technical, and legally structured text. Prior approaches to patent NLP have primarily relied on fine-tuning general-purpose models or domain-adapted variants pretrained with limited data. In this work, we pretrain 3 domain-specific masked language models for patents, using the ModernBERT architecture and a curated corpus of over 60 million patent records. Our approach incorporates architectural optimizations, including FlashAttention, rotary embeddings, and GLU feed-forward layers. We evaluate our models on four downstream patent classification tasks. Our model, ModernBERT-base-PT, consistently outperforms the general-purpose ModernBERT baseline on three out of four datasets and achieves competitive performance with a baseline PatentBERT. Additional experiments with ModernBERT-base-VX and Mosaic-BERT-large demonstrate that scaling the model size and customizing the tokenizer further enhance performance on selected tasks. Notably, all ModernBERT variants retain substantially faster inference over - 3x that of PatentBERT - underscoring their suitability for time-sensitive applications. These results underscore the benefits of domain-specific pretraining and architectural improvements for patent-focused NLP tasks.

Ссылки и действия