NoLBERT: A No Lookahead(back) Foundational Language Model for Empirical Research
2509.01110v1
econ.GN, cs.AI, cs.LG, q-fin.EC, q-fin.GN
2025-09-05
Авторы:
Ali Kakhbod, Peiyao Li
Резюме на русском
## Контекст
Исследования в области естественных языковых моделей (NLP) приобретают все большее значение в экономических и финансовых исследованиях. Однако существуют значительные проблемы, связанные с потенциальным влиянием биаса в разметке данных. Биасы, такие как "lookback" (прошлое) и "lookahead" (будущее), могут серьезно повлиять на результаты эконометрических исследований, особенно в области инновационной динамики, экономического развития и финансовых моделей. Кроме того, многие модели являются ресурсоёмкими и неэффективными для использования в задачах, требующих аккуратного отслеживания временных данных. Это создает устойчивую потребность в создании моделей, оптимизированных для этих задач, с учётом эффективности и точности.
## Метод
NoLBERT — это легковесная модель с характеристиками времени, разработанная специально для эмпирических исследований в области экономики и финансов. Она проходит пре-тренировку на текстах за период с 1976 по 1995 год, что позволяет избежать биаса "lookback" и "lookahead". Модель использует техники статической предсказательности и временной консистентности, чтобы избежать неточностей в оценках временных данных. Архитектура NoLBERT основана на простой, но эффективной структуре, позволяющей достичь высокой модельной точности при минимальном потреблении ресурсов. Она подходит для задач вроде структурирования текстов, эмпирического анализа текстов и визуализации временных данных.
## Результаты
Набор экспериментов включал сравнение NoLBERT с другими моделями, такими как BERT, на различных задачах, включая классификацию текстов и временной анализ текстов. Данные для экспериментов были получены из широкого круга источников, включая патенты, статистические данные и текстовые данные экономических статей. Результаты показали, что NoLBERT превосходит другие модели по нескольким метрикам, таким как точность классификации и временная консистентность. Например, при применении к патентам, NoLBERT способен построить сети инноваций на уровне фирм и показал, что предсказания относительно инновационной активности связаны с высоким долгосрочным ростом доходов.
## Значимость
NoLBERT может применяться в различных областях, включая экономический анализ, финансовые моделирования и социальные исследования. Одним из главных преимуществ является его возможность избежать биаса в разметке и обеспечить точный временной мониторинг. Благодаря своей скорости и эффективности, модель подходит для работы с большими объёмами данных, что важно для современных исследований. Потенциальное влияние модели заключается в улучшении
Abstract
We present NoLBERT, a lightweight, timestamped foundational language model
for empirical research in social sciences, particularly in economics and
finance. By pre-training exclusively on 1976-1995 text, NoLBERT avoids both
lookback and lookahead biases that can undermine econometric inference. It
exceeds domain-specific baselines on NLP benchmarks while maintaining temporal
consistency. Applied to patent texts, NoLBERT enables the construction of
firm-level innovation networks and shows that gains in innovation centrality
predict higher long-run profit growth.