Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?
2509.02225v1
cs.CL, I.2.7; I.7
2025-09-05
Авторы:
Jaime Collado-Montañez, L. Alfonso Ureña-López, Arturo Montejo-Ráez
Резюме на русском
## Контекст
Современные языковые модели (LLM) достигли впечатляющих возможностей в области обработки естественного языка, однако столкнулись с рядом критических проблем. Они часто проявляют халатность в выводах, распространенные стереотипы и беспринципность, обращают внимание на вопросы конфиденциальности, а также требуют огромных вычислительных ресурсов. Эти ограничения связаны с особенностью суперпозиции языковой компетенции и фактического запоминания в одной модели. Данная работа предлагает новый подход, называемый Fundamental Language Model (FLM), который предлагает создание меньших моделей с высокой языковой компетенцией, предавших задачи запоминания фактов внешним средствам.
## Метод
Мы исследовали модели размером от 135 миллионов до 32 миллиардов параметров. Для оценки языковой компетенции, внешнего и внутреннего фактического знания использовались специально сконструированные тесты и задачи. Модели были оценены на технических аспектах, таких как способность генерировать текст и понимать смысл слов и предложений, а также способность эффективно использовать внешние источники для получения фактов.
## Результаты
Наши результаты показали, что повышение размера модели приводит к повышению как языковой компетенции, так и внешнего фактического знания. Однако внутреннее фактическое знание, то есть способность модели генерировать факты на основе своего внутреннего представления, увеличивается намного быстрее, чем языковая компетенция. Это указывает на то, что размер модели больше всего связан с фактом запоминания, а не с языковой компетенцией.
## Значимость
Предлагаемый подход может быть использован в различных областях, таких как разработка систем поддержки решения проблем, интеллектуальные помощники и системы моделирования языка. Модульный подход FLM позволяет создавать более эффективные, прозрачные и устойчивые к воздействию внешних фактов модели. Это предлагает возможность создания моделей, которые будут не только эффективными, но и более удобными для применения в реальной жизни.
## Выводы
Результаты нашего исследования поддерживают значимость FLM как модели, которая может быть использована для создания более сбалансированных языковых моделей. Мы предлагаем использовать FLM в качестве основы для будущих исследований в области языковых моделей, которые будут ориентированы на создание моделей, меньшего размера, но с высокой языковой компетенцией и модульной архитектурой. Это включает в себя рассмотрение возможности совместимости с другими инструментами для получения фактов.
Abstract
Large Language Models offer impressive language capabilities but suffer from
well-known limitations, including hallucinations, biases, privacy concerns, and
high computational costs. These issues are largely driven by the combination of
linguistic competence and factual memorization within a single monolithic
model. This paper introduces and empirically supports the Fundamental Language
Model (FLM) paradigm, which advocates for smaller, linguistically competent
models that offload factual retrieval to external tools. We evaluate models
ranging from 135M to 32B parameters across three dimensions: linguistic
competence, external factual knowledge, and internal factual knowledge. Our
findings reveal that while both linguistic competence and factual knowledge
improve with scale, internal factual knowledge grows significantly faster,
suggesting that model size is more closely tied to memorization than to core
language ability. These results support a modular approach to language
modeling, where compact, linguistically proficient models serve as the
foundation for tool-augmented systems. The FLM paradigm offers a path toward
more efficient, interpretable, and sustainable NLP solutions.
Ссылки и действия
Дополнительные ресурсы: