Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?

2509.02225v1 cs.CL, I.2.7; I.7 2025-09-05

Авторы:

Jaime Collado-Montañez, L. Alfonso Ureña-López, Arturo Montejo-Ráez

Резюме на русском

## Контекст Современные языковые модели (LLM) достигли впечатляющих возможностей в области обработки естественного языка, однако столкнулись с рядом критических проблем. Они часто проявляют халатность в выводах, распространенные стереотипы и беспринципность, обращают внимание на вопросы конфиденциальности, а также требуют огромных вычислительных ресурсов. Эти ограничения связаны с особенностью суперпозиции языковой компетенции и фактического запоминания в одной модели. Данная работа предлагает новый подход, называемый Fundamental Language Model (FLM), который предлагает создание меньших моделей с высокой языковой компетенцией, предавших задачи запоминания фактов внешним средствам. ## Метод Мы исследовали модели размером от 135 миллионов до 32 миллиардов параметров. Для оценки языковой компетенции, внешнего и внутреннего фактического знания использовались специально сконструированные тесты и задачи. Модели были оценены на технических аспектах, таких как способность генерировать текст и понимать смысл слов и предложений, а также способность эффективно использовать внешние источники для получения фактов. ## Результаты Наши результаты показали, что повышение размера модели приводит к повышению как языковой компетенции, так и внешнего фактического знания. Однако внутреннее фактическое знание, то есть способность модели генерировать факты на основе своего внутреннего представления, увеличивается намного быстрее, чем языковая компетенция. Это указывает на то, что размер модели больше всего связан с фактом запоминания, а не с языковой компетенцией. ## Значимость Предлагаемый подход может быть использован в различных областях, таких как разработка систем поддержки решения проблем, интеллектуальные помощники и системы моделирования языка. Модульный подход FLM позволяет создавать более эффективные, прозрачные и устойчивые к воздействию внешних фактов модели. Это предлагает возможность создания моделей, которые будут не только эффективными, но и более удобными для применения в реальной жизни. ## Выводы Результаты нашего исследования поддерживают значимость FLM как модели, которая может быть использована для создания более сбалансированных языковых моделей. Мы предлагаем использовать FLM в качестве основы для будущих исследований в области языковых моделей, которые будут ориентированы на создание моделей, меньшего размера, но с высокой языковой компетенцией и модульной архитектурой. Это включает в себя рассмотрение возможности совместимости с другими инструментами для получения фактов.

Abstract

Large Language Models offer impressive language capabilities but suffer from well-known limitations, including hallucinations, biases, privacy concerns, and high computational costs. These issues are largely driven by the combination of linguistic competence and factual memorization within a single monolithic model. This paper introduces and empirically supports the Fundamental Language Model (FLM) paradigm, which advocates for smaller, linguistically competent models that offload factual retrieval to external tools. We evaluate models ranging from 135M to 32B parameters across three dimensions: linguistic competence, external factual knowledge, and internal factual knowledge. Our findings reveal that while both linguistic competence and factual knowledge improve with scale, internal factual knowledge grows significantly faster, suggesting that model size is more closely tied to memorization than to core language ability. These results support a modular approach to language modeling, where compact, linguistically proficient models serve as the foundation for tool-augmented systems. The FLM paradigm offers a path toward more efficient, interpretable, and sustainable NLP solutions.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

SeLeRoSa: Sentence-Level Romanian Satire Detection Dataset

Навигация