VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models

2508.15229v1 cs.CL, cs.AI, cs.LG 2025-08-23
Авторы:

Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Yu Wang

Резюме на русском

## Контекст Small Language Models (SLMs) предлагают существенные выгоды в плане вычислительной эффективности для ресурсно-ограниченных сред, таких как edge devices. Однако они сталкиваются с значительным ограничением — ограниченным объемом памяти. Это ограничение особенно актуально для компонентов, связанных с семантическим представлением языка, таких как входные тензоры (embeddings) и модели языка (LM heads). Эти компоненты требуют большого объема памяти из-за великого размера словаря. Однако статическая оптимизация, например, pruning, часто приводит к утере информации и неэффективности в условиях реальных задач. В статье предлагается новый подход к динамическому управлению словарем, который адаптируется к конкретным задачам и устраняет недостатки статических методов. ## Метод Работа предлагает VocabTailor — новую систему динамического управления словарем, основывающуюся на двух ключевых принципах. Во-первых, **lexical locality principle**, подчеркивающий, что только малая часть словаря используется в каждом отдельном запросе. Во-вторых, **asymmetry in computational characteristics**, отражающий разные уровни сложности вычислений для разных частей словаря. VocabTailor предлагает декоупленную архитектуру, включающую: 1. **Dynamic Embedding Offloading**: возможность загружать в память только те части входных тензоров, которые требуются для конкретной задачи. 2. **Hybrid Static-Dynamic Vocabulary Selection**: стратегия, которая загружает только те части словаря, необходимые для конкретной задачи, во время выполнения. Эта система разработана с учетом того, чтобы обеспечить эффективность в ресурсно-ограниченных условиях, не ущемляя точность модели. ## Результаты Проведены ряд экспериментов для оценки эффективности VocabTailor на различных задачах, включая текстовый классификатор, трансформацию текста и генерацию текста. Использовались стандартные данные, такие как GLUE benchmark и собственные наборы данных для реальных приложений. Результаты показали, что VocabTailor достигает снижения потребления памяти в 99% для входных тензоров и в значительной степени для словарей LM Head, при этом сохраняя высокую точность модели. Был проведен анализ того, как динамическая система словарей позволяет уменьшить время исполнения и потребление памяти без значительного снижения качества решения задачи. ## Значимость VocabTailor внедряет новый подход к динамическому управлению ресурсами в моделях языка, который может быть применен в различных областях: 1. **Edge Devices**: обеспечение эффективности ресурсов для мобильных приложений и IoT-устройств. 2. **Resource-Constrained Environments**: перенос моделей языка на серверы с ограниченным объемом памяти. 3. **Flexibility and Adaptability**: разработка моделе

Abstract

Small Language Models (SLMs) provide computational advantages in resource-constrained environments, yet memory limitations remain a critical bottleneck for edge device deployment. A substantial portion of SLMs' memory footprint stems from vocabulary-related components, particularly embeddings and language modeling (LM) heads, due to large vocabulary sizes. Existing static vocabulary pruning, while reducing memory usage, suffers from rigid, one-size-fits-all designs that cause information loss from the prefill stage and a lack of flexibility. In this work, we identify two key principles underlying the vocabulary reduction challenge: the lexical locality principle, the observation that only a small subset of tokens is required during any single inference, and the asymmetry in computational characteristics between vocabulary-related components of SLM. Based on these insights, we introduce VocabTailor, a novel decoupled dynamic vocabulary selection framework that addresses memory constraints through offloading embedding and implements a hybrid static-dynamic vocabulary selection strategy for LM Head, enabling on-demand loading of vocabulary components. Comprehensive experiments across diverse downstream tasks demonstrate that VocabTailor achieves a reduction of up to 99% in the memory usage of vocabulary-related components with minimal or no degradation in task performance, substantially outperforming existing static vocabulary pruning.

Ссылки и действия