VocabTailor: Dynamic Vocabulary Selection for Downstream Tasks in Small Language Models
2508.15229v1
cs.CL, cs.AI, cs.LG
2025-08-23
Авторы:
Hanling Zhang, Yayu Zhou, Tongcheng Fang, Zhihang Yuan, Guohao Dai, Yu Wang
Резюме на русском
## Контекст
Small Language Models (SLMs) предлагают существенные выгоды в плане вычислительной эффективности для ресурсно-ограниченных сред, таких как edge devices. Однако они сталкиваются с значительным ограничением — ограниченным объемом памяти. Это ограничение особенно актуально для компонентов, связанных с семантическим представлением языка, таких как входные тензоры (embeddings) и модели языка (LM heads). Эти компоненты требуют большого объема памяти из-за великого размера словаря. Однако статическая оптимизация, например, pruning, часто приводит к утере информации и неэффективности в условиях реальных задач.
В статье предлагается новый подход к динамическому управлению словарем, который адаптируется к конкретным задачам и устраняет недостатки статических методов.
## Метод
Работа предлагает VocabTailor — новую систему динамического управления словарем, основывающуюся на двух ключевых принципах.
Во-первых, **lexical locality principle**, подчеркивающий, что только малая часть словаря используется в каждом отдельном запросе. Во-вторых, **asymmetry in computational characteristics**, отражающий разные уровни сложности вычислений для разных частей словаря.
VocabTailor предлагает декоупленную архитектуру, включающую:
1. **Dynamic Embedding Offloading**: возможность загружать в память только те части входных тензоров, которые требуются для конкретной задачи.
2. **Hybrid Static-Dynamic Vocabulary Selection**: стратегия, которая загружает только те части словаря, необходимые для конкретной задачи, во время выполнения.
Эта система разработана с учетом того, чтобы обеспечить эффективность в ресурсно-ограниченных условиях, не ущемляя точность модели.
## Результаты
Проведены ряд экспериментов для оценки эффективности VocabTailor на различных задачах, включая текстовый классификатор, трансформацию текста и генерацию текста. Использовались стандартные данные, такие как GLUE benchmark и собственные наборы данных для реальных приложений.
Результаты показали, что VocabTailor достигает снижения потребления памяти в 99% для входных тензоров и в значительной степени для словарей LM Head, при этом сохраняя высокую точность модели. Был проведен анализ того, как динамическая система словарей позволяет уменьшить время исполнения и потребление памяти без значительного снижения качества решения задачи.
## Значимость
VocabTailor внедряет новый подход к динамическому управлению ресурсами в моделях языка, который может быть применен в различных областях:
1. **Edge Devices**: обеспечение эффективности ресурсов для мобильных приложений и IoT-устройств.
2. **Resource-Constrained Environments**: перенос моделей языка на серверы с ограниченным объемом памяти.
3. **Flexibility and Adaptability**: разработка моделе
Abstract
Small Language Models (SLMs) provide computational advantages in
resource-constrained environments, yet memory limitations remain a critical
bottleneck for edge device deployment. A substantial portion of SLMs' memory
footprint stems from vocabulary-related components, particularly embeddings and
language modeling (LM) heads, due to large vocabulary sizes. Existing static
vocabulary pruning, while reducing memory usage, suffers from rigid,
one-size-fits-all designs that cause information loss from the prefill stage
and a lack of flexibility. In this work, we identify two key principles
underlying the vocabulary reduction challenge: the lexical locality principle,
the observation that only a small subset of tokens is required during any
single inference, and the asymmetry in computational characteristics between
vocabulary-related components of SLM. Based on these insights, we introduce
VocabTailor, a novel decoupled dynamic vocabulary selection framework that
addresses memory constraints through offloading embedding and implements a
hybrid static-dynamic vocabulary selection strategy for LM Head, enabling
on-demand loading of vocabulary components. Comprehensive experiments across
diverse downstream tasks demonstrate that VocabTailor achieves a reduction of
up to 99% in the memory usage of vocabulary-related components with minimal or
no degradation in task performance, substantially outperforming existing static
vocabulary pruning.
Ссылки и действия
Дополнительные ресурсы: