Scaling LLM Test-Time Compute with Mobile NPU on Smartphones

2509.23324v1 cs.DC, cs.AI 2025-10-01
Авторы:

Zixu Hao, Jianyu Wei, Tuowei Wang, Minxing Huang, Huiqiang Jiang, Shiqi Jiang, Ting Cao, Ju Ren

Резюме на русском

## Контекст С Large Language Models (LLMs) становится возможным разбираться в сложных текстовых данных, выполнять сложные задачи и даже становиться ближе к цели создания искусственного интеллекта. Однако, необходимость иметь доступ к высокопроизводительным серверным системам всегда препятствовала широкому распространению LLMs в мобильных приложениях. Это связано с тем, что традиционные мобильные устройства имели ограниченную мощность вычислений и ограниченное количество памяти, что не позволяло эффективно работать с LLMs. Недавно, с появлением мобильных Neural Processing Units (NPUs), возникло возможность использовать эти ресурсы для улучшения производительности LLMs на мобильных устройствах. Тем не менее, у NPUs существуют свои проблемы, такие как неэффективность при обработке сложных вычислений и несовместимость с требованиями к высокому качеству вычислений. В этой статье мы рассматриваем способы увеличения эффективности LLMs на мобильных NPUs, которые позволяют значительно повысить производительность и уменьшить затраты ресурсов. ## Метод Мы предлагаем использовать **тест-тайм-скейлинг (Test-Time Scaling)**, который предполагает распределение задач LLMs между мобильными NPUs во время выполнения, чтобы оптимально использовать ресурсы. Наша методология включает два основных компонента: **тиляцию (tiling)** и **LUT-решения (LUT-based solutions)**. **Тиляция (tiling)** — это метод, при котором вычисления в целом модели преобразуются в более мелкие части (тили), чтобы мобильные NPUs могли их обрабатывать более эффективно. **LUT-решения (LUT-based solutions)** используются для замены сложных вычислений (например, функции Softmax) на более простые, которые могут быть более эффективно обработаны мобильными NPUs. Мы также разработали **схему групповой квантовки (group quantization scheme)**, чтобы уменьшить размер данных, при этом сохраняя точность вычислений. Эти техники позволяют использовать мобильные NPUs для эффективного выполнения LLMs с меньшим расходом ресурсов. ## Результаты Мы провели эксперименты на мобильных устройствах с Qualcomm Snapdragon NPUs, включая Snapdragon 888 и Snapdragon 8 Gen 1. Мы использовали несколько моделей LLMs, включая BERT и GPT-2, и экспериментировали с разными тилями и квантованием. Мы получили следующие результаты: на Snapdragon 888, мобильная модель LLM, использующая нашу схему, показала **скорость выполнения, которая была 19.0 раз быстрее**, чем без тиляции, и **2.2 раз быстрее** при использовании квантования Softmax. Эти результаты показывают, что мобильные NPUs могут не только увеличить производительность, но и повысить точность LLMs. Кроме того, мы показали, что использование тиляции и квантования позволяет меньшим моделям LLMs соответствовать или даже превосхо

Abstract

Deploying Large Language Models (LLMs) on mobile devices faces the challenge of insufficient performance in smaller models and excessive resource consumption in larger ones. This paper highlights that mobile Neural Processing Units (NPUs) have underutilized computational resources, particularly their matrix multiplication units, during typical LLM inference. To leverage this wasted compute capacity, we propose applying parallel test-time scaling techniques on mobile NPUs to enhance the performance of smaller LLMs. However, this approach confronts inherent NPU challenges, including inadequate hardware support for fine-grained quantization and low efficiency in general-purpose computations. To overcome these, we introduce two key techniques: a hardware-aware tile quantization scheme that aligns group quantization with NPU memory access patterns, and efficient LUT-based replacements for complex operations such as Softmax and dequantization. We design and implement an end-to-end inference system that leverages the NPU's compute capability to support test-time scaling on Qualcomm Snapdragon platforms. Experiments show our approach brings significant speedups: up to 19.0 for mixed-precision GEMM and 2.2 for Softmax. More importantly, we demonstrate that smaller models using test-time scaling can match or exceed the accuracy of larger models, achieving a new performance-cost Pareto frontier.

Ссылки и действия