Comparing energy consumption and accuracy in text classification inference

2508.14170v1 cs.CL, cs.CY 2025-08-22
Авторы:

Johannes Zschache, Tilman Hartwig

Резюме на русском

## Контекст Приростарший развертывание больших языковых моделей (LLMs) в задачах обработки естественного языка (NLP) вызывает заботы по поводу энергоэффективности и устойчивости. Хотя исследования преимущественно ориентированы на энергопотребление во время обучения моделей, этап инференса (оценки модели) остается значительно менее исследованным. В данном исследовании проводится систематический эксперимент для оценки компромиссов между точностью и энергопотреблением в процессе вывода текстовой классификации с различными архитектурами моделей и конфигурациями оборудования. Оказывается, что наилучшая точность модели не всегда сочетается с минимальным потреблением энергии, и более крупные модели LLMs часто требуют значительно большего энергопотребления с меньшей точностью классификации. Эти наблюдения имеют решающее значение для развития устойчивой ИИ, обеспечивая основания для принятия обоснованных решений по оптимизации производительности и энергосбережения в NLP. ## Метод Исследование проводится посредством подробной эмпирической оценки различных моделей текстовой классификации и конфигураций оборудования. Данные экспериментальной части включают широкий диапазон моделей текстовой классификации, включая традиционные модели и предварительно обученные LLMs. Архитектуры моделей сравниваются в условиях одинакового количества задач классификации и выборок. Основными показателями измерения являются энергопотребление (измерено в мВт часах) и точность классификации. Также исследуется связь между энергопотреблением и временем выполнения модели. Эксперименты проводятся на различных конфигурациях оборудования, включая процессоры и GPU, для изучения влияния аппаратных характеристик на энергоэффективность. ## Результаты Результаты показывают, что наиболее точные модели часто являются наиболее энергоемкими, но не всегда. Например, некоторые модели среднего размера показали высокую точность при намного меньшем энергопотреблении по сравнению с крупными LLMs. Энергопотребление варьируется в пределах от нескольких милливатт-часов до нескольких киловатт-часов, в зависимости от модели и конфигурации оборудования. Также обнаружена сильная корреляция между энергопотреблением и временем выполнения, что позволяет использовать последнее как приближенную меру энергопотребления в тех случаях, когда прямое измерение невозможно. ## Значимость Находки из данного исследования имеют применимость в сферах сSUstainable AI, где энергопотребление является ключевым фактором. Особенно ценны они для текстовых классификационных задач

Abstract

The increasing deployment of large language models (LLMs) in natural language processing (NLP) tasks raises concerns about energy efficiency and sustainability. While prior research has largely focused on energy consumption during model training, the inference phase has received comparatively less attention. This study systematically evaluates the trade-offs between model accuracy and energy consumption in text classification inference across various model architectures and hardware configurations. Our empirical analysis shows that the best-performing model in terms of accuracy can also be energy-efficient, while larger LLMs tend to consume significantly more energy with lower classification accuracy. We observe substantial variability in inference energy consumption ($<$mWh to $>$kWh), influenced by model type, model size, and hardware specifications. Additionally, we find a strong correlation between inference energy consumption and model runtime, indicating that execution time can serve as a practical proxy for energy usage in settings where direct measurement is not feasible. These findings have implications for sustainable AI development, providing actionable insights for researchers, industry practitioners, and policymakers seeking to balance performance and resource efficiency in NLP applications.

Ссылки и действия