Comparing energy consumption and accuracy in text classification inference
2508.14170v1
cs.CL, cs.CY
2025-08-22
Авторы:
Johannes Zschache, Tilman Hartwig
Резюме на русском
## Контекст
Приростарший развертывание больших языковых моделей (LLMs) в задачах обработки естественного языка (NLP) вызывает заботы по поводу энергоэффективности и устойчивости. Хотя исследования преимущественно ориентированы на энергопотребление во время обучения моделей, этап инференса (оценки модели) остается значительно менее исследованным. В данном исследовании проводится систематический эксперимент для оценки компромиссов между точностью и энергопотреблением в процессе вывода текстовой классификации с различными архитектурами моделей и конфигурациями оборудования. Оказывается, что наилучшая точность модели не всегда сочетается с минимальным потреблением энергии, и более крупные модели LLMs часто требуют значительно большего энергопотребления с меньшей точностью классификации. Эти наблюдения имеют решающее значение для развития устойчивой ИИ, обеспечивая основания для принятия обоснованных решений по оптимизации производительности и энергосбережения в NLP.
## Метод
Исследование проводится посредством подробной эмпирической оценки различных моделей текстовой классификации и конфигураций оборудования. Данные экспериментальной части включают широкий диапазон моделей текстовой классификации, включая традиционные модели и предварительно обученные LLMs. Архитектуры моделей сравниваются в условиях одинакового количества задач классификации и выборок. Основными показателями измерения являются энергопотребление (измерено в мВт часах) и точность классификации. Также исследуется связь между энергопотреблением и временем выполнения модели. Эксперименты проводятся на различных конфигурациях оборудования, включая процессоры и GPU, для изучения влияния аппаратных характеристик на энергоэффективность.
## Результаты
Результаты показывают, что наиболее точные модели часто являются наиболее энергоемкими, но не всегда. Например, некоторые модели среднего размера показали высокую точность при намного меньшем энергопотреблении по сравнению с крупными LLMs. Энергопотребление варьируется в пределах от нескольких милливатт-часов до нескольких киловатт-часов, в зависимости от модели и конфигурации оборудования. Также обнаружена сильная корреляция между энергопотреблением и временем выполнения, что позволяет использовать последнее как приближенную меру энергопотребления в тех случаях, когда прямое измерение невозможно.
## Значимость
Находки из данного исследования имеют применимость в сферах сSUstainable AI, где энергопотребление является ключевым фактором. Особенно ценны они для текстовых классификационных задач
Abstract
The increasing deployment of large language models (LLMs) in natural language
processing (NLP) tasks raises concerns about energy efficiency and
sustainability. While prior research has largely focused on energy consumption
during model training, the inference phase has received comparatively less
attention. This study systematically evaluates the trade-offs between model
accuracy and energy consumption in text classification inference across various
model architectures and hardware configurations. Our empirical analysis shows
that the best-performing model in terms of accuracy can also be
energy-efficient, while larger LLMs tend to consume significantly more energy
with lower classification accuracy. We observe substantial variability in
inference energy consumption ($<$mWh to $>$kWh), influenced by model type,
model size, and hardware specifications. Additionally, we find a strong
correlation between inference energy consumption and model runtime, indicating
that execution time can serve as a practical proxy for energy usage in settings
where direct measurement is not feasible. These findings have implications for
sustainable AI development, providing actionable insights for researchers,
industry practitioners, and policymakers seeking to balance performance and
resource efficiency in NLP applications.
Ссылки и действия
Дополнительные ресурсы: