Benchmarking Energy Efficiency of Large Language Models Using vLLM

2509.08867v1 cs.SE, cs.AI, 68T01, I.2.7 2025-09-13
Авторы:

K. Pronk, Q. Zhao

Резюме на русском

#### Контекст Большие языковые модели (LLMs) становятся все более популярными в различных областях, но их развёртывание и эксплуатация требуют огромных энергоресурсов, что сказывается на климате. Энергоемкость этих моделей ограничивает их применение, особенно в сценариях, требующих высокой энергоэффективности. Изучение энергоэффективности LLMs важно для разработчиков, которые используют эти модели в своих продуктах. Несмотря на то, что существуют существующие бенчмарки, они часто не соответствуют реальным условиям работы моделей в производственных условиях. #### Метод Чтобы оценить энергоэффективность LLMs, предложен LLM Efficiency Benchmark, который имитирует реальные условия использования. Для этого использована платформа vLLM — высокопроизводительная и оптимизированная система для развёртывания и обслуживания LLMs. Бенчмарк оценивает энергозатраты при различных моделях, архитектурах и нагрузках в реальных условиях. Он сосредоточен на измерении энергоэффективности в зависимости от размера модели, архитектуры, числа параллельных запросов и оптимизаций. #### Результаты На основе испытаний с различными моделями и конфигурациями было проведено подробное энергоэффективность. Нашлись отклонения в энергопотреблении моделей в зависимости от их архитектуры и размера. Также было показано, что влияние параллельных запросов на энергоресурсы может быть значительным. Выявлены оптимальные конфигурации моделей, которые обеспечивают лучшую энергоэффективность при работе в реальных условиях. #### Значимость Результаты могут быть применены в области разработки энергоэффективных языковых моделей и сервисов, позволяя разработчикам выбирать модели с лучшей энергоэффективностью. Данный подход может способствовать созданию более экологичных и энергосберегающих систем AI. Бенчмарк предоставляет возможность для разработчиков создавать модели, которые будут энергоэффективнее и стремятся к улучшению энергосбережения в сфере AI. #### Выводы Созданный LLM Efficiency Benchmark демонстрирует возможность создания более реалистичных инструментов для оценки энергоэффективности LLMs. Будущие исследования будут сфокусированы на расширении бенчмарка, включая учёт других факторов, таких как сетевые задержки, эффект многопоточности и многозадачности. Это может привести к ещё более строгой оценке энергоэффективности LLMs и к повышению уровня энергосбережения в их развёртывании.

Abstract

The prevalence of Large Language Models (LLMs) is having an growing impact on the climate due to the substantial energy required for their deployment and use. To create awareness for developers who are implementing LLMs in their products, there is a strong need to collect more information about the energy efficiency of LLMs. While existing research has evaluated the energy efficiency of various models, these benchmarks often fall short of representing realistic production scenarios. In this paper, we introduce the LLM Efficiency Benchmark, designed to simulate real-world usage conditions. Our benchmark utilizes vLLM, a high-throughput, production-ready LLM serving backend that optimizes model performance and efficiency. We examine how factors such as model size, architecture, and concurrent request volume affect inference energy efficiency. Our findings demonstrate that it is possible to create energy efficiency benchmarks that better reflect practical deployment conditions, providing valuable insights for developers aiming to build more sustainable AI systems.

Ссылки и действия