Energy-Aware Code Generation with LLMs: Benchmarking Small vs. Large Language Models for Sustainable AI Programming
2508.08332v1
cs.SE, cs.AI
2025-08-14
Авторы:
Humza Ashraf, Syed Muhammad Danish, Aris Leivadeas, Yazan Otoum, Zeeshan Sattar
Резюме на русском
#### Контекст
Проблема с высоким энергопотреблением и высокими уровнями углеродных пушек, связанных с использованием крупных языковых моделей (LLMs), приобретает все больший значение в условиях роста искусственного интеллекта (AI). Эти модели, необходимые для решения повседневных задач, включая генерацию кода, требуют значительных вычислительных ресурсов, что приводит к высоким энергозатратам и значительным уровням коррозии. Недавние исследования показали, что эти затраты могут быть существенно сокращены без существенного ущерба к качеству решений, если применять эффективные модели. В этом исследовании мы будем исследовать возможности малых языковых моделей (SLMs), которые отличаются энергоэффективностью и меньшим размером, для решения задач генерации кода.
#### Метод
Мы проводили эксперимент с 150 задачами на генерацию кода, взятыми из LeetCode. Эти задачи были разделены на три уровня сложности: легкие, средние и тяжелые. Мы сравнили подходы, используя три модели SLMs (StableCode-3B, StarCoderBase-3B, Qwen2.5-Coder-3B-Instruct) и две крупных LLMs (GPT-4.0 и DeepSeek-Reasoner). Модели были оцениваемы по четырём ключевым критериям: корректности решения, времени выполнения, использованию памяти и энергопотреблению. Были также использованы решения, написанные людьми, в качестве базовых стандартов для оценки качества и эффективности решений.
#### Результаты
Наши результаты показывают, что LLMs превосходят SLMs в точности решений на всех уровнях сложности, однако SLMs показали более эффективное использование энергии. В 52% случаев SLMs потребляли меньше или столько же энергии, чем LLMs. Это подтвердило, что SLMs могут быть эффективными альтернативами LLMs для решения простых и средних задач генерации кода, при этом сохраняя приемлемую точность.
#### Значимость
Наши результаты демонстрируют, что SLMs могут использоваться во многих сценариях, где необходима энергоэффективность без потери на достоверности решений. Это открывает новые пути для применения энергоэффективных моделей в сфере AI, в том числе для разработки программных решений, где энергопотребление и уровень коррозии являются важными факторами. Эти модели могут стать ключевым инструментом для создания экологически продуктивных AI-решений.
#### Выводы
Мы подтвердили, что SLMs могут достигать точности решений LLMs при значительном энергоэффективном преимуществе. Необходимы большие исследования, чтобы расширить область применения этих моделей и оптимизировать их для более сложных задач. Будущие исследования должны ориентироваться на развитие более эффективных методов, чтобы по
Abstract
Large Language Models (LLMs) are widely used for code generation. However,
commercial models like ChatGPT require significant computing power, which leads
to high energy use and carbon emissions. This has raised concerns about their
environmental impact. In this study, we evaluate open-source Small Language
Models (SLMs) trained explicitly for code generation and compare their
performance and energy efficiency against large LLMs and efficient
human-written Python code. The goal is to investigate whether SLMs can match
the performance of LLMs on certain types of programming problems while
producing more energy-efficient code. We evaluate 150 coding problems from
LeetCode, evenly distributed across three difficulty levels: easy, medium, and
hard. Our comparison includes three small open-source models, StableCode-3B,
StarCoderBase-3B, and Qwen2.5-Coder-3B-Instruct, and two large commercial
models, GPT-4.0 and DeepSeek-Reasoner. The generated code is evaluated using
four key metrics: run-time, memory usage, energy consumption, and correctness.
We use human-written solutions as a baseline to assess the quality and
efficiency of the model-generated code. Results indicate that LLMs achieve the
highest correctness across all difficulty levels, but SLMs are often more
energy-efficient when their outputs are correct. In over 52% of the evaluated
problems, SLMs consumed the same or less energy than LLMs.
Ссылки и действия
Дополнительные ресурсы: