GPT-OSS-20B: A Comprehensive Deployment-Centric Analysis of OpenAI's Open-Weight Mixture of Experts Model

2508.16700v1 cs.AR, cs.AI, cs.DC, cs.PF 2025-08-27
Авторы:

Deepak Kumar, Divakar Yadav, Yash Patel

Резюме на русском

#### Контекст Современные модели глубокого обучения, особенно в области естественного языка, набирают все большую популярность в силу их приложений в различных сферах. Однако существуют значительные проблемы с эффективностью использования ресурсов, включая вычислительные мощности и энергию. Одним из ключевых аспектов является необходимость оптимизировать модели для более эффективного их использования в реальном мире. Одним из таких подходов является использование микса экспертов (Mixture of Experts, MoE), который позволяет уменьшить число неактивных параметров модели, сохраняя высокую эффективность вывода. В этом исследовании анализируется GPT-OSS-20B, модель с архитектурой MoE, которая стремится обеспечить высокую эффективность с помощью активного управления параметрами. #### Метод Для оценки эффективности GPT-OSS-20B был проведен подробный эксперимент с использованием единственного GPU (H100) c технологией bf16. Методы оценки включали измерение true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM с использованием past key values (PKV), а также энергопотребление. Для сравнения использовались две другие модели: Qwen3-32B и Yi-34B. Эксперимент проводился с 2048-token контекстом и 64-token декодом. Особое внимание уделялось измерению тактов в секунду (TPOT), а также энергоэффективности модели. #### Результаты Результаты экспериментов показали, что GPT-OSS-20B достигает высокой эффективности в сравнении с двумя другими моделями. Она предоставляет более высокий TPOT (токенов в секунду) и токены на Джоуль (токены в 1000 токенов), что позволяет сократить энергопотребление. Хотя TTFT GPT-OSS-20B выше, это связано с перераспределением ресурсов в модели MoE. Также было измерено peak VRAM с использованием PKV, и выявлено, что GPT-OSS-20B потребляет 31.7% меньше VRAM, чем Qwen3-32B. Это позволяет модели использоваться на устройствах с более ограниченным объемом VRAM. #### Значимость Эффективность GPT-OSS-20B делает ее привлекательной для широкого спектра приложений, включая системы рекомендаций, беседы с пользователем и другие сценарии, где эффективность ресурсов критична. Нейронная сеть показала выгоду в том, что 17.3% активных параметров обеспечивают высокую эффективность в сравнении с более тяжелыми моделями. Это может привести к увеличению производительности и экономии ресурсов в различных деплоймент-центричных сценариях. #### Выводы GPT-OSS-20B, несмотря на свою молодость в качестве MoE-модели, показала выдающиеся результаты в эффективности и энергосбережении. Она обес

Abstract

We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines Qwen3-32B and Yi-34B across multiple dimensions. We measure true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM with past key values (PKV) held, and energy via a consistent nvidia-smi-based sampler. At a 2048-token context with 64-token decode, GPT-OSS-20B delivers higher decode throughput and tokens per Joule than dense baselines Qwen3-32B and Yi-34B, while substantially reducing peak VRAM and energy per 1000 generated tokens; its TTFT is higher due to MoE routing overhead. With only 17.3% of parameters active (3.61B of 20.9B), GPT-OSS-20B provides about 31.8% higher decode throughput and 25.8% lower energy per 1000 generated tokens than Qwen3-32B at 2048/64, while using 31.7% less peak VRAM. Normalized by active parameters, GPT-OSS-20B shows markedly stronger per-active-parameter efficiency (APE), underscoring MoE's deployment advantages. We do not evaluate accuracy; this is a deployment-focused study. We release code and consolidated results to enable replication and extension.

Ссылки и действия