📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 GPT-OSS-20B: A Comprehensive Deployment-Centric Analysis of OpenAI's Open-Weight Mixture of Experts Model

2025-08-27

Авторы:

Deepak Kumar, Divakar Yadav, Yash Patel

#### Контекст Современные модели глубокого обучения, особенно в области естественного языка, набирают все большую популярность в силу их приложений в различных сферах. Однако существуют значительные проблемы с эффективностью использования ресурсов, включая вычислительные мощности и энергию. Одним из ключевых аспектов является необходимость оптимизировать модели для более эффективного их использования в реальном мире. Одним из таких подходов является использование микса экспертов (Mixture of Experts, MoE), который позволяет уменьшить число неактивных параметров модели, сохраняя высокую эффективность вывода. В этом исследовании анализируется GPT-OSS-20B, модель с архитектурой MoE, которая стремится обеспечить высокую эффективность с помощью активного управления параметрами. #### Метод Для оценки эффективности GPT-OSS-20B был проведен подробный эксперимент с использованием единственного GPU (H100) c технологией bf16. Методы оценки включали измерение true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM с использованием past key values (PKV), а также энергопотребление. Для сравнения использовались две другие модели: Qwen3-32B и Yi-34B. Эксперимент проводился с 2048-token контекстом и 64-token декодом. Особое внимание уделялось измерению тактов в секунду (TPOT), а также энергоэффективности модели. #### Результаты Результаты экспериментов показали, что GPT-OSS-20B достигает высокой эффективности в сравнении с двумя другими моделями. Она предоставляет более высокий TPOT (токенов в секунду) и токены на Джоуль (токены в 1000 токенов), что позволяет сократить энергопотребление. Хотя TTFT GPT-OSS-20B выше, это связано с перераспределением ресурсов в модели MoE. Также было измерено peak VRAM с использованием PKV, и выявлено, что GPT-OSS-20B потребляет 31.7% меньше VRAM, чем Qwen3-32B. Это позволяет модели использоваться на устройствах с более ограниченным объемом VRAM. #### Значимость Эффективность GPT-OSS-20B делает ее привлекательной для широкого спектра приложений, включая системы рекомендаций, беседы с пользователем и другие сценарии, где эффективность ресурсов критична. Нейронная сеть показала выгоду в том, что 17.3% активных параметров обеспечивают высокую эффективность в сравнении с более тяжелыми моделями. Это может привести к увеличению производительности и экономии ресурсов в различных деплоймент-центричных сценариях. #### Выводы GPT-OSS-20B, несмотря на свою молодость в качестве MoE-модели, показала выдающиеся результаты в эффективности и энергосбережении. Она обес

Annotation:

We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B (Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines Qwen3-32B and Yi-34B across multiple dimensions. We measure true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM with past key values (PKV) held, and energy via a consistent nvidia-smi-based sampler. At a 2048-token context with 64-token decode, GPT-OSS-20B delivers higher decode throughput and tokens p...

ID: 2508.16700v1 cs.AR, cs.AI, cs.DC, cs.PF

arXiv PDF