📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Deepak Kumar, Divakar Yadav, Yash Patel
#### Контекст
Современные модели глубокого обучения, особенно в области естественного языка, набирают все большую популярность в силу их приложений в различных сферах. Однако существуют значительные проблемы с эффективностью использования ресурсов, включая вычислительные мощности и энергию. Одним из ключевых аспектов является необходимость оптимизировать модели для более эффективного их использования в реальном мире. Одним из таких подходов является использование микса экспертов (Mixture of Experts, MoE), который позволяет уменьшить число неактивных параметров модели, сохраняя высокую эффективность вывода. В этом исследовании анализируется GPT-OSS-20B, модель с архитектурой MoE, которая стремится обеспечить высокую эффективность с помощью активного управления параметрами.
#### Метод
Для оценки эффективности GPT-OSS-20B был проведен подробный эксперимент с использованием единственного GPU (H100) c технологией bf16. Методы оценки включали измерение true time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency percentiles, peak VRAM с использованием past key values (PKV), а также энергопотребление. Для сравнения использовались две другие модели: Qwen3-32B и Yi-34B. Эксперимент проводился с 2048-token контекстом и 64-token декодом. Особое внимание уделялось измерению тактов в секунду (TPOT), а также энергоэффективности модели.
#### Результаты
Результаты экспериментов показали, что GPT-OSS-20B достигает высокой эффективности в сравнении с двумя другими моделями. Она предоставляет более высокий TPOT (токенов в секунду) и токены на Джоуль (токены в 1000 токенов), что позволяет сократить энергопотребление. Хотя TTFT GPT-OSS-20B выше, это связано с перераспределением ресурсов в модели MoE. Также было измерено peak VRAM с использованием PKV, и выявлено, что GPT-OSS-20B потребляет 31.7% меньше VRAM, чем Qwen3-32B. Это позволяет модели использоваться на устройствах с более ограниченным объемом VRAM.
#### Значимость
Эффективность GPT-OSS-20B делает ее привлекательной для широкого спектра приложений, включая системы рекомендаций, беседы с пользователем и другие сценарии, где эффективность ресурсов критична. Нейронная сеть показала выгоду в том, что 17.3% активных параметров обеспечивают высокую эффективность в сравнении с более тяжелыми моделями. Это может привести к увеличению производительности и экономии ресурсов в различных деплоймент-центричных сценариях.
#### Выводы
GPT-OSS-20B, несмотря на свою молодость в качестве MoE-модели, показала выдающиеся результаты в эффективности и энергосбережении. Она обес
Annotation:
We present a single-GPU (H100, bf16) evaluation of GPT-OSS-20B
(Mixture-of-Experts; 20.9B total, approx. 3.61B active) against dense baselines
Qwen3-32B and Yi-34B across multiple dimensions. We measure true
time-to-first-token (TTFT), full-decode throughput (TPOT), end-to-end latency
percentiles, peak VRAM with past key values (PKV) held, and energy via a
consistent nvidia-smi-based sampler. At a 2048-token context with 64-token
decode, GPT-OSS-20B delivers higher decode throughput and tokens p...