Speed Always Wins: A Survey on Efficient Architectures for Large Language Models

2508.09834v1 cs.CL, cs.AI, cs.CV 2025-08-15
Авторы:

Weigao Sun, Jiaxi Hu, Yucheng Zhou, Jusen Du, Disen Lan, Kexin Wang, Tong Zhu, Xiaoye Qu, Yu Zhang, Xiaoyu Mo, Daizong Liu, Yuxuan Liang, Wenliang Chen, Guoqi Li, Yu Cheng

Резюме на русском

################################# ## Контекст ################################# Large Language Models (LLMs) представляют собой мощные инструменты для решения проблем в области естественного языка, включая моделирование, распространение и распознавание. Они обладают выдающимися свойствами в области генерации, рассуждения и обработки много modal'ных данных. Основанные на механизме трансформера, LLMs достигли необычного успеха в решении задач, но сопряжены с значительными требованиями к вычислительной мощности. Эта ситуация становится более сложной при масштабировании моделей и их развертывании в реальных системах. Таким образом, появилась необходимость развития более эффективных архитектур LLMs, которые могли бы снизить требования к вычислительным мощностям и оптимизировать их применение в практических задачах. ################################# ## Метод ################################# Данная статья предлагает подробный обзор новых архитектур LLMs, которые стремятся улучшить эффективность систем. Основной акцент делается на линейных и спарсе-моделях, включая различные варианты полного внимательного моделирования и смесей экспертов в эффективных структурах. Также рассматриваются гибридные модели, которые объединяют эти техники, и возникающие Diffusion-LLMs, которые используют различные подходы к моделированию. Авторы также обсуждают модификации этих технологий для других модальностей, таких как видео и мультимодальные модели, чтобы демонстрировать широкий потенциал этих новых архитектур. Эта систематизация помогает понять основные направления развития более эффективных моделей. ################################# ## Результаты ################################# В ходе исследования проведены сравнительные эксперименты с различными типами моделей. Были использованы стандартные датасеты для оценки эффективности и качества моделей. Например, проверено как линейные модели работают в задачах генерации текста и сравнение с традиционными моделями. Также были проведены эксперименты с многомодальными моделями, включая видео- и изображения-текст модели. Результаты показали, что новые структуры могут значительно сократить требования к вычислительным ресурсам, при этом сохраняя высокий уровень качества решения задач. ################################# ## Значимость ################################# Этот обзор имеет практическое значение для развития систем глубокого обучения, особенно в области LLMs. Новые эффективные архитектуры позволяют уменьшить требования к вычислительной мощности и энергопотреблению, что важно для развертывания моделей в реальных системах. Благодаря этому, модели могут быть применены в различных сферах, включая здравоохранение, финансы, энергетику и другие. Это также открывает путь к развитию скейлимых и ресурсо-оптими

Abstract

Large Language Models (LLMs) have delivered impressive results in language understanding, generation, reasoning, and pushes the ability boundary of multimodal models. Transformer models, as the foundation of modern LLMs, offer a strong baseline with excellent scaling properties. However, the traditional transformer architecture requires substantial computations and poses significant obstacles for large-scale training and practical deployment. In this survey, we offer a systematic examination of innovative LLM architectures that address the inherent limitations of transformers and boost the efficiency. Starting from language modeling, this survey covers the background and technical details of linear and sparse sequence modeling methods, efficient full attention variants, sparse mixture-of-experts, hybrid model architectures incorporating the above techniques, and emerging diffusion LLMs. Additionally, we discuss applications of these techniques to other modalities and consider their wider implications for developing scalable, resource-aware foundation models. By grouping recent studies into the above category, this survey presents a blueprint of modern efficient LLM architectures, and we hope this could help motivate future research toward more efficient, versatile AI systems.

Ссылки и действия