Hydra: A 1.6B-Parameter State-Space Language Model with Sparse Attention, Mixture-of-Experts, and Memory

2508.15099v1 cs.LG, cs.AI, stat.ML 2025-08-23
Авторы:

Siddharth Chaudhary, Bennett Browning

Резюме на русском

## Контекст Проблема долгого контекста в языковых моделях остается одной из основных сложностей в области глубокого обучения. Насколько показано в новостном стиле, текущие модели, такие как Transformer, сталкиваются с ограничениями в обработке длинных контекстов из-за высокой энергоемкости и памятных структур. Эти ограничения приводят к узкому фокусу на краткосрочные связи, что влечет за собой недостаточное понимание длинных структур текста. Одновременно, эффективные модели с участием множества экспертов (MoE) и хранением многомерных меморий (PKM) показали свою эффективность в обычных языковых задачах. Наша мотивация состоит в создании гибридной модели, которая объединяет эти элементы для единовременного решения проблем глубокого понимания текста и модульности в обработке длинных контекстов. ## Метод Мы предлагаем **Hydra**, новую 1.6B-параметровую языковую модель, которая комбинирует **Structured State Space Model (SSM)** для эффективной обработки текста с участием **sparse attention** и **mixture-of-experts (MoE)**. Модель делится на несколько модулей: **sparse global attention**, **chunk-level MoE feed-forward** и две типа памяти: **используемая для широкого контекста** и **специализированная для хранения фактических данных (factual data)**. Мы также предприняли шаг в добавлении **структурированного обучения** (curriculum learning) для управления сложностью модели в процессе тренировки. Эта архитектура предназначена для стабильного оптимизирования всех ее модулей и снятия технических ограничений, связанных с масштабированием языковых моделей. ## Результаты Мы провели эксперименты на **небольшом масштабе** (около 10 миллионов параметров) с синтетическими данными, чтобы проверить устойчивость и эффективность нашей архитектуры. Несмотря на то, что результаты на полном масштабе еще не подтверждены, эти исследования показали следующее: (1) Модель способна эффективно обрабатывать длинные контексты благодаря выделению спарсевого аутентичного внимания и кластеризации экспертов; (2) Двойное хранилище памяти позволяет модели сбалансированно использовать свое знание на синтезе длинных контекстов; (3) Модель показала модульность в масштабировании и контролируемую стабильность в течение тренировки. ## Значимость Модель Hydra открывает новые возможности в области глубокого понимания длинных текстов. Она может быть применена в различных областях, таких как **документный поиск**, **дата-майнинг** и **многоязычные модели**. Особенно важной является ее способность обрабатывать контексты длиной в тысячи токенов, что было бы невозможно для моделей с традиционной архитектурой. Это дает новые возможно

Abstract

We present Hydra as an architectural proposal for hybrid long-context language models that combine conditional computation, long-context memory mechanisms, and sparse mixture-of-experts within an approximately 1.6B parameter design envelope. Hydra integrates a Mamba-style Structured State Space Model (SSM) backbone with intermittent sparse global attention, chunk-level MoE feed-forward routing, and dual (workspace plus factual PKM) memories. We formalize the component interfaces, give transparent parameter and complexity accounting, and outline a staged curriculum intended to stably activate the parts. We accompany the specification with illustrative toy-scale prototype measurements (tens of millions of parameters on synthetic data) whose sole purpose is to demonstrate implementation feasibility and qualitative scaling behaviors (for example, long-context throughput crossover and controllable expert routing), not to claim competitive full-scale performance. We explicitly delineate assumptions and open risks (training complexity, memory utilization, specialization dynamics) and position Hydra as a blueprint to stimulate empirical follow-up rather than a finished system. By combining SSM efficiency, selective sparse attention, MoE capacity, and learnable memory, Hydra sketches a path toward modular, input-adaptive long-context language models; validating end-task gains at target scale remains future work.

Ссылки и действия