Dynamic Reasoning Chains through Depth-Specialized Mixture-of-Experts in Transformer Architectures
2509.20577v1
cs.CL, cs.AI, cs.IR
2025-09-26
Авторы:
Sampurna Roy, Ayan Sar, Anurag Kaushish, Kanav Gupta, Tanupriya Choudhury, Abhijit Kumar
Резюме на русском
## Контекст
В современных transformer-архитектурах существует проблема одинакового обработки всех входных данных одинаковой глубиной. Это приводит к неэффективности и ограниченной качеством рассуждений. Например, простые фактические запросы обрабатываются с тем же количеством слоев, что и сложные логические проблемы, что тратит ресурсы и сужает возможности для глубокого рассуждения. Этот недостаток особенно заметен при многошаговых рассуждениях, где традиционные модели часто сталкиваются с ограничениями в скорости и качестве обработки. Мы предлагаем новую модель, основанную на концепции **Dynamic Reasoning Chains** (Динамические цепи рассуждений), которая расширяет парадигму **Mixture of Experts (Микса экспертов)** с ширины вычислений к модульному depth-специализированному подходу.
## Метод
Мы представляем **Depth-Specialised Mixture-of-Experts (DS-MoE)** — модель, которая расширяет парадигму Mixture of Experts, добавив модульную структуру, оптимизированную для различных уровней глубины рассуждений. Модель состоит из экспертных модулей, каждый из которых оптимизирован для конкретной глубины рассуждения, включая:
- **Shallow pattern recognition** (Распознавание простых узких участков)
- **Compositional reasoning** (Композиционное рассуждение)
- **Logical inference** (Логическое выводение)
- **Memory integration** (Интеграция памяти)
- **Meta-cognitive supervision** (Мета-регулирование)
Ключевым элементом является **learned routing network** (сеть управления), которая анализирует входную сложность и динамически активирует только необходимые эксперты, чтобы соответствовать требованиям входных данных. Мы использовали датасет **The Pile**, состоящий из 800 Гб данных различных доменов (научные статьи, правовые документы, программный код, веб-контент), для систематической оценки модели на различных уровнях глубины рассуждения.
## Результаты
Мы проводили подробные эксперименты, сравнивая DS-MoE с традиционными uniform-depth transformer-архитектурами. Наши результаты показали, что DS-MoE обеспечивает:
- **Экономию ресурсов** — до 16% в вычислительных затратах
- **Ускорение** — до 35% быстрее в процессе обработки
- **Повышение точности** — до 2.8% на многошаговых задачах рассуждения
Эти результаты доказывают, что depth-специализированная модульная структура позволяет не только экономить ресурсы, но и улучшать качество рассуждений, в то же время обеспечивая более транспарентную интерпретацию результатов.
## Значимость
Мы видим применение DS-MoE в области **large-scale language models**, где требуется эффективность и качество рассуждений. Модель может быть применена в следующих областях:
- **Scientific reasoning** (Рассуждения в научных сферах)
- **Legal text analysis** (Ана
Abstract
Contemporary transformer architectures apply identical processing depth to
all inputs, creating inefficiencies and limiting reasoning quality. Simple
factual queries are subjected to the same multilayered computation as complex
logical problems, wasting resources while constraining deep inference. To
overcome this, we came up with a concept of Dynamic Reasoning Chains through
Depth Specialised Mixture of Experts (DS-MoE), a modular framework that extends
the Mixture of Experts paradigm from width-based to depth specialised
computation. DS-MoE introduces expert modules optimised for distinct reasoning
depths, shallow pattern recognition, compositional reasoning, logical
inference, memory integration, and meta-cognitive supervision. A learned
routing network dynamically assembles custom reasoning chains, activating only
the necessary experts to match input complexity. The dataset on which we
trained and evaluated DS-MoE is on The Pile, an 800GB corpus covering diverse
domains such as scientific papers, legal texts, programming code, and web
content, enabling systematic assessment across reasoning depths. Experimental
results demonstrate that DS-MoE achieves up to 16 per cent computational
savings and 35 per cent faster inference compared to uniform-depth
transformers, while delivering 2.8 per cent higher accuracy on complex
multi-step reasoning benchmarks. Furthermore, routing decisions yield
interpretable reasoning chains, enhancing transparency and scalability. These
findings establish DS-MoE as a significant advancement in adaptive neural
architectures, demonstrating that depth-specialised modular processing can
simultaneously improve efficiency, reasoning quality, and interpretability in
large-scale language models.
Ссылки и действия
Дополнительные ресурсы: