Dynamic Reasoning Chains through Depth-Specialized Mixture-of-Experts in Transformer Architectures

2509.20577v1 cs.CL, cs.AI, cs.IR 2025-09-26
Авторы:

Sampurna Roy, Ayan Sar, Anurag Kaushish, Kanav Gupta, Tanupriya Choudhury, Abhijit Kumar

Резюме на русском

## Контекст В современных transformer-архитектурах существует проблема одинакового обработки всех входных данных одинаковой глубиной. Это приводит к неэффективности и ограниченной качеством рассуждений. Например, простые фактические запросы обрабатываются с тем же количеством слоев, что и сложные логические проблемы, что тратит ресурсы и сужает возможности для глубокого рассуждения. Этот недостаток особенно заметен при многошаговых рассуждениях, где традиционные модели часто сталкиваются с ограничениями в скорости и качестве обработки. Мы предлагаем новую модель, основанную на концепции **Dynamic Reasoning Chains** (Динамические цепи рассуждений), которая расширяет парадигму **Mixture of Experts (Микса экспертов)** с ширины вычислений к модульному depth-специализированному подходу. ## Метод Мы представляем **Depth-Specialised Mixture-of-Experts (DS-MoE)** — модель, которая расширяет парадигму Mixture of Experts, добавив модульную структуру, оптимизированную для различных уровней глубины рассуждений. Модель состоит из экспертных модулей, каждый из которых оптимизирован для конкретной глубины рассуждения, включая: - **Shallow pattern recognition** (Распознавание простых узких участков) - **Compositional reasoning** (Композиционное рассуждение) - **Logical inference** (Логическое выводение) - **Memory integration** (Интеграция памяти) - **Meta-cognitive supervision** (Мета-регулирование) Ключевым элементом является **learned routing network** (сеть управления), которая анализирует входную сложность и динамически активирует только необходимые эксперты, чтобы соответствовать требованиям входных данных. Мы использовали датасет **The Pile**, состоящий из 800 Гб данных различных доменов (научные статьи, правовые документы, программный код, веб-контент), для систематической оценки модели на различных уровнях глубины рассуждения. ## Результаты Мы проводили подробные эксперименты, сравнивая DS-MoE с традиционными uniform-depth transformer-архитектурами. Наши результаты показали, что DS-MoE обеспечивает: - **Экономию ресурсов** — до 16% в вычислительных затратах - **Ускорение** — до 35% быстрее в процессе обработки - **Повышение точности** — до 2.8% на многошаговых задачах рассуждения Эти результаты доказывают, что depth-специализированная модульная структура позволяет не только экономить ресурсы, но и улучшать качество рассуждений, в то же время обеспечивая более транспарентную интерпретацию результатов. ## Значимость Мы видим применение DS-MoE в области **large-scale language models**, где требуется эффективность и качество рассуждений. Модель может быть применена в следующих областях: - **Scientific reasoning** (Рассуждения в научных сферах) - **Legal text analysis** (Ана

Abstract

Contemporary transformer architectures apply identical processing depth to all inputs, creating inefficiencies and limiting reasoning quality. Simple factual queries are subjected to the same multilayered computation as complex logical problems, wasting resources while constraining deep inference. To overcome this, we came up with a concept of Dynamic Reasoning Chains through Depth Specialised Mixture of Experts (DS-MoE), a modular framework that extends the Mixture of Experts paradigm from width-based to depth specialised computation. DS-MoE introduces expert modules optimised for distinct reasoning depths, shallow pattern recognition, compositional reasoning, logical inference, memory integration, and meta-cognitive supervision. A learned routing network dynamically assembles custom reasoning chains, activating only the necessary experts to match input complexity. The dataset on which we trained and evaluated DS-MoE is on The Pile, an 800GB corpus covering diverse domains such as scientific papers, legal texts, programming code, and web content, enabling systematic assessment across reasoning depths. Experimental results demonstrate that DS-MoE achieves up to 16 per cent computational savings and 35 per cent faster inference compared to uniform-depth transformers, while delivering 2.8 per cent higher accuracy on complex multi-step reasoning benchmarks. Furthermore, routing decisions yield interpretable reasoning chains, enhancing transparency and scalability. These findings establish DS-MoE as a significant advancement in adaptive neural architectures, demonstrating that depth-specialised modular processing can simultaneously improve efficiency, reasoning quality, and interpretability in large-scale language models.

Ссылки и действия