Reversible Deep Equilibrium Models

2509.12917v1 cs.LG, stat.ML 2025-09-18
Авторы:

Sam McCallum, Kamran Arora, James Foster

Резюме на русском

#### Контекст Углубленные нейронные сети (DNNs) становятся важной частью многих задач машинного обучения. Однако существуют проблемы, связанные с многоступенчатостью этих моделей. Большой объем параметров и необходимость в больших объемах данных могут привести к высоким затратам на ресурсы и время. Deep Equilibrium Models (DEQs) представляют собой интересный класс неявных моделей. В DEQs выход модели определяется как фиксированная точка любимой функции. Эти модели показали себя лучше чем традиционные модели с фиксированным количеством слоёв, в том числе в задачах обработки текста и распознавания изображений. Однако одним из ограничений DEQs является неточность вычисления производных (градиентов), что приводит к нестабильности в обучении и требует дополнительных мер регуляризации или множества вычислений. #### Метод Мы предлагаем Reversible Deep Equilibrium Models (RevDEQs), чтобы решить эти проблемы. RevDEQs используют реversible-динамику, что позволяет вычислять градиенты с точностью, не требуя дополнительных регуляризаторов и многих вычислений. Эта модель использует хорошо известный метод Ляпунова для обратных процессов. RevDEQs являются оптимизированными и могут работать с меньшим количеством итераций. Мы применяем RevDEQs к задачам глубокого обучения, включая моделирование языка и классификацию изображений. #### Результаты Мы проводили эксперименты на важной выборке данных для тестирования моделей, включая обучение на больших текстовых корпусах и изображениях. Мы сравнивали RevDEQs с двумя типами моделей: дебилитированными современными моделями DEQs и стандартными моделями с фиксированным количеством слоёв. Результаты показали, что RevDEQs достигают лучшего результата в задаче ловли языка и распознавания изображений, чем DEQs. Даже при меньшем количестве итераций RevDEQs достигают более высокой точности. #### Значимость RevDEQs могут быть применены в различных областях, таких как обработка текста, глубокое обучение и анализ изображений. Они обеспечивают более точные результаты с меньшими затратами на ресурсы, что делает их более эффективными. Эта модель также позволяет уменьшить время обучения и требования к количеству вычислений. У RevDEQs есть потенциал для расширения текущих моделей в широких сферах применения, включая медицину, автоматизацию и банковскую сферу. #### Выводы RevDEQs достигают наилучших результатов в обучении нейронных сетей, демонстрируя свою эффективность и точность. Однако потребуется дополнительная работа над улучшением производительности и увеличением скорости вычислений. Будущие исследования будут фокусироваться на улучшении RevDEQs для задач с высоки

Abstract

Deep Equilibrium Models (DEQs) are an interesting class of implicit model where the model output is implicitly defined as the fixed point of a learned function. These models have been shown to outperform explicit (fixed-depth) models in large-scale tasks by trading many deep layers for a single layer that is iterated many times. However, gradient calculation through DEQs is approximate. This often leads to unstable training dynamics and requires regularisation or many function evaluations to fix. Here, we introduce Reversible Deep Equilibrium Models (RevDEQs) that allow for exact gradient calculation, no regularisation and far fewer function evaluations than DEQs. We show that RevDEQs achieve state-of-the-art performance on language modelling and image classification tasks against comparable implicit and explicit models.

Ссылки и действия