L-SR1: Learned Symmetric-Rank-One Preconditioning

2508.12270v1 cs.LG, cs.CV 2025-08-19

Авторы:

Gal Lifshitz, Shahar Zuler, Ori Fouks, Dan Raviv

Резюме на русском

#### Контекст Область ускорения и оптимизации вычислительных процессов постоянно растет в значимости с ростом сложности приложений и требований к производительности. Многие методы оптимизации, основанные на классических алгоритмах, хотя и эффективны в определенных сценариях, часто страдают от медленного схода к решению. Это особенно актуально для задач, требующих быстрого и точного решения, например, в области машинного обучения и глубоких нейросетей. Улучшение этих методов требует внедрения новых подходов, которые объединяли бы эффективность классических стратегий с гибкостью глубокого обучения. В этом контексте возникает необходимость в разработке усовершенствованных оптимизационных методов, которые могли бы обладать свойствами простоты, точности и быстроты. #### Метод Мы предлагаем **L-SR1** — новый алгоритм оптимизации, который интегрирует классическую симметрично-ранговую однородную методику (Symmetric-Rank-One, SR1) с технологиями глубокого обучения. Основной инновационный момент заключается в разработке **trainable preconditioning unit**, которая генерирует данно-зависимые вектора для построения положительно полуопределенных матриц ранга один. Эти матрицы строятся в соответствии с секантным ограничением, реализованным через проекционную структуру, научно обоснованную и адаптированную для глубоких нейросетей. Метод широко использует возможности нейронных сетей для гибкой подстройки параметров, что позволяет повысить точность и быстроту работы. Модель легковесна и не требует дополнительных данных или применения тюнинга, что делает ее привлекательной для интеграции в различные оптимизационные рамки. #### Результаты Для оценки L-SR1 проводились аналитические эксперименты, а также проведено исследование на реальной задаче **Monocular Human Mesh Recovery (HMR)**. Наши результаты показали, что L-SR1 превосходит другие уже существующие методы ускорения оптимизации, особенно в скорости схода и точности решений. Оценка показала, что алгоритм хорошо устойчив к изменениям в данных и может быть эффективно применен в различных задачах оптимизации. Его легковесность и универсальность открывают возможности использования в различных областях, где необходима быстрая и точная оптимизация. #### Значимость Предлагаемый подход имеет широкое применение в области машинного обучения, глубокого обучения и задач оптимизации, где требуется эффективность и быстрый сход к решению. Особенно выгодно использовать L-SR1 в случаях, когда требуется легковесная модель, которая не требует дополнительных данных для обучения. Это дает возможность ускорять работу не только в машинном обучении, но и в дру

Abstract

End-to-end deep learning has achieved impressive results but remains limited by its reliance on large labeled datasets, poor generalization to unseen scenarios, and growing computational demands. In contrast, classical optimization methods are data-efficient and lightweight but often suffer from slow convergence. While learned optimizers offer a promising fusion of both worlds, most focus on first-order methods, leaving learned second-order approaches largely unexplored. We propose a novel learned second-order optimizer that introduces a trainable preconditioning unit to enhance the classical Symmetric-Rank-One (SR1) algorithm. This unit generates data-driven vectors used to construct positive semi-definite rank-one matrices, aligned with the secant constraint via a learned projection. Our method is evaluated through analytic experiments and on the real-world task of Monocular Human Mesh Recovery (HMR), where it outperforms existing learned optimization-based approaches. Featuring a lightweight model and requiring no annotated data or fine-tuning, our approach offers strong generalization and is well-suited for integration into broader optimization-based frameworks.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

L-SR1: Learned Symmetric-Rank-One Preconditioning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Studying Various Activation Functions and Non-IID Data for Machine Learning Mode...

Feature Engineering vs. Deep Learning for Automated Coin Grading: A Comparative ...

Rethinking Decoupled Knowledge Distillation: A Predictive Distribution Perspecti...

Value Gradient Guidance for Flow Matching Alignment

Efficient Training of Diffusion Mixture-of-Experts Models: A Practical Recipe

Навигация