📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Alexandros Ntagkas, Constantinos Tsakonas, Chairi Kiourt, Konstantinos Chatzilygeroudis

## Контекст Исследование 3D-ориентаций во многих областях, включая робототехнику и автоматизацию, является ключевым элементом для решения задач, в которых необходимо учитывать состояние инерции объектов или динамические процессы. Однако существует множество способов представления таких ориентаций, каждый из которых имеет определенные ограничения и уникальные особенности. Выбор наиболее подходящего представления для конкретной задачи часто представляет собой трудное задание, и существуют противоречивые мнения о том, какое представление лучше подходит для конкретной области задач. Даже более сложная ситуация возникает при работе с задачами, где требуется учитывать ориентации как входные, так и выходные параметры при обучении или оптимизации. В данной работе мы стремимся создать полный и унифицированный обзор всех доступных представлений 3D-ориентаций, включая технические решения и математические алгоритмы, и оценить их эффективность в практических сценариях. ## Метод Мы применяем универсальную методологию для изучения и сравнения представлений 3D-ориентаций в различных сценариях. Наши эксперименты охватывают 4 ключевых области: 1) **оптимизация напрямую**, где мы используем оптимизационные методы для нахождения решений в пространстве 3D-ориентаций; 2) **имитационное или супервизированное обучение с нейронным контроллером**, где мы обучаем модели, которые могут копировать или улучшать поведение в задачах с ориентациями; 3) **рекорд-ориентированное обучение с подкреплением**, где система учится взаимодействовать с окружением, оптимизируя поведение в задачах с ориентациями; 4) **дифференциальная динамическая оптимизация**, где мы использваем методы оптимизации, основанные на динамических моделях. Для каждого сценария мы используем различные математические представления, включая векторы, матрицы, комплексные числа и тензоры, а также методы алгебры Lie-групп. Эти методы позволяют более точно анализировать и сравнивать эффективность разных подходов. ## Результаты Выполнены сравнительные эксперименты, используя различные методы и представления 3D-ориентаций в реальных задачах. Мы экспериментировали с различными сценариями: изучение оптимальных путей, управление роботами в трехмерном пространстве и оптимизацию динамических систем. Наши результаты показали, что некоторые представления ориентаций дают более точные и быстрые результаты в зависимости от конкретной задачи. Например, в случае имитационного обучения нейронных сетей, представление в виде матриц оказалось более эффективным, в то время как в задачах оптими
Annotation:
There exist numerous ways of representing 3D orientations. Each representation has both limitations and unique features. Choosing the best representation for one task is often a difficult chore, and there exist conflicting opinions on which representation is better suited for a set of family of tasks. Even worse, when dealing with scenarios where we need to learn or optimize functions with orientations as inputs and/or outputs, the set of possibilities (representations, loss functions, etc.) is ...
ID: 2509.17274v1 cs.RO, cs.LG, math.OC
Авторы:

Andrea Agazzi, Vittorio Carlei, Marco Romito, Samuele Saviozzi

#### Контекст Глобальная оптимизация, особенно для неконвексных функций с множеством локальных минимумов, представляет собой значительную сложность для традиционных градиентно-спусковых методов. Другие подходы, такие как мета-урбанистические, демонстрируют эмпирическую эффективность, однако часто не обладают теоретическими гарантиями конвергенции и могут игнорировать доступную информацию о градиенте. Данная работа предлагает новое градиентно-стохастическое методическое решение, ориентированное на эффективное избегание локальных минимумов и нахождение глобальных оптимумов, с использованием сильно концентрированных теорий и математических моделей. #### Метод Авторы предлагают методику, основанную на аппроксимации минимума с помощью "Soft-min Energy", разработанную для участников в задаче партикл-сворма. Эта функция $J_\beta(\mathbf{x})$ представляет собой гладкое, дифференцируемое приближение минимального значения внутри партикл-сворма. На основе этого, авторы определяют стохастический градиентный процесс, включающий термин Брауновского движения для эксплорения пространства решений и временной параметр $\beta$, который регулирует гладкость и эффективность оптимизации (подобно температурной аннелингу). Теоретический анализ показывает, что для сильно конвексных функций, динамика стохастического процесса сходится к стационарной точке, в которой хотя бы один партикл достигает глобального минимума, в то время как другие партиклы стреляют в пространстве для поиска новых минимумов. #### Результаты Эксперименты на основе классических функций оптимизации, таких как двойные потенциалы и функции Акли, показали, что метод превосходит Simulated Annealing в своей способности быстро сбрасывать локальные минимумы и достигать глобального минимума. Авторы также включили расчеты времени попадания в необнаруженные потенциалы в условиях малого шума, демонстрируя неоднозначные преимущества своего подхода по сравнению с Overdamped Langevin динамикой. #### Значимость Предлагаемый подход может быть применен в широкой области задач, где требуется эффективное решение глобальных оптимизационных задач, в том числе в физике, биологии, инженерии и машинном обучении. Он предоставляет новые возможности для эффективного эксплуатации градиентной информации и улучшения скорости конвергенции. Благодаря обобщению техник аннелинга, становится возможным более точно управлять гладкостью и эффективностью оптимизационного процесса. #### Выводы Основными достижениями являются разрабо
Annotation:
Global optimization, particularly for non-convex functions with multiple local minima, poses significant challenges for traditional gradient-based methods. While metaheuristic approaches offer empirical effectiveness, they often lack theoretical convergence guarantees and may disregard available gradient information. This paper introduces a novel gradient-based swarm particle optimization method designed to efficiently escape local minima and locate global optima. Our approach leverages a "Soft-...
ID: 2509.17815v1 cs.LG, math.OC
Авторы:

Erkan Bayram, Mohamed-Ali Belabbas, Tamer Başar

## Контекст Основной концепцией данной работы является развитие методологии, позволяющей улучшить способность моделей Neural ODEs (отличающихся особенностью моделирования нелинейных систем динамических связей) к резистентности внешним дистурбансам в управлении. Несмотря на высокую степень адаптивности таких моделей в построении динамических систем, они чувствительны к дискретным или непродолжительным изменениям в управляющих параметрах, что снижает их надежность в реальных условиях. Эта проблема становится ключевой в приложениях, где стабильность и точность операций критически важны, например, в авиационной технике, в системах управления внешними системами. Работа фокусируется на избавлении от этой чувствительности, одновременно сохраняя высокую точность моделирования. ## Метод Предлагаемая методология основывается на итеративном алгоритме обучения, строящемся на идее "Tuning without Forgetting". Основную инновацию является внедрение метода "минимакса" для решения задачи нелинейной оптимизации в пространстве параметров, что позволяет максимизировать устойчивость к дистурбансам. Здесь используется оптимизационный подход на основе проектированного градиентного спуска в выпуклом подпространстве, которое было расширено до бесконечномерного контрольного пространства. Это достигается путем решения задачи минимизации функционала с последовательным обновлением тренировочных точек. Такой подход позволяет модели Neural ODEs не только учиться новым данным, но и проявлять устойчивость к внешним дистурбансам. ## Результаты В процессе экспериментов использовались синтетические данные, а также реальности, описывающие динамические системы с внешними дистурбансами. Результаты показали, что модели Neural ODEs, обученные с использованием предложенного метода, обладают значительно более высокой точностью в моделировании динамических систем. Дополнительные эксперименты показали, что модели, оптимизированные на основе этого подхода, показали сильное улучшение в способности реагировать на внешние колебания в управляющих параметрах. Эти результаты подтверждают то, что модели становятся более стабильными и надежными в условиях повышенного динамического воздействия. ## Значимость Предложенный подход имеет широкие применения в различных областях, где управляющие сигналы чувствительны к дисторбансам. Например, в системах прогнозирования и управления внешними процессами, к примеру, в сетях энергетики, модели Neural ODEs становятся более устойчивыми к колебаниям. Это улучшает качество прогнозов и влияние на системы. Кроме того, модели, построенные с использованием этой мето
Annotation:
In this paper, we propose an iterative training algorithm for Neural ODEs that provides models resilient to control (parameter) disturbances. The method builds on our earlier work Tuning without Forgetting-and similarly introduces training points sequentially, and updates the parameters on new data within the space of parameters that do not decrease performance on the previously learned training points-with the key difference that, inspired by the concept of flat minima, we solve a minimax probl...
ID: 2509.18034v1 cs.LG, math.OC
Авторы:

Xiaochuan Gong, Jie Hao, Mingrui Liu

## Контекст Hierarchical optimization является важной областью в математической оптимизации, которая включает задачи с интер dependedными решаемыми переменными и целями. Например, в ней входят формализмы минимакса и билайвена. Несмотря на то, что существуют различные методы решения таких задач, их анализ и применение в стокастических оптимизационных ситуациях остаются недостаточно адаптивными. Наиболее близкие методы не могут достичь оптимальных скоростей сходимости в широком диапазоне уровней шума градиента без предварительного знания точного уровня этого шума. Наша мотивация заключается в разработке адаптивных методов, которые могут автоматически адаптироваться к разным уровням шума градиента, не требуя предварительных оценок. ## Метод Мы предлагаем два адаптивных алгоритма для решения двух классов задач стокастической гиерархической оптимизации: неконвексно-сильно-конковых задач минимакса и неконвексно-сильно-конвексных задач билайвена. Методы основываются на новых техниках, таких как нормализация моментов и адаптивные параметры. Они достигают оптимальных скоростей сходимости $\widetilde{O}(1/\sqrt{T} + \sqrt{\bar{\sigma}}/T^{1/4})$ за $T$ итераций, где $\bar{\sigma}$ обозначает верхнюю границу шума в градиентах. Эти алгоритмы автоматически адаптируются к разным уровням шума без дополнительных параметров или предварительных условий, обеспечивая эффективность в обоих низко- и высоковолновых режимах шума. Технические решения включают инновационные подходы к моделированию и адаптивному выбору параметров. ## Результаты Мы провели эксперименты на синтетических данных и задачах дигтального обучения. Наши результаты показали, что алгоритмы достигают желаемой скорости сходимости в $T$ итераций, а также демонстрируют хорошую эффективность в практических задачах. Общие результаты показывают, что наши методы эффективны в сравнении с существующими, а также могут автоматически адаптироваться к широкому диапазону уровней шума. Эксперименты подтвердили высокую эффективность и универсальность наших подходов. ## Значимость Наш процесс имеет многочисленные приложения в математической оптимизации, глубокому обучению и других областях, где используются задачи минимакса и билайвена. Наши результаты могут повлиять на разработку более эффективных методов решения интердепенентных задач, что может быть ключевым для развития моделей в стокастических средах. Особый потенциал открывается в применении к глубокому обучению, где намеренные шумы в градиентах являются типичными. ## Вы
Annotation:
Hierarchical optimization refers to problems with interdependent decision variables and objectives, such as minimax and bilevel formulations. While various algorithms have been proposed, existing methods and analyses lack adaptivity in stochastic optimization settings: they cannot achieve optimal convergence rates across a wide spectrum of gradient noise levels without prior knowledge of the noise magnitude. In this paper, we propose novel adaptive algorithms for two important classes of stochas...
ID: 2509.15399v1 cs.LG, math.OC
Авторы:

Ying Lin, Yao Kuang, Ahmet Alacaoglu, Michael P. Friedlander

## Контекст Распределенное оптимизационное моделирование широко применяется в области машинного обучения, сетевого взаимодействия и других аналогичных задачах. Однако существующие методы синхронизации часто оказываются неэффективными, особенно при многопроцессорной конфигурации. Наличие $n$ узлов, которые должны совместно решать задачу, может привести к невысокой скорости вычислений из-за необходимости полной синхронизации всех узлов. Это приводит к проблеме неоптимальности в ситуациях, когда узлы необходимо периодически обмениваться данными. Более того, многие существующие методы требуют, чтобы каждый узел оперировал всеми $m$ связями с другими узлами, что неэффективно в случае большого числа узлов. Таким образом, наличие структурной эффективности в методах синхронизации — это ключевая проблема, которую исследователи стараются решить. ## Метод Предлагаемый подход представляет собой новую методологию, основанную на рандомизации локальных операций для оптимизации. Основная идея заключается в том, что каждый узел выбирает одну задачу из $m$ возможных для решения, используя процедуру случайного выбора. Таким образом, каждый узел обменивается данными только с узлами, которые имеют схожие задачи. Это позволяет уменьшить число обменов сообщений между узлами. Более того, если для каждого узла выбрана задача из $S_j$, то взаимодействие происходит только с узлами, имеющими схожие задачи. Это позволяет моделировать такие ситуации, когда каждая задача зависит только от небольшого подмножества узлов. Этот подход может быть использован в ситуациях, когда регуляризаторы имеют граф-связанную структуру, и количество узлов в каждом регуляризаторе составляет два. Это уменьшает число обменов сообщений до минимального значения — только два сообщения на одну итерацию. ## Результаты На основании теоретических рассуждений и экспериментов показано, что данный подход эффективен как с точки зрения скорости вычислений, так и с точки зрения эффективности связи. Наборы данных, использованные в экспериментах, включали как синтетические, так и реальные данные. Таким образом, разработанный метод доказан как эффективный для различных задач, включая задачи синхронизации и оптимизации. Особенно он продемонстрировал высокую эффективность в ситуациях, когда количество узлов в системе достаточно велико, что позволяет получить результаты за меньшее количество итераций с меньшим количеством обмена сообщениями между узлами. ## Значимость Результаты этого исследования имеют большую значимость в области распределенных вычислений и
Annotation:
Distributed optimization requires nodes to coordinate, yet full synchronization scales poorly. When $n$ nodes collaborate through $m$ pairwise regularizers, standard methods demand $\mathcal{O}(m)$ communications per iteration. This paper proposes randomized local coordination: each node independently samples one regularizer uniformly and coordinates only with nodes sharing that term. This exploits partial separability, where each regularizer $G_j$ depends on a subset $S_j \subseteq \{1,\ldots,n...
ID: 2509.14488v1 cs.LG, math.OC, 90C25, 68T05, G.1.6; C.2.4; I.2.6; F.2.1
Авторы:

Feihu Huang, Yuning Luo, Songcan Chen

Название статьи: LiMuon: Light and Fast Muon Optimizer for Large Models ## Контекст Область исследования связана с эффективным обучением крупных моделей в искусственном интеллекте. Тренировка таких моделей требует больших вычислительных ресурсов и времени, что становится ключевым заданием в становящемся популярным подходе моделей матричной структуры. Несмотря на развитие оптимизаторов, таких как Muon, которые ориентированы на матричные параметры, существуют проблемы, такие как высокая стоимость выбора и необходимость большого объема памяти. Эти проблемы становятся особенно актуальными при обучении моделей типа GPT или ViT. Мы предлагаем LiMuon — усовершенствованную версию Muon, которая уменьшает объем памяти и ускоряет процесс обучения. ## Метод LiMuon основывается на методе моментум и рандомизированной технике разложения Singular Value Decomposition (SVD). Мы разработали уникальный подход, который уменьшает объем памяти и оптимизирует вычисления. Архитектура LiMuon включает уменьшенные аппроксимации SVD, которые эффективно обрабатывают матричные параметры больших моделей. Также мы применяем моментум для сохранения накопленной информации в процессе обучения, что улучшает сходимость и работу оптимизатора. ## Результаты Мы проверили эффективность LiMuon на моделях DistilGPT2 и ViT. Результаты превосходства показывают, что LiMuon потребляет меньше памяти и работает быстрее, чем Muon. Наши эксперименты доказывают, что LiMuon достигает эквивалентной точности с меньшим вычислительным временем и требуемым объемом памяти. Для подтверждения квантитативной эффективности, мы проверили LiMuon на разных уровнях сложности моделей, показав, что он получает $\epsilon$-стационарное решение за $O(\epsilon^{-3})$, даже при условии нестрогого smoothness. ## Значимость LiMuon может использоваться для обучения различных крупных моделей в искусственном интеллекте, включая модели типа GPT или ViT. Он предлагает более эффективное решение для обучения, особенно в случаях, когда высокая стоимость выбора или большие объемы памяти являются критичными. Это делает LiMuon привлекательным для применения в реальных сетевых моделях, таких как боLTS и LLMs. ## Выводы Мы представили LiMuon — новую версию Muon, которая сокращает объем памяти и улучшает производительность при обучении больших моделей. Доказаны теоретические гарантии сходимости, даже при нестрогом условии smoothness. Будущие исследования будут ориентированы на расширение LiMuon для других задач, таких как глубокое обучение, и исследовании его применения в сложных сетевых моделях.
Annotation:
Large models recently are widely applied in artificial intelligence, so efficient training of large models has received widespread attention. More recently, a useful Muon optimizer is specifically designed for matrix-structured parameters of large models. Although some works have begun to studying Muon optimizer, the existing Muon and its variants still suffer from high sample complexity or high memory for large models. To fill this gap, we propose a light and fast Muon (LiMuon) optimizer for tr...
ID: 2509.14562v1 cs.LG, math.OC
Авторы:

Minh Vu, Konstantinos Slavakis

#### Контекст Область исследования — онлайн-обучение с подкреплением (RL), которое используется для решения задач принятия решений в неизвестных или изменчивых окружениях. Существующие проблемы включают неэффективность в обработке разреженных данных и нехватку интерпретируемости моделей. Мотивация заключается в создании моделей RL, которые обеспечивают сбалансированность между эффективностью, сложностью и аккуратностью решений. Это необходимо для применения в задачах, требующих быстрого адаптации и минимального потребления ресурсов. #### Метод Предложенный подход основывается на классе спарсных Гауссовских смесевых моделей Q-функций (S-GMM-QFs). Он расширяет предыдущие исследования, которые обучали GMM-QFs в автономном режиме, добавляя онлайн-схему, поощряющую эксплорирование окружения. Модель спарсивается с помощью параметризации Hadamard, что позволяет контролировать сложность, сохранив выразительность. Архитектура S-GMM-QFs естественно задана на римановой многообразии, что обеспечивает оптимальные апдейты параметров через онлайн-градиентный спуск. Это позволяет модели корректно адаптироваться к новым данным и уменьшать риск переобучения. #### Результаты Результаты экспериментов продемонстрировали, что S-GMM-QFs совпадают по эффективности с плотными DeepRL-методами на стандартных бенчмарках, но используют значительно меньше параметров. Это дает уникальную возможность применения в ресурсораспределенных средах. На простых и сложных задачах S-GMM-QFs показали высокую точность и устойчивость даже при минимальном числе параметров, не достигаемой спарсенными DeepRL-методами. Эти результаты подтверждают мощность и эффективность нового подхода. #### Значимость Предложенная модель может применяться в различных задачах, требующих быстрого адаптирования к изменяющимся условиям, например, в системах управления, энергетике и игровых системах. Она обладает преимуществами, такими как высокая интерпретируемость, регулируемая сложность и эффективность ресурсов. Ее внедрение может привести к значительным улучшениям в области RL, особенно в условиях ограниченных ресурсов и высоких требований к точности. #### Выводы Основным достижением является разработка структурированного и интерпретируемого онлайн-подхода к RL, основанного на S-GMM-QFs. Этот подход доказал свою эффективность на различных задачах и показал высокую устойчивость при минимальном числе параметров. Будущие исследования будут направлены на улучшение скорости обучения, расширение применимости к реальному миру и исследова
Annotation:
This paper introduces a structured and interpretable online policy-iteration framework for reinforcement learning (RL), built around the novel class of sparse Gaussian mixture model Q-functions (S-GMM-QFs). Extending earlier work that trained GMM-QFs offline, the proposed framework develops an online scheme that leverages streaming data to encourage exploration. Model complexity is regulated through sparsification by Hadamard overparametrization, which mitigates overfitting while preserving expr...
ID: 2509.14585v1 cs.LG, math.OC
Авторы:

Jean-François Aujol, Jérémie Bigot, Camille Castera

#### Контекст Область исследования адаптивных шаг-размеров в алгоритмах оптимизации занимается разработкой эффективных стратегий для поиска минимума функций. Для стохастических оптимизационных задач это сложно, так как требуется использовать только информацию от приближенного градиента, что приводит к вызову интереса к улучшению стратегий адаптивного выбора шагов. Традиционные методы требуют тщательной тюнинга параметров, что может привести к ошибкам и нестабильности. Эта проблема настояща для задач машинного обучения и данных большого размера, когда гиперпараметры трудно оптимально выбрать. #### Метод Мы предлагаем новую стратегию адаптивного выбора шага для стохастического градиентного спуска, которая основывается на локальной геометрии функции минимизации. Технический подход основан на стандартном адаптивном градиентном спуске без отхода (Adaptive Gradient Descent Without Descent), адаптированном для стохастических случаев. Наш подход не требует явного тюнинга гиперпараметров и построен на точных вдольности локальной градиентной информации. Мы также используем стохастические оракулы для оценки градиента и создания шага. Эта методика может адаптироваться к различным сложностям функции, что позволяет устойчиво решать задачи с динамическими данными. #### Результаты Для подтверждения эффективности метода проводились ряд экспериментов на данных с высоким размером. Мы сравнили наш алгоритм с другими адаптивными методами, в том числе с вариациями градиентного спуска. Использовались синтетические и реальные данные, включая задачи классификации и регрессии. Результаты показали, что предложенный метод вы most competitive performance compared to the tuned baselines. Это подтверждает его применимость в разных машинном обучении и оптимизационных задачах. #### Значимость Предложенный метод может использоваться в широком круге приложений, включая нейронные сети, оптимизацию больших данных и задачи машинного обучения с множеством параметров. Он предлагает преимущества в своей универсальности и отсутствии необходимости в тюнинге параметров. Это может привести к повышению эффективности вычислений, снижению расхода ресурсов и улучшению стабильности решений. Лишение необходимости в гиперпараметрическом тюнинге делает его удобным в реализации и эффективным в многопроблемных средах. #### Выводы Мы предложили новую стратегию адаптивного шага для стохастического градиентного спуска, которая позволяет избегать настройки гиперпараметров и адаптироваться к локальной геометрии функции. Этот подход демонстрирует высокую э
Annotation:
We introduce a new adaptive step-size strategy for convex optimization with stochastic gradient that exploits the local geometry of the objective function only by means of a first-order stochastic oracle and without any hyper-parameter tuning. The method comes from a theoretically-grounded adaptation of the Adaptive Gradient Descent Without Descent method to the stochastic setting. We prove the convergence of stochastic gradient descent with our step-size under various assumptions, and we show t...
ID: 2509.14969v1 cs.LG, math.OC, stat.ML
Авторы:

Marat Khusainov, Marina Sheshukova, Alain Durmus, Sergey Samsonov

## Контекст Область исследований в данной работе относится к линейной регрессии, одной из ключевых задач машинного обучения и статистики. Одной из основных проблем в этой области является точность и скорость построения аппроксимации гауссовского распределения при онлайн-обучении. Задачу становится все более актуальной в условиях больших данных и необходимости ускорения вычислений. Существующие методы часто не могут обеспечить достаточную точность с учетом размера выборки и количества параметров. Мотивация для данного исследования заключается в развитии более эффективных методов для построения гауссовской аппроксимации в ситуациях, где объем данных и количество итераций являются ограниченными. ## Метод В статье предлагается метод онлайн-обучения с использованием линейных моделей и гауссовской аппроксимации. Основная идея заключается в использовании стохастического градиентного спуска с константным обновлением и адаптивной оценке дисперсии. Архитектура метода основана на теории градиентных методов и теории оцениваемости. Для построения аппроксимации используется теория SGD (Stochastic Gradient Descent) и подходы к оцениванию градиентов. Это позволяет поддерживать стабильность и эффективность аппроксимации даже при больших размерах выборки. ## Результаты В результате экспериментов показано, что скорость нормальной аппроксимации является около $\sqrt{\log{n}/n}$ при достаточно больших значениях $n$. Эксперименты проводились на синтетических данных с различным размером выборки и количеством параметров. Полученные данные подтверждают теоретические результаты и показывают, что метод эффективен даже при высокой размерности пространства признаков $d$. Также проводилась сравнительная оценка с другими подходами, показав выигрыш в скорости и точности. ## Значимость Результаты имеют большое значение для применения в онлайн-линейных регрессионных задачах, где требуется высокая скорость и точность аппроксимации. Метод может быть применен в ситуациях, когда необходимо решать задачи в реальном времени с большим количеством данных. Это может иметь практическое применение в сферах, таких как финансы, искусственный интеллект, биоинформатика и другие. Благодаря высокой эффективности и гибкости, данный подход может стать основой для развития новых методов в области машинного обучения. ## Выводы В данной работе были получены новые результаты по теории гауссовской аппроксимации в онлайн-линейных регрессионных задачах. Было установлено, что при достаточно больших объемах данных можно достичь скорости нормальной апп
Annotation:
In this paper, we consider the problem of Gaussian approximation for the online linear regression task. We derive the corresponding rates for the setting of a constant learning rate and study the explicit dependence of the convergence rate upon the problem dimension $d$ and quantities related to the design matrix. When the number of iterations $n$ is known in advance, our results yield the rate of normal approximation of order $\sqrt{\log{n}/n}$, provided that the sample size $n$ is large enough...
ID: 2509.14039v1 stat.ML, cs.LG, math.OC, 60F05, 62L20, 93E35
Авторы:

Feng Ruan, Keli Liu, Michael Jordan

## Контекст Область исследования, изученная в статье, относится к теории векторных моделей и алгоритмам линейной регрессии. Одной из существующих проблем в этой области является неэффективность существующих алгоритмов при работе с регрессионными задачами, особенно сложными и нелинейными. Это приводит к неоптимальным результатам в финансовой аналитике, биоинформатике и других областях. Мотивация для данного исследования заключается в развитии более точных и эффективных методов для поиска композиционных моделей, которые могут точнее предсказывать результаты на основе данных. ## Метод Авторы предложили композиционный кернельный подход для обучения признаков, в котором линейная модель применяется к координатному переразбиению входных данных. Модель представлена в виде вариационной задачи, что дает возможность протестировать функции признаков в композиционных архитектурах. Авторы сформулировали теоретические гарантии для того, чтобы показать, что алгоритм может удалить ненужные переменные, оставив только те, которые важны для получения результатов. Основные инструменты метода включают линейные и нелинейные модели, а также методы вариационного анализа для оптимизации. ## Результаты В ходе экспериментов была проведена сравнительная оценка различных моделей, включая Laplace-kernel и Gaussian-kernel. Для теста использовались синтетические и реальные данные. Результаты показали, что Laplace-kernel позволяет лучше выделять признаки, необходимые для нелинейных эффектов, чем Gaussian-kernel, который ограничивается выделением только линейных признаков. Эти результаты демонстрируют, что Laplace-kernel может более эффективно решать задачи, включающие в себя нелинейные зависимости. ## Значимость Полученные результаты имеют значительное значение в сфере моделирования и анализа данных. Модель, предлагаемая в статье, может быть применена в различных областях, таких как финансы, биоинформатика и анализ рисков. Одним из основных преимуществ является то, что модель может эффективно выделять важные признаки, даже в случае сложных и нелинейных зависимостей. Это может привести к улучшению точности предсказаний и уменьшению рисков ошибок в моделях. ## Выводы Основные достижения статьи заключаются в разработке нового композиционного кернельного подхода для обучения признаков. Авторы показали, что использование Laplace-kernel может более эффективно выделять признаки, которые влияют на нелинейные эффекты. В будущем планируется расширить применение модели на более сложные данные и провести дополнительные эксперименты для проверки надежности и точности реализации.
Annotation:
We study a compositional variant of kernel ridge regression in which the predictor is applied to a coordinate-wise reweighting of the inputs. Formulated as a variational problem, this model provides a simple testbed for feature learning in compositional architectures. From the perspective of variable selection, we show how relevant variables are recovered while noise variables are eliminated. We establish guarantees showing that both global minimizers and stationary points discard noise coordina...
ID: 2509.14158v1 cs.LG, math.OC
Показано 101 - 110 из 157 записей