📚 Саммари научных статей из arXiv

Найдено 157 результатов по запросу 'cs.LG, math.OC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AdaSwitch: An Adaptive Switching Meta-Algorithm for Learning-Augmented Bounded-Influence Problems

2025-09-06

Авторы:

Xi Chen, Yuze Chen, Yuan Zhou

## Контекст Существуют многопериодные онлайн-задачи с управлением запросами, где решения принимаются без представления о будущих запросах. Эти задачи часто возникают в системах управления складами, мобильной сети, онлайн-аллокации ресурсов и других областях. Условиями задач является то, что решения могут оказывать ограниченное влияние на последующие результаты, что делает их решение сложным. Для улучшения решений в таких задачах могут использоваться машинное обучение, но модели могут немного отклоняться от действительности. Как можно совместить эти модели с онлайн-управлением для получения оптимальных решений? ## Метод Мы предлагаем метод AdaSwitch, который сочетает в себе принципы машинного обучения и онлайн-управления ресурсами. Алгоритм состоит из двух частей: адаптивного выбора стратегии и корректировки решений в зависимости от того, насколько точны прогнозы. Мы разработали критерии для оценки точности прогнозов и регулируем применение информации о запросах. Это позволяет AdaSwitch подстраиваться под ситуации с высокой точностью прогнозов и быть жестким в случае их неточности, гарантируя желаемую производительность. ## Результаты Мы проверили AdaSwitch на нескольких сценариях, включая задачу о к-серверах, отображении запросов в системах с ограниченным влиянием, и онлайн-аллокации ресурсов. Показали, что при точных прогнозах AdaSwitch почти достигает оптимального результата. Если прогнозы неточны, то алгоритм показывает классические гарантии конкурентного отношения. Эти результаты подтверждают гибкость и эффективность AdaSwitch в различных условиях. ## Значимость Наш алгоритм может применяться в различных областях, где необходимо принимать решения в условиях неопределенности и ограниченного влияния. Например, в сфере логистики, мобильных сетей и динамической ценообразования. Он обеспечивает сбалансированный подход к использованию прогнозов, позволяя повысить эффективность в близких к оптимальных решениях при том, чтобы сохранять хорошие гарантии в условиях неточности. Это демонстрирует широкую применимость метода к реальным задачам. ## Выводы Мы представили AdaSwitch, новый метод для решения многопериодных онлайн-задач с ограниченным влиянием. Мы показали, что наш алгоритм может эффективно использовать прогнозы для улучшения решений в условиях высокой точности и сохраняет оптимальную производительность при неточных прогнозах. Будущие исследования будут посвящены расширению применения AdaSwitch к более сложным задачам и уточнению его теоретических подходов.

Annotation:

We study a class of multi-period online decision-making problems with sequence-based predictions, which may be generated by machine learning models but whose accuracy is not guaranteed. In each period, the decision-maker observes the realized request and must take an irrevocable action that yields a reward or incurs a cost, without knowledge of future arrivals. We introduce a bounded-influence framework, in which past decisions and requests exert only limited impact on the future optimal reward....

ID: 2509.02302v1 cs.LG, math.OC

arXiv PDF

📄 Is RL fine-tuning harder than regression? A PDE learning approach for diffusion models

2025-09-06

Авторы:

Wenlong Mou

## Контекст Исследование рассматривает проблему оптимального управления политикой для изменения диффузионного процесса с использованием общего аппроксимации значения функций. Эта область исследования важной для многих приложений, где необходимо адаптивно подстраиваться под изменяющиеся условия. Одной из основных проблем является трудность методов генеральной функции значения, которые часто требуют дополнительных усилий для точного определения взаимодействия с процессом. Напротив, методы регрессии, применяемые в обучении, могут привести к более быстрым статистическим результатам. Мотивация заключается в исследовании, является ли RL-подход файн-тюнинга более сложным, чем регрессионное обучение. ## Метод Проведено разработка нового класса алгоритмов, основывающихся на решении задачи вариационного неравенства с использованием уравнений Хэмильтона-Жакоби-Беллмана (HJB). Эта техника позволяет решать задачи управления с помощью аппроксимации значений функций. Основной сильный момент этого подхода заключается в том, что он позволяет решать задачи fine-tuning с помощью наиболее простого регрессионного подхода. В работе также доказаны статистические гарантии для подсчета значений и политик, которые зависят от сложности и эрров аппроксимации. Такой подход отличается от обычных методов RL, поскольку регрессия позволяет достичь более быстрых результатов. ## Результаты Эксперименты проводились на моделях, включающих генерацию данных с использованием диффузионных процессов. Использовались разнообразные функциональные классы для аппроксимации значений и политик. Результаты показали, что наиболее эффективным подходом является использование регрессионного подхода для fine-tuning процесса. Заметное улучшение эффективности статистических результатов было замечено в сравнении с традиционными методами RL. Это подтверждает, что генеральная функция значений может быть более эффективно решена с помощью регрессионных методов, чем с помощью стандартных методов RL. ## Значимость Наработки этой работы могут быть применены в многих областях, где необходимо управлять диффузионными процессами, в том числе финансовых моделей, систем управления и искусственных нейронных сетей. Этот подход имеет ряд преимуществ: он упрощает процесс обучения, улучшает скорость подсчета значений, и обеспечивает более точные результаты. Потенциальное влияние заключается в том, что это может привести к новым методам для решения управленческих задач в сложных ситуациях, где быстрое и точное решение ключевой роли играет. ## Выводы В результате исс

Annotation:

We study the problem of learning the optimal control policy for fine-tuning a given diffusion process, using general value function approximation. We develop a new class of algorithms by solving a variational inequality problem based on the Hamilton-Jacobi-Bellman (HJB) equations. We prove sharp statistical rates for the learned value function and control policy, depending on the complexity and approximation errors of the function class. In contrast to generic reinforcement learning problems, ou...

ID: 2509.02528v1 cs.LG, math.OC, math.PR, math.ST, stat.ML, stat.TH

arXiv PDF

📄 Preconditioned Regularized Wasserstein Proximal Sampling

2025-09-05

Авторы:

Hong Ye Tan, Stanley Osher, Wuchen Li

## Контекст Семплирование из Гиббсовых законов распределения широко применяется в различных областях, включая машинное обучение, графику и физические модели. Однако существуют значительные проблемы с эффективностью и точностью таких процессов, особенно при работе с нелинейными и негладкими потенциалами. Это приводит к необходимости развития новых методов, которые могли бы улучшить стабильность и точность семплирования. Наша мотивация заключается в исследовании новых алгоритмов, которые могли бы решить эти проблемы, в том числе предлагая новые аппроксимации и математические решения для улучшения семплирования. ## Метод Мы предлагаем подсистему, основанную на preconditioned regularized Wasserstein proximal sampling. Основная идея заключается в использовании оптимизационного подхода, где мы используем нормализованный закон распределения, регулируемый регуляризатором. Это достигается при помощи Cole--Hopf-трансформации, которая позволяет связать кратковременные решения с градиентным потоком. Мы также предлагаем алгоритм, который использует аппроксимацию score function, полученной через регуляризацию градиента. Такой подход позволяет улучшить стабильность и точность семплирования, особенно в случае независимого от шага скорости сходимости. ## Результаты Мы проводили эксперименты, используя различные лог-конкавые и не-лог-конкавые распределения, включая постановку задачи баYESianьных моделей и моделей с тренировкой нейросетей. Мы сравнивали наши результаты с существующими методами и показали, что наш метод показывает лучшую точность и стабильность. Также мы проверили эффективность нашего метода на задаче Bayesian Total-Variation Regularized Image Deconvolution. Наши результаты демонстрируют улучшение качества семплирования, особенно при использовании вариативных матриц преобразования. ## Значимость Наш метод имеет широкие потенциальные применения в области машинного обучения, статистики и физических моделей. Он предлагает новую архитектуру для эффективного семплирования, что может позволить улучшить точность решений в задачах, где требуется использование Гиббсовых законов распределения. Это может привести к улучшению качества результатов в задачах обработки изображений, физики и других областях, где требуется эффективное семплирование. ## Выводы Мы предложили новый подход к семплированию, основанный на preconditioned regularized Wasserstein proximal. Этот подход показал существенное улучшение стабильности и точности в сравнении с существующими методами. Мы также показали, что наш метод может быть применен в различных задачах, включая варианты с негладкими потенциалами и различными нейронными сетями. Будущие исследования будут сфокусиро

Annotation:

We consider sampling from a Gibbs distribution by evolving finitely many particles. We propose a preconditioned version of a recently proposed noise-free sampling method, governed by approximating the score function with the numerically tractable score of a regularized Wasserstein proximal operator. This is derived by a Cole--Hopf transformation on coupled anisotropic heat equations, yielding a kernel formulation for the preconditioned regularized Wasserstein proximal. The diffusion component of...

ID: 2509.01685v1 stat.ML, cs.LG, math.OC, stat.CO, 65C05, 62G07

arXiv PDF

📄 Delayed Momentum Aggregation: Communication-efficient Byzantine-robust Federated Learning with Partial Participation

2025-09-05

Авторы:

Kaoru Otsuka, Yuki Takezawa, Makoto Yamada

## Контекст Federated Learning (FL) является методом обучения моделей распределенной модели, который позволяет клиентам обучать модель вместе, не раскрывая их локальные данные. Однако FL подвержен атакам от клиентов-байзентов, которые могут исказить обучение сети. Несмотря на то, что существуют методы, которые обеспечивают робастность FL к байзентовым атакам, они обычно предполагают, что все клиенты участвуют в обучении. Это предположение не реально в реальных условиях, где клиенты могут быть недоступны или использовать ограниченные ресурсы связи. Такие факторы создают задачу для FL, которая должна учитывать распределенность ресурсов и выжимать максимум из них. Наша работа фокусируется на этих проблемах, предлагая новую модель, которая обеспечивает робастность к байзентовым атакам при работе в условиях неполной участия клиентов. ## Метод Мы предлагаем новую методологию Delayed Momentum Aggregation (DMA), которая использует моментум (инерцию) в роли дополнительного способа агрегации градиентов в FL. Этот подход применяет новую моментум от активных клиентов и добавляет к этому обновлению градиенты от отсутствующих клиентов, если они попадают в последнюю активную период. Благодаря этому, мы можем восстановить свойства безопасности и точности, даже при существенном отсутствии клиентов. Мы используем оптимизатор D-Byz-SGDM (Delayed Byzantine-robust SGD with Momentum), который реализует DMA в ходе обучения FL. Мы определяем фундаментальные новые нижние границы для случая неполного участия клиентов и проверяем, что DMA удовлетворяет этим гарантиям. ## Результаты Мы проверяем DMA на широком спектре задач обучения с высокой точностью и робастностью к атакам. Мы проводим эксперименты в условиях различных атак байзентовых клиентов, в том числе систематических и неструктурированных атак. Наши результаты показывают, что DMA не только обеспечивает робастность к байзентовым атакам, но и поддерживает высокую точность и скорость обучения, даже в условиях неполного участия клиентов. Мы показываем, что DMA стабильно работает при различных уровнях участия клиентов и не влияет на качество модели, даже при длительных продолжительностях отсутствия клиентов. ## Значимость Метод DMA позволяет решать проблемы FL с распределенным обучением в реальных условиях, где клиенты могут иметь ограниченную доступность и неполное участие. Он особенно полезен в сценариях, где клиенты используют ограниченные ресурсы связи, или где существуют большое количество клиентов, чье участие может быть непостоянным. DMA также оказывается эффективным в обеспечении робастности к байзентовым ата

Annotation:

Federated Learning (FL) allows distributed model training across multiple clients while preserving data privacy, but it remains vulnerable to Byzantine clients that exhibit malicious behavior. While existing Byzantine-robust FL methods provide strong convergence guarantees (e.g., to a stationary point in expectation) under Byzantine attacks, they typically assume full client participation, which is unrealistic due to communication constraints and client availability. Under partial participation,...

ID: 2509.02970v1 cs.LG, math.OC

arXiv PDF

📄 AdaGrad Meets Muon: Adaptive Stepsizes for Orthogonal Updates

2025-09-05

Авторы:

Minxin Zhang, Yuxuan Liu, Hayden Schaeffer

#### Контекст В последние годы искусственные нейронные сети (ANN) стали важной компонентой систем машинного обучения. Одним из ключевых аспектов обучения ANN является эффективность алгоритмов оптимизации, которые используются для обучения моделей. Одним из таких алгоритмов является Muon, который использует ортогональное обновление весов. Этот подход показал свою эффективность в обучении больших языковых моделей. Однако, одной из проблем при использовании Muon является необходимость определить подходящий темп обучения (learning rate). Напротив, широко используемый метод AdaGrad адаптирует темпы обучения на основе истории градиентов, что позволяет лучше скорректироваться в зависимости от локальных характеристик оптимизационного пространства. Этот разрыв мотивирует развитие новых методов, которые объединяли бы преимущества оба подхода. #### Метод Мы предлагаем метод AdaGO (AdaGrad Meets Muon), который сочетает принципы AdaGrad и Muon. Основная идея заключается в том, чтобы применять нормально ориентированную адаптивную степень обучения AdaGrad для ортогональных обновлений весов. Напротив, при использовании Muon, темпы обучения не подстраиваются под локальные особенности оптимизационного пространства. AdaGO сохраняет ортогональность обновлений, что дает возможность интерпретировать этот подход как спектральный спуск, при этом степени обучения адаптируются к характеристикам оптимизации. Алгоритм требует минимальных изменений в Muon, добавляя только одну дополнительную переменную для накопления квадратов градиентов. Это делает AdaGO выгодным как с точки зрения вычислительной сложности, так и с точки зрения использования памяти. #### Результаты Мы провели эксперименты на двух задачах: классификации изображений на датасете CIFAR-10 и регрессии функций. Мы сравнили AdaGO с Muon и Adam, широко используемым методом оптимизации. Наши результаты показали, что AdaGO показывает лучшие результаты, как в случае статической, так и динамической адаптации темпов обучения. Анализ локальных минимумов показал, что AdaGO предлагает более гладкую адаптацию к локальным особенностям задачи, позволяя более эффективно снизить функцию потерь. #### Значимость Мы видим применение AdaGO в многочисленных областях, где эффективность обучения является ключевой проблемой, таких как обучение больших моделей языкового моделирования, обработка естественного языка и изображений. Метод AdaGO предоставляет значительные преимущества в скорости обучения и качестве решения задач. Благодаря своей небольшой дополнительной сложности, AdaGO может легко внедряться в существующие системы оптимизации. #### Выво

Annotation:

The recently proposed Muon optimizer updates weight matrices via orthogonalized momentum and has demonstrated strong empirical success in large language model training. However, it remains unclear how to determine the learning rates for such orthogonalized updates. AdaGrad, by contrast, is a widely used adaptive method that scales stochastic gradients by accumulated past gradients. We propose a new algorithm, AdaGO, which combines a norm-based AdaGrad-type stepsize with an orthogonalized update ...

ID: 2509.02981v1 cs.LG, math.OC

arXiv PDF

📄 Geometric Foundations of Tuning without Forgetting in Neural ODEs

2025-09-05

Авторы:

Erkan Bayram, Mohamed-Ali Belabbas, Tamer Başar

## Контекст Обучение нейронных сетей последовательным семплированием с применимостью в широкой сфере, включая задачи серийных моделей и динамических систем. Однако обучение с последовательным семплированием подвержено проблеме "забывания" (forgetting) — новые данные могут ухудшить качество обучения для прежних данных. Для устранения этой проблемы введен принцип "Tuning without Forgetting" (TwF) для нейронных дифференциальных уравнений (Neural ODEs). Он позволяет добавлять обучающие примеры последовательно, сохраняя точность исходных данных. Однако полная теоретическая обоснования TwF в силу недостатка геометрической характеризации подпространства параметров и его тензорного пространства в целом. Целью этой работы является закрытие этой теоретической лазурной поверхности. ## Метод Мы определяем подпространство параметров, оптимально сохраняющее конечные точки, как Banach-субманифолд финитной коденсимальности в пространстве всех возможных контрольных функций. Это достигается при условии несингулярных контрольных функций. Мы выявляем внутреннюю геометрию этого многообразия и определяем тангенсное пространство в рамках этой геометрии. Затем мы проводим анализ последовательного обновления параметров, показывая, что оно может быть интерпретировано как продолжение (deformation) контрольных функций вдоль тензорного пространства. ## Результаты Мы проводим эксперименты с последовательным обучением Neural ODEs, используя различные наборы данных. Эксперименты показывают, что применение метода TwF приводит к значительному сохранению точности для уже обученных примеров, не допуская "забывания". Мы также измеряем размер тензорного пространства и проверяем его совпадение с теоретическими оценками. Отдельно проводится анализ того, насколько метод TwF приводит к высокой стабильности модели во время последовательного обучения. ## Значимость Результаты демонстрируют широкое применение TwF в задачах, где запоминание прошлых обучений критично (например, в задачах рекомендаций, динамических системах и серийных моделях). Метод TwF значительно повышает эффективность и надежность нейронных сетей в таких задачах. Этот подход также может быть распространен на другие геометрические фреймворки в обучении сетей, что дает потенциал для улучшения технологий в области машинного обучения. ## Выводы Мы доказали, что подпространство параметров, сохраняющих конечные точки, формирует Banach-субманифолд, что дает геометрическую основу для TwF. Это позволяет интерпретировать обновление параметров как деформацию вдоль тензорного пространства. Эти теоретические результаты подкрепляют практический подход TwF, по

Annotation:

In our earlier work, we introduced the principle of Tuning without Forgetting (TwF) for sequential training of neural ODEs, where training samples are added iteratively and parameters are updated within the subspace of control functions that preserves the end-point mapping at previously learned samples on the manifold of output labels in the first-order approximation sense. In this letter, we prove that this parameter subspace forms a Banach submanifold of finite codimension under nonsingular co...

ID: 2509.03474v1 cs.LG, math.OC

arXiv PDF

📄 Bounds on Perfect Node Classification: A Convex Graph Clustering Perspective

2025-08-29

Авторы:

Firooz Shahriari-Mehr, Javad Aliakbari, Alexandre Graell i Amat, Ashkan Panahi

## Контекст В текущей работе рассматривается проблема трансдуктивной классификации узлов в графе, когда граф структурирован таким образом, что его сообщества (семейства узлов) соответствуют меткам узлов. Эта проблема часто встречается в задачах социальных сетей, мониторинга сети, анализа биоинформатики и других областях. Однако, благодаря условиям обучения (подписи узлов и функций), граф может содержать информацию, которая непосредственно не связана с метками узлов, что может привести к ложным сигналам. Таким образом, необходимо разработать методы, которые эффективно используют информацию о метках и функциях, а также учитывают структуру графа. Этот подход может улучшить точность классификации и обеспечить более устойчивый результат классификации. ## Метод Мы предлагаем оптимизационную задачу, учитывающую информацию о метках и функциях узлов в рамках рамки спектрального кластеринга графа. Задача оптимизации объединяет спектральные меры кластеринга с информацией о метках узлов, чтобы лучше отражать структуру графа. Метод основывается на спектральном разложении графа, а именно, мы используем графические лапласианы и функции графа для построения оптимизационной функции. Это позволяет эффективно использовать информацию о метках узлов и структуре графа вместе. Мы также разработали алгоритмы, которые решают эту задачу, включая методы градиентного спуска и другие оптимизационные решения. ## Результаты Для подтверждения эффективности предложенного подхода, мы проводили эксперименты на различных графах с разными сообществами и метками узлов. Мы сравнивали наши результаты с другими подходами к классификации узлов, такими как методы линейной дискриминантной анализа и стандартный кластеринг. Результаты показали, что предложенный подход достигает лучшей точности классификации, особенно когда метки узлов и функции графа хорошо синхронизированы. Также мы проводили эксперименты на реальных данных, чтобы продемонстрировать практическую эффективность подхода. ## Значимость Предложенный подход может быть применен в различных областях, таких как моделирование социальных сетей, мониторинг вредоносных действий в сетях, анализ биоинформатики и другие задачи классификации. Он обладает следующими преимуществами: 1) лучшая точность классификации в сравнении с другими подходами; 2) уменьшение ошибок, связанных с несоответствием меток и функций; 3) увеличение устойчивости решения к некоторым типам шума в данных. Этот

Annotation:

We present an analysis of the transductive node classification problem, where the underlying graph consists of communities that agree with the node labels and node features. For node classification, we propose a novel optimization problem that incorporates the node-specific information (labels and features) in a spectral graph clustering framework. Studying this problem, we demonstrate a synergy between the graph structure and node-specific information. In particular, we show that suitable node-...

ID: 2508.20231v1 cs.LG, math.OC

arXiv PDF

📄 Stochastic Gradients under Nuisances

2025-08-29

Авторы:

Facheng Yu, Ronak Mehta, Alex Luedtke, Zaid Harchaoui

## Контекст Область исследования связана с методами стохастического градиентного оптимизации, которые широко используются в различных сферах, от классического машинного обучения до современных подходов в области самостоятельного обучения. Одна из проблем в этой области заключается в том, что некоторые обучающие процессы зависят от неизвестных нюансов (nuisances), которые могут затруднять достижение оптимальных результатов. Мотивацией для данных исследований является развитие методов, позволяющих стохастическим градиентным алгоритмам достигать хороших результатов даже при наличии таких нюансов. ## Метод Авторы предлагают рассмотреть стохастические градиентные алгоритмы в ситуациях, когда оптимизируемый функционал зависит от неизвестных нюансов. Они исследуют условия, при которых данные алгоритмы могут по-прежнему достигать приемлемых результатов. Особое внимание уделено понятию Neyman-ортогональности, которое позволяет оценить влияние нюансов на оптимизационный процесс. Кроме того, предложена разработка вариантов алгоритмов с приближенно ортогональными обновлениями, которые могут компенсировать влияние нюансов и поддерживать близкие к классическим стохастическим градиентам результаты. ## Результаты Исследования проводились с использованием синтетических и реальных данных. Авторы проверили эффективность своих методов на примерах из области статистического обучения и двойного машинного обучения. Для оценки производительности использовались метрики, такие как скорость сходимости и точность решения. Результаты показали, что при удовлетворении условия Neyman-ортогональности стохастические градиенты могут достичь оптимальных результатов. В случае, когда условие не выполняется, вариант с приближенно ортогональными обновлениями показал приемлемые результаты, уменьшая влияние нюансов на оптимизацию. ## Значимость Предложенные методы могут применяться в ситуациях, когда задачи обучения зависят от неизвестных нюансов. Они демонстрируют высокую потенциальную полезность в области самостоятельного обучения, обработки нестандартных данных и двойного машинного обучения. Основное преимущество заключается в улучшении устойчивости и эффективности стохастических градиентных алгоритмов при оптимизации задач, где нюансы могут существенно повлиять на результаты. Это может привести к более надежным и предсказуемым результатам в различных практических сценариях. ## Выводы Изучение влияния нюансов на стохастические градиентные алгоритмы позволило установить условия, при которых данные алгоритмы все же могут достичь приемлемых результатов

Annotation:

Stochastic gradient optimization is the dominant learning paradigm for a variety of scenarios, from classical supervised learning to modern self-supervised learning. We consider stochastic gradient algorithms for learning problems whose objectives rely on unknown nuisance parameters, and establish non-asymptotic convergence guarantees. Our results show that, while the presence of a nuisance can alter the optimum and upset the optimization trajectory, the classical stochastic gradient algorithm m...

ID: 2508.20326v1 stat.ML, cs.LG, math.OC

arXiv PDF

📄 Fast Convergence Rates for Subsampled Natural Gradient Algorithms on Quadratic Model Problems

2025-08-29

Авторы:

Gil Goldshlager, Jiang Hu, Lin Lin

```## Контекст Субсемплированный естественный градиентный десцент (Subsampled Natural Gradient Descent, SNGD) является эффективным методом оптимизации, продемонстрировавшийся в задачах параметрической оптимизации в области статистической физики и глубокого обучения. Однако, недостаточно теоретических разъяснений для его поведения, особенно в случае идеализированных задач параметрической оптимизации. Задача SNGD состоит в том, чтобы оптимизировать функцию потерь, соответствующую параметрической модели, которая в свою очередь является линейной, а функция потерь — сильно вогнутой и квадратичной. Мы предлагаем новую теоретическую модель, которая объясняет эффективность SNGD в таких задачах. ## Метод Мы используем методы случайного линейного алгебры для анализа поведения SNGD в случае линейных моделей и квадратичных потерь. Основная идея заключается в том, что SNGD может быть рассмотрен как регуляризированный Kaczmarz метод, который имеет хорошо изученные свойства. В случае простой сильно вогнутой системы, мы показываем, что SNGD и SPRING (Accelerated Subsampled Natural Gradient Descent) могут быть связаны с методом градиентного спуска с регуляризатором. Это позволяет применить существующие результаты в теории случайного линейного алгебры для получения новых гарантий сходимости. ## Результаты Мы доказали, что SNGD имеет фаст-конвергенс-рейт в случае линейных моделей с квадратичными потерями. В частности, для стандартной задачи меньших квадратов с помощью Kaczmarz-метода получили примерной скорость сходимости. Наш исследовательский результат показал, что SNGD работает эффективно в задачах сильно вогнутых потерь. Мы также доказали, что SPRING может ускорять SNGD, и это является первым доказательством его ускоренного поведения. ## Значимость Наши результаты имеют значительное значение в области статистической физики и глубокого обучения. Мы показали, что SNGD может быть эффективно применен для оптимизации моделей в этих областях. Это позволяет получить простые и эффективные способы решать задачи параметрической оптимизации, в том числе в задачах физических моделей и нейронных сетей. ## Выводы Мы доказали новые гарантии сходимости для SNGD и SPRING в задачах сильно вогнутых потерь. Это демонстрирует значительный потенциал SNGD в параметрической оптимизации. Мы также отметили, что существуют теоретические ограничения на эффективность SNGD в широком классе задач. Будущие исследования будут сконцентрированы на расширении этих результатов к более общим моделям и задачам, а также на рассмотрении устойчивости SNGD в условиях дискретизации.```

Annotation:

Subsampled natural gradient descent (SNGD) has shown impressive results for parametric optimization tasks in scientific machine learning, such as neural network wavefunctions and physics-informed neural networks, but it has lacked a theoretical explanation. We address this gap by analyzing the convergence of SNGD and its accelerated variant, SPRING, for idealized parametric optimization problems where the model is linear and the loss function is strongly convex and quadratic. In the special case...

ID: 2508.21022v1 cs.LG, math.OC, stat.ML

arXiv PDF

📄 Learning Binary Sampling Patterns for Single-Pixel Imaging using Bilevel Optimisation

2025-08-28

Авторы:

Serban C. Tudosie, Alexander Denker, Zeljko Kereta, Simon Arridge

## Контекст Single-Pixel Imaging (SPI) представляет собой инновационную технологию, позволяющую восстанавливать изображения с помощью только одного пиксельного детектора. Эта технология основывается на последовательном освещении объекта структурированной световой паттерной, а затем анализе сгенерированных сигналов с помощью одного детектора. Однако существуют значительные сложности в оптимизации структурированных паттернов для конкретных задач, таких как микроскопия с помощью SPI. Наличие задач, требующих высокой точности и скорости, делает необходимыми более эффективные методы для проектирования паттернов. В данной работе рассматривается применение билевел-оптимизации для создания задач-специфических, бинарных паттернов, оптимизированных для решения таких задач, как микроскопия с помощью SPI. ## Метод Для решения проблемы оптимизации бинарных паттернов был применен метод билевел-оптимизации. Этот подход разделяет задачу на две уровневые оптимизации: верхний уровень оптимизирует качество восстановления изображения, а нижний уровень оптимизирует бинарные паттерны. Для устранения непроизводящихся свойств бинарных паттернов использован Straight-Through Estimator (STE), позволяющий вычислять производные через непрерывные приближения. Кроме того, в формулировке билевел-метода был включен регуляризатор Total Deep Variation, чтобы обеспечить гладкость и регулярность решения. Эта архитектура позволяет эффективно решать задачи, где паттерны должны быть оптимизированы для конкретных задач, таких как микроскопия с помощью SPI. ## Результаты Метод был проверен на датасете CytoImageNet, который содержит микроскопические изображения. Оптимизированные бинарные паттерны были сравнены с базовыми методами проектирования паттернов. Эксперименты показали, что паттерны, полученные с помощью предложенного подхода, обеспечивают значительное улучшение точности восстановления изображений, особенно при высоком уровне уменьшения выборки. Это демонстрирует эффективность метода в решении задач SPI в режимах низкого объема данных. ## Значимость Предложенный подход имеет широкое применение в сфере микроскопии и других областях, где требуется высокая точность восстановления изображений с помощью SPI. Метод позволяет эффективно использовать ограниченные ресурсы для получения более качественных результатов. Он также открывает пути для дальнейшего исследования оптимизации паттернов в SPI, включая применение для различных типов микроскопов и задач, требующих высокой скорости и точности. ## Выводы Результаты показывают, что предложенный метод билевел-оптимизации эффективно ре

Annotation:

Single-Pixel Imaging enables reconstructing objects using a single detector through sequential illuminations with structured light patterns. We propose a bilevel optimisation method for learning task-specific, binary illumination patterns, optimised for applications like single-pixel fluorescence microscopy. We address the non-differentiable nature of binary pattern optimisation using the Straight-Through Estimator and leveraging a Total Deep Variation regulariser in the bilevel formulation. We ...

ID: 2508.19068v1 cs.CV, cs.LG, math.OC, physics.optics

arXiv PDF

1
2
11
12
13
14
15
16

Показано 121 - 130 из 157 записей