📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Lioz Berman, Sharon Gannot, Tom Tirer
## Контекст
Определение направлений появления (DOA, Direction of Arrival) нескольких источников с использованием массива антенн является ключевым заданием в радиолокации, системах связи и системах локализации. Несмотря на наличие многочисленных методов, включая традиционные, такие как метод Бартлетта и спектральные методы на основе выборочной ковариации, они обладают ограничениями. Традиционные подходы требуют многохвостого снима, что невозможно в ситуациях, когда число источников неизвестно или слишком велико. Поэтому, в некоторых ситуациях применяются приближенные методы, такие как параметрические биротационные методы, однако они чувствительны к шумам и могут недооценивать число источников. Работа предлагает новое решение на основе нейронных сетей для решения этой проблемы.
## Метод
Предлагаемый подход, известный как (SP)$^2$-Net, основывается на глубоком обучении для подготовки эффективной модели DOA-оценки. Модель принимает на вход меры антенного массива и гипотезный угол (пробный угол), из которых выводит спектр местоположения, оптимизированный для определения нескольких источников. Архитектура сети включает нейронные сети с автокодировщиком и трансформером, чтобы извлечь локальные и глобальные признаки сигнала. На этапе интерпретации производится просканирование углов, чтобы построить термограмму, в которой отображаются интенсивности сигнала в различных углах. Модель обучается с использованием тестовых данных, чтобы минимизировать ошибки в оценке углов.
## Результаты
Используемые данные включали синтетические сигналы с различными уровнями шума и разнообразными углами прихода. Эксперименты показали, что (SP)$^2$-Net превосходит традиционные методы, такие как метод Бартлетта и другие спектральные методы, в том числе в условиях высокого шума. Модель достигла высокой точности и чувствительности в ситуациях, когда число источников неизвестно, и даже при значительном шуме. Модель также продемонстрировала способность выделить несколько источников с разными уровнями активности, что демонстрирует свою резолюцию и точность.
## Значимость
(SP)$^2$-Net может быть применена в различных областях, включая радиолокацию, системы связи, беспилотные аппараты (UAVs) и системы локализации в реальном времени. Она предлагает высокую точность и резолюцию в сравнении с традиционными методами, используя только один снимок с антенного массива. Это может упростить техническую инфраструктуру и уменьшить количество необходимых вычислений. Будущие исследования могут сосредоточиться на улучшении мо
Annotation:
We consider the problem of estimating the directions of arrival (DOAs) of
multiple sources from a single snapshot of an antenna array, a task with many
practical applications. In such settings, the classical Bartlett beamformer is
commonly used, as maximum likelihood estimation becomes impractical when the
number of sources is unknown or large, and spectral methods based on the sample
covariance are not applicable due to the lack of multiple snapshots. However,
the accuracy and resolution of the...
Авторы:
Daniel Meister, Takahiro Harada
## Контекст
Control variates являются методом снижения дисперсии в методе Монте-Карло интегрирования. Они основываются на принципе: интегрируемая функция аппроксимируется некоторой функцией, выражаемой через аналитически интегрируемые компоненты. Таким образом, монте-карловское интегрирование применяется только к остатку, то есть разности между интегрируемой функцией и её аппроксимацией. Нейросети, являясь универсальными аппроксиматорами, могут стать современной альтернативой классическим подходам в этой технике. Однако существует проблема: аналитическое интегрирование для нейросетей не всегда возможно. Наша исследовательская цель — изучить возможность использования нейросетей в качестве контрольных вариатетов с помощью метода аппроксимации интегрирования через аналитическое подразбиение пространства интегрирования. Мы применяем этот подход к проблеме света в распространенной модели рендеринга.
## Метод
Мы используем многослойный перцептрон (MLP) с непрерывными действительностями функций активации (piecewise linear). Для построения контрольного вариатета используется метод подразбиения пространства интегрирования, основанный на техниках вычислительной геометрии. Этот метод позволяет разбить пространство на регулярные многоугольники, рассчитать интеграл каждого многоугольника аналитически, а затем сложить их для получения интеграла заданной функции. Мы оптимизировали этот подход с учетом уникальных свойств MLP, в том числе создания нейросетевых моделей, которые могут быть аналитически интегрированы.
## Результаты
Мы проводили эксперименты с помощью симуляций света в сценах с различными уровнями сложности. В качестве исходных данных использовались сцены с 3D моделями и источниками света. Наши результаты показали, что использование MLP в качестве контрольного вариатета с методом подразбиения пространства приводит к значительному снижению дисперсии и улучшению точности результатов. Это применение снижает время вычислений в сравнении с сингулярными техниками Монте-Карло. Также мы демонстрируем, что наше решение способно обрабатывать сложные геометрические сцены с большим количеством непрерывных физических эффектов.
## Значимость
Наш подход может быть применен в световой распространении, рендеринге, а также в других приложениях, требующих высокоточных интегрирования сложных функций. Он обеспечивает более эффективное использование ресурсов и улучшает точность в расчетах. Этот подход также может быть распространен на другие области, такие как физика, финансы и другие задачи связанные с Монте-Карло
Annotation:
Control variates are a variance-reduction technique for Monte Carlo
integration. The principle involves approximating the integrand by a function
that can be analytically integrated, and integrating using the Monte Carlo
method only the residual difference between the integrand and the
approximation, to obtain an unbiased estimate. Neural networks are universal
approximators that could potentially be used as a control variate. However, the
challenge lies in the analytic integration, which is not...
Авторы:
Kangcheng Li, Yunwen Lei
## Контекст
В последнее время многочисленные исследования посвящены развитию эффективных методов тренировки нейронных сетей. Одной из ключевых проблем в этой области является достижение баланса между эффективностью обучения и качеством предсказаний. Одним из актуальных подходов является использование оптимизаторов, таких как SGD (Stochastic Gradient Descent), и их модификаций. Lookahead optimizer является одним из таких модификаций, который применяет двухшаговую стратегию обновления весов, чтобы улучшить процесс обучения. Несмотря на положительные результаты, которые были получены в рамках сходимости на обучающих выборках, теоретическая обоснование его общей способности генерализовывать остается малоизученной. Это возникает, в частности, из-за ограничительных предположений, таких как глобальная Lipschitz-непрерывность функции потерь. В настоящем исследовании мы стремимся заполнить это разрыв, обосновывая и анализируя общую способность Lookahead optimizer с минибатч-SGD.
## Метод
Мы применяем метод оценки общей способности на основе оценок стабильности модели. Наша основная методика основывается на создании анализа стабильности в среднем, который позволяет рассматривать не только одношаговые изменения, но и небольшие изменения в целом. Такой подход позволяет использовать минибатч-SGD в качестве оптимизатора и оценивать его влияние на сходимость и общую способность. Для строго конвексивных и конвексивных функций потерь мы разрабатываем новые генеральные концепции, которые учитывают связь между обучением и генерализацией. Этот подход позволяет провести анализ без жестких теоретических ограничений, таких как глобальная Lipschitz-непрерывность.
## Результаты
Мы проводим эксперименты, используя различные данные и модели, включая многослойные перцептроны и рекуррентные нейронные сети. Наши результаты показывают, что Lookahead optimizer демонстрирует линейную скорость сходимости в многомерных пространствах с большим количеством данных. Мы также показываем, что оптимизатор обеспечивает лучшую устойчивость и эффективность сравнения с другими популярными методами, такими как Adam и AdaGrad. Для convex-функций потерь мы продемонстрировали, что Lookahead оптимизатор обеспечивает линейную скорость сходимости в зависимости от размера минибатча, что является важной находкой в сфере масштабируемых методов обучения.
## Значимость
Полученные результаты имеют значительное значение для развития методов обучения нейронных сетей. Изучение Lookahead optimizer позволяет повысить производительность обучения и улучшить качество предсказаний, особенно при использовании больших объемов данных. Это модельная техника может быть применен
Annotation:
The Lookahead optimizer enhances deep learning models by employing a
dual-weight update mechanism, which has been shown to improve the performance
of underlying optimizers such as SGD. However, most theoretical studies focus
on its convergence on training data, leaving its generalization capabilities
less understood. Existing generalization analyses are often limited by
restrictive assumptions, such as requiring the loss function to be globally
Lipschitz continuous, and their bounds do not fully...
Авторы:
Gautam Kamath, Alireza F. Pour, Matthew Regehr, David P. Woodruff
## Контекст
Одна из основных задач машинного обучения и статистического анализа заключается в выборе наиболее подходящего выбора из набора возможных моделей или гипотез. Этот процесс становится сложнее, если необходимо соблюдать принципы конфиденциальности данных. Локальная дифференциальная приватность (LDP) требует, чтобы каждый эксперимент с данными, проводимый для обучения модели, не позволял третьим лицам вывести информацию о данных источника. Это сделано для того, чтобы обеспечить конфиденциальность и защитить индивидуальность участников. В этой статье авторы задаются вопросом уменьшения необходимого числа запросов к исходным данным при выборе гипотезы, соблюдая при этом LDP.
## Метод
Авторы предлагают новый подход к решению проблемы выбора гипотезы в рамках LDP, используя новый математический объект — Scheffé-граф. Этот граф определяется как набор множеств, представляющих все возможные различия между распределениями в заданном множестве $Q$. Алгоритм, основанный на Scheffé-графе, выбирает самое близкое распределение к заданному $p$, не вызывая ошибки в целевой задаче. Используется метод неадаптивных запросов, что позволяет существенно сократить число итераций и упростить метод.
## Результаты
Авторы проводили эксперименты для сравнения их метода с текущими решениями. Использовались синтетические данные, а также реальные данные из некоторых прикладных областей. Результаты показали, что их алгоритм выполняет только $\tilde{O}(k^{3/2})$ запросов, что значительно меньше, чем $\Omega(k^2)$, требуемых предыдущими подходами. Это позволяет сократить количество запросов к пользователям и уменьшить время выполнения алгоритма.
## Значимость
Новый подход имеет широкое применение в области защиты данных, машинного обучения и статистического анализа. Он позволяет увеличить точность выбора моделей и сократить время обучения модели без ущерба для конфиденциальности. Благодаря меньшему числу запросов, алгоритм может быть применен в сценариях, где используются ограниченные ресурсы, такие как мобильные устройства или ресурс-интенсивные задачи, где необходимо минимизировать количество итераций.
## Выводы
Авторы доказали, что их подход значительно улучшает эффективность работы алгоритмов выбора моделей в LDP. Они предлагают в качестве будущих исследований рассмотреть другие структуры графа для того, чтобы улучшить еще больше процесс выбора гипотез и расширить его применение в других областях. Этот метод может быть применен в ситуациях, где необходимо минимизировать риск разглашения информации о данных.
Annotation:
We propose an algorithm with improved query-complexity for the problem of
hypothesis selection under local differential privacy constraints. Given a set
of $k$ probability distributions $Q$, we describe an algorithm that satisfies
local differential privacy, performs $\tilde{O}(k^{3/2})$ non-adaptive queries
to individuals who each have samples from a probability distribution $p$, and
outputs a probability distribution from the set $Q$ which is nearly the closest
to $p$. Previous algorithms requ...
Авторы:
Naipunnya Raj, Rajiv Sangle, Avinash Singh, Krishna Kumar Sabapathy
## Контекст
Исследования в области квантовых вычислений и машинного обучения находятся в зоне внимания научного сообщества из-за их потенциала в решении сложных задач, таких как генерация квантовых данных и моделирование квантовых систем. Существующие методы часто сталкиваются с ограниченностью возможности генерировать точные квантовые состояния или неэффективно используют ресурсы вычислений. Данная работа мы призваны разработать модель Quantum Generative Adversarial Autoencoder (QGAA), которая объединяет способности автокодировщика и генеритивной адверсарской сети на квантовом уровне, обеспечивая эффективную и точную генерацию квантовых данных.
## Метод
Quantum Generative Adversarial Autoencoder (QGAA) состоит из двух основных компонентов. Первый, Quantum Autoencoder (QAE), предназначен для сжатия квантовых состояний. Второй, Quantum Generative Adversarial Network (QGAN), обучает QAE в том числе и позволяет выучить latent space. Это улучшает возможности QAE в генерации данных. Мы использовали две квантовых модели на 6 кубитов: generation of pure entangled states, generation of parameterized molecular ground states for H$_2$ и LiH. Данные были обработаны с использованием PyTorch Quantum и Qiskit.
## Результаты
При симуляциях до 6 кубитов QGAA показал отличные результаты с average error в 0.02 Ha для H$_2$ и 0.06 Ha для LiH. Мы установили, что QGAA может эффективно генерировать квантовые состояния, в том числе pure entangled states и parameterized molecular ground states. Эти результаты демонстрируют потенциал QGAA в realm of quantum chemistry и науки о данных.
## Значимость
Приложение QGAA может продвинуть границы квантовой генетической инженерии, квантовых симуляций и машинного обучения. Оно предоставляет возможность генерировать точные квантовые состояния, что может быть критически важно в quantum chemistry и quantum machine learning. Эта модель также показала высокую эффективность и уменьшение ошибок во время симуляции, что может ускорить развитие приложений в quantum technology.
## Выводы
Выводы данного исследования показывают, что QGAA является эффективной моделью для генерации квантовых данных. Она открывает новые возможности в quantum chemistry и near-term quantum machine learning. Будущие исследования будут сфокусированы на улучшении точности генерации и расширении применений QGAA в различных квантовых алгоритмах.
Annotation:
In this work, we introduce the Quantum Generative Adversarial Autoencoder
(QGAA), a quantum model for generation of quantum data. The QGAA consists of
two components: (a) Quantum Autoencoder (QAE) to compress quantum states, and
(b) Quantum Generative Adversarial Network (QGAN) to learn the latent space of
the trained QAE. This approach imparts the QAE with generative capabilities.
The utility of QGAA is demonstrated in two representative scenarios: (a)
generation of pure entangled states, and (...
📄 FedAVOT: Exact Distribution Alignment in Federated Learning via Masked Optimal Transport
2025-09-20Авторы:
Herlock, Rahimi, Dionysis Kalogerias
## Контекст
Federated Learning (FL) — это методология распределенного обучения моделей, позволяющая обучать модели на распределенных данных без передачи исходных данных с клиентских устройств на сервер. Однако FL сталкивается с значительными проблемами при неполной участие клиентов в обучении. Так, например, распределение доступных пользователей (availability distribution, $q$) часто не совпадает с распределением, определяющим оптимизационный запрос (importance distribution, $p$). Это влечет за собой несбалансированность и нестабильность обновлений модели при использовании классического FedAvg. Данная проблема приводит к ухудшению качества модели, особенно в таких сценариях, как разнообразные данные, сценарии, требующие справедливости, и сценарии с ограниченным количеством участвующих клиентов. Для решения этих проблем предлагается FedAVOT — методом, основанный на принципах транспортного теоремы Оттлинга (optimal transport, OT), чтобы улучшить агрегацию в FL.
## Метод
FedAVOT оптимизирует процесс агрегации в FL с использованием теории транспортной задачи Оттлинга, которая позволяет скорректировать распределения $q$ и $p$ для синхронизированной агрегации моделей. Основной инструментом является метод Sinkhorn scaling, который позволяет вычислить веса агрегации, исходя из транспортной задачи. Это способствует получению производственных, добротных и стабильных обновлений модели, даже при минимальном количестве участвующих клиентов. Формализм FedAVOT гарантирует проверенную сходимость $\mathcal{O}(1/\sqrt{T})$ в несмотримой схеме с обучением, не зависящую от количества участвующих клиентов за каждый раунд. Этот подход обеспечивает улучшение качества модели в сценариях, где клиенты нечасто участвуют или где распределение данных сильно отличается от целевого распределения.
## Результаты
Исследования по FedAVOT проводились на различных симуляционных и реальных данных, включая сценарии с небольшим количеством участвующих клиентов и сценарии с неодинаковыми распределениями данных. Результаты показали, что FedAVOT превосходит FedAvg на различных метриках качества модели, включая точность и справедливость. Например, в сценарии с низким уровнем участия клиентов, FedAVOT показал серьезные выигрыши по сравнению с FedAvg, даже при числе участвующих клиентов в раунде одного или двух. Также, FedAVOT продемонстрировал улучшение справедливости модели в сценариях, где требуется сбалансированное распределение между различными подгруппами клиентов.
## Значимость
FedAVOT может быть применен в различных областях, где требуется эффективное обучение моделей с распределенными данными, но с ограниченным участием клиентов. Например, в сферах, где д
Annotation:
Federated Learning (FL) allows distributed model training without sharing raw
data, but suffers when client participation is partial. In practice, the
distribution of available users (\emph{availability distribution} $q$) rarely
aligns with the distribution defining the optimization objective
(\emph{importance distribution} $p$), leading to biased and unstable updates
under classical FedAvg. We propose \textbf{Fereated AVerage with Optimal
Transport (\textbf{FedAVOT})}, which formulates aggregat...
📄 Defending Diffusion Models Against Membership Inference Attacks via Higher-Order Langevin Dynamics
2025-09-19Авторы:
Benjamin Sterling, Yousef El-Laham, Mónica F. Bugallo
#### Контекст
На протяжении последних лет, применения генерирующих моделей в искусственном интеллекте (ИИ) позволили значительно расширить возможности в области создания текста, изображений и аудио. Однако эти генерирующие модели также привлекли к себе внимание из-за серьезных проблем с безопасностью данных. Одним из самых острых вопросов является **membership inference attack (MIA)**, при котором злоумышленник может определить, был ли конкретный элемент данных использован для обучения модели. Эти атаки подрывают приватность и подверждают модели риску использования несанкционированно. Хотя **diffusion models** в целом являются более устойчивыми к таким атакам по сравнению с другими типами моделей генеративного ИИ, они все равно остаются впахающими. Настоящая работа посвящена разработке метода защиты diffusion models, который бы помог снизить уязвимости к таким атакам.
#### Метод
Для защиты diffusion models проводилась разработка метода, основанного на критический-осциллирующих динамиках Ланжевина на высшем порядке. Этот подход включает в себя введение дополнительных переменных, которые делают процесс диффузии более сложным и микшируют внешний шум. Таким образом, внешний шум раньше затрудняет определение включения конкретных данных в обучающий набор. Техническая архитектура включает в себя введение аналитических подходов для моделирования диффузии, которые учитывают динамику этих дополнительных переменных. Это помогает смешать информацию о наличии конкретных объектов в обучающем наборе, что снижает вероятность успеха атаки. Методика была проверена на различных данных, включая игрушечные данные и речевые данные. Измерение эффективности было произведено с помощью кривых ROC (AUROC) и метрики FID.
#### Результаты
Конкретные эксперименты проводились на двух разных данных: игрушечном наборе и речевых данных. Оценка эффективности защиты была произведена с помощью кривых AUROC и метрики FID (Fréchet Inception Distance). Исследования показали, что метод критически-осциллирующих динамик Ланжевина выдает заметное улучшение в защите от MIA по сравнению с базовой моделью. Финальные результаты показали, что применение этого подхода приводит к снижению вероятности успеха атаки, так как внешний шум вводится раньше в процессе диффузии. Это позволяет скрыть включение конкретных данных в обучающий набор, что делает злоумышленникам более сложной задачу определения этого факта.
#### Значимость
Результаты доказали, что применение критически-осциллирующих динамик Ланжевина может значительно повысить устойчивость diffusion models к атакам на членство. Это приложение имеет широкий потен
Annotation:
Recent advances in generative artificial intelligence applications have
raised new data security concerns. This paper focuses on defending diffusion
models against membership inference attacks. This type of attack occurs when
the attacker can determine if a certain data point was used to train the model.
Although diffusion models are intrinsically more resistant to membership
inference attacks than other generative models, they are still susceptible. The
defense proposed here utilizes critically...
📄 Bayesian Parametric Matrix Models: Principled Uncertainty Quantification for Spectral Learning
2025-09-18Авторы:
Mohammad Nooraiepour
## Контекст
Спектральные методы становятся всё более популярными в области научных вычислений для понимания физических систем. Однако, текущие подходы к спектральному обучению обычно ограничиваются только точечными оценками, не учитывающими неопределённость. Это ограничение ограничивает применимость таких методов в сегментах, где конфиденциальность предсказаний является критически важной. Модели параметрических матриц, тем не менее, оказались эффективными средствами в области научных вычислений, достигших великолепной производительности за счёт учёта решений уравнений. Несмотря на это, их детерминированный характер существенно ограничивает их применение в задачах по выработке неопределённости. Данная работа предлагает развитие этой темы, предлагая новый подход, который будет объединять мощь параметрических моделей с теорией вероятностей для получения более надёжных исследований неопределённости.
## Метод
Мы предлагаем **Bayesian Parametric Matrix Models (B-PMM)**, новый фреймворк, который расширяет применение параметрических моделей матриц, добавляя компоненту неопределённости. Данная модель основывается на адаптивном спектральном декомпозиции, использующей регуляризованные матричные пределы для характеризации неопределённости в виде векторов вероятностей. Важным элементом является инновационный подход к вариационной инференции, применяющий матрично-векторные гауссовые модели, которые учитывают структурные ограничения матриц, такие как гермитовость. Для обеспечения доказательств теоретических свойств, таких как финитно-образуемость и калибровка, были использованы теоретические анализы, основывающиеся на характеристиках спектра матриц и их условии устойчивости.
## Результаты
В экспериментах, проведённых на матрицах различных размеров (от 5x5 до 500x500), показано, что B-PMM обеспечивают высокую точность и калибровку неопределённости, достигнув близких к идеальным значениям (ECE < 0.05). Модель продемонстрировала устойчивость при работе с ограниченно усложнёнными задачами, в том числе при близком к дегенерации спектре. Благодаря структурированным алгоритмам вариационной инференции, B-PMM обеспечивают эффективность вычислений, не теряя в точности. Экспериментальные результаты подтверждают мощь фреймворка в объединении точности и надежности неопределённости для решения задач в критически важных сферах.
## Значимость
B-PMM представляют собой значительный шаг в области спектрального обучения с теоретическим обоснованием и практически
Annotation:
Scientific machine learning increasingly uses spectral methods to understand
physical systems. Current spectral learning approaches provide only point
estimates without uncertainty quantification, limiting their use in
safety-critical applications where prediction confidence is essential.
Parametric matrix models have emerged as powerful tools for scientific machine
learning, achieving exceptional performance by learning governing equations.
However, their deterministic nature limits deployment ...
Авторы:
Sanjeda Akter, Ibne Farabi Shihab, Anuj Sharma
## Контекст
Large language models (LLMs) пользуются всесторонним применением в различных сферах жизнедеятельности. Однако они часто выдают довольно верные, но неверные ответы, что является неприемлемым для многих задач, требующих высокой точности. Это проблема становится острой в сферах, таких как здравоохранение, юриспруденция и финансы, где неверные ответы могут иметь серьезные последствия. Недостатком существующих подходов, таких как HallBayes, является отсутствие формальных гарантий их работы. Мы предлагаем новую теорию, основанную на **информационном скелете**, которая позволяет выделить верные ответы, свести к минимуму неопределенность и обеспечить формальные гарантии точности для LLM-выводов.
## Метод
Мы предлагаем **теорию информационно-высоты скелета** для селективной классификации. Наш подход основывается на **PAC-Bayes**-анализе, который расширяет стандартные бернуллиевские оценки, и включает в себя:
- **Под-гамма-анализ**, позволяющий оценивать вероятности ошибок с более высокой точностью;
- **Теоремы чувствительности скелета**, измеряющие устойчивость модели к неточностям в оценках;
- **Теория ошибочных режимов**, которая позволяет настраивать модель на понимание и контроль ошибок;
- **Вариационный метод** для точечной конструкции скелета, обеспечивающий эффективность и точность.
Метод адаптируется для работы с различными моделями LLMs и датасетами, чтобы обеспечить эффективность и универсальность.
## Результаты
Мы проверили наш подход на шести различных датасетах, включая задачи текстового классификации, генерации текста и ответа на вопросы. Модели, использующие нашу технологию, показали следующие результаты:
- Уменьшение неопределенности (abstention) на 12–15% с тем же уровнем риска;
- Задержка вычислений не превышала 20%, при этом с учетом батч-обработки эта стоимость может быть существенно снижена;
- Обеспечение формальных гарантий точности вывода в критичных сценариях.
Эти результаты доказывают устойчивость и эффективность нашего подхода в широком круге задач.
## Значимость
Наш подход может быть применен в **критически важных задачах**, таких как диагностика, финансовый мониторинг и юридические выводы, где точность и защита от неверных выводов критична. Он предлагает:
- **Формальные гарантии точности**, отсутствующие в предыдущих подходах;
- **Улучшение эффективности** за счет меньшей частоты отказа от вывода;
- **Универсальность**, применимаясь к различным моделям и сценариям использования.
Это дает во
Annotation:
Large language models often produce plausible but incorrect outputs. Existing
heuristics such as HallBayes lack formal guarantees. We develop the first
comprehensive theory of \emph{information-lift certificates} under selective
classification. Our contributions are: (i) a PAC-Bayes \emph{sub-gamma}
analysis extending beyond standard Bernstein bounds; (ii) explicit skeleton
sensitivity theorems quantifying robustness to misspecification; (iii)
failure-mode guarantees under assumption violations;...
📄 Reversible Deep Equilibrium Models
2025-09-18Авторы:
Sam McCallum, Kamran Arora, James Foster
#### Контекст
Углубленные нейронные сети (DNNs) становятся важной частью многих задач машинного обучения. Однако существуют проблемы, связанные с многоступенчатостью этих моделей. Большой объем параметров и необходимость в больших объемах данных могут привести к высоким затратам на ресурсы и время. Deep Equilibrium Models (DEQs) представляют собой интересный класс неявных моделей. В DEQs выход модели определяется как фиксированная точка любимой функции. Эти модели показали себя лучше чем традиционные модели с фиксированным количеством слоёв, в том числе в задачах обработки текста и распознавания изображений. Однако одним из ограничений DEQs является неточность вычисления производных (градиентов), что приводит к нестабильности в обучении и требует дополнительных мер регуляризации или множества вычислений.
#### Метод
Мы предлагаем Reversible Deep Equilibrium Models (RevDEQs), чтобы решить эти проблемы. RevDEQs используют реversible-динамику, что позволяет вычислять градиенты с точностью, не требуя дополнительных регуляризаторов и многих вычислений. Эта модель использует хорошо известный метод Ляпунова для обратных процессов. RevDEQs являются оптимизированными и могут работать с меньшим количеством итераций. Мы применяем RevDEQs к задачам глубокого обучения, включая моделирование языка и классификацию изображений.
#### Результаты
Мы проводили эксперименты на важной выборке данных для тестирования моделей, включая обучение на больших текстовых корпусах и изображениях. Мы сравнивали RevDEQs с двумя типами моделей: дебилитированными современными моделями DEQs и стандартными моделями с фиксированным количеством слоёв. Результаты показали, что RevDEQs достигают лучшего результата в задаче ловли языка и распознавания изображений, чем DEQs. Даже при меньшем количестве итераций RevDEQs достигают более высокой точности.
#### Значимость
RevDEQs могут быть применены в различных областях, таких как обработка текста, глубокое обучение и анализ изображений. Они обеспечивают более точные результаты с меньшими затратами на ресурсы, что делает их более эффективными. Эта модель также позволяет уменьшить время обучения и требования к количеству вычислений. У RevDEQs есть потенциал для расширения текущих моделей в широких сферах применения, включая медицину, автоматизацию и банковскую сферу.
#### Выводы
RevDEQs достигают наилучших результатов в обучении нейронных сетей, демонстрируя свою эффективность и точность. Однако потребуется дополнительная работа над улучшением производительности и увеличением скорости вычислений. Будущие исследования будут фокусироваться на улучшении RevDEQs для задач с высоки
Annotation:
Deep Equilibrium Models (DEQs) are an interesting class of implicit model
where the model output is implicitly defined as the fixed point of a learned
function. These models have been shown to outperform explicit (fixed-depth)
models in large-scale tasks by trading many deep layers for a single layer that
is iterated many times. However, gradient calculation through DEQs is
approximate. This often leads to unstable training dynamics and requires
regularisation or many function evaluations to fix...
Показано 291 -
300
из 385 записей