📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jyotishka Datta, Nicholas G. Polson

## Контекст Область исследования Prediction-Powered Inference (PPI) — рамка для доказательства статистических выводов, использующая неполностью меток данных. Она объединяет прогнозы модели на большом наборе непрознанных данных с коррекцией погрешности с меньшего прознанного подмножества. Тем не менее, существующая версия PPI не учитывает важность разметки, что может привести к неточностям в оценках. Это ограничение может возникнуть в областях, где информативность разметки является пропорциональной известным параметрам, таким как случайные выборки. Из этой мотивации возникает потребность в расширении PPI для обработки информативных разметок с помощью задачи обработки информации с весами. ## Метод Метод основывается на внедрении в PPI инверсных весов, используя типичные формулы Horvitz-Thompson и H\'ajek для обработки несбалансированных прознанных данных. Необходимо строить модели прогнозирования не только для основной модели, но и для весов разметки. Технический подход заключается в том, чтобы принимать оценки включения в качестве дополнительного параметра в модели весов. Это позволяет создать новый вид PPI, способный корректно учитывать важность разметки. Архитектура методологии включает в себя стандартные этапы построения модели прогнозирования, но также включает шаги для моделирования весов разметки, чтобы добиться достоверности результатов. ## Результаты Эксперименты проводились на синтетических данных и реальных наборах, где были оценены включение и прознанность в контексте PPI. Измерены были показатели точности, погрешности и доверительных интервалов. Обнаружено, что предложенный метод с инверсными весами дает похожие результаты с точки зрения доверительных интервалов и погрешности, даже если включенные вероятности не известны и вычисляются с помощью модели. Это показывает, что модель может эффективно корректировать погрешность в ситуациях, где информативность разметки неизвестна, но может быть приближена. ## Значимость Полученный подход может применяться в ситуациях, где разметка не является прознанной, но может быть предсказана с помощью моделей. Например, в области анализа данных с выбором по известным параметрам. Этот прием позволяет улучшить точность и достоверность информационных моделей, где традиционные методы могут иметь проблемы с искажением в случае неизвестных включений. Это также открывает новые шансы для использования PPI в областях сложной структуры данных, таких как семантический анализ и тематический моделирование. ## Выводы Основной достижением является расширение PPI для обработки информативных разметок с помощью весов. Это демонст
Annotation:
Prediction-powered inference (PPI) is a recent framework for valid statistical inference with partially labeled data, combining model-based predictions on a large unlabeled set with bias correction from a smaller labeled subset. We show that PPI can be extended to handle informative labeling by replacing its unweighted bias-correction term with an inverse probability weighted (IPW) version, using the classical Horvitz--Thompson or H\'ajek forms. This connection unites design-based survey samplin...
ID: 2508.10149v1 stat.ML, cs.LG, 62D10, 62F10, 62-02
Авторы:

Kennon Stewart

## Контекст Сегодняшние машинные обучения (ML) работают в условиях постоянного потока данных, где необходимо не только обучать модели, но и учитывать отмену обучения (unlearning) при появлении новых данных. Однако многие методы машинного unlearning предполагают статическую среду с равномерно распределенными данными, что не соответствует реальности. Это ограничивает эффективность моделей и приводит к необходимости периодической переобучения, которая ресурсоёмка и неэффективна. Требуется новая подходка, которая бы учла особенности потоковых данных и повысила эффективность unlearning. ## Метод Мы предлагаем перевести концепцию батч-unlearning в онлайн-среду, используя понятия regret, sample complexity и deletion capacity. Узкое место многих методов — дорогостоящее инвертирование Hessian-матрицы, которое мы заменяем на онлайн-версию оптимизации L-BFGS. Это уменьшает требования к памяти и позволяет модели работать дольше, прежде чем потребуется переобучение. Наш подход включает в себя новый алгоритм с logarithmic regret bound $\mathcal{O}(\ln{T})$, что является первым результатом в области машинного unlearning. ## Результаты Мы провели эксперименты на реальных задачах, используя данные, которые поступают потоком. Наши результаты показали, что новый подход существенно сокращает необходимое время для unlearning и уменьшает требования к памяти. Модель стала более эффективной и может работать дольше без необходимости переобучения. Это позволяет сократить ресурсоемкость и улучшить производительность ML-систем в условиях постоянного потока данных. ## Значимость Наш подход может применяться в различных областях, где необходимо постоянно обновлять модели ML в условиях потоковых данных, таких как мониторинг безопасности, системы рекомендаций или контроль качества. Он позволяет уменьшить затраты на периодическую переобучение и повысить эффективность работы моделей. Помимо этого, мы открываем динамическую среду для развития методов машинного unlearning, предлагая новый подход к решению этой проблемы в современных ML-системах. ## Выводы Мы предложили новый подход к машинному unlearning, который учитывает особенности потоковых данных и улучшает эффективность процесса. Мы уменьшили необходимость в переобучении, сделав модели более эффективными в условиях реального времени. Наш работа открывает путь к дальнейшим исследованиям в области динамического unlearning, в том числе в расширении теоретических результатов и применении в различных задачах.
Annotation:
Machine unlearning work assumes a static, i.i.d training environment that doesn't truly exist. Modern ML pipelines need to learn, unlearn, and predict continuously on production streams of data. We translate the notion of the batch unlearning scenario to the online setting using notions of regret, sample complexity, and deletion capacity. We further tighten regret bounds to a logarithmic $\mathcal{O}(\ln{T})$, a first for a machine unlearning algorithm. And we swap out an expensive Hessian inver...
ID: 2508.10193v1 stat.ML, cs.LG
Авторы:

Sevvandi Kandanaarachchi, Philip Kilby, Cheng Soon Ong

## Контекст Область исследования связана с теорией графов и их преобразованиями. Графы являются основным инструментом в математике, компьютерных науках и естественных науках для моделирования структурных и логических связей. Одним из интересных преобразований является превращение графа в его линейный граф (line graph). Линейный граф представляет собой вершины оригинального графа как рёбра нового графа. Однако не все графы имеют линейный граф, что делает преобразование необратимым. Это ограничение мотивирует рассмотрение возможности реконструировать оригинальный граф из его линейного графа с минимальными правками, определяя таким образом псевдообратную операцию. Это имеет значение в задачах графной теории, компьютерного зрения и других областях, где графы используются для моделирования. ## Метод Работа основывается на оптимизационной модели, которая предлагает решение задачи нахождения псевдообратного линейного графа. Основная идея заключается в том, чтобы найти минимальное число редакций рёбер в линейном графе, чтобы получить оригинальный граф. Используется линейная интегральная программа для оптимизации этой задачи. Для теоретической валидации гипотезы о работе этой модели применяется норма спектра графа. Эмпирические эксперименты проводятся с использованием графов Эрдеша-Реньи, чтобы проверить эффективность метода на реальных данных. ## Результаты На основе использованных данных (графов Эрдеша-Реньи), эксперименты показывают, что прогнозируемые теоретические результаты о работе модели соответствуют реальному поведению. Метод позволяет восстановить оригинальный граф с минимальными изменениями в линейном графе. Эксперименты также подтверждают, что псевдообратная операция оптимальна в заданных предположениях. Эти результаты эмпирически подтверждают теоретический подход к решению задачи. ## Значимость Полученные результаты имеют значение для многих областей, где графы используются для моделирования. Метод может применяться в графной теории для разбора и восстановления структуры графов. Также может быть полезен в области графного зрения, анализа сетей и других приложениях. Особым преимуществом является то, что этот подход минимизирует изменения в линейном графе, чтобы восстановить оригинальный, что является эффективным и точным. Это может иметь большой потенциальный вклад в развитие теории графов и её приложений. ## Выводы В итоге был предложен метод для решения задачи восстановления оригинального графа из его линейного графа с минимальными редакциями. Экс
Annotation:
Line graphs are an alternative representation of graphs where each vertex of the original (root) graph becomes an edge. However not all graphs have a corresponding root graph, hence the transformation from graphs to line graphs is not invertible. We investigate the case when there is a small perturbation in the space of line graphs, and try to recover the corresponding root graph, essentially defining the inverse of the line graph operation. We propose a linear integer program that edits the sma...
ID: 2508.09412v1 stat.ML, cs.LG, math.OC
Авторы:

Akshay Thakur, Sawan Kumar, Matthew Zahr, Souvik Chakraborty

#### Контекст Решение частных дифференциальных уравнений (PDE) широко распространено в науке и инженерии, так как они лежат в основе моделей многих физических и технологических процессов. Однако решение PDE часто связано с высокими вычислительными затратами, особенно при работе с высокомерностными проблемами или большими масштабах. Эпистемическая неопределенность, возникающая из-за дискретизации, также представляет собой значительную сложность. Базируясь на подходе проблематической нумерики, в рамках которого решения PDE становятся вероятностными, можно уменьшить эту неопределенность и улучшить точность решения. Однако существующие методы сталкиваются с проблемами масштабируемости, потому что их вычислительный оверхед растет требовательно к количеству точек для решения. #### Метод Мы предлагаем усовершенствования в проблематической нумерике, которые уменьшают вычислительный оверхед и позволяют масштабировать решение PDE. В качестве первого усовершенствования мы предлагаем алгоритм стохастического дуального спуска, который снижает требования к вычислительной сложности от кубических до линейных относительно количества точек для решения. Второй вклад — кластерная стратегия активного обучения, которая адаптивно выбирает точки для решения, чтобы максимизировать информационный выигрыш при минимальной вычислительной затрате. Эти техники включены в $h$-адаптивный подход, где адаптивность достигается через учет локальных характеристик решения и применение эвристик, уменьшающих вычислительный оверхед. #### Результаты Мы проверили алгоритм на нескольких классических PDE, включая дву- и трехмерные уравнения Эллипса, а также временно-зависимое уравнение Параболы. Наши результаты показали, что $h$-адаптивный подход эффективно уменьшает неопределенность и позволяет получить точные решения с меньшими вычислительными затратами по сравнению с традиционными методами. Мы также показали, что стратегия активного обучения приводит к повышению точности и позволяет эффективно управлять ресурсами. #### Значимость Предлагаемый подход имеет широкие применения в областях, где требуется решение высокомерностных PDE, таких как моделирование теплообмена, химических процессов и динамики жидкостей. Он позволяет решать проблемы, которым ранее трудно было подойти из-за высоких требований к вычислительным ресурсам. Одним из ключевых преимуществ является уменьшение вычислительного оверхеда, что позволяет эффективно использовать ресурсы и увеличивает масштабируемость систем. Это делает исследование влияния PDE на реальные процессы более доступным и практичны
Annotation:
Solving partial differential equations (PDEs) within the framework of probabilistic numerics offers a principled approach to quantifying epistemic uncertainty arising from discretization. By leveraging Gaussian process regression and imposing the governing PDE as a constraint at a finite set of collocation points, probabilistic numerics delivers mesh-free solutions at arbitrary locations. However, the high computational cost, which scales cubically with the number of collocation points, remains ...
ID: 2508.09623v1 stat.ML, cs.LG
Авторы:

Yuan-Hao Wei, Fu-Hao Deng, Lin-Yong Cui, Yan-Jie Sun

#### Контекст В современной вычислительной биологии и машинном обучении, семейство генерирующих аддитивных моделей, таких как генеративные модели на основе гауссовых процессов (GP) и автокодирующих моделей (VAE), приобретает все больший интерес. Одна из причин этого является их универсальность и мощь в решении задач декомпозиции и структуры данных. Одна из узколистой областей исследований в этой сфере -- Инверсное Отбор Источников (ICA) -- представляет собой задачу разделения смешанных сигналов на независимые компоненты. Однако существующие подходы к ICA, основанные на GP, требуют высокого вычислительного времени и ресурсов, что ограничивает их применение в реальном времени и при больших данных. #### Метод Проведено разработку модели Structured Kernel Regression VAE (SKR-VAE) для решения задачи ICA с более высокой эффективностью. SKR-VAE основывается на идее структурированных кернелов, которые позволяют управлять связями между точками последовательностей в разных латентных пространствах. Ключевым элементом является использование регрессии кернела в качестве приближенного аналога гауссовых процессов. Это позволяет избежать вычислительно трудоемкого процесса обращения матрицы кернелов. Технически, SKR-VAE использует регрессионные модели с предварительными кернелами для моделирования взаимосвязи между латентными пространствами. Эта модель эффективна, так как она не требует полного вычисления матрицы кернела и предлагает более сжатый подход к ICA. #### Результаты В экспериментах SKR-VAE сравнивался с GP-VAE на различных данных. Результаты показали, что SKR-VAE достигает почти одинаковой точности в ICA, но с значительно меньшим вычислительным временем и требованиями к памяти. На больших данных, таких как MNIST, SKR-VAE показал существенный выигрыш в вычислительной эффективности, сократив время обучения в несколько раз по сравнению с GP-VAE. Это демонстрирует значительное потенциальное применение SKR-VAE в ситуациях, где вычислительная эффективность критическа. #### Значимость SKR-VAE предлагает решение для задач ICA с высоким уровнем вычислительной эффективности и меньшей нагрузкой на ресурсы. Он может использоваться в реализации генерирующих моделей в сложных задачах данных, таких как жизненные науки, медицина и анализ сигналов. Кроме того, он может быть наиболее эффективен в сценариях, где высокая скорость обработки данных является ключевым фактором, таких как мониторинг и видеоанализ. Этот подход может иметь значительное влияние на развитие более эффективных и скоростных генерирующих моделей. #### Выводы SKR-VAE достигает основных ц
Annotation:
The interpretability of generative models is considered a key factor in demonstrating their effectiveness and controllability. The generated data are believed to be determined by latent variables that are not directly observable. Therefore, disentangling, decoupling, decomposing, causal inference, or performing Independent Component Analysis (ICA) in the latent variable space helps uncover the independent factors that influence the attributes or features affecting the generated outputs, thereby ...
ID: 2508.09721v1 stat.ML, cs.LG
Авторы:

Chenrui Liu, Falong Tan, Chuanlong Xie, Yicheng Zeng, Lixing Zhu

## Контекст In-Context Learning (ICL) является выдающейся методологией в области машинного обучения, основанной на предварительно обученных моделях, таких как трансформеры. Она позволяет модели выводить классы или значения на основе представления пространства ответов, которое неявно формируется в ходе обучения. Известно, что ICL эффективно работает в задачах классификации и супервайзед learning, но остается мало исследований по оценке ее риска и оптимальности. Необходимость исследования заключается в том, чтобы понять, какими являются преимущества ICL по сравнению с другими методами, а также понять ее ограничения. ## Метод Методология исследования основывается на моделировании задач как последовательностей лейбленных промптов и запросов, где предварительно обученная модель вычисляет классовые вероятности для запросов. Оценивается ожидаемый эксцесс риска в многоклассовой классификации через трансформацию в качество вероятности. Для достижения оптимальных результатов, используется метод, основанный на унифицированной критической интерпретации вероятностной модели. Технический подход включает управление обобщающим ошибками с помощью покрывающей энтропии неравенств. Архитектура исследования включает трансформеры и MLP, позволяя сравнить эффективность различных моделей. ## Результаты Эксперименты проводились на различных данных, включая классические рекорды для классификации. Оказалось, что ICL показывает очень высокую точность, приближающуюся к минимаксной оптимальности в задаче оценки вероятности. Для MLP также доказана эффективность в некоторых условиях, что доказывает, что ICL не является эксклюзивной трансформерами. Таким образом, полученные результаты подтверждают, что ICL является эффективным способом для классификации и позволяет достигать минимаксной оптимальности. ## Значимость Результаты имеют значительное значение в области машинного обучения, поскольку позволяют лучше понять как работают ICL и MLP в задачах классификации. Они открывают пути для улучшения моделей, а также дают новые инструменты для оценки риска в задачах классификации. Это может быть применено в многочисленных практических задачах, где необходимо выборочно оценивать вероятности классов, например в системах рекомендаций или здравоохранения. ## Выводы Исследование доказывает, что ICL является эффективной методологией для оценки классовых вероятностей и может обеспечить минимаксную оптимальность. Также показано, что MLP может использоваться для ICL в определенных условиях. Будущие исследования будут сфокусированы на улучшени
Annotation:
This paper investigates the expected excess risk of In-Context Learning (ICL) for multiclass classification. We model each task as a sequence of labeled prompt samples and a query input, where a pre-trained model estimates the conditional class probabilities of the query. The expected excess risk is defined as the average truncated Kullback-Leibler (KL) divergence between the predicted and ground-truth conditional class distributions, averaged over a specified family of tasks. We establish a new...
ID: 2508.08673v1 stat.ML, cs.LG
Авторы:

Joseph Paillard, Antoine Collas, Denis A. Engemann, Bertrand Thirion

## Контекст Область исследования связана с развитием методов контролируемого измерения важности переменных в моделях машинного обучения, особенно в контексте медицинского применения. Несмотря на прогресс в машинном обучении, возникают сложности с интерпретируемостью сложных моделей, особенно при обработке медицинских данных. Эта проблема становится важной, так как медицинские приложения требуют понятного объяснения решений моделей. Неоднородность и высокая корреляция данных в медицинской сфере делают задачу еще более сложной. Наша мотивация заключается в разработке метода, который сможет эффективно обрабатывать такие данные, обеспечивая контролируемую интерпретабельность. ## Метод Мы предлагаем Hierarchical-CPI (Conditional Variable Importance), подход, который строит дерево групп важных переменных, используя тривиальные выборки для моделирования. Метод основывается на группировании похожих переменных и использовании их вместе для предсказания целевой переменной. Это позволяет оптимизировать вычислительную сложность, не уменьшая точность. Разделение данных на подгруппы позволяет контролировать ошибки на уровне семейств (family-wise error rate), что обеспечивает достоверность результатов. Метод также использует алгоритмы для достижения высокой точности в условиях высокой корреляции данных. ## Результаты Мы проверили Hierarchical-CPI на двух медицинских данных: 1) данных ADNI (Alzheimer’s Disease Neuroimaging Initiative) для классификации диагнозов деменции на основе магнитных резонансных изображений (MRI), и 2) данных TDBRAIN для анализа эффекта Бергера на электроэнцефалограммы (EEG). Наши результаты показали, что Hierarchical-CPI эффективно определяет биологически обоснованные переменные, которые влияют на результаты. Метод показал себя лучше, чем существующие варианты, в том числе при работе с высококоррелированными данными. ## Значимость Метод Hierarchical-CPI может быть применен не только в медицинских задачах, но и в других сферах, где требуется прозрачность моделей и контроль ошибок. Он устойчив к высокой корреляции данных, что делает его полезным для обработки медицинских изображений, генетических данных и других сложных многомерных данных. Данный подход может способствовать улучшению практического применения моделей машинного обучения в медицине, повышая доверие к результатам у медиков и специалистов. ## Выводы Наша работа представляет Hierarchical-CPI, новый подход для измерения важности переменных в моделях машинного обучения, оптимизированный для работы с высококоррелированными данными. Мы продемонстрировали его эффективность в задачах классификации деменции и анализа EEG. Будущие исследования будут сфокусированы на расширении это
Annotation:
Recent advances in machine learning have greatly expanded the repertoire of predictive methods for medical imaging. However, the interpretability of complex models remains a challenge, which limits their utility in medical applications. Recently, model-agnostic methods have been proposed to measure conditional variable importance and accommodate complex non-linear models. However, they often lack power when dealing with highly correlated data, a common problem in medical imaging. We introduce Hi...
ID: 2508.08724v1 stat.ML, cs.LG
Авторы:

Davide Casnici, Charlotte Frenkel, Justin Dauwels

## Контекст Современная нейросистемная инженерия стремится создавать модели, которые были бы эффективными, универсальными и приближенными к природе. Одна из самых значимых проблем в этой области — создание алгоритмов обучения, которые были бы ближе к биологическим процессам. Алгоритм **Backpropagation (BP)**, широко используемый для обучения нейронных сетей, требует глобальных сигналов ошибки для обновления весов. Однако это явление сильно отклоняется от биологических моделей, где обновления весов локальны и зависят только от локальных сигналов. Это несоответствие вдохновило исследователей на поиск биологически более предметных альтернатив. Одной из таких альтернатив является **Predictive Coding (PC)**, метод, основанный на теории сигнального кодирования и работе с шумом. PC предлагается как модель не только для сигнальной обработки, но также для моделирования визуального центра в мозгу. Благодаря своей локальности и связи с **Байесовым выводом**, PC получила большое внимание в современной науке. Целью данной работы является подробное описание PC, её математических оснований и приложений в разработке биологически более правдоподобных моделей нейронных сетей. ## Метод Методология **Predictive Coding (PC)** основывается на принципе биологической параметризации. Основная идея заключается в том, что нейроны не только реагируют на сенсорные сигналы, но и предсказывают входящие сигналы на основе предыдущих информационных моделей. Локальные ошибки — разница между предсказанием и фактическим входом — используются для адаптации весов. Веса в сети обновляются таким образом, чтобы смягчить разницу между предсказаниями и фактическими значениями. Основная архитектура PC включает в себя две основные части: **encoder** и **decoder**. Encoder предсказывает входные данные на основе текущих весов, в то время как decoder сравнивает предсказания с фактическими значениями. Изменения весов происходят только в зависимости от разницы между этими двумя субъектами. Этот подход теоретически эффективен, так как он уменьшает необходимость в глобальных сигналах. ## Результаты **Эксперименты** проводятся на ряде синтетических и реальных данных. Модели PC были применены к обработке сигналов, визуальному распознаванию и динамическому моделированию. Эксперименты показали, что PC может эффективно обучаться в ситуациях, где BP столкнулся с проблемами, такими как высокая степень зависимости от глобальных сигналов. Была проверена гипотеза о том, что PC не только эффективна, но и более устойчива к шумам. Были проведены сравнения с BP и другими алгоритмами, показавшими, что PC может изб
Annotation:
Backpropagation (BP) of errors is the backbone training algorithm for artificial neural networks (ANNs). It updates network weights through gradient descent to minimize a loss function representing the mismatch between predictions and desired outputs. BP uses the chain rule to propagate the loss gradient backward through the network hierarchy, allowing efficient weight updates. However, this process requires weight updates at every layer to rely on a global error signal generated at the network'...
ID: 2508.08762v1 stat.ML, cs.LG
Авторы:

Jingmao Li, Yuanxing Chen, Shuangge Ma, Kuangnan Fang

## Контекст Область исследования федеративного обучения подразумевает распределенное анализирование данных из нескольких источников с учетом принципов конфиденциальности. Данная область набирает важность, так как современные реалии требуют эффективных методов для обработки и анализа данных, не приведя к утечке информации. Необходимость решения данной проблемы вызвана возрастающим количеством данных из различных источников, которые должны обрабатываться в режиме реального времени с сохранением уровня безопасности. Традиционные федеративные методы применялись в статических данных, но в реальных системах данные поступают потоком, что требует разработки новых способов обработки потоковых данных, которые могут адаптироваться к изменению структуры и характера данных. Мотивацией для этого исследования является необходимость разработки методов, которые могут эффективно обрабатывать потоковые данные, сохраняя при этом принципы конфиденциальности и уменьшая требования к вычислительным ресурсам. ## Метод В данной работе предлагается Federated Online Learning (FOL) метод для распределенного анализа потоковых данных из нескольких источников. Метод основывается на создании персонализированных моделей для каждого источника данных, чтобы учесть их индивидуальные особенности. Для улучшения результатов используется "subgroup" приближение, которое позволяет корректно отразить схожие характеристики в разных источниках. Метод использует ресурс-эффективные методы обучения, такие как penalized renewable estimation и простой proximal gradient descent. Одним из основных принципов является то, что данные не пересылаются между источниками, что обеспечивает высокий уровень конфиденциальности. Также метод требует только сводных статистических данных из прошлых батчей для обновления модели, что значительно сокращает требования к памяти. Эта архитектура позволяет объединить преимущества федеративного и онлайн-обучения. ## Результаты В ходе экспериментов были проведены симуляции и использованы данные из финансового сегмента и логов веб-запросов. Результаты показали, что FOL-метод эффективен в решении задач классификации и регрессии в реальных ситуациях. Он показал лучшую точность и скорость обучения по сравнению с существующими методами. Метод также продемонстрировал хорошую адаптивность к изменениям данных и способность обрабатывать высокомерностные данные. Данные результаты подтверждают, что FOL может эффективно адаптироваться к потоковым данным, уменьшая затраты на вычисления и обеспечивая высокую точность. ## Значимость Предлагаемый метод может быть применен в различных областях, таких как финансовый анализ, мониторинг трафи
Annotation:
Federated learning has emerged as an essential paradigm for distributed multi-source data analysis under privacy concerns. Most existing federated learning methods focus on the ``static" datasets. However, in many real-world applications, data arrive continuously over time, forming streaming datasets. This introduces additional challenges for data storage and algorithm design, particularly under high-dimensional settings. In this paper, we propose a federated online learning (FOL) method for dis...
ID: 2508.06652v1 stat.ML, cs.LG
Авторы:

Lam Ngo, Huong Ha, Jeffrey Chan, Hongyu Zhang

## Контекст В последние годы внимание сообщества расширилось на область градиентно-свободной оптимизации в высокомерных пространствах, так как она находит применение в различных сферах, таких как машинное обучение, экономика и технологии. Однако, существующие методы BO значительно ограничены, так как они привязаны к оптимизации в пространствах последовательностей или в пространствах, состоящих из числовых переменных. Недостаток методов BO в области бинарных, категориальных и смешанных переменных является главной проблемой, которая еще не удалось решить. Многие предыдущие исследования сталкиваются с проблемами, такими как ограниченная скорость оптимизации, неэффективность в высокомерных пространствах и трудности в обработке смешанных типов данных. Эти проблемы требуют разработки новых методов, которые могли бы эффективно работать в пространствах с высокой размерностью и комбинаторными переменными. ## Метод Метод MOCA-HESP (Meta-Algorithm for Combinatorial and Mixed Spaces via Hyper-Ellipsoid Partitioning) представляет собой новый подход к высокомерной оптимизации, который использует гипер-эллипсоидные функции для деления пространства. Он использует различные техники кодирования категориальных переменных для работы с высокомерными пространствами, включая категориальные, бинарные и смешанные переменные. Особенностью этого подхода является использование метода выбора лучшего оптимизатора с использованием мульти-арми Bandit, который позволяет точно выбирать оптимальные параметры для работы в каждом конкретном случае. Таким образом, этот метод может адаптироваться к различным типам пространств и их структурам. Также, MOCA-HESP является мета-алгоритмом, который может быть интегрирован с другими методами BO для улучшения их производительности в комбинаторных и смешанных пространствах. ## Результаты Для оценки производительности MOCA-HESP на тестовой выборке были проведены эксперименты на как синтетических, так и на реальных данных. Для синтетических данных были использованы различные модели, включая модель с несколькими входами и выходами, а для реальных данных — данные из различных приложений, таких как задачи поиска и задачи логистики. Наши результаты показали, что MOCA-HESP существенно превосходит существующие методы BO в скорости оптимизации, точности и эффективности в работе с смешанными пространствами. Также были проведены сравнительные тесты с такими методами, как Standard BO, CASMOPOLITAN и Bounce, которые подтвердили высокую эффективность MOCA-HESP в работе с высокомерными пространствами. ## Значимость Этот метод может быть применен в различных областях, таких как машинное обучение, анализ данных, проектирование систем, виртуализация и другие сферы
Annotation:
High-dimensional Bayesian Optimization (BO) has attracted significant attention in recent research. However, existing methods have mainly focused on optimizing in continuous domains, while combinatorial (ordinal and categorical) and mixed domains still remain challenging. In this paper, we first propose MOCA-HESP, a novel high-dimensional BO method for combinatorial and mixed variables. The key idea is to leverage the hyper-ellipsoid space partitioning (HESP) technique with different categorical...
ID: 2508.06847v1 stat.ML, cs.LG
Показано 531 - 540 из 564 записей