📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 An Introduction to Sliced Optimal Transport

2025-08-20

Авторы:

Khai Nguyen

#### Контекст Оптимальное транспортное погрешность (Optimal Transport, OT) — это важное понятие в теории меры и статистике, которое позволяет измерять расстояния и корреляции между двумя распределениями. Однако, стандартная OT часто сталкивается с проблемами вычислительной сложности, особенно при работе с высокомерными данными. Sliced Optimal Transport (SOT) — это подход, который использует транспорт в одномерном пространстве, чтобы приобрести больше вычислительной эффективности. Этот подход основывается на использовании целого ряда одномерных распределений для преобразования и сравнения более сложных мер. Несмотря на то, что SOT значительно упрощает вычисления, он сохраняет геометрическую структуру и мощь традиционного OT. Необходимость в SOT возникает из-за роста объема данных и сложности задач в машинном обучении, статистике и других дисциплинах. #### Метод SOT основывается на одномерной оптимальной транспортной задаче, которая легко решается. Главная идея заключается в том, чтобы разбить данные на подпространства размерности одной (например, вектора-столбца) и использовать одномерные распределения для вычисления дистанций. Эта техника обычно привносит сильные инварианты в многомерные данные, что позволяет их легко сравнивать. Основные инструменты, используемые в SOT, — это **Radon-преобразование**, которое преобразует меры в одномерные, и **Monte Carlo-эстимации**, которая позволяет вычислять скопированные меры. В SOT также используются сложные методы, такие как **non-linear slicing**, **weighted slicing** и **variational problems**, которые позволяют улучшить точность и скорость вычислений. #### Результаты В рамках экспериментов SOT был применен к многочисленным задачам, включая расчет расстояний, barycenters (средних распределений), оценивание градиентных потоков, вычисление керов и трансформаций для распределений. Набор данных в экспериментах включал как синтетические данные, так и реальные данные из машинного обучения, графического дизайна и компьютерного зрения. Результаты показали, что SOT не только значительно сокращает время расчета, но и сохраняет высокую точность по сравнению с классическим OT. Например, в задаче сопоставления распределений данных в графическом дизайне, SOT дал результаты, которые были близки к классическому OT, но с меньшим расходом ресурсов. #### Значимость SOT был применен в различных областях, включая машинное обучение, математическую статистику, компьютерные графики и компьютерное зрение. Он показал свою эффективность в задачах, таких как расчет расстояний между распределениями, вычисление barycenters, кластеризация данных и преобразования. Основное преиму

Annotation:

Sliced Optimal Transport (SOT) is a rapidly developing branch of optimal transport (OT) that exploits the tractability of one-dimensional OT problems. By combining tools from OT, integral geometry, and computational statistics, SOT enables fast and scalable computation of distances, barycenters, and kernels for probability measures, while retaining rich geometric structure. This paper provides a comprehensive review of SOT, covering its mathematical foundations, methodological advances, computat...

ID: 2508.12519v1 stat.ML, cs.AI, cs.LG, stat.CO, stat.ME

arXiv PDF

📄 ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization

2025-08-19

Авторы:

Shengzhuang Chen, Xu Ouyang, Michael Arthur Leopold Pearce, Thomas Hartvigsen, Jonathan Richard Schwarz

## Контекст Оптимизация смеси данных для обучения больших языковых моделей является ключевым аспектом, значительно влияющим на их эффективность и качество. Несмотря на важность этой задачи, нынешний подход к ней остается традиционным и основывается на руководстве экспертам и методах хитроумного экспериментирования, которые недостаточно надежны и эффективны. Это приводит к значительным затратам времени и ресурсов на эксперименты, а также к опасности переобучения к маломасштабным данным. Данная работа предлагает новый подход к этой проблеме, рассматривая его как задачу оптимизации черного-ящика с использованием байесовской оптимизации. ## Метод ADMIRE-BayesOpt предлагает представить проблему выбора смеси данных для обучения языковых моделей в качестве задачи последовательного выбора, оптимизирующей баланс между затратами на обучение пробных моделей и показателями полученной смеси. Для этого используется методология нескольких фидбеков в байесовской оптимизации, которая позволяет эффективно комбинировать результаты из множества экспериментов с различными уровнями ресурсов. Архитектура решения включает в себя систему, которая стремится минимизировать затраты на эксперименты, получая наилучшую смесь данных для указанного размера модели и задачи обучения. ## Результаты Проведенные эксперименты были проведены на моделях размеров от 1 миллиона до 7 миллиардов параметров, включая простые архитектуры и современные модели. Было осуществлено 460 полных циклов обучения и оценки моделей, что составляет более 13 000 часов вычислительных ресурсов на графических процессорах. Результаты показали, что ADMIRE-BayesOpt предоставляет скорость оптимизации лучшей смеси данных, составляющую более 500% по сравнению с базовыми методами. Эта система позволяет эффективно использовать ресурсы и снижать риски переобучения к маломасштабным данным. ## Значимость Описанное решение может быть применено в различных областях глубокого обучения, где требуется оптимизация многообразия данных для обучения языковых моделей. Особый подход ADMIRE-BayesOpt обеспечивает снижение затрат на ресурсы, увеличивает эффективность и позволяет быстрее достичь результатов. Рассматриваемый подход может иметь значительное влияние на развитие технологий глубокого обучения, уменьшая необходимость в ручном вмешательстве и использовании ресурсов. ## Выводы Результаты данного исследования показали, что ADMIRE-BayesOpt является эффективным инструментом для оптимизации смеси данных в обучении языковых моделей. Он не только существенно сокращает время и ресурсы, но и позво

Annotation:

Determining the optimal data mixture for large language model training remains a challenging problem with an outsized impact on performance. In practice, language model developers continue to rely on heuristic exploration since no learning-based approach has emerged as a reliable solution. In this work, we propose to view the selection of training data mixtures as a black-box hyperparameter optimization problem, for which Bayesian Optimization is a well-established class of appropriate algorithm...

ID: 2508.11551v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-09

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном мире анализа данных и прогнозирования растет важность эффективного управления высокоразмерными данными, особенно при прогнозировании временных рядов. Традиционные методы динамической дименсионной редукции, такие как принципальный компонентный анализ (PCA), часто не учитывают контекст задачи прогнозирования, что может приводить к потере важной информации для дальнейшего анализа. Особенно критично это в ситуациях, когда данные содержат большое количество предикторов, но только некоторые из них имеют значительное влияние на целевую переменную. Существующие подходы к дименсионной редукции, основанные на неконтролируемых методах, не всегда эффективны в выявлении факторов, которые действительно важны для прогнозирования. Кроме того, проблема улучшения интерпретируемости полученных латентных факторов остается открытой. Это ограничивает практическую применимость методов дименсионной редукции в реальных приложениях, где необходимо не только повысить точность прогнозов, но и обеспечить лучшее понимание взаимосвязей между переменными. Предлагается решение этой проблемы путем разработки метода, который бы комбинировал динамическую дименсионную редукцию с надзором (supervised learning) над целевой переменной. Такой подход позволил бы создать целевые предикторы, которые улучшают точность прогнозов, одновременно обеспечивая интерпретируемость результатов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают метод под названием **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который интегрирует целевую переменную и отложенные наблюдения (lagged observations) в процесс выделения факторов. Данный метод состоит из нескольких этапов. В первую очередь, используется временная нейронная сеть (temporal neural network) для конструирования целевых предикторов. Эти предикторы формируются путем масштабирования исходных предикторов с учетом их важности для прогнозирования целевой переменной. Таким образом, предикторы с более высоким влиянием на прогноз получают больший вес. Затем, на основе полученных целевых предикторов, применяется принципальный компонентный анализ (PCA) для извлечения **SDDP факторов**. Эти факторы не только уменьшают размерность данных, но также являются более интерпретируемыми, так как они ориентированы на целевую переменную. Далее, на основе этих факторов строится **факторно-увеличенная нелинейная динамическая модель прогнозирования**, которая объединяет различные подходы на основе факторных моделей. Авторы также рассматривают ситуацию, когда некоторые предикторы недоступны (partially observable predictors), и предлагают расширение метода для такого случая. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода проведены эксперименты на нескольких реальных наборах данных. Авторы использовали различные наборы данных, включая данные из области финансов, экономики и других доменов, где прогнозирование временных рядов является важной задачей. Результаты показали, что метод **SDDP** достигает значительных улучшений в точности прогнозирования по сравнению со стандартными методами, такими как традиционный PCA и другие неконтролируемые методы дименсионной редукции. Кроме того, факторы, полученные с помощью SDDP, оказались более интерпретируемыми, что позволило лучше понять взаимосвязи между предикторами и целевой переменной. В частности, эксперименты показали, что использование целевой переменной в процессе факторизации приводит к более точным и стабильным прогнозам. Было также показано, что метод эффективен даже в случае частично наблюдаемых данных, где некоторые предикторы могут быть недоступны. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод **SDDP** имеет широкое применение в различных областях, где важна точность прогнозирования временных рядов. Это может быть финансовый сектор, где необходимо прогнозирование цен на активы, экономический сектор для прогнозирования индикаторов, или даже в области медицины для прогнозирования заболеваний на основе временных данных. Одним из главных преимуществ метода является его интерпретируемость. Факторы, полученные с помощью SDDP, не только повышают точность прогнозов, но также позволяют лучше понять, какие предикторы важны для данной задачи. Это может быть особенно полезно в ситуациях, когда необходимо объяснить причины полученных прогнозов. Кроме того, предложенный метод может быть применен в ситуациях, когда данные неполные или частично наблюдаемые, что делает его более универсальным в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод **Supervised Deep Dynamic Principal Component Analysis (SDDP)**, который улучшает точность прогнозирования временных рядов путем интеграции целевой переменной в процесс дименсионной редукции. Этот метод не только повышает точность прогнозов, но также обеспечивает более интерпретируемые факторы, что делает его применимым в различных практических сценариях. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая его адаптацию для более сложных типов данных, таких как неструктурированные данные, или расширение его применения на более широкий класс задач прогнозирования. Также могут быть исследованы возможности интеграции других техник дименсионной редукции и нейронных сетей для дальнейшего повышения эффективности.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Metric Learning in an RKHS

2025-08-09

Авторы:

Gokcan Tatli, Yi Chen, Blake Mason, Robert Nowak, Ramya Korlakai Vinayak

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Метрическое обучение (metric learning) является ключевым инструментом в области обработки данных и машинного обучения, где цель заключается в построении метрики, которая точно отражает сходство или различия между объектами. Этот подход имеет широкое применение в задачах, таких как извлечение образов, рекомендательные системы и когнитивная психология. Одной из популярных форм метрического обучения является обучение на основе триплетных сравнений (triplet comparisons), где пользователь указывает, какой из двух объектов (например, $h$ и $i$) более похож на третий объект ($j$). Такие сравнения позволяют определять степень сходства и различия между объектами. В последнее время, нелинейные методы метрического обучения, основанные на ядровых методах (kernel methods) и нейронных сетях, показали высокую эффективность на практике. Однако, несмотря на их успех, теоретическое понимание таких методов остается ограниченным. Большинство исследований фокусируются на линейных методах, где метрическое обучение производится в евклидовом пространстве $\mathbb{R}^d$, для которого существует хорошо изученная теория. Однако, в более общем случае, когда метрика изучается в пространстве репродуцирующих ядер (RKHS), теоретические гарантии и понимание остаются недостаточными. Цель этой работы заключается в разработке общего фреймворка для метрического обучения в RKHS, который бы обеспечил теоретические гарантии и оценки сложности выборки (sample complexity bounds). Это позволит лучше понять, как нелинейные методы работают в более сложных пространствах, и как они могут быть применены к реальным данным. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы разработали общий фреймворк для метрического обучения в пространстве RKHS, основанный на теории ядерных методов. Основная идея заключается в том, чтобы построить метрику, которая бы оптимизировалась на основе триплетных сравнений в пространстве RKHS. Для этого используется функционал, который выражает сходство между объектами через ядра, и оптимизируется с помощью алгоритмов, специально разработанных для этого контекста. В рамках данного метода, авторы используют нелинейные преобразования, предоставляемые пространством RKHS, что позволяет более точно отражать сложные зависимости между объектами. Алгоритм оптимизации основан на методах градиентного спуска, адаптированных для RKHS. Кроме того, авторы представляют новые теоретические результаты, включая гарантии обобщения (generalization guarantees) и оценки сложности выборки, которые позволяют оценить качество полученной метрики на новых данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода, авторы провели ряд экспериментов. Они использовали как синтетические, так и реальные данные. На синтетических данных, они исследовали, как метрика, построенная в RKHS, отражает различные типы сходства и различий между объектами. Результаты показали, что метод эффективно оптимизирует метрику и обеспечивает хорошую обобщающую способность. На реальных данных, таких как наборы изображений и данные из рекомендательных систем, метод также показал хорошие результаты. Он сравнивался с предыдущими методами, и было показано, что предлагаемый подход обеспечивает более высокую точность и качество построенной метрики. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где важно точно определять сходство между объектами. Например, в задачах извлечения образов, этот подход может помочь в поиске похожих изображений на основе пользовательских предпочтений. В рекомендательных системах, он может улучшить качество рекомендаций, основываясь на более точном понимании предпочтений пользователя. Кроме того, этот метод может быть применен в областях, где нелинейные зависимости между объектами важны, таких как в когнитивной психологии, где необходимо моделировать сложные взаимодействия между различными концептами. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был разработан новый фреймворк для метрического обучения в пространстве RKHS, который обеспечивает теоретические гарантии и оценки сложности выборки. Этот подход показал высокую эффективность на синтетических и реальных данных. В будущем, авторы планируют расширить этот метод для более сложных задач, включая обработку текстовых данных и многомодальных данных, а также исследовать влияние различных типов ядер на качество полученной метрики.

Annotation:

Metric learning from a set of triplet comparisons in the form of "Do you think item h is more similar to item i or item j?", indicating similarity and differences between items, plays a key role in various applications including image retrieval, recommendation systems, and cognitive psychology. The goal is to learn a metric in the RKHS that reflects the comparisons. Nonlinear metric learning using kernel methods and neural networks have shown great empirical promise. While previous works have ad...

ID: 2508.04476v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-06

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

Статья решает задачу прогнозирования многомерных временных рядов при очень большом количестве входов. Классические методы главных компонент не учитывают целевую переменную и теряют предиктивную информацию. Предложенный SDDP-фреймворк использует нейросеть, которая взвешивает исходные признаки пропорционально их полезности для прогноза; на полученных «таргет-ориентированных» данных затем применяется динамический PCA. Это делает латентные факторы одновременно компактными, интерпретируемыми и максимально предиктивными. Расширение на частично наблюдаемые признаки позволяет работать с реальными пропусками. На четырёх публичных наборах (макроэкономика, финансы, энергетика) SDDP существенно превосходит DR-методы и state-of-the-art модели по точности, а факторы легко интерпретируются экспертами.

Annotation:

ID: 2508.03546v1 stat.ML, cs.AI, cs.LG

arXiv PDF

Показано 31 - 35 из 35 записей