📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Learning Ising Models under Hard Constraints using One Sample

2025-09-27

Авторы:

Rohan Chauhan, Ioannis Panageas

################################# ## Контекст ################################# В области машинного обучения и статистики возникает частое желание моделировать зависимости между объектами в данных, используя математические модели, такие как Ising-модели. Эти модели широко применяются в разных областях, включая физику, биологию и социальные науки. Одна из проблем, сопряженных с использованием Ising-моделей, заключается в том, что для их анализа требуется много выборок, что может быть недоступно в реальных ситуациях. Кроме того, в некоторых ситуациях применение стандартных методов моделирования становится сложным из-за у impaste constraints, которые включают в себя ограничения на значения переменных. Например, в задаче логического уравнения (логического вывода), где нужно найти выполняющиеся условия в заданном контексте, требуется избегать неправильных вариантов. Наша работа затрагивает этот вопрос, оптимизируя подход к ситуации, когда доступен только один пример, и применяя это к задачам, где жесткие ограничения включены в модель. Такой подход может улучшить эффективность моделирования в области распределений, где значимы ограничения. ################################# ## Метод ################################# Мы разработали метод, позволяющий оценить параметр $\beta$ (инверсное температурное значение) в модели Исинга, используя только один пример. Для этого мы применяем метод максимизации псевдоликелихости, который основан на оценке правдоподобия для одного примера, который может быть реализован в циклическом приближении. Мы также используем адаптивную функцию, которая позволяет вводить жесткие ограничения в модель. Наш подход тесно связан с техническими методами, используемыми в [Chatterjee, Annals of Statistics '07] и [Galanis et al. SODA '24], но он расширяет эти методы для решения более сложной задачи с жесткими ограничениями. Метод намного эффективнее, чем соответствующие техники, использующие поиск в ширину, который обычно требуется для решения задач с ограничениями. Он также может быть использован для решения задач, где задействованы логические выводы с жесткими ограничениями. ################################# ## Результаты ################################# Мы провели эксперименты с использованием этого метода, применяя его к реальным наборам данных, включая задачи, где обучение модели требует учитывать жесткие ограничения. Наши результаты показали, что метод эффективно работает в ситуациях, когда доступен только один пример, и может породить точные оценки параметра $\beta$. Мы проверили наш метод на различных типах данных, включая синтетические и реальные, и наблюдали, что он обеспечивает более точные оценки $\beta$ по сравнению с другими методами, которые не учитывают жесткие ограничения. Мы также применили нашу модель к задачам логического вывода,

Annotation:

We consider the problem of estimating inverse temperature parameter $\beta$ of an $n$-dimensional truncated Ising model using a single sample. Given a graph $G = (V,E)$ with $n$ vertices, a truncated Ising model is a probability distribution over the $n$-dimensional hypercube $\{-1,1\}^n$ where each configuration $\mathbf{\sigma}$ is constrained to lie in a truncation set $S \subseteq \{-1,1\}^n$ and has probability $\Pr(\mathbf{\sigma}) \propto \exp(\beta\mathbf{\sigma}^\top A\mathbf{\sigma})$ ...

ID: 2509.20993v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 TimeCluster with PCA is Equivalent to Subspace Identification of Linear Dynamical Systems

2025-09-18

Авторы:

Christian L. Hines, Samuel Spillard, Daniel P. Martin

## Контекст Одна из основных задач в области визуального анализа многомерных потоков данных — открытие структуры в длинных многомерных временных рядах. Это особенно важно в таких областях, как прогнозирование, мониторинг и анализ динамических систем. Одним из вызовов является проектирование эффективных методов, позволяющих выделить низкомерные структуры в данных, чтобы упростить их интерпретирование и прогнозирование. Исследователи в этой области сталкиваются с проблемой выбора методов, которые обеспечивают не только гибкость, но и надежность в выявлении существующих низкомерных структур. Таким образом, направление развития новых методов, которые могут объединить эффективность и простоту, остается актуальным. ## Метод TimeCluster — это метод визуального анализа, который использует динамическое проецирование данных в низкомассовый пространственный вектор. Этот подход основывается на применении главных компонент (Principal Component Analysis, PCA) для уменьшения размерности в процессе работы. Метод работает с последовательностью многомерных временных рядов, проецируя их в низкомерное пространство с помощью PCA. Теория подсистемной идентификации, в свою очередь, основывается на формировании матрицы Ханкела из данных временного ряда и применению SVD. Оба подхода используют тензорные методы для выявления низкомерных структур в данных. На теоретическом уровне, TimeCluster и subspace identification различаются лишь способом формирования исходных матриц, но результаты этих методов интерпретируются в разных контекстах. ## Результаты В экспериментах, проведенных на синтетических и реальных временных рядах, было продемонстрировано, что результаты TimeCluster, полученные при использовании PCA, совпадают с теми, которые достигаются при использовании subspace identification. Это подтверждает, что TimeCluster эквивалентен классическому подходу к идентификации низкомерных подпространств в системах динамических систем. Эксперименты показали, что оба подхода дают одинаковые координаты кластеров и соответствующие низкомерные подпространства. Это позволяет использовать TimeCluster не только для визуализации, но и для прогнозирования и моделирования динамических систем. ## Значимость Замечание о эквивалентности TimeCluster и subspace identification открывает новые возможности для применения техники в различных областях. Например, результаты TimeCluster могут быть использованы не только для визуального анализа, но и для прогнозирования в системах динамических потоков данных. Благодаря этому, TimeCluster может использоваться в таких областях, как прогнозирование временных рядов, мониторинг систем динамического характера, а также в анализе корреляций в многомерных данных. Эта эквивалентность также может позво

Annotation:

TimeCluster is a visual analytics technique for discovering structure in long multivariate time series by projecting overlapping windows of data into a low-dimensional space. We show that, when Principal Component Analysis (PCA) is chosen as the dimensionality reduction technique, this procedure is mathematically equivalent to classical linear subspace identification (block-Hankel matrix plus Singular Vector Decomposition (SVD)). In both approaches, the same low-dimensional linear subspace is ex...

ID: 2509.12895v1 cs.LG, cs.DS

arXiv PDF

📄 Cache Management for Mixture-of-Experts LLMs -- extended version

2025-09-06

Авторы:

Spyros Angelopoulos, Loris Marchal, Adrien Obrecht, Bertrand Simon

## Контекст Large language models (LLMs) являются мощными инструментами с широкими возможностями в области обработки естественного языка. Однако, их успешное развертывание сталкивается с значительными вызовами, в том числе с управлением памятью. Эти модели обычно состоят из миллиардов параметров, что требует эффективного использования ограниченных системных ресурсов. Чтобы значительно сократить объем активных параметров, используются модели типа Mixture-of-Experts (MoE). Однако, в дополнение к эффективному управлению памятью, эффективное управление кэшем системы становится критически важным. Задача состоит в том, чтобы гарантировать, что часто используемые эксперты хранятся в быстром кэше, а не в медленном внешнем хранилище. Это расширенное исследование посвящено разработке и исследованию эффективных алгоритмов для управления кэшем, оптимизированных для этой специальной задачи. ## Метод Мы предлагаем новую модель, основанную на проблеме paging, чтобы оптимизировать управление экспертами в моделях MoE. Наша модель принимает во внимание сложную структуру LLM, включая разные слои и экспертов, а также ограничения кэша. Мы исследуем нижние оценки по конкурентному коэффициенту для оптимальных алгоритмов, которые могут использоваться для этой задачи. Наши исследования включают заголовки (deterministic) и случайные (randomized) алгоритмы. Мы также предлагаем расширенную версию LRU-алгоритма, которая адаптируется к уникальным требованиям управления экспертами в моделях MoE. Эта модель учитывает слои (layers) и специфические частоты использования экспертов. ## Результаты Используя синтетические данные и реальные трассы использования MoE, мы провели ряд экспериментов для сравнения нашего алгоритма с классическим LRU. Результаты показали, что наша расширенная версия LRU показывает значительное улучшение в производительности, особенно в ситуации, когда часто используются определенные эксперты. Мы также проверили, как наш алгоритм справляется с реальными данными, полученными из фактических запросов к моделям MoE. Эти эксперименты подтвердили высокую эффективность нашего подхода в оптимизации кэша. ## Значимость Наш подход может быть применен в различных сценариях, где требуется эффективное управление кэшем, в том числе в области обработки естественного языка, работы с большими данными и системах обучения машин. Одним из преимуществ является ощутимое уменьшение времени доступа к данным, что повышает общую эффективность системы. Этот подход может также иметь значительное влияние на снижение затрат на вычисли

Annotation:

Large language models (LLMs) have demonstrated remarkable capabilities across a variety of tasks. One of the main challenges towards the successful deployment of LLMs is memory management, since they typically involve billions of parameters. To this end, architectures based on Mixture-of-Experts have been proposed, which aim to reduce the size of the parameters that are activated when producing a token. This raises the equally critical issue of efficiently managing the limited cache of the syste...

ID: 2509.02408v1 cs.LG, cs.DS

arXiv PDF

📄 A Perfectly Truthful Calibration Measure

2025-08-20

Авторы:

Jason Hartline, Lunjia Hu, Yifan Wu

#### Контекст Калибровка (calibration) — ключевой понятийный аппарат в области прогнозирования и анализа данных. Она определяется как условие, при котором прогнозы соответствуют их условной независимости от данных признаков, что обеспечивает надежную интерпретируемость прогнозов в виде вероятностей. Однако вычисление точных калибровочных мер чревато сложностями, поскольку большинство известных мер не гарантируют точность на ограниченных выборках. Это недостаток стимулировал разработку более точных и эффективных калибровочных мер, учитывающих специфику реальных данных. #### Метод Мы предлагаем новую калибровочную меру — **авторский 2-биновый калибровочный луч (averaged two-bin calibration error, ATB)**. Эта мера гарантирует устойчивость и полноту, обладает значительным аналитическим элементом, а также является простой в определении и расчете. Она обладает значительным преимуществом перед существующими мерами, такими как **smooth calibration error (smCal)** и **distance to calibration (distCal)**, с точки зрения расчета и эффективности. Это делает ATB лучшим выбором для тестирования калибровки на больших данных. #### Результаты Мы провели эксперименты с ATB на различных данных и сравнили итоги с другими мерами. Наши результаты показали, что ATB обеспечивает более точное и эффективное калибровочное тестирование по сравнению с smCal и distCal. Для проверки точности мера ATB обладает высокой производительностью за счет простоты расчета, что позволяет значительно сократить время вычислений. Эта мера также легко интегрируется в существующие прогнозные модели. #### Значимость Основные преимущества ATB включают высокую производительность, простоту интеграции в модели и точность в тестировании калибровки. Эта мера хорошо подходит для использования в ситуациях, где необходима надежная интерпретируемость прогнозов в виде вероятностей. Мы также предложили универсальный алгоритм для конструирования других точных калибровочных мер, что позволит расширить эту область исследований в будущем. #### Выводы Мы сумели разработать первую точную калибровочную меру в батч-режиме. Наша работа показала, что ATB является эффективным инструментом для точного тестирования калибровки. В будущем мы планируем расширить возможности ATB и его приложений в других областях, таких как обучение с учителем и моделирование вероятностей.

Annotation:

Calibration requires that predictions are conditionally unbiased and, therefore, reliably interpretable as probabilities. Calibration measures quantify how far a predictor is from perfect calibration. As introduced by Haghtalab et al. (2024), a calibration measure is truthful if it is minimized in expectation when a predictor outputs the ground-truth probabilities. Although predicting the true probabilities guarantees perfect calibration, in reality, when calibration is evaluated on a finite sam...

ID: 2508.13100v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Online Prediction with Limited Selectivity

2025-08-15

Авторы:

Licheng Liu, Mingda Qiao

## Контекст В области прогнозирования и анализа данных возникает потребность в моделях, которые могут адаптироваться к ограничениям в выборе момента времени для прогнозирования. Традиционные подходы предполагают, что прогнозирование может происходить в любой момент, что не всегда соответствует реальности. Например, в ситуациях, когда данные становятся доступными только в определенных интервалах, необходимы модели, которые могут оптимально прогнозировать внутри этих ограниченных временных окна. Такое ограничение может быть вызвано различными факторами, такими как ограничения вычислительных ресурсов или специфика данных. Данная работа фокусируется на моделировании таких ситуаций, где прогнозирование допускается только в заранее известных ограниченных интервалах. Эти ограничения приводят к новым вызовам в анализе и оптимизации прогнозирования, которые исследуются в данном исследовании. ## Метод Мы предлагаем модель **Prediction with Limited Selectivity (PLS)**, в которой формально определяется выбор временного окна для прогнозирования. Формально, PLS предполагает, что прогноз может быть сделан только на определенных точках временного шкала. Мы исследуем эту модель оба подхода: **instance-by-instance** для конкретных случаев и **average-case** для общего случая. Техническая архитектура PLS основывается на нескольких ключевых элементах: - **Complexity Measure**: Мы вводим меру сложности, которая позволяет определять оптимальный эррор прогнозирования в зависимости от конкретного случая. - **Optimal Prediction Error Bounds**: Мы предоставляем анализ ошибок прогнозирования, который позволяет устанавливать границы ошибки в зависимости от сложности интервала прогнозирования. - **Randomly-Generated PLS Instances**: Мы проводим эксперименты с сгенерированными случайным образом PLS-инстансами, чтобы проверить наши теоретические результаты. Эти эксперименты показали, что теоретические ограничения совпадают с реальными данными с высокой вероятностью. ## Результаты Мы провели эксперименты, используя различные наборы данных, чтобы протестировать PLS-модель. Наши результаты показали, что PLS позволяет получать оптимальные прогнозы в условиях ограниченной выбора момента прогнозирования. Мы сравнили PLS с традиционными моделями прогнозирования и показали, что PLS демонстрирует значительное улучшение в точности прогнозов в ситуациях, где выбор момента прогнозирования ограничен. Кроме того, мы исследовали различные способы оптимизации PLS, включая алгоритмы, которые могут адаптироваться к изменению сложности временных интервалов. Наши результаты показали, что эти алгоритмы эффективно уменьшают ошибки прогнозирования и увеличивают производительность в сложных сценариях. ## Значимость PLS-модель имеет

Annotation:

Selective prediction [Dru13, QV19] models the scenario where a forecaster freely decides on the prediction window that their forecast spans. Many data statistics can be predicted to a non-trivial error rate without any distributional assumptions or expert advice, yet these results rely on that the forecaster may predict at any time. We introduce a model of Prediction with Limited Selectivity (PLS) where the forecaster can start the prediction only on a subset of the time horizon. We study the op...

ID: 2508.09592v1 cs.LG, cs.DS

arXiv PDF

📄 Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits

2025-08-12

Авторы:

Zichun Ye, Runqi Wang, Xutong Liu, Shuai Li

## Контекст Комбинаторные многорукие бандиты (CMAB) являются ключевым подходом в рамках фреймворка последовательных решений, рассматривая целые группы вариантов, а не только отдельные. Однако существуют две основные группы методов: UCB-основые (например, CUCB) и методы адверсарных теорий (например, EXP3.M, HYBRID). Хотя UCB-подходы обеспечивают лучший теоретический показатель регрета, они неэффективны для длительных задач из-за дополнительного $\log T$-фактора. Адверсарные методы, хотя и эффективны, требуют значительных вычислительных ресурсов. В этой статье рассматривается новый подход, Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS), который стремится сбалансировать эти конфликтные требования к эффективности и вычислительной сложности. ## Метод CMOSS — это вычислительно эффективный алгоритм, основанный на теории игр и оптимизации. Он решает многорукие бандиты с полубандитовой обратной связью, где игрок может видеть результаты не только выбранных, но и невыбранных альтернатив. Алгоритм использует оптимизацию нормальных функций для регулирования штрафа за выбор, а значения регрета взяты на основе экспоненциального закона вероятности. Это позволяет достичь теоретического граница регрета в $O\big( (\log k)^2\sqrt{kmT}\big )$, где $m$ — количество альтернатив, $k$ — максимальный размер выбора. ## Результаты В экспериментах CMOSS был протестирован на как синтетических, так и на реальных данных. Он показал сопоставимые или лучшие результаты по регрету по сравнению с CUCB и другими методами, при этом эффективность по времени работы была значительно выше. На синтетических данных показано, что CMOSS достигает регрета $O\big( (\log k)^2\sqrt{kmT}\big )$, что не только эквивалентно теоретическому границу, но и превосходит другие методы в рамках реальных задач. ## Значимость CMOSS может применяться в ситуациях, где требуется эффективное решение задач с выбором из большого количества вариантов, например, в рекламной экспертизе, селекции портфелей инвестиций или распределении ресурсов в сетях. Этот подход обеспечивает высокую эффективность решения, предотвращает вычислительные проблемы, связанные с адверсарными методами, и имеет теоретическую гарантию регрета, которая лучшая по сравнению с другими UCB-методами. ## Выводы CMOSS достигает почти оптимальных результатов для задач с полубандитовой обратной связью, сочетая высокую эффективность вычислений с гарантированным низким регретом. Будущие исследования будут направлены на расширение применений CMOSS к другим типам обратной связи и улучш

Annotation:

The combinatorial multi-armed bandit (CMAB) is a cornerstone of sequential decision-making framework, dominated by two algorithmic families: UCB-based and adversarial methods such as follow the regularized leader (FTRL) and online mirror descent (OMD). However, prominent UCB-based approaches like CUCB suffer from additional regret factor $\log T$ that is detrimental over long horizons, while adversarial methods such as EXP3.M and HYBRID impose significant computational overhead. To resolve this ...

ID: 2508.06247v1 cs.LG, cs.DS, stat.ML

arXiv PDF

Показано 21 - 26 из 26 записей