📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 High-Accuracy List-Decodable Mean Estimation

2025-11-26

Авторы:

Ziyun Chen, Spencer Compton, Daniel Kane, Jerry Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In list-decodable learning, we are given a set of data points such that an $α$-fraction of these points come from a nice distribution $D$, for some small $α\ll 1$, and the goal is to output a short list of candidate solutions, such that at least one element of this list recovers some non-trivial information about $D$. By now, there is a large body of work on this topic; however, while many algorithms can achieve optimal list size in terms of $α$, all known algorithms must incur error which decay...

ID: 2511.17822v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Sample-Adaptivity Tradeoff in On-Demand Sampling

2025-11-21

Авторы:

Nika Haghtalab, Omar Montasser, Mingda Qiao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study the tradeoff between sample complexity and round complexity in on-demand sampling, where the learning algorithm adaptively samples from $k$ distributions over a limited number of rounds. In the realizable setting of Multi-Distribution Learning (MDL), we show that the optimal sample complexity of an $r$-round algorithm scales approximately as $dk^{Θ(1/r)} / ε$. For the general agnostic case, we present an algorithm that achieves near-optimal sample complexity of $\widetilde O((d + k) / ε...

ID: 2511.15507v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Efficient Calibration for Decision Making

2025-11-19

Авторы:

Parikshit Gopalan, Konstantinos Stavropoulos, Kunal Talwar, Pranay Tankala

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A decision-theoretic characterization of perfect calibration is that an agent seeking to minimize a proper loss in expectation cannot improve their outcome by post-processing a perfectly calibrated predictor. Hu and Wu (FOCS'24) use this to define an approximate calibration measure called calibration decision loss ($\mathsf{CDL}$), which measures the maximal improvement achievable by any post-processing over any proper loss. Unfortunately, $\mathsf{CDL}$ turns out to be intractable to even weakl...

ID: 2511.13699v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Probabilistic Graph Cuts

2025-11-06

Авторы:

Ayoub Ghriss

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Probabilistic relaxations of graph cuts offer a differentiable alternative to spectral clustering, enabling end-to-end and online learning without eigendecompositions, yet prior work centered on RatioCut and lacked general guarantees and principled gradients. We present a unified probabilistic framework that covers a wide class of cuts, including Normalized Cut. Our framework provides tight analytic upper bounds on expected discrete cuts via integral representations and Gauss hypergeometric func...

ID: 2511.02272v2 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Sublinear Sketches for Approximate Nearest Neighbor and Kernel Density Estimation

2025-10-29

Авторы:

Ved Danait, Srijan Das, Sujoy Bhore

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Approximate Nearest Neighbor (ANN) search and Approximate Kernel Density Estimation (A-KDE) are fundamental problems at the core of modern machine learning, with broad applications in data analysis, information systems, and large-scale decision making. In massive and dynamic data streams, a central challenge is to design compact sketches that preserve essential structural properties of the data while enabling efficient queries. In this work, we develop new sketching algorithms that achieve sub...

ID: 2510.23039v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Making and Evaluating Calibrated Forecasts

2025-10-12

Авторы:

Yuxuan Lu, Yifan Wu, Jason Hartline, Lunjia Hu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Calibrated predictions can be reliably interpreted as probabilities. An important step towards achieving better calibration is to design an appropriate calibration measure to meaningfully assess the miscalibration level of a predictor. A recent line of work initiated by Haghtalab et al. [2024] studies the design of truthful calibration measures: a truthful measure is minimized when a predictor outputs the true probabilities, whereas a non-truthful measure incentivizes the predictor to lie so as ...

ID: 2510.06388v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Learning Ising Models under Hard Constraints using One Sample

2025-09-27

Авторы:

Rohan Chauhan, Ioannis Panageas

################################# ## Контекст ################################# В области машинного обучения и статистики возникает частое желание моделировать зависимости между объектами в данных, используя математические модели, такие как Ising-модели. Эти модели широко применяются в разных областях, включая физику, биологию и социальные науки. Одна из проблем, сопряженных с использованием Ising-моделей, заключается в том, что для их анализа требуется много выборок, что может быть недоступно в реальных ситуациях. Кроме того, в некоторых ситуациях применение стандартных методов моделирования становится сложным из-за у impaste constraints, которые включают в себя ограничения на значения переменных. Например, в задаче логического уравнения (логического вывода), где нужно найти выполняющиеся условия в заданном контексте, требуется избегать неправильных вариантов. Наша работа затрагивает этот вопрос, оптимизируя подход к ситуации, когда доступен только один пример, и применяя это к задачам, где жесткие ограничения включены в модель. Такой подход может улучшить эффективность моделирования в области распределений, где значимы ограничения. ################################# ## Метод ################################# Мы разработали метод, позволяющий оценить параметр $\beta$ (инверсное температурное значение) в модели Исинга, используя только один пример. Для этого мы применяем метод максимизации псевдоликелихости, который основан на оценке правдоподобия для одного примера, который может быть реализован в циклическом приближении. Мы также используем адаптивную функцию, которая позволяет вводить жесткие ограничения в модель. Наш подход тесно связан с техническими методами, используемыми в [Chatterjee, Annals of Statistics '07] и [Galanis et al. SODA '24], но он расширяет эти методы для решения более сложной задачи с жесткими ограничениями. Метод намного эффективнее, чем соответствующие техники, использующие поиск в ширину, который обычно требуется для решения задач с ограничениями. Он также может быть использован для решения задач, где задействованы логические выводы с жесткими ограничениями. ################################# ## Результаты ################################# Мы провели эксперименты с использованием этого метода, применяя его к реальным наборам данных, включая задачи, где обучение модели требует учитывать жесткие ограничения. Наши результаты показали, что метод эффективно работает в ситуациях, когда доступен только один пример, и может породить точные оценки параметра $\beta$. Мы проверили наш метод на различных типах данных, включая синтетические и реальные, и наблюдали, что он обеспечивает более точные оценки $\beta$ по сравнению с другими методами, которые не учитывают жесткие ограничения. Мы также применили нашу модель к задачам логического вывода,

Annotation:

We consider the problem of estimating inverse temperature parameter $\beta$ of an $n$-dimensional truncated Ising model using a single sample. Given a graph $G = (V,E)$ with $n$ vertices, a truncated Ising model is a probability distribution over the $n$-dimensional hypercube $\{-1,1\}^n$ where each configuration $\mathbf{\sigma}$ is constrained to lie in a truncation set $S \subseteq \{-1,1\}^n$ and has probability $\Pr(\mathbf{\sigma}) \propto \exp(\beta\mathbf{\sigma}^\top A\mathbf{\sigma})$ ...

ID: 2509.20993v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 A Perfectly Truthful Calibration Measure

2025-08-20

Авторы:

Jason Hartline, Lunjia Hu, Yifan Wu

#### Контекст Калибровка (calibration) — ключевой понятийный аппарат в области прогнозирования и анализа данных. Она определяется как условие, при котором прогнозы соответствуют их условной независимости от данных признаков, что обеспечивает надежную интерпретируемость прогнозов в виде вероятностей. Однако вычисление точных калибровочных мер чревато сложностями, поскольку большинство известных мер не гарантируют точность на ограниченных выборках. Это недостаток стимулировал разработку более точных и эффективных калибровочных мер, учитывающих специфику реальных данных. #### Метод Мы предлагаем новую калибровочную меру — **авторский 2-биновый калибровочный луч (averaged two-bin calibration error, ATB)**. Эта мера гарантирует устойчивость и полноту, обладает значительным аналитическим элементом, а также является простой в определении и расчете. Она обладает значительным преимуществом перед существующими мерами, такими как **smooth calibration error (smCal)** и **distance to calibration (distCal)**, с точки зрения расчета и эффективности. Это делает ATB лучшим выбором для тестирования калибровки на больших данных. #### Результаты Мы провели эксперименты с ATB на различных данных и сравнили итоги с другими мерами. Наши результаты показали, что ATB обеспечивает более точное и эффективное калибровочное тестирование по сравнению с smCal и distCal. Для проверки точности мера ATB обладает высокой производительностью за счет простоты расчета, что позволяет значительно сократить время вычислений. Эта мера также легко интегрируется в существующие прогнозные модели. #### Значимость Основные преимущества ATB включают высокую производительность, простоту интеграции в модели и точность в тестировании калибровки. Эта мера хорошо подходит для использования в ситуациях, где необходима надежная интерпретируемость прогнозов в виде вероятностей. Мы также предложили универсальный алгоритм для конструирования других точных калибровочных мер, что позволит расширить эту область исследований в будущем. #### Выводы Мы сумели разработать первую точную калибровочную меру в батч-режиме. Наша работа показала, что ATB является эффективным инструментом для точного тестирования калибровки. В будущем мы планируем расширить возможности ATB и его приложений в других областях, таких как обучение с учителем и моделирование вероятностей.

Annotation:

Calibration requires that predictions are conditionally unbiased and, therefore, reliably interpretable as probabilities. Calibration measures quantify how far a predictor is from perfect calibration. As introduced by Haghtalab et al. (2024), a calibration measure is truthful if it is minimized in expectation when a predictor outputs the ground-truth probabilities. Although predicting the true probabilities guarantees perfect calibration, in reality, when calibration is evaluated on a finite sam...

ID: 2508.13100v1 cs.LG, cs.DS, stat.ML

arXiv PDF

📄 Near-Optimal Regret for Efficient Stochastic Combinatorial Semi-Bandits

2025-08-12

Авторы:

Zichun Ye, Runqi Wang, Xutong Liu, Shuai Li

## Контекст Комбинаторные многорукие бандиты (CMAB) являются ключевым подходом в рамках фреймворка последовательных решений, рассматривая целые группы вариантов, а не только отдельные. Однако существуют две основные группы методов: UCB-основые (например, CUCB) и методы адверсарных теорий (например, EXP3.M, HYBRID). Хотя UCB-подходы обеспечивают лучший теоретический показатель регрета, они неэффективны для длительных задач из-за дополнительного $\log T$-фактора. Адверсарные методы, хотя и эффективны, требуют значительных вычислительных ресурсов. В этой статье рассматривается новый подход, Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS), который стремится сбалансировать эти конфликтные требования к эффективности и вычислительной сложности. ## Метод CMOSS — это вычислительно эффективный алгоритм, основанный на теории игр и оптимизации. Он решает многорукие бандиты с полубандитовой обратной связью, где игрок может видеть результаты не только выбранных, но и невыбранных альтернатив. Алгоритм использует оптимизацию нормальных функций для регулирования штрафа за выбор, а значения регрета взяты на основе экспоненциального закона вероятности. Это позволяет достичь теоретического граница регрета в $O\big( (\log k)^2\sqrt{kmT}\big )$, где $m$ — количество альтернатив, $k$ — максимальный размер выбора. ## Результаты В экспериментах CMOSS был протестирован на как синтетических, так и на реальных данных. Он показал сопоставимые или лучшие результаты по регрету по сравнению с CUCB и другими методами, при этом эффективность по времени работы была значительно выше. На синтетических данных показано, что CMOSS достигает регрета $O\big( (\log k)^2\sqrt{kmT}\big )$, что не только эквивалентно теоретическому границу, но и превосходит другие методы в рамках реальных задач. ## Значимость CMOSS может применяться в ситуациях, где требуется эффективное решение задач с выбором из большого количества вариантов, например, в рекламной экспертизе, селекции портфелей инвестиций или распределении ресурсов в сетях. Этот подход обеспечивает высокую эффективность решения, предотвращает вычислительные проблемы, связанные с адверсарными методами, и имеет теоретическую гарантию регрета, которая лучшая по сравнению с другими UCB-методами. ## Выводы CMOSS достигает почти оптимальных результатов для задач с полубандитовой обратной связью, сочетая высокую эффективность вычислений с гарантированным низким регретом. Будущие исследования будут направлены на расширение применений CMOSS к другим типам обратной связи и улучш

Annotation:

The combinatorial multi-armed bandit (CMAB) is a cornerstone of sequential decision-making framework, dominated by two algorithmic families: UCB-based and adversarial methods such as follow the regularized leader (FTRL) and online mirror descent (OMD). However, prominent UCB-based approaches like CUCB suffer from additional regret factor $\log T$ that is detrimental over long horizons, while adversarial methods such as EXP3.M and HYBRID impose significant computational overhead. To resolve this ...

ID: 2508.06247v1 cs.LG, cs.DS, stat.ML

arXiv PDF