📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Ziyun Chen, Spencer Compton, Daniel Kane, Jerry Li
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In list-decodable learning, we are given a set of data points such that an $α$-fraction of these points come from a nice distribution $D$, for some small $α\ll 1$, and the goal is to output a short list of candidate solutions, such that at least one element of this list recovers some non-trivial information about $D$. By now, there is a large body of work on this topic; however, while many algorithms can achieve optimal list size in terms of $α$, all known algorithms must incur error which decay...
Авторы:
Nika Haghtalab, Omar Montasser, Mingda Qiao
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We study the tradeoff between sample complexity and round complexity in on-demand sampling, where the learning algorithm adaptively samples from $k$ distributions over a limited number of rounds. In the realizable setting of Multi-Distribution Learning (MDL), we show that the optimal sample complexity of an $r$-round algorithm scales approximately as $dk^{Θ(1/r)} / ε$. For the general agnostic case, we present an algorithm that achieves near-optimal sample complexity of $\widetilde O((d + k) / ε...
📄 Efficient Calibration for Decision Making
2025-11-19Авторы:
Parikshit Gopalan, Konstantinos Stavropoulos, Kunal Talwar, Pranay Tankala
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
A decision-theoretic characterization of perfect calibration is that an agent seeking to minimize a proper loss in expectation cannot improve their outcome by post-processing a perfectly calibrated predictor. Hu and Wu (FOCS'24) use this to define an approximate calibration measure called calibration decision loss ($\mathsf{CDL}$), which measures the maximal improvement achievable by any post-processing over any proper loss. Unfortunately, $\mathsf{CDL}$ turns out to be intractable to even weakl...
📄 Probabilistic Graph Cuts
2025-11-06Авторы:
Ayoub Ghriss
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Probabilistic relaxations of graph cuts offer a differentiable alternative to
spectral clustering, enabling end-to-end and online learning without
eigendecompositions, yet prior work centered on RatioCut and lacked general
guarantees and principled gradients. We present a unified probabilistic
framework that covers a wide class of cuts, including Normalized Cut. Our
framework provides tight analytic upper bounds on expected discrete cuts via
integral representations and Gauss hypergeometric func...
Авторы:
Ved Danait, Srijan Das, Sujoy Bhore
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Approximate Nearest Neighbor (ANN) search and Approximate Kernel Density
Estimation (A-KDE) are fundamental problems at the core of modern machine
learning, with broad applications in data analysis, information systems, and
large-scale decision making. In massive and dynamic data streams, a central
challenge is to design compact sketches that preserve essential structural
properties of the data while enabling efficient queries.
In this work, we develop new sketching algorithms that achieve sub...
📄 Making and Evaluating Calibrated Forecasts
2025-10-12Авторы:
Yuxuan Lu, Yifan Wu, Jason Hartline, Lunjia Hu
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Calibrated predictions can be reliably interpreted as probabilities. An
important step towards achieving better calibration is to design an appropriate
calibration measure to meaningfully assess the miscalibration level of a
predictor. A recent line of work initiated by Haghtalab et al. [2024] studies
the design of truthful calibration measures: a truthful measure is minimized
when a predictor outputs the true probabilities, whereas a non-truthful measure
incentivizes the predictor to lie so as ...
Авторы:
Rohan Chauhan, Ioannis Panageas
#################################
## Контекст
#################################
В области машинного обучения и статистики возникает частое желание моделировать зависимости между объектами в данных, используя математические модели, такие как Ising-модели. Эти модели широко применяются в разных областях, включая физику, биологию и социальные науки. Одна из проблем, сопряженных с использованием Ising-моделей, заключается в том, что для их анализа требуется много выборок, что может быть недоступно в реальных ситуациях. Кроме того, в некоторых ситуациях применение стандартных методов моделирования становится сложным из-за у impaste constraints, которые включают в себя ограничения на значения переменных. Например, в задаче логического уравнения (логического вывода), где нужно найти выполняющиеся условия в заданном контексте, требуется избегать неправильных вариантов. Наша работа затрагивает этот вопрос, оптимизируя подход к ситуации, когда доступен только один пример, и применяя это к задачам, где жесткие ограничения включены в модель. Такой подход может улучшить эффективность моделирования в области распределений, где значимы ограничения.
#################################
## Метод
#################################
Мы разработали метод, позволяющий оценить параметр $\beta$ (инверсное температурное значение) в модели Исинга, используя только один пример. Для этого мы применяем метод максимизации псевдоликелихости, который основан на оценке правдоподобия для одного примера, который может быть реализован в циклическом приближении. Мы также используем адаптивную функцию, которая позволяет вводить жесткие ограничения в модель. Наш подход тесно связан с техническими методами, используемыми в [Chatterjee, Annals of Statistics '07] и [Galanis et al. SODA '24], но он расширяет эти методы для решения более сложной задачи с жесткими ограничениями. Метод намного эффективнее, чем соответствующие техники, использующие поиск в ширину, который обычно требуется для решения задач с ограничениями. Он также может быть использован для решения задач, где задействованы логические выводы с жесткими ограничениями.
#################################
## Результаты
#################################
Мы провели эксперименты с использованием этого метода, применяя его к реальным наборам данных, включая задачи, где обучение модели требует учитывать жесткие ограничения. Наши результаты показали, что метод эффективно работает в ситуациях, когда доступен только один пример, и может породить точные оценки параметра $\beta$. Мы проверили наш метод на различных типах данных, включая синтетические и реальные, и наблюдали, что он обеспечивает более точные оценки $\beta$ по сравнению с другими методами, которые не учитывают жесткие ограничения. Мы также применили нашу модель к задачам логического вывода,
Annotation:
We consider the problem of estimating inverse temperature parameter $\beta$
of an $n$-dimensional truncated Ising model using a single sample. Given a
graph $G = (V,E)$ with $n$ vertices, a truncated Ising model is a probability
distribution over the $n$-dimensional hypercube $\{-1,1\}^n$ where each
configuration $\mathbf{\sigma}$ is constrained to lie in a truncation set $S
\subseteq \{-1,1\}^n$ and has probability $\Pr(\mathbf{\sigma}) \propto
\exp(\beta\mathbf{\sigma}^\top A\mathbf{\sigma})$ ...
📄 A Perfectly Truthful Calibration Measure
2025-08-20Авторы:
Jason Hartline, Lunjia Hu, Yifan Wu
#### Контекст
Калибровка (calibration) — ключевой понятийный аппарат в области прогнозирования и анализа данных. Она определяется как условие, при котором прогнозы соответствуют их условной независимости от данных признаков, что обеспечивает надежную интерпретируемость прогнозов в виде вероятностей. Однако вычисление точных калибровочных мер чревато сложностями, поскольку большинство известных мер не гарантируют точность на ограниченных выборках. Это недостаток стимулировал разработку более точных и эффективных калибровочных мер, учитывающих специфику реальных данных.
#### Метод
Мы предлагаем новую калибровочную меру — **авторский 2-биновый калибровочный луч (averaged two-bin calibration error, ATB)**. Эта мера гарантирует устойчивость и полноту, обладает значительным аналитическим элементом, а также является простой в определении и расчете. Она обладает значительным преимуществом перед существующими мерами, такими как **smooth calibration error (smCal)** и **distance to calibration (distCal)**, с точки зрения расчета и эффективности. Это делает ATB лучшим выбором для тестирования калибровки на больших данных.
#### Результаты
Мы провели эксперименты с ATB на различных данных и сравнили итоги с другими мерами. Наши результаты показали, что ATB обеспечивает более точное и эффективное калибровочное тестирование по сравнению с smCal и distCal. Для проверки точности мера ATB обладает высокой производительностью за счет простоты расчета, что позволяет значительно сократить время вычислений. Эта мера также легко интегрируется в существующие прогнозные модели.
#### Значимость
Основные преимущества ATB включают высокую производительность, простоту интеграции в модели и точность в тестировании калибровки. Эта мера хорошо подходит для использования в ситуациях, где необходима надежная интерпретируемость прогнозов в виде вероятностей. Мы также предложили универсальный алгоритм для конструирования других точных калибровочных мер, что позволит расширить эту область исследований в будущем.
#### Выводы
Мы сумели разработать первую точную калибровочную меру в батч-режиме. Наша работа показала, что ATB является эффективным инструментом для точного тестирования калибровки. В будущем мы планируем расширить возможности ATB и его приложений в других областях, таких как обучение с учителем и моделирование вероятностей.
Annotation:
Calibration requires that predictions are conditionally unbiased and,
therefore, reliably interpretable as probabilities. Calibration measures
quantify how far a predictor is from perfect calibration. As introduced by
Haghtalab et al. (2024), a calibration measure is truthful if it is minimized
in expectation when a predictor outputs the ground-truth probabilities.
Although predicting the true probabilities guarantees perfect calibration, in
reality, when calibration is evaluated on a finite sam...
Авторы:
Zichun Ye, Runqi Wang, Xutong Liu, Shuai Li
## Контекст
Комбинаторные многорукие бандиты (CMAB) являются ключевым подходом в рамках фреймворка последовательных решений, рассматривая целые группы вариантов, а не только отдельные. Однако существуют две основные группы методов: UCB-основые (например, CUCB) и методы адверсарных теорий (например, EXP3.M, HYBRID). Хотя UCB-подходы обеспечивают лучший теоретический показатель регрета, они неэффективны для длительных задач из-за дополнительного $\log T$-фактора. Адверсарные методы, хотя и эффективны, требуют значительных вычислительных ресурсов. В этой статье рассматривается новый подход, Combinatorial Minimax Optimal Strategy in the Stochastic setting (CMOSS), который стремится сбалансировать эти конфликтные требования к эффективности и вычислительной сложности.
## Метод
CMOSS — это вычислительно эффективный алгоритм, основанный на теории игр и оптимизации. Он решает многорукие бандиты с полубандитовой обратной связью, где игрок может видеть результаты не только выбранных, но и невыбранных альтернатив. Алгоритм использует оптимизацию нормальных функций для регулирования штрафа за выбор, а значения регрета взяты на основе экспоненциального закона вероятности. Это позволяет достичь теоретического граница регрета в $O\big( (\log k)^2\sqrt{kmT}\big )$, где $m$ — количество альтернатив, $k$ — максимальный размер выбора.
## Результаты
В экспериментах CMOSS был протестирован на как синтетических, так и на реальных данных. Он показал сопоставимые или лучшие результаты по регрету по сравнению с CUCB и другими методами, при этом эффективность по времени работы была значительно выше. На синтетических данных показано, что CMOSS достигает регрета $O\big( (\log k)^2\sqrt{kmT}\big )$, что не только эквивалентно теоретическому границу, но и превосходит другие методы в рамках реальных задач.
## Значимость
CMOSS может применяться в ситуациях, где требуется эффективное решение задач с выбором из большого количества вариантов, например, в рекламной экспертизе, селекции портфелей инвестиций или распределении ресурсов в сетях. Этот подход обеспечивает высокую эффективность решения, предотвращает вычислительные проблемы, связанные с адверсарными методами, и имеет теоретическую гарантию регрета, которая лучшая по сравнению с другими UCB-методами.
## Выводы
CMOSS достигает почти оптимальных результатов для задач с полубандитовой обратной связью, сочетая высокую эффективность вычислений с гарантированным низким регретом. Будущие исследования будут направлены на расширение применений CMOSS к другим типам обратной связи и улучш
Annotation:
The combinatorial multi-armed bandit (CMAB) is a cornerstone of sequential
decision-making framework, dominated by two algorithmic families: UCB-based and
adversarial methods such as follow the regularized leader (FTRL) and online
mirror descent (OMD). However, prominent UCB-based approaches like CUCB suffer
from additional regret factor $\log T$ that is detrimental over long horizons,
while adversarial methods such as EXP3.M and HYBRID impose significant
computational overhead. To resolve this ...