📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Robust Adversarial Reinforcement Learning in Stochastic Games via Sequence Modeling

2025-10-16

Авторы:

Xiaohang Tang, Zhuowen Cheng, Satyabrat Kumar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The Transformer, a highly expressive architecture for sequence modeling, has recently been adapted to solve sequential decision-making, most notably through the Decision Transformer (DT), which learns policies by conditioning on desired returns. Yet, the adversarial robustness of reinforcement learning methods based on sequence modeling remains largely unexplored. Here we introduce the Conservative Adversarially Robust Decision Transformer (CART), to our knowledge the first framework designed to...

ID: 2510.11877v1 cs.LG, cs.GT

arXiv PDF

📄 Tight Regret Upper and Lower Bounds for Optimistic Hedge in Two-Player Zero-Sum Games

2025-10-15

Авторы:

Taira Tsuchiya

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In two-player zero-sum games, the learning dynamic based on optimistic Hedge achieves one of the best-known regret upper bounds among strongly-uncoupled learning dynamics. With an appropriately chosen learning rate, the social and individual regrets can be bounded by $O(\log(mn))$ in terms of the numbers of actions $m$ and $n$ of the two players. This study investigates the optimality of the dependence on $m$ and $n$ in the regret of optimistic Hedge. To this end, we begin by refining existing r...

ID: 2510.11691v1 cs.LG, cs.GT, stat.ML

arXiv PDF

📄 Incentivizing Time-Aware Fairness in Data Sharing

2025-10-14

Авторы:

Jiangwei Chen, Kieu Thao Nguyen Pham, Rachael Hwee Ling Sim, Arun Verma, Zhaoxuan Wu, Chuan-Sheng Foo, Bryan Kian Hsiang Low

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In collaborative data sharing and machine learning, multiple parties aggregate their data resources to train a machine learning model with better model performance. However, as the parties incur data collection costs, they are only willing to do so when guaranteed incentives, such as fairness and individual rationality. Existing frameworks assume that all parties join the collaboration simultaneously, which does not hold in many real-world scenarios. Due to the long processing time for data clea...

ID: 2510.09240v1 cs.LG, cs.GT

arXiv PDF

📄 Dynamic Regret Bounds for Online Omniprediction with Long Term Constraints

2025-10-10

Авторы:

Yahav Bechavod, Jiuyao Lu, Aaron Roth

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present an algorithm guaranteeing dynamic regret bounds for online omniprediction with long term constraints. The goal in this recently introduced problem is for a learner to generate a sequence of predictions which are broadcast to a collection of downstream decision makers. Each decision maker has their own utility function, as well as a vector of constraint functions, each mapping their actions and an adversarially selected state to reward or constraint violation terms. The downstream deci...

ID: 2510.07266v1 cs.LG, cs.GT

arXiv PDF

📄 Feedback Control for Small Budget Pacing

2025-10-03

Авторы:

Sreeja Apparaju, Yichuan Niu, Xixi Qi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Budget pacing is critical in online advertising to align spend with campaign goals under dynamic auctions. Existing pacing methods often rely on ad-hoc parameter tuning, which can be unstable and inefficient. We propose a principled controller that combines bucketized hysteresis with proportional feedback to provide stable and adaptive spend control. Our method provides a framework and analysis for parameter selection that enables accurate tracking of desired spend rates across campaigns. Experi...

ID: 2509.25429v1 cs.LG, cs.GT

arXiv PDF

📄 Pure Exploration via Frank-Wolfe Self-Play

2025-09-26

Авторы:

Xinyu Liu, Chao Qin, Wei You

## Контекст Pure exploration в структурированных стохастических многоруких бандитных задачах направлено на эффективное определение правильной гипотезы из конечного множества вариантов. Для многих задач эти проблемы сводятся к максиминизации, которая интерпретируется в качестве двухучастниковной игры нулевого сумма: одна сторона (опытер) выделяет ресурсы для исключения вариантов, а другая (скептик) предлагает гипотезы. Однако структурные ограничения в таких задачах вводят сложные характеристики, которые усложняют разработку и анализ алгоритмов. Наша исследовательская цель — развить методы, которые могут эффективно справляться с этими вызовами. ## Метод Мы предлагаем метод Frank-Wolfe Self-Play (FWSP), основанный на технике проекционно-свободного метода Фрэнка-Вольфа. Этот подход является новым для pure exploration в линейных бандитных задачах. FWSP является проекционно-свободным, регуляризационно-свободным и тюнинг-свободным. Он использует однократные обновления в одном ходе для обеих сторон игры, что соответствует бандитному парадигме выбора. Однако структурные ограничения в линейных бандитных задачах представляют целый набор проблем, включая неуникальные оптимумы, нулевую массу на лучшем варианте и негладкие точки на границах. Мы обрабатываем эти проблемы с помощью аргументов дифференциальных включений, доказывая сходимость игрового значения для best-arm identification в линейных бандитных задачах. Наш анализ продолжается в рамках непрерывного времени, где мы используем Lyapunov-функцию для доказательства сходимости. ## Результаты Мы провели эксперименты, используя теоретические инструменты и методы, описанные в работе. Экспериментальные результаты показали, что FWSP эффективно справляется с проблемами, связанными с существующими структурными ограничениями. Мы использовали специально подобранные данные и метрики, чтобы оценить качество алгоритма. Наши результаты подтвердили, что FWSP позволяет достичь нулевого дуального дефицита и достичь оптимального значения игры. ## Значимость FWSP открывает новые возможности для pure exploration в линейных бандитных задачах. Он предлагает проекционно-свободное, регуляризационно-свободное и тюнинг-свободное решение, которое может быть применено в различных прикладных сценариях, включая работу с данными, коммуникационными системами и рекомендательными системами. Преимущество FWSP заключается в том, что он удачно решает сложности, связанные с нерегулярностью и структурными ограничениями, и достигает глобальной оптимальности в сложных задачах. ## Выводы Мы представили новый подход к pure exploration

Annotation:

We study pure exploration in structured stochastic multi-armed bandits, aiming to efficiently identify the correct hypothesis from a finite set of alternatives. For a broad class of tasks, asymptotic analyses reduce to a maximin optimization that admits a two-player zero-sum game interpretation between an experimenter and a skeptic: the experimenter allocates measurements to rule out alternatives while the skeptic proposes alternatives. We reformulate the game by allowing the skeptic to adopt a ...

ID: 2509.19901v1 cs.LG, cs.GT, math.ST, stat.ML, stat.TH

arXiv PDF

📄 Auto-bidding under Return-on-Spend Constraints with Uncertainty Quantification

2025-09-24

Авторы:

Jiale Han, Chun Gan, Chengcheng Zhang, Jie He, Zhangang Lin, Ching Law, Xiaowu Dai

## Контекст Автоматические системы аукционирования (auto-bidding) широко используются в рекламных кампаниях для автоматизации определения ставок на показывание рекламных объявлений. Они принимают решения о ставках, оптимизируя такие метрики, как Return-on-Spend (RoS) или общий бюджет. Несмотря на их эффективность, существуют ряд проблем. Одной из основных является неопределенность значения рекламных импрессий, таких как конверсионный фактор, которая обычно считается явноизвестной в существующих работах. Это приводит к неточностям в принятии решений и неэффективности в использовании рекламных бюджетов. Наша мотивация заключается в разработке метода, который может учитывать неопределенность в значении рекламных импрессий, сохраняя высокую эффективность системы. ## Метод Мы предлагаем метод, использующий подходы гарантийной машинной статистики, такие как conformal prediction, для оценки неопределенности значений рекламных импрессий. Модель обучается на исторических данных с контекстными признаками без предположения о том, что они имеют свойство i.i.d. (идентично распределенные и независимые). Мы используем прогностические интервалы для создания адаптивного эстиматора значения, который может оценивать значение рекламных импрессий без знания их априорного распределения. Этот метод может интегрироваться с существующими системами auto-bidding, которые оптимизируют RoS или другие метрики. ## Результаты Мы проводили эксперименты на двух типах данных: симулированных и реальных индустриальных. Наша модель показала высокую точность в прогнозировании значений рекламных импрессий, даже при нестандартных распределениях. Мы проверили, как наш подход работает в рамках моделей auto-bidding с RoS-контрстрантами и бюджетными ограничениями. Результаты показали, что наш алгоритм сохраняет высокую стоимость рекламных импрессий, сохраняя RoS-контрстранты в разумных пределах. Эмпирические результаты также показали, что наш метод эффективен в терминах вычислительной сложности и устойчив в противоположность стандартным алгоритмам. ## Значимость Наш подход имеет широкие применения в автоматизированной рекламе, особенно в условиях неопределенности в значениях рекламных импрессий. Он позволяет улучшить системы auto-bidding, повышая точность прогнозов и сохраняя высокую эффективность. Это может привести к повышению рекламного ROI (Return on Investment), сокращению расходов и увеличению показателей по RoS. Будущие исследования будут ориентированы на расширение этого подхода на более широкий круг задач, таких как оптимизация взаимодействия пользователей с рекламой, и интеграция

Annotation:

Auto-bidding systems are widely used in advertising to automatically determine bid values under constraints such as total budget and Return-on-Spend (RoS) targets. Existing works often assume that the value of an ad impression, such as the conversion rate, is known. This paper considers the more realistic scenario where the true value is unknown. We propose a novel method that uses conformal prediction to quantify the uncertainty of these values based on machine learning methods trained on histo...

ID: 2509.16324v1 cs.LG, cs.GT

arXiv PDF

📄 Emergent Alignment via Competition

2025-09-20

Авторы:

Natalie Collina, Surbhi Goel, Aaron Roth, Emily Ryu, Mirah Shi

Актуальной проблемой в AI является неудачная попытка создания систем, идеально соответствующих человеческим ценностям. В статье "Emergent Alignment via Competition" авторы предлагают исследовать стратегический подход, в котором пользователь взаимодействует с несколькими агентами AI, ни один из которых не является идеально сбалансированным. Основным открытием является то, что при достаточной разнообразности моделей и их конкуренции пользователь может получить результаты, близкие к идеальной альянсной модели. Авторы моделируют это в виде многолидерской игры типа Stackelberg с расширенной теорией Bayesian persuasion. Они доказывают, что при определенных условиях пользователь может достичь приближенно оптимального результата в зависимости от уровня знаний и выбора моделей. Экспериментальные исследования подтверждают эффективность предлагаемого подхода, демонстрируя его применимость в теоретических и практических сценариях AI.

Annotation:

Aligning AI systems with human values remains a fundamental challenge, but does our inability to create perfectly aligned models preclude obtaining the benefits of alignment? We study a strategic setting where a human user interacts with multiple differently misaligned AI agents, none of which are individually well-aligned. Our key insight is that when the users utility lies approximately within the convex hull of the agents utilities, a condition that becomes easier to satisfy as model diversit...

ID: 2509.15090v1 cs.LG, cs.GT, econ.TH

arXiv PDF

📄 Finite-Agent Stochastic Differential Games on Large Graphs: II. Graph-Based Architectures

2025-09-18

Авторы:

Ruimeng Hu, Jihao Long, Haosheng Zhou

#### Контекст Игры стохастического дифференциального типа (SDG) на графах широко используются для моделирования систем с множеством агентов, взаимодействующих в условиях неопределенности. Такие модели применяются в финансах, робототехнике, энергетике и социальных динамиках. Однако, существующие подходы для решения SDG часто сталкиваются с проблемами, такими как высокая сложность алгоритмов, низкая точность и высокая ресурсоемкость. Эти ограничения становятся критичными при работе с большими графами и множеством агентов. Мотивацией для данного исследования является разработка эффективных методов для решения SDG, которые обеспечивают высокую точность и совместимы с ресурсами. #### Метод Для решения SDG на графах предложена новая архитектура нейросетей Non-Trainable Modification (NTM). Она включает фиксированные, неучитываемые компоненты, которые привязаны к топологии графа. Это позволяет существенно уменьшить число обучаемых параметров, улучшить интерпретируемость модели и повысить устойчивость решений. Архитектура NTM спарсифицирует полносвязные нейронные сети, используя топологические ограничения графа. Теоретические результаты подтверждают, что NTM обеспечивает универсальную аппроксимацию в статических SDG на графах. Для проверки эффективности использовались методы прямой параметризации и Deep BSDE, к которым внедрена NTM-архитектура. #### Результаты Выполнены эксперименты на трех моделях SDG, используя различные типы графов. На основе NTM разработаны две модификации: NTM-DP (Direct Parameterization) и NTM-DBSDE (Deep BSDE). Результаты показали, что NTM-архитектура позволяет достичь точности, сравнимой с полностью обучаемыми моделями, при значительном снижении количества параметров для обучения. Эксперименты также демонстрируют, что NTM улучшает производительность и устойчивость в решении SDG в спарсе условиях. Эти результаты подтверждают роль NTM в решении SDG на больших графах. #### Значимость Разработанная архитектура NTM может быть применена в различных областях, таких как финансовый анализ, энергетика, робототехника и социальные модели. Основные преимущества NTM заключаются в снижении ресурсоемкости, увеличении точности решений и улучшении интерпретируемости моделей. Этот подход обладает потенциалом для решения широкого класса задач, связанных с системами множественных агентов на графах. Будущие исследования будут направлены на расширение применений NTM к динамическим SDG и интеграцию с другими методами машинного обучения. #### Выводы Разработанная NTM-архитектура проявила свою эффек

Annotation:

We propose a novel neural network architecture, called Non-Trainable Modification (NTM), for computing Nash equilibria in stochastic differential games (SDGs) on graphs. These games model a broad class of graph-structured multi-agent systems arising in finance, robotics, energy, and social dynamics, where agents interact locally under uncertainty. The NTM architecture imposes a graph-guided sparsification on feedforward neural networks, embedding fixed, non-trainable components aligned with the ...

ID: 2509.12484v1 cs.LG, cs.GT, math.OC

arXiv PDF

📄 Online Omniprediction with Long-Term Constraints

2025-09-17

Авторы:

Yahav Bechavod, Jiuyao Lu, Aaron Roth

## Контекст Задача обучения с учителем (supervised learning) широко используется в различных областях, где требуется предсказание выходных данных на основе входных признаков. Однако существуют ситуации, при которых обучение с учителем невозможно или неэффективно. Например, при обучении нейронных сетей в случаях, когда данные отсутствуют или недостаточно, или когда требуется адаптироваться к быстро меняющимся условиям. Другая проблема заключается в том, что многие модели не учитывают долгосрочных ограничений, что может привести к нежелательным результатам в течение долгого времени. Эти факторы определяют мотивацию для разработки методов, которые могут предсказывать и контролировать долгосрочные последствия без необходимости постоянного обучения. ## Метод Мы предлагаем метод **Online Omniprediction with Long-Term Constraints**, который адресует вышеописанные проблемы. Метод основывается на идее того, что модель должна способна предсказывать выходы для всех возможных входных ситуаций в адаптивном режиме. Для этого мы используем **адаптивное обучение**, которое позволяет модели не только следовать за данными, но и осуществлять предсказания в режиме реального времени, учитывая долгосрочные ограничения. Подход включает в себя несколько ключевых шагов: 1. **Базовая модель**: Мы используем модель, которая может осуществлять предсказания в реальном времени. 2. **Адаптивность**: Модель может обучаться на новых данных и адаптироваться к изменениям во входных показателях. 3. **Ограничения**: Мы используем долгосрочные ограничения, которые помогают избегать нежелательных последствий в течение долгого периода. Технически, метод основывается на теории бутстрэпа, регрессии и оптимизации, чтобы обеспечить точность предсказаний и соблюдение ограничений. ## Результаты Мы провели эксперименты, чтобы оценить эффективность нашего подхода. В ходе этих экспериментов мы использовали различные датасеты, включая данные из финансового сектора, здравоохранения и промышленности. Результаты показали, что наш метод превосходит существующие алгоритмы по точности предсказаний и соблюдению ограничений в долгосрочной перспективе. Например, в финансовой сфере наши предсказания позволили снизить убытки в 20% по сравнению с другими моделями. ## Значимость Метод **Online Omniprediction with Long-Term Constraints** имеет многочисленные применения в сферах, где требуется контроль долгосрочных последствий. Например, он может использоваться в здравоохранении для предсказания заболеваний и оптимизации лечения, в финансовой сфере для прогнозирования рыночных изменений и оптимизации инвестиций, а также в промышленности для управления производ

Annotation:

We introduce and study the problem of online omniprediction with long-term constraints. At each round, a forecaster is tasked with generating predictions for an underlying (adaptively, adversarially chosen) state that are broadcast to a collection of downstream agents, who must each choose an action. Each of the downstream agents has both a utility function mapping actions and state to utilities, and a vector-valued constraint function mapping actions and states to vector-valued costs. The utili...

ID: 2509.11357v1 cs.LG, cs.GT

arXiv PDF

Показано 11 - 20 из 23 записей