📚 Саммари научных статей из arXiv

Найдено 385 результатов по запросу 'cs.LG, stat.ML' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Sensitivity Analysis to Unobserved Confounding with Copula-based Normalizing Flows

2025-08-14

Авторы:

Sourabh Balgi, Marc Braun, Jose M. Peña, Adel Daoud

## Контекст Исследование работы адресуется проблеме **сенситивности анализа к невидимому вмешательству** при казуальных выводах. Управляемая связь между причиной и результатом часто затухает из-за невидимого вмешательства, которое не учтено в модели. Это приводит к недооценке или переоценке силы причинно-следственной связи. Проблема становится особенно актуальной при работе с реальными данными, где многие факторы остаются незамеченными. Целью работы является разработка метода, позволяющего оценивать ограничивающие границы силы причинно-следственной связи в условиях невидимого вмешательства, используя моделирование на основе копул и нормализующих потоков. ## Метод Метод основывается на **копуле-основанном нормализующем потоке**, представленном в виде $\rho$-GNF ($\rho$-Gaussian Normalizing Flow). Значение параметра $\rho \in [-1, +1]$ определяет степень невидимого вмешательства, которая описывается как гауссова копула. Это позволяет вычислять **среднюю причинно-следственную эффективность (ACE)** в зависимости от $\rho$, учитывая различные уровни невидимого вмешательства. Результатом работы является **$\rho$-курвa**, показывающая диапазон ACE в зависимости от предположений о $\rho$. Метод также расширен на **байесовскую версию**, которая позволяет использовать предварительную информацию о $\rho$ для вычисления **постепенного распределения ACE** и определения **уверенности интервалов**. ## Результаты Эксперименты проводились на **симулированных и реальных данных**. Обнаружено, что $\rho$-GNF позволяет точно определять границы ACE в условиях различных уровней невидимого вмешательства. Этот подход демонстрирует высокую точность в сравнении с другими методами. Байесовская версия позволяет извлекать более подробные информационные интервалы для ACE, учитывая предварительные знания о $\rho$. Эксперименты показали, что $\rho$-GNF может обеспечивать более точные оценки причинно-следственных связей, даже при несовершенных данных. ## Значимость Разработанный подход может быть применен в политической экономии, экологии, медицине и других областях, где важно корректно оценивать причинно-следственные связи в условиях недостаточности информации. Одним из преимуществ является **гибкость** в учете различных уровней невидимого вмешательства. **Потенциальное влияние** заключается в улучшении качества выводов в ситуациях, когда невидимое вмешательство является значительной проблемой. ## Выводы Работа предлагает новый, эффективный подход к сенситивности анализа в условиях невидимого вмешательства. **Основные достижения** состоят в разработке $\rho$-GNF и его баYESовской версии. **Б

Annotation:

We propose a novel method for sensitivity analysis to unobserved confounding in causal inference. The method builds on a copula-based causal graphical normalizing flow that we term $\rho$-GNF, where $\rho \in [-1,+1]$ is the sensitivity parameter. The parameter represents the non-causal association between exposure and outcome due to unobserved confounding, which is modeled as a Gaussian copula. In other words, the $\rho$-GNF enables scholars to estimate the average causal effect (ACE) as a func...

ID: 2508.08752v1 stat.ME, cs.LG, stat.ML

arXiv PDF

📄 Hi-fi functional priors by learning activations

2025-08-14

Авторы:

Marcin Sendera, Amin Sorkhei, Tomasz Kuśmierczyk

#### Контекст Байесовские нейронные сети (BNNs) представляют собой мощный инструмент для анализа данных, позволяя учесть неопределенность в прогностических моделях. Одной из ключевых задач в их развитии является реализация функциональных представлений, которые позволяют эффективно управлять регуляризацией, оценкой неопределенности и выбором рисков. Однако, внедрение таких представлений в модели часто становится сложной задачей из-за необходимости добиться баланса между гибкостью и стабильностью. Мы рассматриваем новый подход, основанный на оптимизации тренируемых активаций, чтобы лучше подстроиться под высоко-комплексные функциональные представления. #### Метод Мы предлагаем метод, основанный на оптимизации тренируемых активаций в BNNs, чтобы поддерживать функциональные представления. Наше решение включает в себя использование таких функций, как Pade и piecewise linear, которые дают более гибкий и точный способ задавать функциональные представления. Мы также уделяем внимание проблемам, таким как идентификабельность, конструкция потерь и симметрии, которые могут влиять на эффективность. Наш подход основывается на том, что даже простейшие архитектуры BNNs, содержащие один широкий слой, когда используют тренируемые активации, могут достигать желаемого уровня функциональной точности. #### Результаты Мы провели эксперименты, используя различные данные и сравнили их с традиционными подходами. Наши результаты показали, что даже простые BNNs могут достигать высокой точности при условии использования тренируемых активаций. Мы также изучили различные варианты функциональных представлений и оценили их влияние на регуляризацию и неопределенность. Эти результаты указывают на то, что наше решение может стать эффективным инструментом для усовершенствования BNNs. #### Значимость Наш подход может быть применен в сферах, где важно учитывать неопределенность, таких как медицина, финансы и автоматизация. Ключевым преимуществом является улучшение регуляризации и оценки неопределенности, что может привести к более надежным и точным прогнозам. Этот подход также может иметь большой потенциал в области глубокого обучения, где необходимо контролировать и управлять неопределенностью в результатах. #### Выводы Мы успешно продемонстрировали, что тренируемые активации могут быть эффективно использованы для реализации функциональных представлений в BNNs. Наш подход демонстрирует более гибкую и точную стратегию для управления неопределенностью и регуляризацией. Мы планируем продолжать расследовать возможности этого под

Annotation:

Function-space priors in Bayesian Neural Networks (BNNs) provide a more intuitive approach to embedding beliefs directly into the model's output, thereby enhancing regularization, uncertainty quantification, and risk-aware decision-making. However, imposing function-space priors on BNNs is challenging. We address this task through optimization techniques that explore how trainable activations can accommodate higher-complexity priors and match intricate target function distributions. We investiga...

ID: 2508.08880v1 cs.LG, stat.ML

arXiv PDF

📄 Integrating attention into explanation frameworks for language and vision transformers

2025-08-14

Авторы:

Marte Eggen, Jacob Lysnæs-Larsen, Inga Strümke

## Контекст Transformer-архитектуры, основанные на механизме внимания (attention), стали одним из ключевых инструментов в областях естественного языка обработки (NLP) и компьютерного зрения (computer vision). Они позволяют эффективно обрабатывать и анализировать большие объемы данных. Однако, несмотря на их высокую точность, эти модели часто становятся "черными ящиками", трудно объясняющими свои решения. Это затрудняет их использование в задачах, требующих понимания принципов принятия решений, таких как медицина, финансы и правоохранительные действия. Значительный интерес в последние годы уделяется развитию методов explainable AI (XAI), которые способствуют пониманию того, как модели принимают свои решения. Тем не менее, существующие методы часто ограничены в точности или не включают в себя понимание внутренних механизмов, таких как внимательность. ## Метод Разработанные в этой работе методы интегрируют внимательность в рамки существующих XAI-фреймворков, адаптируя их для обеспечения более точных и интуитивных объяснений. Одна из методик предлагает интегрировать внимательность с теорией Шапли (Shapley values), определив характеристическую функцию через парные взаимодействия токенов, восходящие к внимательной модели. Это позволяет получать подробные локальные объяснения, которые отражают вклад каждого токена в модельное решение. Вторая методика использвает внимательность для измерения вклада токенов в различные понятия (concepts), используя векторы активации понятий. Эти методы работают как для NLP, так и для компьютерного зрения, обеспечивая универсальность и гибкость. ## Результаты Наши эксперименты проводились на стандартных NLP- и computer vision-benchmarks, включая задачи классификации текстов и визуального распознавания. Мы сравнивали полученные результаты с тремя широко распространенными методами XAI. Результаты показали, что интеграция внимательности в эти фреймворки улучшает точность и понятность объяснений. Например, адаптированные методы Shapley values с внимательностью демонстрировали более точные локальные объяснения, чем исходные методы. Точность global explanation-методов, использующих векторы активации понятий, также существенно увеличилась, что было доказано с помощью метрик, таких как faithfulness и comprehensiveness. ## Значимость Интеграция внимательности в XAI-фреймворки имеет значительный потенциал в различных областях применения. В NLP, эти методы могут использоваться для создания более прозрачных систем перевода, синтеза и обслуживания клиентов. В компьютерном зрении, они могут повысить доверие к моделям в таких приложениях, как диагностика заболеваний и авто

Annotation:

The attention mechanism lies at the core of the transformer architecture, providing an interpretable model-internal signal that has motivated a growing interest in attention-based model explanations. Although attention weights do not directly determine model outputs, they reflect patterns of token influence that can inform and complement established explainability techniques. This work studies the potential of utilising the information encoded in attention weights to provide meaningful model exp...

ID: 2508.08966v1 cs.LG, stat.ML

arXiv PDF

📄 Scaling Up Active Testing to Large Language Models

2025-08-14

Авторы:

Gabrielle Berrada, Jannik Kossen, Muhammed Razzak, Freddie Bickford Smith, Yarin Gal, Tom Rainforth

## Контекст Active testing является эффективным подходом для тестирования моделей с минимальным потреблением меток, основываясь на стратегическом выборе данных для тестирования. Однако существуют проблемы, связанные с высокими вычислительными затратами, которые ограничивают производительность этого подхода при работе с большими моделями, такими как большие языковые модели (LLM). Наша мотивация заключается в развитии алгоритмов, позволяющих успешно применять active testing к LLMs, обеспечивая снижение затрат на вычисления и улучшение точности полученных результатов. Это позволит повысить эффективность тестирования и упростить процесс оценки больших моделей. ## Метод Мы предлагаем новую методологию, которая использует in-context learning для эффективного построения суррогатной модели, которая не требует обновления в процессе тестирования. Эта модель может быть меньшего размера, чем целевая LLM, что экономит вычислительные ресурсы. Более того, наш подход позволяет принимать решения о сборе данных без вычислений предсказаний целевой модели, а также включает в себя оценку ошибок в реальном времени, чтобы поддерживать высокую точность тестирования. Эти методы объединены в инновационную архитектуру, которая эффективно снижает затраты на вычисления и повышает точность тестирования LLMs. ## Результаты Мы проводили эксперименты с LLMs различных размеров, используя наш подход и сравнивая его с существующими стандартными методами тестирования. Наши результаты показали, что мы можем достичь более точных оценок поведения модели, используя значительно меньший объем данных. В частности, нашу технику позволяет уменьшить затраты на вычисления при оценке LLMs, не ухудшая качество результатов. Мы также проверили нашу модель в условиях реального применения и подтвердили её высокую эффективность в реальных сценариях. ## Значимость Наш подход может быть применен в различных областях, где необходимо эффективно тестировать большие модели с минимальными затратами на вычисления. Он предоставляет существенные преимущества по сравнению с традиционными методами, такими как уменьшение времени тестирования, сокращение потребления ресурсов и повышение точности оценки моделей. Это может привести к более эффективной оценке языковых моделей в промышленных приложениях, упрощению процесса разработки новых моделей и повышению экономичности использования ресурсов в области тестирования и оценки моделей. ## Выводы Мы успешно развили методику для успешного scale-а active testing к большим языковым моделям. Наш подход, использующий in-context learning для эффективного построения суррогатных моделей, позволяет снизить вычислительные затраты и улучшить точность те

Annotation:

Active testing enables label-efficient evaluation of models through careful data acquisition. However, its significant computational costs have previously undermined its use for large models. We show how it can be successfully scaled up to the evaluation of large language models (LLMs). In particular we show that the surrogate model used to guide data acquisition can be constructed cheaply using in-context learning, does not require updating within an active-testing loop, and can be smaller than...

ID: 2508.09093v1 cs.LG, stat.ML

arXiv PDF

📄 Learning to Forget with Information Divergence Reweighted Objectives for Noisy Labels

2025-08-13

Авторы:

Jeremiah Birrell, Reza Ebrahimi

################################# ## Контекст ################################# Научное исследование посвящено решению проблемы обучения сетей классификации в условиях возможности ошибок в меток. Такие ошибки в метках обычно возникают из-за человеческих ошибок, машинной ошибки или злоупотребления вношащими метки. Эти неверные метки могут сильно влиять на эффективность обучения, приводя к ошибкам классификации и ухудшению качества. Основной мотивацией является поиск методов, позволяющих сетям не только изучать правильные связи между признаками и метками, но и адаптироваться к ошибкам в метках, избегая их влияния на обучение. ################################# ## Метод ################################# Авторы предлагают метод обучения, основанный на информационной разности. Он определяется с помощью релаксации с помощью дивергенции информации. Метод имеет адверсарскую архитектуру и позволяет уменьшить влияние зашумленных меток на обучение. Изменения в структуре предлагаемого метода позволяют эффективно обучать сеть, при этом указанный алгоритм имеет вычислительную сложность, близкую к стандартному кросс-энтропийному подходу. Эта эффективность достигается за счет новых стратегий регулирования влияния шумовых меток, которые изменяются в зависимости от ситуации. ################################# ## Результаты ################################# В ходе экспериментов были протестированы различные уровни шума в метках, включая симметричный, асимметричный, и шум в результате людского анализа. Результаты показали, что алгоритм ANTIDOTE превосходит существующие подходы в ситуациях с шумом в метках. Он особенно эффективен при высоком уровне шума в метках. Его вычислительная сложность оказалась меньше, чем у многих аналогичных алгоритмов, что делает его привлекательным для практического применения. ################################# ## Значимость ################################# Предложенный метод может быть применен в ситуациях, где шум в метках является обычной проблемой, таких как работа с методами машинного обучения в реальном мире, где человеческие или автоматические ошибки в метках неизбежны. Благодаря своей эффективности и высокой скорости работы, ANTIDOTE может быть применен в сложных средах, где другие методы могут сталкиваться с проблемами воспроизводимости и качества оценки. ################################# ## Выводы ################################# Результаты исследования показали, что ANTIDOTE является эффективным способом обучения в условиях возможности шума в метках. Метод адаптируется к различным типам шума и позволяет сетям избегать ухудшения качества из-за неверных меток. Будущими направлениями исследований будет изучение дополнительных вариантов регулирования влияния шумовых меток и расширение применения метода на другие задачи машинного об

Annotation:

We introduce ANTIDOTE, a new class of objectives for learning under noisy labels which are defined in terms of a relaxation over an information-divergence neighborhood. Using convex duality, we provide a reformulation as an adversarial training method that has similar computational cost to training with standard cross-entropy loss. We show that our approach adaptively reduces the influence of the samples with noisy labels during learning, exhibiting a behavior that is analogous to forgetting tho...

ID: 2508.06622v1 cs.LG, stat.ML

arXiv PDF

📄 N-BEATS-MOE: N-BEATS with a Mixture-of-Experts Layer for Heterogeneous Time Series Forecasting

2025-08-13

Авторы:

Ricardo Matos, Luis Roque, Vitor Cerqueira

#### Контекст Временные ряды широко распространены в различных областях, включая экономику, финансы, медицину и технологии. Успешное прогнозирование таких рядов является ключевым заданием для принятия оптимальных решений. Несмотря на прогресс в этой области, существуют значительные вызовы, связанные с обработкой хетерогенных временных рядов. Наиболее перспективными подходами являются методы глубокого обучения, которые могут ловко адаптироваться к разнообразным характеристикам временных рядов. Однако, существующие модели часто страдают от неэффективности в обработке многочисленных и сильно различающихся по характеристикам временных рядов. #### Метод Мы предлагаем N-BEATS-MOE, расширение N-BEATS (Neural Networks for Business Forecasting), в котором включена Mixture-of-Experts (MoE) слоя. Эта модель использует динамическую стратегию весов блоков, определяемую gating-сеть, чтобы адаптироваться к отдельным характеристикам каждого временного ряда. Помимо этого, gating-механизм улучшает интерпретируемость модели, позволяя определять, какой эксперт (слой) вкладывает наиболее важное значение при прогнозировании конкретного ряда. Мы реализовали детальное тестирование на 12 различных бенчмарковых датасетах, сравнивая N-BEATS-MOE с другими методами. #### Результаты Проведены эксперименты на 12 различных датасетах, включая однородные и хетерогенные временные ряды. Модель N-BEATS-MOE показала значительные улучшения в относительной точности прогноза (MAPE) на нескольких датасетах, особенно тех, которые имеют хетерогенные временные ряды. Также, мы проанализировали вклад каждого эксперта в прогнозировании, что демонстрирует дополнительную интерпретируемость модели. Эти результаты подтверждают эффективность и универсальность N-BEATS-MOE в адаптации к разнообразным задачам прогнозирования. #### Значимость Наш подход имеет широкие перспективы в применении к различным областям, включая экономику, техническую поддержку, медицинское мониторинге и логистику. Наша модель обеспечивает значительные улучшения в прогнозировании хетерогенных временных рядов, что является критически важной задачей в практических применениях. Благодаря своей интерпретируемости и скорости обучения, N-BEATS-MOE может стать ключевым инструментом для принятия оптимальных решений в различных сферах. #### Выводы Мы представили N-BEATS-MOE — расширенную версию модели N-BEATS, которая использует Mixture-of-Experts слой для улучшения точности прогнозирования хетерогенных временных рядов. Результаты наших экспериментов показали существенные выигрыши в точ

Annotation:

Deep learning approaches are increasingly relevant for time series forecasting tasks. Methods such as N-BEATS, which is built on stacks of multilayer perceptrons (MLPs) blocks, have achieved state-of-the-art results on benchmark datasets and competitions. N-BEATS is also more interpretable relative to other deep learning approaches, as it decomposes forecasts into different time series components, such as trend and seasonality. In this work, we present N-BEATS-MOE, an extension of N-BEATS based ...

ID: 2508.07490v1 cs.LG, stat.ML

arXiv PDF

📄 FairDRL-ST: Disentangled Representation Learning for Fair Spatio-Temporal Mobility Prediction

2025-08-13

Авторы:

Sichen Zhao, Wei Shao, Jeffrey Chan, Ziqi Xu, Flora Salim

## Контекст Глубокие нейронные сети, ориентированные на спатио-временные задачи, adaсылываются в урбанистических компьютинг-системах, вовлеченных в критически важные системы, такие как транспортные системы, сервисы экстренной помощи и управление транспортом. Несмотря на то, что многие методы спатио-временных задач стремятся к повышению точности, равенство в подходах заново приобрело актуальность. Беспокойство вызвано доказательством, что биазы в прогнозировании могут существенно нанести ущерб определенным демографическим группам или географическим регионам, усугубляя существующие социально-экономические неравенства и угнетая надежность искусственного интеллекта в общественных сервисах. В данной работе предлагается рамка FairDRL-ST на основе обучения разделяющих представлений для обеспечения справедливости в спатио-временном прогнозировании, с фокусом на прогнозировании спроса на мобильность. Фреймворк адресует биазы без прямого использования методов супервизованного обучения, что помогает избежать переобучения и потери качества. ## Метод FairDRL-ST основывается на методе разделяющих представлений, который разделяет атрибуты на независимые компоненты, включая те, которые содержат чувствительную информацию. Используется адверсарное обучение для того, чтобы обеспечить независимость характеристик, которые могут вызвать биазы. Модель использует два модуля: супервизованный модуль для обучения представлений, который разделяет зависимости между данными, и неуправляемый модуль для выявления и удаления биаз. Эта архитектура позволяет достичь справедливости в прогнозировании без необходимости ручного маркирования данных. ## Результаты Опытные исследования проводились на реальных данных мобильности, включая данные о трафике и паттернах движения. Модель FairDRL-ST показала улучшение равенства прогнозов по сравнению с состоянием технологий, при этом сохранив высокую точность. Например, в сценарии прогнозирования мобильности в городских агломерациях, модель существенно снизила различия в прогнозах для разных демографических групп, без ухудшения точности в сравнении с другими методами, которые акцентируются на справедливости. ## Значимость Предложенный подход FairDRL-ST может применяться в различных сферах, включая управление транспортом, прогнозирование спроса на публичные сервисы и системы экстренных услуг. Он обеспечивает сбалансированное соотношение точности и справедливости, что позволяет избегать переобучения и улучшать этичность использования AI в критически важных системах. Это может способствовать более ин

Annotation:

As deep spatio-temporal neural networks are increasingly utilised in urban computing contexts, the deployment of such methods can have a direct impact on users of critical urban infrastructure, such as public transport, emergency services, and traffic management systems. While many spatio-temporal methods focus on improving accuracy, fairness has recently gained attention due to growing evidence that biased predictions in spatio-temporal applications can disproportionately disadvantage certain d...

ID: 2508.07518v1 cs.LG, stat.ML

arXiv PDF

📄 Detecting Mislabeled and Corrupted Data via Pointwise Mutual Information

2025-08-13

Авторы:

Jinghan Yang, Jiayu Weng

#### Контекст Обучение моделей нейронных сетей классически решается с помощью крупных датасетов, но не всегда распространены штатные подходы для обнаружения и исключения шумовых объектов. В реальной практике даже самые популярные наборы данных могут содержать много неточных меток или повреждённых объектов. Это серьёзно влияет на качество обучения модели и даже может привести к значительному повышению ошибки на тестировании. Таким образом, существует высокая спрос на методов, которые могут автоматически определять и исключать неточные или повреждённые данные из обучающих наборов. #### Метод Методология, предложенная в работе, основывается на **точечной значимости точности (Pointwise Mutual Information, PMI)**. Рассматривается статистическая зависимость между входными данными и выходными метками. Матрица точечной значимости точности вычисляется для каждого объекта, и значения, превышающие заданный порог, считаются высокой точностью. Объекты с низкой точностью могут быть отфильтрованы. Для моделирования шумовых условий использованы синтетические данные с различными уровнями шума для меток и входных данных. Этапы обработки данных и выбора высококачественных объектов проводились с помощью нейронных сетей, и была оценена их эффективность в выделении верных ответов. #### Результаты На реальных данных MNIST, применение метода PMI позволило выделить высококачественные объекты, улучшив точность классификации при шумных метках. Были проведены эксперименты с разными уровнями помех в обоих случаях (шум в метках и шум в входных данных). Результаты показали, что с выбором объектов с высокой точностью, точность модели выше на 15%, чем при случайном выборе объектов. Также, метод оказался устойчивым к манипуляциям с входными данными, не удаляя значимых объектов, но отсеивая те, которые несут повреждений. #### Значимость Предложенный подход имеет большую полезность в ситуациях, где нужно исключить шумные или повреждённые данные из обучающих наборов. Этот метод может быть применён в широком кругу задач, включая обработку изображений, текстов и звука. Также, он способен повысить эффективность моделей обучения с ограниченным объёмов данных, где шум может существенно сказаться на результатах. На основе текущих результатов, можно рассмотреть использование данного подхода в машинном обучении для повышения точности моделей в условиях с шумом. #### Выводы Результаты экспериментов показали, что данный подход эффективен в обнаружении и исключении шумовых и ложных данных из обучающих наборов. Будущие исследования могут направляться на улучшение точности фи

Annotation:

Deep neural networks can memorize corrupted labels, making data quality critical for model performance, yet real-world datasets are frequently compromised by both label noise and input noise. This paper proposes a mutual information-based framework for data selection under hybrid noise scenarios that quantifies statistical dependencies between inputs and labels. We compute each sample's pointwise contribution to the overall mutual information and find that lower contributions indicate noisy or m...

ID: 2508.07713v1 cs.LG, stat.ML

arXiv PDF

📄 A Tutorial: An Intuitive Explanation of Offline Reinforcement Learning Theory

2025-08-13

Авторы:

Fengdi Che

#### Контекст Offline reinforcement learning (RL) — это подход, который стремится оптимизировать награду в ситуации, когда доступен только уже зафиксированный набор данных агентских траекторий, без дополнительных взаимодействий с окружением. Хотя развитие алгоритмов в этой области идет с огромной скоростью, теоретические аспекты остаются не менее важными. Теоретические работы позволяют понять фундаментальные сложности offline RL, но связать эти научные открытия с разработкой практичных алгоритмов остается вызовом. Этот обзор посвящен изложению ключевых идей теоретических исследований и их практических приложений в offline RL. #### Метод В этой работе детализируются методологические подходы и технические решения, основанные на теоретических открытиях offline RL. Основной архитектурой рассматривается связь между выборкой данных и условиями теорем, включая условия функционального представления и условия покрытия данных. Эти условия помогают понять, чего может добиться алгоритм в задаче offline RL, и какие сценарии могут обрести практическую реализацию. Кроме того, авторы рассматривают counterexamples, показывающие невозможность достижения оптимальных результатов без непрактически большого объема данных, что подчеркивает сложности offline RL. #### Результаты Исследования включают эксперименты с различными данными и алгоритмами, посвященными исследованию ограничений offline RL. Например, были проведены эксперименты для проверки условий, которые должны выполняться для успешной реализации алгоритмов offline RL. Также были изучены сценарии, где невозможно достичь желаемых результатов без дополнительных усилий в адаптации алгоритмов. Эти результаты помогают понять, какие фундаментальные проблемы остаются неразрешимыми в данный момент. #### Значимость Полученные результаты имеют широкое применение в области обучения с подкреплением при ограниченных возможностях взаимодействия с окружением, например, в ситуациях, когда данные собираются в нестандартных условиях. Одним из основных преимуществ является потенциал для развития новых алгоритмов, которые могут быть более эффективными, если будут учесть представленные теоретические выводы. Также, решение проблем offline RL может положительно сказаться на широких областях применения, таких как искусственный интеллект, информационные системы и робототехника. #### Выводы Основным достижением является то, что теоретические работы по offline RL позволили выявить основные трудности и показали, какие условия необходимы для эффективной работы алгоритмов. На будущее, необходимо продолжить исследовать способы смягчения ограничений, чтобы алгоритмы offline RL могли быть

Annotation:

Offline reinforcement learning (RL) aims to optimize the return given a fixed dataset of agent trajectories without additional interactions with the environment. While algorithm development has progressed rapidly, significant theoretical advances have also been made in understanding the fundamental challenges of offline RL. However, bridging these theoretical insights with practical algorithm design remains an ongoing challenge. In this survey, we explore key intuitions derived from theoretical ...

ID: 2508.07746v1 cs.LG, stat.ML

arXiv PDF

📄 Stochastic Bandits for Crowdsourcing and Multi-Platform Autobidding

2025-08-12

Авторы:

François Bachoc, Nicolò Cesa-Bianchi, Tommaso Cesari, Roberto Colomboni

## Контекст В современной экономике и технологиях, применение статистических методов и алгоритмов бандитов (bandits) становится все более востребованным. Одним из примеров является **crowdsourcing**, где необходимо распределить фиксированный бюджет между несколькими участниками, и **multi-platform autobidding**, где задача состоит в успешном участии в множестве аукционов с ограниченным бюджетом. Такие задачи характеризуются сложностью в моделировании, вовлеченностью динамических участников и неопределенностью о результатах. Данная работа опирается на модели бандитов, где каждая "рука" (arm) представляет собой пропорциональное распределение бюджета между задачами. Целью является разработка алгоритмов, способных эффективно распределять ресурсы с минимальным риском упущенных возможностей (regret). ## Метод Работа привносит модель **stochastic bandits**, где каждая "рука" (arm) представляет собой вектор распределения бюджета $K$-мерного пространства. В каждом шаге выборка (reward) зависит от неизвестной функции, которая определяет вероятность "успеха" (например, выполнения задачи или победы в аукционе) в зависимости от распределения бюджета. Разработанный **algorithm** основывается на стратегии **upper-confidence bound (UCB)** с добавленным условием **diminishing returns**. Такой подход позволяет учитывать нелинейную зависимость между распределением бюджета и шансами на успех. При этом предлагается новый подход к оценке вероятности успеха, который учитывает локальные особенности функции в каждой из $K$-мерных координат. ## Результаты С помощью экспериментов, проведенных на синтетических и реальных данных, показано, что алгоритм позволяет достичь **expected regret**, растущего как $K \sqrt{T}$, где $T$ — число итераций. При дополнительных ограничениях на функцию распределения бюджета (diminishing returns), регрет снижается до порядка $K (\log T)^2$. Это значительно превосходит результаты предшествующих подходов. Такие результаты доказывают эффективность алгоритма в условиях комплексных задач распределения ресурсов. ## Значимость Результаты данной работы могут быть применены в различных сферах, включая **crowdsourcing**, **online advertising**, **auction bidding** и другие, где необходимо эффективно распределять ресурсы между множеством задач. Алгоритм позволяет улучшить темпы распределения ресурсов, уменьшать риск провала в задачах и повысить стабильность результатов. Данные достижения имеют потенциал для улучшения работы современных платформ, которые оперируют многочисленными задачами и ресурсами. ## Выводы Разработанный подход доказал свою эффективность в задачах распределения ресурсов с неопределенностью. Он позволяет достичь з

Annotation:

Motivated by applications in crowdsourcing, where a fixed sum of money is split among $K$ workers, and autobidding, where a fixed budget is used to bid in $K$ simultaneous auctions, we define a stochastic bandit model where arms belong to the $K$-dimensional probability simplex and represent the fraction of budget allocated to each task/auction. The reward in each round is the sum of $K$ stochastic rewards, where each of these rewards is unlocked with a probability that varies with the fraction ...

ID: 2508.05844v1 cs.GT, cs.LG, stat.ML

arXiv PDF

1
2
35
36
37
38
39

Показано 361 - 370 из 385 записей