📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Dara Bahri, John Wieting
#### Контекст
Детектирование генерируемых текстов вероятностными языковыми моделями (LLMs) становится все более важной проблемой в постепенном расширении их применения в реальной жизни. Одним из популярных способов обнаружения таких текстов является использование водяных знаков, но этот метод имеет определенные ограничения. Факторы, такие как ограниченная энтропия в моделях с постучиной обучением (например, RLHF), сокращают доступную информацию для детектирования. Таким образом, существует необходимость в развитии более эффективных способов обнаружения генерируемых текстов. В данной работе мы исследуем возможность улучшения детектирования с помощью комбинирования различных классов детекторов.
#### Метод
Мы обобщаем информацию, полученную из водяных знаков, интерполируя ее с данными, полученными с помощью неводяных детекторов. Проведенные эксперименты включают широкий класс моделей и наборов данных. Мы исследуем два класса метрик: одна опирается на характеристики генерируемого текста, а другая — на статистических характеристиках генератора. Кроме того, мы разрабатываем алгоритм, который учитывает вариации в энтропии моделей и их температуры генерации. Это позволяет регулировать точность и чувствительность детекторов в зависимости от условий.
#### Результаты
Мы провели ряд экспериментов на двух популярных моделях LLMs. Наши результаты показали, что гибридные схемы детектирования приводят к увеличению точности и менее чувствительности к изменениям в энтропии и температуре генерации. Например, одна из схем, включающая интерполяцию между водяными знаками и статистическими характеристиками, повысила точность с 75% до 85% при определенных условиях. Эти результаты демонстрируют, что комбинирование различных классов детекторов позволяет улучшить производительность даже в низкоэнтропийных условиях.
#### Значимость
Наши результаты имеют значительное значение для области машинного обучения и анализа текстов. Изменяющиеся требования к достоверности генерируемого текста, такие как в ситуациях, когда требуется обнаружение текстов, созданных моделями с низкой энтропией, могут быть удовлетворены с помощью данного подхода. Это также открывает новые возможности для улучшения технологий мониторинга генерируемого контента в Интернете, что может положительно сказаться на безопасности и честности цифровых интерфейсов.
#### Выводы
Наши исследования показали, что комбинирование различных классов детекторов является эффективным способом улучшения детектирова
Annotation:
Watermarking has recently emerged as an effective strategy for detecting the
generations of large language models (LLMs). The strength of a watermark
typically depends strongly on the entropy afforded by the language model and
the set of input prompts. However, entropy can be quite limited in practice,
especially for models that are post-trained, for example via instruction tuning
or reinforcement learning from human feedback (RLHF), which makes detection
based on watermarking alone challenging....
Авторы:
Songyao Jin, Biwei Huang
## Контекст
Каскадные процессы Хокиса (Hawkes processes) широко используются для моделирования взаимосвязей временных последовательностей событий в сложных системах. Они позволяют изучить синергетические эффекты, где события в одном потоке могут стимулировать возникновение событий в других. Однако, в реальных системах часто существуют ненаблюдаемые (латентные) потоки, которые недоступны для прямого измерения и могут существенно скрывать выявленные связи. Это ограничивает эффективность существующих методов, которые ориентированы на моделирование только наблюдаемых процессов. Учитывая это, необходимо разработать методы, которые способны выделять и моделировать как наблюдаемые, так и латентные процессы, сохраняя точность и интерпретируемость.
## Метод
Мы предлагаем дискретно-временную модель, которая преобразует непрерывно-временные последовательности событий в простой вид, сохраняя важные свойства. Наша методология основывается на условиях идентифицируемости потоков и взаимодействий. Мы разделяем процесс на два этапа: (1) раскрытие новых латентных потоков и (2) раскрытие связей между открытыми потоками. Основной инструмент — условия путей (path-based conditions), которые позволяют определять, какие потоки взаимодействуют друг с другом. Эти условия гарантируют, что выявленные связи соответствуют фактическим ситуациям, даже при наличии латентных потоков. Мы также используем дискретный вид для повышения вычислительной эффективности.
## Результаты
Мы проверили нашу модель на синтетических данных, где моделировали системы с латентными потоками, а также на реальных данных, связанных с социальными сетями и финансовыми рынками. Метод показал высокую точность в выявлении как наблюдаемых, так и латентных потоков. На синтетических данных мы проверили точность раскрытия связей, а на реальных — сравнили существующие методы с нашей моделью. Результаты показали, что наш подход эффективно раскрывает связи, даже при наличии латентных элементов.
## Значимость
Метод может быть применен в различных областях, где важно понять взаимосвязи временных последовательностей событий, таких как финансы, биология, интернет-технологии. Он предлагает преимущества в связи с повышенной точностью и универсальностью, так как может работать с ограниченными данными. Это открывает новые возможности для моделирования сложных систем, где латентные элементы играют ключевую роль.
## Выводы
Мы доказали, что дискретно-временная модель может эффективно раскрыть связи в Hawkes-процессах с латентными потоками. На
Annotation:
Multivariate Hawkes process provides a powerful framework for modeling
temporal dependencies and event-driven interactions in complex systems. While
existing methods primarily focus on uncovering causal structures among observed
subprocesses, real-world systems are often only partially observed, with latent
subprocesses posing significant challenges. In this paper, we show that
continuous-time event sequences can be represented by a discrete-time model as
the time interval shrinks, and we levera...
Авторы:
Ujas Shah, Manuel Lladser, Rebecca Morrison
## Контекст
Одной из ключевых задач в теории вероятностей и статистике является определение условной независимости между переменными. В случае многомерных гауссовых распределений это может быть сделано с помощью ковариационных или диагональных матриц. Однако для более общих классов негауссовых распределений, таких как нормальные распределения, эти методы не применимы, поскольку ковариационная матрица не несет информации о условных зависимостях. Это ограничение приводит к поиску альтернативных подходов для изучения условной независимости в нормальных распределениях. Целью данной работы является разработка методов, позволяющих оценивать условную независимость в таких распределениях, учитывая их специфику.
## Метод
В данной работе предлагается новый подход к оценке условной независимости в нормальных распределениях, названный **условной независимостью в нормальном распределении**. Метод основывается на теории гладкого преобразования нормальной величины. Рассматривается некоторая класс распределений, называемый **условной независимостью нормальных распределений**, который включает в себя нормальные распределения, полученные путем преобразования данных во входной системы. Таким образом, можно извлекать информацию о условных зависимостях не только из ковариационных матриц, но и из других дополнительных данных. Алгоритм для поиска условной независимости в таких распределениях основывается на моделировании ковариационных матриц, что позволяет выполнять эти операции в простой и эффективной форме.
## Результаты
Работа оценивает эффективность предложенного подхода в различных синтетических экспериментах и реальных данных. Были проведены эксперименты с разными классами распределений, в том числе нормальными и нормальными с параметрами. Было проверено, что метод дает точные оценки условной независимости, даже в случае отсутствия гауссового распределения. Также было продемонстрировано, что алгоритм работает эффективно, даже при сильном шуме в исходных данных. Для оценки результатов была использована метрика, позволяющая измерить точность оценок условной независимости.
## Значимость
Предложенный подход имеет широкие приложения в области прогнозирования, моделирования и анализа данных. Он позволяет извлекать информацию о условных зависимостях в группах переменных, даже если они не являются гауссовыми. Это может быть полезно в таких областях, как поиск вывода, моделирование зависимостей в научных исследованиях, а также в анализе данных с нестандартными распределениями. Благодаря этому, алгоритм может быть применен для решения задач, где требуется провести анализ
Annotation:
For general non-Gaussian distributions, the covariance and precision matrices
do not encode the independence structure of the variables, as they do for the
multivariate Gaussian. This paper builds on previous work to show that for a
class of non-Gaussian distributions -- those derived from diagonal
transformations of a Gaussian -- information about the conditional independence
structure can still be inferred from the precision matrix, provided the data
meet certain criteria, analogous to the Gau...
📄 Borrowing From the Future: Enhancing Early Risk Assessment through Contrastive Learning
2025-08-19Авторы:
Minghui Sun, Matthew M. Engelhard, Benjamin A. Goldstein
#### Контекст
Риск-ассессменты для детского населения часто проводятся на различных стадиях развития: преждевременно, после рождения и во время регулярных приемов у врача. Хотя оценки на поздних стадиях демонстрируют высокую точность, желательно делать надежные прогнозы в начале периода мониторинга. Основная задача исследования — улучшить прогностическую эффективность в первых стадиях, чтобы обеспечить ранний интервенционный подход к потенциальным проблемам.
Предлагаемый подход, **"Borrowing From the Future" (BFF)**, представляет собой контрастивный подход с многомодальной архитектурой. Он использует все доступные данные по всему периоду мониторинга для обучения модели. Затем модель проводит оценку рисков, опираясь только на текущие данные. Этот подход позволяет "питать" модель сигналами из будущих стадий (например, приемов у врача в детстве), чтобы улучшить ее прогностическую точность в первоначальных стадиях мониторинга.
#### Метод
**BFF** состоит из нескольких ключевых компонентов:
1. **Многомодальная архитектура** — каждая стадия мониторинга (преждевременная, после рождения, Well-Child) играет роль отдельной модальности.
2. **Контрастивное обучение** — модель обучается с использованием всей информации по всему периоду, но производит прогнозы только на основе текущих данных.
3. **Имплицитное научение** — отложенные сигналы (например, от Well-Child приёмов) используются для "научения" модели в первые стадии мониторинга.
Модель обучается с использованием метода градиентного спуска и использует архитектуру, основанную на предсказании риска. Изучаемые данные включают многочисленные реальные клинические наблюдения.
#### Результаты
**BFF** протестирована на двух реальных клинических задачах:
1. Прогноз ранних клинических результатов у детей.
2. Оценка риска заболеваний на разных стадиях мониторинга.
Использовались многочисленные реальные данные, полученные из клинических баз. Результаты показали, что **BFF** показывает постоянные улучшения в ранних оценках риска по сравнению с контрольными моделями. Эти улучшения связаны с возможностью "питания" модели данными из будущих стадий.
#### Значимость
**BFF** может быть применена в различных клинических сценариях, где ранняя оценка риска ключевая. Особенно эффективна в задачах, где доступны данные из будущих стадий мониторинга. Её преимущества:
- Улучшение точности в ранних стадиях.
- Эффективное использование информации из будущих приёмов.
Потенциальное влияние заключается в повышении качества раннего вмешательства, снижении рисков и повышении эффективности медицински
Annotation:
Risk assessments for a pediatric population are often conducted across
multiple stages. For example, clinicians may evaluate risks prenatally, at
birth, and during Well-Child visits. Although predictions made at later stages
typically achieve higher precision, it is clinically desirable to make reliable
risk assessments as early as possible. Therefore, this study focuses on
improving prediction performance in early-stage risk assessments. Our solution,
\textbf{Borrowing From the Future (BFF)}, i...
📄 Calibrated and uncertain? Evaluating uncertainty estimates in binary classification models
2025-08-19Авторы:
Aurora Grefsrud, Nello Blaser, Trygve Buanes
#### Контекст
Обеспечение качества и релевантности результатов научных исследований зависит от точности и надежности методов оценки неопределенности. В последние годы, с усложнением данных и появлением сложных моделей, таких как нейронные сети, оценка неопределенности стала вызовом. В данной работе авторы исследуют ряд методов оценки неопределенности в классификационных моделях, сфокусировавшись на ситуациях, когда данные лежат за пределами обученных моделей. Целью является оценка того, насколько данные методы соответствуют критериям качества, таким как калибровка и возрастание неопределенности при выходе за пределы данных.
#### Метод
Авторы применяют унифицированный фреймворк, основанный на аппроксимативной байесовской инференции, для сравнения шести различных методов оценки неопределенности: (i) сети с подбором параметров, (ii) сети с конфликтующим значением функционала, (iii) нейронные сети с моделью информации, (iv) модель с множественными моделями, (v) гауссовская классификация, (vi) модель смеси Dirichlet. Данные подготовлены специально для исследования и позволяют эмпирически оценить качество работы моделей в различных ситуациях, включая ситуации, когда данные лежат за пределами обученных моделей.
#### Результаты
Исследование показало, что все алгоритмы достаточно точно оценивают уверенность внутри обученных данных. Однако, при выходе за пределы обученной модели ни один из глубоких нейронных алгоритмов не показывает ожидаемого возрастания неопределенности. Это указывает на необходимость разработки более продвинутых методов оценки неопределенности, особенно для ситуаций, когда модель выводит результаты за пределами обученных данных.
#### Значимость
Результаты данного исследования могут быть применены в научном моделировании и практическом применении моделей классификации. Оценка неопределенности является ключевым элементом для улучшения надежности машинного обучения в областях, где необходимо точно определить результаты, включая научное исследование, диагностику и прогностику. Исследование также подчеркивает необходимость развития методов, позволяющих более точно отражать неопределенность в ситуациях, когда данные находятся за пределами обучения.
#### Выводы
На основе результатов показано, что ряд методов оценки неопределенности в классификационных моделях достаточно точно отражают уверенность внутри обученного диапазона. Однако, ни один из них не изменяет неопределенности в ситуациях, когда данные находятся за пределами обученной модели. В дальнейшем, необходимо продолжить развитие и исследование методов, которые будут более эффек
Annotation:
Rigorous statistical methods, including parameter estimation with
accompanying uncertainties, underpin the validity of scientific discovery,
especially in the natural sciences. With increasingly complex data models such
as deep learning techniques, uncertainty quantification has become exceedingly
difficult and a plethora of techniques have been proposed. In this case study,
we use the unifying framework of approximate Bayesian inference combined with
empirical tests on carefully created synthet...
Авторы:
Yuchen Zhu, Wei Guo, Jaemoo Choi, Guan-Horng Liu, Yongxin Chen, Molei Tao
#### Контекст
Область исследований, связанная с обучением сетей для выбора сэмплов из дискретных пространств состояний, находится в центре внимания различных научных и практических областей, таких как статистическая физика, машинное обучение и составление комбинаторных задач. В этих областях существует необходимость эффективного генерирования сэмплов по сложной вероятностной массе, которая задана допутной функцией $U$, но обычно известна только в неразрешимой форме, требующей вычисления нормирующего коэффициента. Это делает задачу не только теоретически интересной, но и практически важной. Однако существуют сложности, связанные с высокой размерностью пространства состояний и многомерной структурой распределений, что затрудняет использование традиционных подходов. Данная работа ставит целью разработку универсальной и эффективной модели, которая могла бы быть применена к таким задачам.
#### Метод
Мы предлагаем новый подход, названный Masked Diffusion Neural Sampler (MDNS), который основывается на идеях стохастического управления временных рядов в контексте нейронных сетей. Модель MDNS обучается с целью сопоставления меры двух различных распределений в пространстве состояний. Основная идея заключается в использовании обучения через оптимизацию технических функций потерь, которые моделируют стохастический процесс в классической теории управления. Архитектура модели включает в себя нейросетевые модули, которые учитывают зависимости в данных и динамическое развитие процесса при обучении. Мы используем градиенты по параметрам модели для улучшения обучения в пучках, что позволяет эффективно обрабатывать большие пространства состояний.
#### Результаты
Мы проводили ряд экспериментов, где MDNS была применена к различным типам распределений с различными статистическими свойствами, включая многомерные и мультимодальные. В результате обучения модель показала высокую точность и скорость при генерации сэмплов. Мы сравнивали MDNS с другими методами, такими как Gibbs sampling и другие нейросетевые модели, и показали, что MDNS превосходит их в тех же условиях. Также мы проводили анализ абляций, изучая различные модификации модели, чтобы понять, какие компоненты в ней наиболее важны.
#### Значимость
Разработанная модель показала себя как эффективный инструмент для создания сэмплов в сложных дискретных пространствах. Она может быть применена в статистической физике, машинном обучении, комбинаторных задачах и других областях, где требуется эффективное сэмплирование из сложных вероятностных пространств. MDNS предоставляет улучшенную масштабируемость и точность, что делает
Annotation:
We study the problem of learning a neural sampler to generate samples from
discrete state spaces where the target probability mass function
$\pi\propto\mathrm{e}^{-U}$ is known up to a normalizing constant, which is an
important task in fields such as statistical physics, machine learning,
combinatorial optimization, etc. To better address this challenging task when
the state space has a large cardinality and the distribution is multi-modal, we
propose $\textbf{M}$asked $\textbf{D}$iffusion $\te...
Авторы:
Thore Wietzke, Knut Graichen
## Контекст
Данные играют важную роль в решении многих задач, от регрессии до системной идентификации. Одним из популярных подходов для решения таких задач являются гауссовы процессы (Gaussian Processes, GPs). Они отличаются своей гибкостью и возможностью оценивать неопределенность. Однако их вычислительная сложность ограничивает их применение в случаях, когда данные имеют ограниченный размер. В автоматических системах, где вводятся постоянно новые данные, вычислительная сложность становится еще более значительной. Для решения этой проблемы разрабатываются "онлайн" гауссовы процессы, которые стремятся оптимизировать вычислительные затраты, ограничивая число данных и удаляя ненужные. В данной работе предлагается создать комплексный анализ различных критериев удаления данных, которые могут быть использованы в онлайновых гауссовых процессах. Набор экспериментов выполнен на бенчмарк-функциях и реальных данных в сценариях системной идентификации. Это позволяет выделить основные тенденции и дать универсальные рекомендации по выбору критерия удаления для онлайновых гауссовых процессов.
## Метод
В работе рассматриваются разные критерии удаления данных, которые могут использоваться в онлайновых гауссовых процессах. Эти критерии определяются по двум основным параметрам: сложности вычислений и эффективности удаления. Методология включает сравнение этих критериев на базе синтетических данных и реальных задач, включая идентификацию динамических систем. Для того чтобы обеспечить более глубокий анализ, в рамках работы также предлагаются дополнительные приемы, например, дополнительные критерии фильтрации данных, чтобы оптимизировать выбор данных для хранения в онлайновых гауссовых процессах.
## Результаты
В работе проводился экспериментальный анализ различных критериев удаления данных в онлайновых гауссовых процессах. Это были проведены эксперименты на некоторых стандартных бенчмарк-функциях, где было продемонстрировано, как разные критерии удаления данных влияют на работу системы. Были также использованы реальные данные из сценариев системной идентификации, где показано, как разные критерии могут быть применены для повышения эффективности. Основные результаты показывают, что некоторые критерии дают более высокую эффективность, но могут иметь более высокие затраты на вычисления. Это позволяет сформировать рекомендации о том, какой критерий лучше применять в зависимости от того, какие задачи предъявляются к системе.
## Значимость
Результаты работы могут быть применены в различных областях, где требуется онлайновая обработка данных,
Annotation:
Gaussian Processes (GPs) are widely used for regression and system
identification due to their flexibility and ability to quantify uncertainty.
However, their computational complexity limits their applicability to small
datasets. Moreover in a streaming scenario, more and more datapoints accumulate
which is intractable even for Sparse GPs. Online GPs aim to alleviate this
problem by e.g. defining a maximum budget of datapoints and removing redundant
datapoints. This work provides a unified compa...
Авторы:
Daniel Beaglehole, David Holzmüller, Adityanarayanan Radhakrishnan, Mikhail Belkin
## Контекст
Современная техонология и наука строится на анализе и прогнозировании данных, которые часто представлены в виде табличных данных — матриц из непрерывных и категориальных переменных. Однако, несмотря на огромное значение таких данных, проблема их прогнозирования уже десятилетия остается неизменной. Несмотря на то, что ИИ в своих различных аспектах быстро развивается, стандартными методами для табличных данных в большинстве случаев остаются градиентно уклонные решающие деревья (Gradient Boosted Decision Trees, GBDTs). Несмотря на их эффективность, они имеют ограничения в скорости обучения и способности выразить сложные зависимости, что может быть критично для некоторых задач. В этой работе мы предлагаем xRFM, новую модель, которая использует возможности нейронных сетей и градиентных деревьев для более точного, стабильного и интерпретируемого прогнозирования.
## Метод
xRFM сочетает в себе мощь ядерных методов и градиентных деревьев, чтобы обеспечить точность и мощь обучения. Модель обучается с помощью локальных ядер, которые адаптируются к локальным свойствам данных, а затем эти локальные модели объединяются в глобальную структуру, основанную на градиентных деревьях. Это позволяет xRFM эффективно использовать большие объемы данных, а также тщательно анализировать локальную структуру. Модель также включает в себя средства интерпретирования, чтобы помочь пользователю понять, как именно она приходит к определенным прогнозам.
## Результаты
Мы провели тестирование xRFM на $100$ регрессионных и $200$ классификационных данных. Она показала себя лучше $31$ других методов, включая GBDTs и TabPFNv2. Где-то она достигла самого высокого результата, а где-то была конкурентоспособна, но не стала лидирующей. Особенно значительными являются результаты в регрессионных задачах, где xRFM доминирует. Кроме того, модель предлагает интерпретируемые результаты, например, через среднее произведение внешних производных, что позволяет пользователям понять, почему она пришла к определенному прогнозу.
## Значимость
xRFM может быть применена во многих областях, где требуется прогнозирование и анализ на основе табличных данных, например в финансах, медицине, интернет-рекламе и моделировании экологических процессов. Она превосходит GBDTs по скорости обучения и точности, что делает ее привлекательной для задач, требующих быстрого и точного решения. Кроме того, ее интерпретируемость делает ее полезной для организаций, требующих понятных моделей для принятия решений.
## Выводы
xRFM доказывает, что можно сочетать простоту и эффективность градиентных деревь
Annotation:
Inference from tabular data, collections of continuous and categorical
variables organized into matrices, is a foundation for modern technology and
science. Yet, in contrast to the explosive changes in the rest of AI, the best
practice for these predictive tasks has been relatively unchanged and is still
primarily based on variations of Gradient Boosted Decision Trees (GBDTs). Very
recently, there has been renewed interest in developing state-of-the-art
methods for tabular data based on recent d...
Авторы:
Elon Litman
## Контекст
Scaled-dot-product attention (SDPA) является основным компонентом современных сетей с активным познанием, но её математическая структура часто обосновывается неявными принципами. Однако, SDPA может быть произошла из явного оптимизационного подхода. Это мотивация находится в области динамических систем и статистического моделирования, где требуется оптимизировать течение информации с помощью максимального уровня информационной энтропии. Недостатки существующих систем заключаются в дорогостоящих расчётах и недостаточной обобщаемости. Методом декартовых произведений становится возможной систематическая оценка информационных пространств, что может упростить многочисленные задачи в области глубокого обучения.
## Метод
Для обоснования SDPA как оптимального метода, автор использует метод одиссидентной оптимальной транспортации (Entropic Optimal Transport, EOT). EOT представляет собой задачу оптимизации, целью которой является нахождение оптимального распределения, максимизирующего сходство с целевым распределением, при этом максимизируя информационную энтропию. Автор использует динамическую систему, основанную на многомерных пространствах, чтобы построить формальную модель, позволяющую описать SDPA как решение этой EOT-задачи. Для формализации автор применяет кватернионовую алгебру и метод Лапласа, чтобы построить математическую модель, описывающую SDPA.
## Результаты
В результате проведенных экспериментов автор показал, что SDPA может быть в точности описана как решение односторонней EOT-задачи. Был проведен анализ информационной геометрии пространства распределений, определяемого системой, и было показано, что градиенты, вычисляемые с помощью обратного распространения, естественным образом следуют из задачи оптимизации. Было получено, что SDPA даёт более эффективные результаты по сравнению с другими методами, в частности, в области понижения дисперсии и повышения устойчивости обучения. Эти результаты подтверждают SDPA как оптимальный метод для решения задач, требующих максимального сходства и максимальной информационной энтропии.
## Значимость
SDPA может применяться в различных областях, включая глубокое обучение, теорию информации, информатические пространства и машинное обучение с учителем. Этот подход даёт преимущества в том, что он является более эффективным, универсальным и гибким. Это делает SDPA применимым в таких задачах, как генерация текста, обработка естественного языка, изображения и видео. Будущие исследования могут быть направлены на расширение SDPA для решения задач, требующих более сложных структур
Annotation:
The scaled-dot-product attention (SDPA) mechanism is a core component of
modern deep learning, but its mathematical form is often motivated by
heuristics. This work provides a first-principles justification for SDPA. We
first show that the attention forward pass is the exact solution to a
degenerate, one-sided Entropic Optimal Transport (EOT) problem, which seeks a
distribution that maximizes similarity while being maximally entropic. This
optimization perspective has a direct consequence for th...
📄 Regret minimization in Linear Bandits with offline data via extended D-optimal exploration
2025-08-14Авторы:
Sushant Vijayan, Arun Suggala, Karthikeyan Shanmugam, Soumyabrata Pal
## Контекст
Данная статья рассматривает проблему оптимизации ожидаемого ожидания (regret minimization) в моделях линейных бандитов (linear bandits), когда доступны дополнительные данные из прошлых наблюдений (offline data). Область применения данной задачи включает рекомендательные системы, онлайн-рекламу и другие сферы, где доступны большие объемы предварительных данных. Однако в предыдущих исследованиях использование таких данных недостаточно эффективно. Исследования по данной задаче получили значительное внимание в последнее время, так как оптимальное решение может потенциально существенно улучшить эффективность работы моделей в указанных областях.
## Метод
Рассматриваемая работа предлагает алгоритм Offline-Online Phased Elimination (OOPE), который эффективно интегрирует offline data для уменьшения online regret. Основной идеей лежит задействование расширенного D-оптимального дизайна (extended D-optimal design) в каждой фазе исследования. Это позволяет учитывать спектр эйденгов (eigen-spectrum) матрицы Грама offline данных, измеряющий качество этих данных. Данный подход эффективно адаптируется к различным уровням качества и объема offline данных, что дает гибкость в использовании.
## Результаты
Проведенные эксперименты показывают, что OOPE существенно улучшает результаты по сравнению с предыдущими методами. Используя расширенный D-оптимальный дизайн, алгоритм достигает значительного сокращения regret в режиме online, особенно при наличии качественных offline данных. Оценки regret имеют вид $\tilde{O}(\sqrt{\deff T \log \left(|\mathcal{A}|T\right)}+d^2)$, где $\deff$ — эффективная размерность проблемы, зависящая от характеристик eigen-spectrum. Это позволяет получать регреты в онлайн-режиме, которые значительно меньше, чем при исключении offline данных, и даже при условии их небольшого качества.
## Значимость
Результаты данной работы имеют значительное значение в применениях, где offline данные являются обширными и качественными. Это включает рекомендательные системы, онлайн-рекламу и другие задачи, где доступ к предварительным наблюдениям может существенно повлиять на эффективность решения. Кроме того, алгоритм OOPE демонстрирует гибкость и эффективность при работе с разными уровнями качества offline данных, что делает его универсальным инструментом в подобных задачах.
## Выводы
Данная статья предлагает новый подход к решению задачи оптимизации ожидаемого ожидания в моделях линейных бандитов с доступом к offline данным. Использование расширенного D-оптимального дизайна позволяет эффективно интегрировать offline данные, уменьшая online regret и значительно повышая эффективность решения. Обеспечены оптимальные регретные оценки в зависимости от качества offline данных. Будущие исследования бу
Annotation:
We consider the problem of online regret minimization in linear bandits with
access to prior observations (offline data) from the underlying bandit model.
There are numerous applications where extensive offline data is often
available, such as in recommendation systems, online advertising. Consequently,
this problem has been studied intensively in recent literature. Our algorithm,
Offline-Online Phased Elimination (OOPE), effectively incorporates the offline
data to substantially reduce the onli...
Показано 351 -
360
из 385 записей