📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Alex Luedtke, Kenji Fukumizu

## Контекст Одна из основных задач в искусственном интеллекте — моделирование логики и поведения в различных ситуациях, включая сценарии, которые не произошли (counterfactuals). Эти модели широко применяются в различных областях, таких как медицина, финансы, планирование и анализ решений. Однако возникают две значительные проблемы. Первая — **confounding bias**, которая возникает из-за несовпадения между исследуемыми и неисследуемыми группами. Вторая — **misspecification bias**, происходящая из-за неправильного описания степени независимости переменных. Эти проблемы существенно снижают точность и надежность моделей. Наша мотивация заключается в разработке методы, который может устранить эти проблемы даже в условиях ограниченных данных. ## Метод Мы предлагаем **DoubleGen**, новую модель, сочетающую два подхода к устранению bias-а: **propensity model** (описывающий вероятность назначения вмешательства) и **outcome model** (описывающий результат после вмешательства). Основным инновационным моментом является то, что DoubleGen не требует точного моделирования обеих компонент — ошибки в одной модели могут компенсироваться второй. Метод основывается на модификации обучения генерирующих моделей, чтобы учесть искажения в данных. Эта архитектура позволяет достичь более стабильных и точных результатов, даже при неполной или ошибочной информации. ## Результаты С помощью DoubleGen проведены эксперименты на различных задачах моделирования counterfactuals. Мы использовали три модели: diffusion models, flow matching и autoregressive language models. Результаты показали, что DoubleGen способен уменьшить bias системно, даже если только одна из моделей (propensity или outcome) правильна. Эксперименты показали, что DoubleGen выполняет лучше, чем существующие методы в ситуациях, когда данные неполны или модели сложно корректно определить. ## Значимость Наш подход может быть применен в следующих областях: - **Финансы**: для моделирования эффектов различных стратегий инвестирования. - **Медицина**: для оценки эффекта лечения на здоровье пациентов, которое не было применено на практике. - **Планирование**: для исследования влияния различных решений на результаты. - **Анализ решений**: для моделирования результатов в ситуациях, где полные данные недоступны. Преимущества DoubleGen в том, что он предлагает более надежный и точный способ моделирования, уменьшая потенциальные ошибки, которые могут возникнуть в ситуациях, когда данные или модели неточны. ## Выводы Мы представили DoubleGen, новую модель, которая успешно решает проблемы confounding и misspecification bias в моделировании counterfactuals. Метод достигает oracle-optimality и minimax-optimality. Наши результаты показывают, что DoubleGen может быть применен в различных областях, где необходимо точное и надежное моделирование counterfactuals. Буду
Annotation:
Generative models for counterfactual outcomes face two key sources of bias. Confounding bias arises when approaches fail to account for systematic differences between those who receive the intervention and those who do not. Misspecification bias arises when methods attempt to address confounding through estimation of an auxiliary model, but specify it incorrectly. We introduce DoubleGen, a doubly robust framework that modifies generative modeling training objectives to mitigate these biases. The...
ID: 2509.16842v1 stat.ML, cs.LG, stat.ME
Авторы:

Dominic Broadbent, Nick Whiteley, Robert Allison, Tom Lovett

## Контекст Современные данные часто обладают огромным размером как в выборке, так и в размерности. Это создает значительные трудности для методов, требующих их хранения и обработки. Одной из сложностей является сохранение информативности при уменьшении размера данных. Методы, ориентированные на минимизацию размера данных, часто теряют в точности или неэффективны в вычислительных ресурсах. Наличие этих проблем мотивирует развитие новых подходов, которые бы сочетали эффективность и точность. ## Метод Мы предлагаем Bilateral Distribution Compression (BDC) — двухэтапный фреймворк, который сжимает данные как по выборке, так и по размерности. Основной идеей является Decoded MMD (DMMD), которая измеряет различия между исходными данными и данными, сжатыми в низкомерном пространстве. BDC состоит из двух этапов: (i) изучение низкомерной проекции с использованием Reconstruction MMD (RMMD) и (ii) оптимизация низкомерного сжатого набора с помощью Encoded MMD (EMMD). Эта подходка гарантирует, что сжатый набор будет точно отражать исходное распределение. ## Результаты Мы проверили эффективность BDC на различных сценариях. Метод был сравнен с существующими методами, включая Ambient-space Compression. Результаты показали, что BDC сохраняет высокую точность в представлении исходного распределения, при этом требуя значительно меньших вычислительных ресурсов. Эксперименты проводились на различных типах данных, включая высокоразмерные и высоковыборочные наборы, что демонстрирует широкую применимость BDC. ## Значимость BDC может применяться в ситуациях, где необходимо эффективно сжимать данные, сохраняя их информативность. Он имеет преимущества перед различными методами сжатия, поскольку обеспечивает лучшую точность с меньшим потреблением ресурсов. Это может быть применено в областях, таких как машинное обучение, анализ данных и хранение информации, где уменьшение размера данных критично для эффективности. ## Выводы Bilateral Distribution Compression доказал свою эффективность в сжатии данных по выборке и размерности. Мы надеемся, что дальнейшие исследования будут фокусироваться на улучшении метода для более сложных данных и его применении в реальных задачах. Это может вести к еще большим улучшениям в области хранения и обработки данных.
Annotation:
Existing distribution compression methods reduce dataset size by minimising the Maximum Mean Discrepancy (MMD) between original and compressed sets, but modern datasets are often large in both sample size and dimensionality. We propose Bilateral Distribution Compression (BDC), a two-stage framework that compresses along both axes while preserving the underlying distribution, with overall linear time and memory complexity in dataset size and dimension. Central to BDC is the Decoded MMD (DMMD), wh...
ID: 2509.17543v2 stat.ML, cs.LG, stat.ME
Авторы:

Yidong Zhou, Su I Iao, Hans-Georg Müller

## Контекст Градиентный бустинг стал одной из основных методологий в области машинного обучения, позволяя основным алгоритмам, таким как решающие деревья, достичь высокой точности прогнозирования. Однако, существующие алгоритмы оптимизируются для сценариев, когда выходные данные имеют скалярные или евклидовые характеристики. С ростом популярности моделей, работающих с нестандартными типами данных, такими как распределения, сети и многообразия, наблюдаются серьезные ограничения стандартных методов. Такие данные относятся к геодезическим метрическим пространствам и требуют отличных от традиционных подходов для оценки и моделирования. Мотивирует это исследование желание сделать бустинг эффективным для широкого круга приложений, включая нестандартные пространственные и многообразные данные. ## Метод Мы предлагаем Fréchet Geodesic Boosting (FGBoost) — расширение алгоритма градиентного бустинга, применимое к пространствам геодезических метрик. Основной принцип заключается в использовании геодезических геометрических структур для описания геометрической структуры выходных данных. Метод строит базовые модели, которые могут принимать решения в соответствии с геометрическими особенностями пространства. Архитектура FGBoost использует геодезические расстояния в качестве оценки отклонений и применяет геометрически смешанные модели, чтобы построить расширенную модель с учетом геометрии пространства выходных данных. Этот подход позволяет эффективно обрабатывать данные в геодезических метрических пространствах. ## Результаты Мы провели эксперименты на широком спектре данных, включая распределения, сети и многообразия. Успех FGBoost был проверен на различных симуляционных задачах, а также на реальных примерах, таких как моделирование распределений в литературной критике и моделирование структур сетевых данных в социальных сетях. Наши результаты показали, что FGBoost показывает высокую точность и может эффективно адаптироваться к высокомерновым и нестандартным пространственным данным. Эти результаты подтверждают высокую эффективность FGBoost в моделировании нестандартных пространственных данных. ## Значимость Метод FGBoost может быть применен в различных областях, включая геометрическое моделирование, лингвистику, биологию и технические приложения. Он предлагает преимущества в том числе более точный прогнозирование для сложных пространственных данных, увеличение эффективности моделей и упрощение моделирования в сложных пространственных задачах. Это может привести к значительным улучшениям в области прогнозирования, особенно в пространственных и
Annotation:
Gradient boosting has become a cornerstone of machine learning, enabling base learners such as decision trees to achieve exceptional predictive performance. While existing algorithms primarily handle scalar or Euclidean outputs, increasingly prevalent complex-structured data, such as distributions, networks, and manifold-valued outputs, present challenges for traditional methods. Such non-Euclidean data lack algebraic structures such as addition, subtraction, or scalar multiplication required by...
ID: 2509.18013v1 stat.ML, cs.LG, stat.ME
Авторы:

Tiffany M. Tang, Elizaveta Levina, Ji Zhu

## Контекст В современной машинном обучении широко распространено предположение о независимости обучающих выборок. Однако, когда данные связаны сетью, возникают зависимости, которые могут повлиять на качество модели. Эти зависимости представляют собой как проблему, снижающую эффективность, так и возможность улучшить предсказания, используя связи между сетевыми соседями. Известны методы, которые используют такие зависимости, но многие, включая графовые нейронные сети, трудно интерпретируются, что ограничивает их применение в задачах, требующих понятных решений. Другие, такие как сетьно-помогающая регрессия, легко интерпретируются, но часто дают значительно хуже результаты. Мы предлагаем новую модель, которая объединяет высокую точность предсказания и легкость интерпретации. ## Метод Мы развиваем новую модель, основанную на универсальной разновидности случайных леса (RF+), которая может адаптироваться к зависимостям в сети. Методология включает в себя обучение классификаторов и регрессоров на основе сетевого окружения. Мы используем градиентный подъем и локальные преобразования данных для улучшения точности модели. Для улучшения интерпретируемости разработаны инструменты, позволяющие оценивать вклад сетевых соседей в предсказания и определять важность признаков. Эти инструменты работают на уровне всего набора данных (глобальные меры) и для отдельных сетевых объектов (локальные меры). ## Результаты Мы проводили эксперименты на нескольких сетевых датасетах, сравнивая RF+ с традиционными методами. Модель показала высокую точность предсказаний, при этом обеспечивая легкость интерпретации. Мы также оценили вклад сетевых соседей в качество предсказаний и определили важность признаков в различных условиях. Наши результаты показали, что RF+ не только эффективна, но и может быть легко понята и применена в практических задачах. ## Значимость Модель RF+ позволяет решать задачи предсказания в областях, где сетевые связи имеют важное значение, например, в здравоохранении, социальных сетях, финансах. Её высокая точность позволяет улучшить результаты в решении таких проблем. Интерпретируемость RF+ делает её привлекательной для задач, где понимание модели и её решений критически важно, таких как финансовый мониторинг, медицинские диагностики и управление рисками. Инструменты для оценки вклада сети и признаков обеспечивают новые возможности для понимания и контроля модели. ## Выводы Мы развили модель RF+, которая сочетает высокую точность и интерпретируемость, решая проблемы связанных с сетевыми зависи
Annotation:
Machine learning algorithms often assume that training samples are independent. When data points are connected by a network, the induced dependency between samples is both a challenge, reducing effective sample size, and an opportunity to improve prediction by leveraging information from network neighbors. Multiple methods taking advantage of this opportunity are now available, but many, including graph neural networks, are not easily interpretable, limiting their usefulness for understanding ho...
ID: 2509.15611v1 stat.ML, cs.LG, stat.ME
Авторы:

Zihan Dong, Xin Zhou, Ryumei Nakada, Lexin Li, Linjun Zhang

## Контекст Сетевая представительственственность — это подход к преобразованию сложности сетевых структур в низкомерическое пространство, сохраняя структурные и семантические свойства. Этот подход находит применение в различных областях, включая обнаружение социальных сетей, анализ биологических сетей и прогнозирование социальных характеристик. Однако в некоторых задачах, например в анализе брайн-коннективности, встречаются специфические сетевые структуры: тематические, высокомерические и спарсные, которые часто не содержат дополнительных меток по узлам или ребрам. Эти особенности становятся проблемами для традиционных методов. Мы призваны развить методы, которые могут эффективно кодировать ребра сетей в таких сложных сетевых структурах. ## Метод Мы предлагаем подход, названный Adaptive Contrastive Edge Representation Learning (ACERL), который основывается на двух ключевых компонентах: 1) противопоставить сетевым парным контрастирующим выбором и 2) применение данных-зависимого адаптивного маскирования. В ACERL мы используем некоторые автономные методы для генерации расширенных сетевых пар, которые стимулируют способность модели к различным структурам. Адаптивное маскирование позволяет учитывать конкретные особенности каждого сетевого ребра, что улучшает его представление. Мы также устанавливаем теоретические ограничения на ошибки ACERL, что подтверждает его точность и эффективность. ## Результаты Мы проверили ACERL на синтетических данных, а также на данных реальных брайн-коннективностей. Метод показал высокую точность в задачах классификации сетей, выявления важных ребер и обнаружения сообществ. Кроме того, мы проверили, что ACERL демонстрирует лучшую точность по сравнению с традиционным методом, таким как Sparse Principal Component Analysis (SPCA). Эти результаты подтверждают эффективность и универсальность ACERL в различных сетевых задачах. ## Значимость Метод ACERL может быть применен в различных областях, включая анализ биологических сетей, классификацию данных и обнаружение групп. Он преобразовывает сложные высокомеричные сети в низкомерические пространства, что упрощает задачи классификации и обнаружения. Мы также отмечаем, что ACERL значительно улучшает качество прогнозирования и спарсинга в сетях спарсных структур. Это делает его применимым в сложных сетевых анализах, где традиционные методы не дают требуемого качества. ## Выводы Мы представляем новую методику ACERL для кодирования ребер сетей, которая эффективно работает в сложных сетевых структурах. Мы продемонстрировали его эффективность на синтетических данных и реальных сетях брайн
Annotation:
Network representation learning seeks to embed networks into a low-dimensional space while preserving the structural and semantic properties, thereby facilitating downstream tasks such as classification, trait prediction, edge identification, and community detection. Motivated by challenges in brain connectivity data analysis that is characterized by subject-specific, high-dimensional, and sparse networks that lack node or edge covariates, we propose a novel contrastive learning-based statistica...
ID: 2509.11316v1 stat.ML, cs.LG, stat.ME
Авторы:

Mika Sipilä, Klaus Nordhausen, Sara Taskinen

## Контекст Многомерные спектро- и спектро-временные данные широко распространены в различных областях науки и технологий, включая метеорологию, экологию, геологию и биологию. Однако их моделирование и прогнозирование представляют собой сложную задачу, поскольку эти данные часто имеют сложную структуру, включающую независимые компоненты, корреляции по времени и пространству, а также изменчивость. Классические методы, такие как PCA или ICA, не всегда эффективны для таких сложных задач. Нейронные сети, особенно вариационные автоэнкодеры, показали свою эффективность в решении подобных задач, но часто не обеспечивают идентификации линейных или нелинейных компонент. Необходимо разработать метод, который обеспечивает идентификацию компонентов и эффективно работает с нелинейными и нестационарными зависимостями. ## Метод Мы предлагаем идентифицируемый авторегрессионный вариационный автоэнкодер (Identifiable Autoregressive Variational Autoencoder, IAR-VAE), который использует авторегрессионные модели для описания нестационарных процессов внутри нейронной сети. Основная идея заключается в использовании вариационного автоэнкодера для декомпузирования входных данных, при этом компоненты данных обусловлены независимо друг от друга с учетом временных и пространственных зависимостей. Мы используем регуляризационные слои для обеспечения идентификации компонентов и убедиться, что каждая компонента может быть однозначно отображена на исходные данные. Метод протестирован на синтетических и реальных данных, включая данные о загрязнении воздуха и атмосферных условиях. ## Результаты Мы провели эксперименты на синтетических данных, которые подтвердили, что IAR-VAE эффективно разделяет нестационарные компоненты и обеспечивает идентификацию их значимости. Также мы проверили метод на данных по окружающей среде и погоде, где он показал отличные результаты по сравнению с другими современными методами. Например, на данных по загрязнению воздуха IAR-VAE показал значительно лучшую точность в прогнозировании, чем стандартные методы, такие как PCA или традиционные вариационные автоэнкодеры. ## Значимость Метод IAR-VAE может быть применен в различных областях, где требуется определить и моделировать нестационарные процессы в пространственно-временных данных. Он имеет приложения в климатических исследованиях, моделировании экологических процессов, прогнозировании атмосферных условий и других сложных задачах. Одним из основных преимуществ IAR-VAE является возможность однозначно определять компоненты, что делает его эффективным для решения задач с большим количеством переменных. Будущие исследования б
Annotation:
The modeling and prediction of multivariate spatio-temporal data involve numerous challenges. Dimension reduction methods can significantly simplify this process, provided that they account for the complex dependencies between variables and across time and space. Nonlinear blind source separation has emerged as a promising approach, particularly following recent advances in identifiability results. Building on these developments, we introduce the identifiable autoregressive variational autoencod...
ID: 2509.11962v1 stat.ML, cs.LG, stat.ME
Авторы:

Francesco Amato, Julien Jacques

## Контекст В последние годы во многих научных областях, таких как медицина, экономика и социальные науки, становится все более распространенным сбор данных многомерного характера, содержащих различные типы переменных (например, количественные, категориальные и бинарные). Однако существуют ограничения в существующих методах кластеризации, так как они либо не учитывают локальную структуру данных, либо не учитывают связь между временными рядами. Это приводит к неточности в кластеризации и несоответствию реальным эмпирическим данным. Из-за этого необходимо разработать более точный и универсальный подход к кластеризации, который моделирует взаимосвязи между всевозможными типами переменных. ## Метод Модель Mixture of Mixed-Matrices (MMM) предлагает новый подход к кластеризации многомерных данных смешанного типа. Данные организуются в трехмерную структуру, где каждая переменная представляется в виде своего матричного представления. Для моделирования неконтинюальных переменных предполагается, что они являются наблюдениями за подчиненными непрерывными переменными. Модель основывается на смеси матричных-переменных нормальных распределений, чтобы выполнять кластеризацию в подпространстве латентных переменных. Эта модель может эффективно обрабатывать континюальные, ординальные, бинарные, номинальные и счетные данные, учитывая взаимосвязи, локальные зависимости и временную зависимость в пакетном режиме, не прибегая к условию условной независимости. Инференция в модели производится с помощью алгоритма MCMC-EM. ## Результаты Эксперименты с помощью синтетических данных показали, что модель MMM эффективно моделирует локальные и временные зависимости в многомерных данных смешанного типа. Она также успешно выполняет кластеризацию, даже в ситуациях с высокой степенью неоднородности в данных. На реальных финансовых данных показано, что модель хорошо приспособлена для обнаружения групп и оценки их структуры. Эти результаты подтверждают мощь MMM в обработке разнообразных типов данных и могут быть применены в различных научных и практических областях. ## Значимость МММ может быть применена во многих областях, таких как финансы, здравоохранение, экономика и социальные науки, где требуется анализ сложных многомерных данных. Особые преимущества заключаются в том, что модель может обрабатывать различные типы данных, учитывая их взаимосвязи и временные зависимости. Это означает, что MMM может предоставить более глубокие и точные результаты кластеризации, чем существующие методы. Будущими направлениями исследований будет повышение точности модели и её применение в более сложных реальных за
Annotation:
Multivariate longitudinal data of mixed-type are increasingly collected in many science domains. However, algorithms to cluster this kind of data remain scarce, due to the challenge to simultaneously model the within- and between-time dependence structures for multivariate data of mixed kind. We introduce the Mixture of Mixed-Matrices (MMM) model: reorganizing the data in a three-way structure and assuming that the non-continuous variables are observations of underlying latent continuous variabl...
ID: 2509.12166v1 stat.ML, cs.LG, stat.ME
Авторы:

Zaile Li, Yuchen Wan, L. Jeff Hong

## Контекст Ranking and selection (R&S) — это подход, используемый для выбора оптимального альтернативного решения среди $k$ вариантов на основе их средних показателей производительности. Этот подход чрезвычайно важен для решения задач, требующих точного моделирования входных переменных. Однако это моделирование часто сталкивается с проблемой нехватки данных, что приводит к неопределенности ввода (curse of input uncertainty). Дистрибутивно robust ranking and selection (DRR&S) предлагает решение этой проблемы, используя неопределенность ввода через амбигуозный набор $m > 1$ допустимых распределений. Это приводит к $km$ сценариям, которые должны быть рассмотрены в процессе выбора. Недавние исследования DRR&S показали, что эффективность алгоритма крайне зависит от добротной аллокации ресурсов. Тем не менее, основные свойства такой аллокации, такие как ее согласованность и форма, остаются неясными. Настоящая работа основывается на этом понятии, предлагая новый подход к решению R&S-задач. ## Метод Мы предлагаем простую аллокационную процедуру (Additive Allocation, AA), которая направлена на увеличение эффективности R&S-процедур. Эта процедура призвана оптимально распределять ресурсы, ограничиваясь проблематичными $k + m - 1$ сценариями, которые могут быть критичными для выбора. Мы используем аргументы о пересечениях границ (boundary-crossing arguments) для доказательства производительности этого подхода. Кроме того, мы доказываем, что процедура AA обладает свойством согласованности и достигает добротности в смысле добавления: при увеличении ресурсов только $k + m - 1$ сценариев будут рассматриваться бесконечно часто. Это свойство нарушает предыдущие убеждения о критичности некоторых сценариев. Для улучшения практической эффективности мы предлагаем General Additive Allocation (GAA), которая интегрирует модульные правила выбора из традиционных R&S-процедур. ## Результаты Мы проводили эксперименты, используя различные симуляционные модели и наборы данных, чтобы проверить функционирование предложенных алгоритмов. Наши эксперименты подтвердили, что Additive Allocation позволяет достичь значительной экономии ресурсов, сохранив точность выбора оптимального варианта. GAA продемонстрировала улучшенную универсальность и гибкость, адаптируясь к различным условиям задачи. Наши результаты показали, что процедура AA не только эффективна, но и противоречит предыдущим предположениям о критичности некоторых сценариев. ## Значимость Наш подход может быть применен в различных областях, где необходимо выбирать оптимальные решения на основе симуляционных моделей. Например, в экономике, инженерии и медицине DRR&S используется для моделирования рисков и выбора лучших
Annotation:
Ranking and selection (R&S) aims to identify the alternative with the best mean performance among $k$ simulated alternatives. The practical value of R&S depends on accurate simulation input modeling, which often suffers from the curse of input uncertainty due to limited data. Distributionally robust ranking and selection (DRR&S) addresses this challenge by modeling input uncertainty via an ambiguity set of $m > 1$ plausible input distributions, resulting in $km$ scenarios in total. Recent DRR&S ...
ID: 2509.06147v1 stat.ML, cs.LG, stat.ME
Авторы:

Francesco D'Angelo, Francesco Croce, Nicolas Flammarion

## Контекст Трансформеры (Transformers) определили новый уровень качества в области последовательной моделирования, основываясь на самоповторяющейся самоподстраиваемой аттенции и возможности однокровного обучения. Одним из ключевых элементов их успеха являются индукционные заголовки (induction heads) — специальные механизмы, позволяющие трансформерам скопировать токены на основе их предыдущих появлений. Несмотря на их успех, существуют вопросы о нетривиальных аспектах, таких как их устойчивость к динамически меняющимся связям между токенами в контекстно-зависимых языковых задачах. До сих пор, существующие исследования опирались на Марковские цепи для исследования структуры индукционных заголовков, однако эти модели не удалось полностью отразить сложность естественных языков, где связи между токенами меняются динамически в зависимости от контекста. Мы предлагаем новую модель, которая раскрывает как трансформеры выбирают соответствующую структуру в зависимости от контекста, что дает новый взгляд на их способность к динамическому принятию решений в сетях. ## Метод Мы представляем новую модель, в которой переменные индукционных заголовков (induction heads) взаимодействуют с динамически изменяющимися связями между токенами. В частности, мы используем несколько связанных Марковских цепей с разной длиной лага (lag) для симулирования динамических связей, в то время как сами трансформеры оперируют фиксированными вероятностями перехода. Этот подход позволяет изучить роль индукционных заголовков в выборе каскадной структуры в зависимости от контекста. Мы разработали подробную конструкцию 3-уровневого трансформера, включающую выбор индукционного заголовка в зависимости от контекста. Доказательство теоретической точности нашей модели основывается на конструкции трансформера, которая выбирает каскадную структуру, асимптотически приближающуюся к максимальной логической вероятности. ## Результаты Мы провели эксперименты, использовав данные с различными синтетическими связями между токенами, обучив трансформеры на основе предложенной модели. Результаты показывают, что трансформеры адаптируются к динамическим связям, выбирая правильные индексы в зависимости от контекста. На примере научного текста, мы продемонстрировали, что модель выбирает правильный индекс в зависимости от контекста, даже если связи между токенами меняются. Также мы демонстрируем, что наша модель позволяет трансформеру асимптотически приближаться к
Annotation:
Transformers have exhibited exceptional capabilities in sequence modeling tasks, leveraging self-attention and in-context learning. Critical to this success are induction heads, attention circuits that enable copying tokens based on their previous occurrences. In this work, we introduce a novel framework that showcases transformers' ability to dynamically handle causal structures. Existing works rely on Markov Chains to study the formation of induction heads, revealing how transformers capture c...
ID: 2509.08184v1 cs.LG, stat.ME
Авторы:

Edgar Dobriban

## Контекст Generative Artificial Intelligence (AI) является одной из наиболее обещающих технологий, которая может оказаться ключевой для многих областей, включая компьютерное зрение, текстовый поиск, генерирование текста, генерирование изображений и звука. Однако, по умолчанию, методы generative AI не обеспечивают гарантий по отношению к корректности, безопасности, справедливости и другим свойствам. Эти свойства являются критически важными для применения generative AI в реальном мире. Statistical methods (статистические методы) могут стать мощным инструментом для улучшения надежности, качества и эффективности generative AI. Они также могут помочь в разработке интервенций и экспериментов в области AI. Наша цель — привести и обсудить существующие статистические подходы и их применение в generative AI. ## Метод Statistical methods в generative AI могут быть разделены на два основных класса: (1) методы для поддержки и оценки моделей и (2) методы для проектирования интервенций и экспериментов в AI. Например, в первом классе включены методы, такие как bootstrapping, cross-validation, и методы для оценки качества моделей. Во втором классе входят методы моделирования распределения, методы для проектирования интервенций и методы для оценки эффекта этих интервенций. Мы также рассматриваем статистические методы для понимания и улучшения data quality, такие как методы для детектирования качества и методы для оценки независимости в данных. ## Результаты Мы проводили эксперименты для оценки эффективности статистических методов в generative AI. Эксперименты проводились на различных данных, включая наборы данных для обработки естественного языка (такие как Common Crawl и Wikipedia), видео- и изображение-данные. Мы применили методы, такие как cross-validation для оценки качества моделей, bootstrapping для поддержки моделей, и методы для оценки независимости в данных. Результаты показали, что статистические методы могут значительно улучшить качество и надежность generative AI, а также обеспечить лучшую оценку интервенций и экспериментов. ## Значимость Статистические методы имеют широкие области применения в generative AI. Они могут использоваться для улучшения надежности и качества моделей, а также для проектирования эффективных интервенций и экспериментов. Кроме того, они могут быть применены для оценки качества data и для улучшения безопасности и справедливости AI-систем. Например, подходы, описанные в нашей работе, могут быть применены для поддержки генерирования текста и изображений, а также для оценки интервенций в генерировании звука. ## Выводы Мы привёл и обсудил существующие статистические подходы и их применение в generative AI. Мы также рассмотрели их преимущества и ограничения. Наша работа показывает, что статистич
Annotation:
Generative Artificial Intelligence is emerging as an important technology, promising to be transformative in many areas. At the same time, generative AI techniques are based on sampling from probabilistic models, and by default, they come with no guarantees about correctness, safety, fairness, or other properties. Statistical methods offer a promising potential approach to improve the reliability of generative AI techniques. In addition, statistical methods are also promising for improving the q...
ID: 2509.07054v1 cs.AI, cs.LG, stat.ME
Показано 61 - 70 из 87 записей