📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Hydra: A 1.6B-Parameter State-Space Language Model with Sparse Attention, Mixture-of-Experts, and Memory

2025-08-25

Авторы:

Siddharth Chaudhary, Bennett Browning

## Контекст Область исследования заключается в развитии языковых моделей с длинным контекстом, которые могут эффективно обрабатывать большие объемы данных. Существующие проблемы включают неэффективность стандартных моделей при работе с очень длинными контекстами, ограничения памяти и вычислительных мощностей. Мотивация заключается в создании модели, которая бы оптимально комбинировала эффективность, модульность и масштабируемость. Проблема заключается в том, что существующие модели либо требуют огромных ресурсов, либо ограничены в своих возможностях при работе с данными, требующими длинного контекста. Разработка модели Hydra направлена на решение этих проблем. ## Метод Hydra — это языковая модель с микро-архитектурой, которая использует современные методы, такие как Structured State Space Model (SSM), sparse attention и mixture-of-experts (MoE). Модель имеет примерно 1.6 миллиарда параметров. Основная идея заключается в использовании структурированных состояний, что позволяет эффективно обрабатывать данные с длинными контекстами. Модель также включает в себя механизмы памяти, такие как workspace memory и factual PKM, для хранения информации. Sparse attention и MoE используются для уменьшения вычислительной сложности и увеличения эффективности. Архитектура модели разработана с учетом модульности и масштабируемости, что позволяет адаптировать ее под различные задачи. ## Результаты На момент написания статьи не опубликованы результаты широкомасштабных экспериментов с Hydra, так как она представлена как прототип. Однако в работе приводятся результаты из прототипного тестирования на собственных данных. Эти результаты показывают, что модель может эффективно обрабатывать данные с длинными контекстами, а также реализовывать способность к выбору экспертов внутри модели, что повышает ее гибкость. Измерения проводились на данных с малым числом параметров, но они демонстрируют хорошую степень масштабируемости и эффективность в обработке данных. ## Значимость Hydra может быть применена в различных областях, таких как NLP, NLU, и другие задачи, требующие обработки длинных контекстов. Она предлагает модульную архитектуру, которая может быть адаптирована к различным задачам. Одним из основных преимуществ является эффективность обработки данных, благодаря использованию SSM, sparse attention и MoE. Эта модель также имеет потенциал для улучшения производительности в задачах, требующих длинных контекстов, таких как диалоговые системы, генерация текста и машинное чтение. ## Выводы Hydra представляет собой модульную и масштабируемую языковую модель, которая может обрабатывать данные с длинными контекстами с высо

Annotation:

We present Hydra as an architectural proposal for hybrid long-context language models that combine conditional computation, long-context memory mechanisms, and sparse mixture-of-experts within an approximately 1.6B parameter design envelope. Hydra integrates a Mamba-style Structured State Space Model (SSM) backbone with intermittent sparse global attention, chunk-level MoE feed-forward routing, and dual (workspace plus factual PKM) memories. We formalize the component interfaces, give transparen...

ID: 2508.15099v2 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Hydra: A 1.6B-Parameter State-Space Language Model with Sparse Attention, Mixture-of-Experts, and Memory

2025-08-23

Авторы:

Siddharth Chaudhary, Bennett Browning

## Контекст Проблема долгого контекста в языковых моделях остается одной из основных сложностей в области глубокого обучения. Насколько показано в новостном стиле, текущие модели, такие как Transformer, сталкиваются с ограничениями в обработке длинных контекстов из-за высокой энергоемкости и памятных структур. Эти ограничения приводят к узкому фокусу на краткосрочные связи, что влечет за собой недостаточное понимание длинных структур текста. Одновременно, эффективные модели с участием множества экспертов (MoE) и хранением многомерных меморий (PKM) показали свою эффективность в обычных языковых задачах. Наша мотивация состоит в создании гибридной модели, которая объединяет эти элементы для единовременного решения проблем глубокого понимания текста и модульности в обработке длинных контекстов. ## Метод Мы предлагаем **Hydra**, новую 1.6B-параметровую языковую модель, которая комбинирует **Structured State Space Model (SSM)** для эффективной обработки текста с участием **sparse attention** и **mixture-of-experts (MoE)**. Модель делится на несколько модулей: **sparse global attention**, **chunk-level MoE feed-forward** и две типа памяти: **используемая для широкого контекста** и **специализированная для хранения фактических данных (factual data)**. Мы также предприняли шаг в добавлении **структурированного обучения** (curriculum learning) для управления сложностью модели в процессе тренировки. Эта архитектура предназначена для стабильного оптимизирования всех ее модулей и снятия технических ограничений, связанных с масштабированием языковых моделей. ## Результаты Мы провели эксперименты на **небольшом масштабе** (около 10 миллионов параметров) с синтетическими данными, чтобы проверить устойчивость и эффективность нашей архитектуры. Несмотря на то, что результаты на полном масштабе еще не подтверждены, эти исследования показали следующее: (1) Модель способна эффективно обрабатывать длинные контексты благодаря выделению спарсевого аутентичного внимания и кластеризации экспертов; (2) Двойное хранилище памяти позволяет модели сбалансированно использовать свое знание на синтезе длинных контекстов; (3) Модель показала модульность в масштабировании и контролируемую стабильность в течение тренировки. ## Значимость Модель Hydra открывает новые возможности в области глубокого понимания длинных текстов. Она может быть применена в различных областях, таких как **документный поиск**, **дата-майнинг** и **многоязычные модели**. Особенно важной является ее способность обрабатывать контексты длиной в тысячи токенов, что было бы невозможно для моделей с традиционной архитектурой. Это дает новые возможно

Annotation:

ID: 2508.15099v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Amortized Bayesian Meta-Learning for Low-Rank Adaptation of Large Language Models

2025-08-22

Авторы:

Liyi Zhang, Jake Snell, Thomas L. Griffiths

## Контекст Fine-tuning large language models (LLMs) с использованием low-rank adaptation (LoRA) является эффективным способом интеграции данных из конкретных наборов. Однако не всегда ясно, насколько хорошо будет генерализоваться такой файн-тюнинг. Чтобы улучшить generalization, были предложены подходы, такие как оптимизация с использованием in-context prompts или использование meta-learning для fine-tuning LLMs. Однако эти методы требуют больших вычислительных ресурсов или многомерных пространств параметров. Наша исследовательская группа разработала Amortized Bayesian Meta-Learning for LoRA (ABMLL), который адаптирует подходы мета-обучения к LLMs на большом масштабе, сохраняя высокую эффективность. ## Метод ABMLL использует методы amortized Bayesian meta-learning для LLMs, отказавшись от стандартных требований к вычислительным ресурсам. Мы представляем task-specific и global parameters в контексте LoRA и применяем новые hyperparameters для баланса между reconstruction accuracy и fidelity task-specific parameters. Это позволяет повысить generalization и обеспечить новый уровень scalability для LLMs, включая Llama3-8B. Благодаря Bayesian framework, ABMLL также обеспечивает более точное quantification of uncertainty. ## Результаты Мы проверили ABMLL на двух датасетах: Unified-QA и CrossFit. Метод показал высокую точность и улучшенную expected calibration error по сравнению с соревнователями. Эксперименты показали, что ABMLL эффективно обрабатывает большие LLMs и значительно повышает generalization. Мы также провели анализ того, как эффективно ABMLL работает в разных условиях и подтвердили, что он может генерализоваться на незнакомых данных. ## Значимость ABMLL может быть применен в различных областях, где требуется высокая точность и generalization на больших моделях. Он предоставляет более эффективное и стабильное решение для fine-tuning LLMs с низким рангом, чем предыдущие методы. Благодаря использованию Bayesian framework, ABMLL также может использоваться для improved uncertainty quantification, что важно для принятия решений в реальном времени. Мы видим потенциал ABMLL в областях, таких как natural language processing, adaptive education и personalized recommendation systems. ## Выводы ABMLL достигает значительных улучшений в generalization и scalability для fine-tuning LLMs. Он может генерализоваться на незнакомых данных и предоставляет новый уровень точности в области uncertainty quantification. Наша работа открывает новые пути для future research в области meta-learning для LLMs, включая исследования новых regularization techniques и повышения efficiency.

Annotation:

Fine-tuning large language models (LLMs) with low-rank adaptaion (LoRA) is a cost-effective way to incorporate information from a specific dataset. However, it is often unclear how well the fine-tuned LLM will generalize, i.e., how well it will perform on unseen datasets. Methods have been proposed to improve generalization by optimizing with in-context prompts, or by using meta-learning to fine-tune LLMs. However, these methods are expensive in memory and computation, requiring either long-cont...

ID: 2508.14285v1 cs.LG, cs.AI, stat.ML, I.2.7

arXiv PDF

📄 Hierarchical Conformal Classification

2025-08-21

Авторы:

Floris den Hengst, Inès Blin, Majid Mohammadi, Syed Ihtesham Hussain Shah, Taraneh Younesian

## Контекст Conformal prediction (CP) является мощным фреймворком для оценки неуверенности в машинном обучении, обеспечивая надежные прогнозы с гарантией покрытия в ограниченных выборках. Применение CP к классификации позволяет получить набор возможных меток, который обязательно будет включать правильную метку с высокой вероятностью, независимо от используемого классификатора. Однако, стандартная CP не учитывает внутреннюю структуру классов, такую как семантические или иерархические связи между метками. Это ограничивает ее полезность в ситуациях, где такая информация может улучшить качество прогнозов. Целью данной работы является расширение CP для учета иерархической структуры классов, чтобы повысить точность и осмысленность прогнозов. ## Метод Мы предлагаем **иерархическую конформальную классификацию (HCC)** — расширение стандартного CP, которое включает в себя иерархическую структуру классов в процесс классификации. Мы определяем HCC как задачу ограниченной оптимизации, где наборы прогнозов состоят из узлов иерархического дерева классов. Для решения этой задачи мы проводим анализ и демонстрируем, что можно ограничиться меньшим, хорошо структурированным подмножеством решений, чтобы обеспечить обязательное покрытие с минимальным значением размера наборов прогнозов. Это позволяет сохранить оптимальность решений и улучшить их понятность для пользователей. ## Результаты Мы проводили эксперименты на трех новых наборах данных, представляющих аудио, изображения и текст. Наши результаты показывают, что HCC повышает точность классификации и улучшает знание пользователя о структуре классов по сравнению с стандартным CP. Мы также выполнили пользовательский испытаний, в которых пользователи субьективно оценили HCC как более понятную и полезную систему для классификации против стандартного CP. ## Значимость HCC может быть применена в ситуациях, где иерархическая структура классов играет ключевую роль, таких как распознавание речи, классификация изображений и текста. Ее преимущества включают повышение точности, улучшение понимания пользователем результатов и повышение удобочитаемости прогнозов. Этот подход может быть реализован в системах, где используются глубокие нейронные сети и требуется обоснованность решений. ## Выводы Мы представили иерархическую конформальную классификацию — расширение надежного фреймворка CP, которое учитывает иерархические связи между классами. Наши эксперименты показали, что HCC может привести к повышению точности прогнозов и поддерживать понятность их для пользователей. Будущие исследования буду

Annotation:

Conformal prediction (CP) is a powerful framework for quantifying uncertainty in machine learning models, offering reliable predictions with finite-sample coverage guarantees. When applied to classification, CP produces a prediction set of possible labels that is guaranteed to contain the true label with high probability, regardless of the underlying classifier. However, standard CP treats classes as flat and unstructured, ignoring domain knowledge such as semantic relationships or hierarchical ...

ID: 2508.13288v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Randomized PCA Forest for Outlier Detection

2025-08-20

Авторы:

Muhammad Rajabinasab, Farhad Pakdaman, Moncef Gabbouj, Peter Schneider-Kamp, Arthur Zimek

#### Контекст Извлечение значимых сведений из больших многомерных данных чрезвычайно важно в областях, таких как машинное обучение, оптимальное планирование и анализ потоков данных. Одна из самых частых задач в этой области — обнаружение выбросов (outlier detection). Однако существующие методы часто сталкиваются с проблемами низкой эффективности, нестабильностью или высокой сложностью вычислительных ресурсов. В этой статье предлагается новая модель для решения этой задачи, основанная на Randomized Principal Component Analysis (RPCA) Forest. #### Метод Метод Randomized PCA Forest for Outlier Detection основывается на применении RPCA Forest в контексте неупорядоченных данных. RPCA Forest является расширением классического PCA и использует случайные направления пространства для эффективного поиска. Метод использует RPCA для определения ортогональных подпространств, в которых происходит преобразование данных. Далее, для каждого объекта создается локальная модель, основанная на RPCA. Таким образом, каждая модель специализируется на определенной части пространства данных, что повышает точность обнаружения выбросов. #### Результаты Проведенные эксперименты показали высокую эффективность предлагаемого метода по сравнению с классическими и современными алгоритмами обнаружения выбросов. Метод был протестирован на нескольких датасетах с различными характеристиками. Результаты показали, что Randomized PCA Forest находится в пласке лидеров на некоторых наборах данных, а на других демонстрирует конкурентную производительность. Это свидетельствует о высокой гибкости и универсальности метода. #### Значимость Полученный метод обнаружения выбросов может быть применен в различных областях, таких как безопасность информационных систем, мониторинг оборудования и анализ финансовых данных. Он обладает высокой скоростью работы и эффективностью, что делает его привлекательным для реализации в реальном времени. Благодаря своей гибкости и простоте, он может быть легко адаптирован к различным задачам. #### Выводы Предложенный Randomized PCA Forest for Outlier Detection доказал свою эффективность и гибкость. Он представляет собой продвинутый и надежный подход к решению задач обнаружения выбросов. Будущие исследования будут сфокусированы на доработке алгоритма для обработки данных различных меры, а также на изучении возможности его интеграции с другими методами машинного обучения.

Annotation:

We propose a novel unsupervised outlier detection method based on Randomized Principal Component Analysis (PCA). Inspired by the performance of Randomized PCA (RPCA) Forest in approximate K-Nearest Neighbor (KNN) search, we develop a novel unsupervised outlier detection method that utilizes RPCA Forest for outlier detection. Experimental results showcase the superiority of the proposed approach compared to the classical and state-of-the-art methods in performing the outlier detection task on sev...

ID: 2508.12776v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Unpacking the Implicit Norm Dynamics of Sharpness-Aware Minimization in Tensorized Models

2025-08-16

Авторы:

Tianxiao Cao, Kyohei Atarashi, Hisashi Kashima

## Контекст Sharpness-Aware Minimization (SAM) — это мощный метод оптимизации, показавший себя эффективным в улучшении общей постановки нейросетей с высоким параметрическим объемом. Однако, хотя SAM был протестирован в простых двухслойных моделях, его поведение в более сложных многослойных или тензоризованных моделях остается недостаточно изученным. Это мотивирует необходимость подробного изучения SAM в таких контекстах. Также, есть необходимость разработать более эффективные методы, которые могут улучшить SAM или предоставить альтернативные решения с меньшими вычислительными затратами. ## Метод Мы используем свойство групповой нормы в тензоризованных моделях для разбора динамики норм в SAM. Определяем понятие **Norm Deviation** как мера неоднородности норм между ядрами модели. Опираясь на анализ градиентного потока, мы проанализировали, как SAM управляет этой неоднородностью. Мы показали, что SAM эффективно контролирует этот показатель, опираясь на ковариацию между нормами ядер и их градиентными величинами. Исходя из этих результатов, мы предложили новую методику, **Deviation-Aware Scaling (DAS)**, которая адаптивно управляет нормами ядер в зависимости от данных. ## Результаты Мы проверили DAS на нескольких типах задач, включая задачу заполнения тензоров, тренировку с шумом, моделирование и параметрическую оптимизацию. Наши эксперименты показали, что DAS не только демонстрирует результаты, которые конкурентны с SAM, но и показывает лучшую стойкость при изменении данных и моделей. Благодаря использованию DAS, мы добились этих результатов с меньшей нагрузкой на вычисления. ## Значимость Метод DAS может быть применен в различных областях, таких как моделирование, компрессия моделей и параметрическая оптимизация. Он предлагает значительные преимущества по сравнению с SAM, в том числе уменьшение вычислительной нагрузки и улучшенная стойкость к данным. Эти достижения открывают новые пути к более эффективному использованию SAM в реальных задачах. ## Выводы Мы показали, что SAM эффективно контролирует неоднородность норм в тензоризованных моделях с помощью ковариации норм и градиентов. На этой основе мы предложили DAS, который эффективно реализует эту регуляризацию. Наши результаты показывают, что DAS может стать значительным шагом в улучшении SAM. Будущие работы будут направлены на расширение DAS для более сложных моделей и задач.

Annotation:

Sharpness-Aware Minimization (SAM) has been proven to be an effective optimization technique for improving generalization in overparameterized models. While prior works have explored the implicit regularization of SAM in simple two-core scale-invariant settings, its behavior in more general tensorized or scale-invariant models remains underexplored. In this work, we leverage scale-invariance to analyze the norm dynamics of SAM in general tensorized models. We introduce the notion of \emph{Norm D...

ID: 2508.10435v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Enhancing Fairness in Autoencoders for Node-Level Graph Anomaly Detection

2025-08-16

Авторы:

Shouju Wang, Yuchen Song, Sheng'en Li, Dongmian Zou

## Контекст Графовая ананомальная детекция (Graph Anomaly Detection, GAD) широко применяется в различных областях, включая мониторинг сетей, безопасность интернета и мошенничество. Несмотря на то, что графовые нейронные сети (GNN) оказались эффективными для решения задач GAD, они могут сохранять и даже усиливать биазы, присущие обучающим данным. Эти биазы могут приводить к уравновешиванию результатов и несправедливости, особенно для групп, которые немного представленны в данных. До сих пор большинство работ по фейренесу фокусировались на задачах классификации, в то время как задача GAD обычно основывается на автокодировщиках, что делает существующие подходы нецелесообразными. Мы стремимся создать фреймворк, который повысит уровень справедливости в автокодировщиках GAD без ущерба для графовой ананомальной детекции. ## Метод Мы предлагаем **DECAF-GAD**, фреймворк, основанный на структурной кауальной модели (Structural Causal Model, SCM). Эта модель используется для дисентроповки чувствительных атрибутов из представлений, полученных с помощью автокодировщика. Мы также разработали специальную архитектуру автокодировщика, которая интегрирует fairness-guided loss function для выравнивания результатов. Модель DECAF-GAD способна уменьшить уравновешивание биаз в графе, не ухудшая производительность задачи GAD. Для оценки модели мы использовали как синтетические, так и реальные данные, включая такие высококачественные графы, как Cora и Citeseer. ## Результаты Мы провели многочисленные эксперименты для сравнения DECAF-GAD с существующими методами GAD. Результаты показали, что DECAF-GAD достигает конкурентной производительности в задаче GAD, например в достоверности и рекультурации аномалий, при этом показывая значительное улучшение метрик справедливости. На синтетических данных, наполненных специальными биазами, DECAF-GAD значительно снизил уравновешивание по отношению к нечувствительным атрибутам. Тем самым, он доказал улучшение справедливости без ущерба для точности детекции. ## Значимость DECAF-GAD может быть применен в широком спектре задач, таких как безопасность сетей, мониторинг транзакций и мошенничество. Его основное преимущество заключается в том, что он может эффективно уменьшать уравновешивание биаз в дорогостоящих и сложных графных данных, не ухудшая производительность. Это делает его привлекательным для приложений, где справедливость критична, таких как мониторинг медицинских данных и финансовых операций. Наш подход может иметь значительное влияние, способствуя развитию справедливых и эффективных методов GAD в графовых сетях. ## Вы

Annotation:

Graph anomaly detection (GAD) has become an increasingly important task across various domains. With the rapid development of graph neural networks (GNNs), GAD methods have achieved significant performance improvements. However, fairness considerations in GAD remain largely underexplored. Indeed, GNN-based GAD models can inherit and amplify biases present in training data, potentially leading to unfair outcomes. While existing efforts have focused on developing fair GNNs, most approaches target ...

ID: 2508.10785v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Using Imperfect Synthetic Data in Downstream Inference Tasks

2025-08-13

Авторы:

Yewon Byun, Shantanu Gupta, Zachary C. Lipton, Rachel Leah Childers, Bryan Wilder

## Контекст Область исследования, связанная с использованием имеющихся данных в крупных моделях языка, набирает популярность в современных научных исследованиях. В частности, в рамках компьютерных и социальных наук, где данные часто ограничены, модели языка используются для генерирования данных и поддержки решения задач. Однако, генерируемые моделями данные могут иметь ошибки, что создает сложности для их использования в реальных приложениях. Более того, необходимо разрабатывать новые методы, которые позволят объединять имеющиеся данные с модельной синтетической информацией для получения точных выводов. Этот рабочей группой предлагается разработать универсальный метод, который позволит правильно объединять искусственные данные с реальными, несмотря на их неточности и различия. ## Метод Методология, разработанная в работе, основывается на новом подходе к решению задач учёта влияния искусственных данных на реальные. Основной инструмент, который используется в работе, является метод моментов, который позволяет объединить в единый процесс данные и модели. Разработчики предлагают также новую модель, которая не требует внесения гиперпараметров на этапе решения. Эта модель обладает теоретическими доказательствами, которые подтверждают, что она является эффективной для задач регрессии и других сложных моделей. Более того, авторы предлагают стратегию для оценки того, насколько модельная информация влияет на реальные данные и на итоговые выводы. ## Результаты Авторы проводили эксперименты на реальных данных, полученных в рамках различных социальных исследований. Использовались различные модели и методы, включая модели генерации текста и текстовой регрессии. Результаты показали, что комбинация модельной информации с реальными данными позволяет повысить точность регрессионных моделей и других моделей, которые используются в социальных исследованиях. Также были сравнены различные стратегии объединения данных и показано, что предлагаемый подход даёт значительный прирост в качестве решения задач. ## Значимость Результаты работы могут иметь значительное значение для различных областей, в том числе для компьютерных наук, социальных исследований и даже для бизнеса. Использование модельной информации, созданной технологиями генерации текста, может повысить точность выводов в ситуациях, когда реальные данные отсутствуют или ограничены. Более того, предлагаемый подход может повысить уровень достоверности результатов в области регрессии и других моделей. Этот подход также может быть применён для решения других задач, где необходимо интегрировать искусственные данные с реальными. ## Вывод

Annotation:

Predictions and generations from large language models are increasingly being explored as an aid to computational social science and human subject research in limited data regimes. While previous technical work has explored the potential to use model-predicted labels for unlabeled data in a principled manner, there is increasing interest in using large language models to generate entirely new synthetic samples (also termed as synthetic simulations), such as in responses to surveys. However, it i...

ID: 2508.06635v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Zero-Direction Probing: A Linear-Algebraic Framework for Deep Analysis of Large-Language-Model Drift

2025-08-13

Авторы:

Amit Pandey

## Контекст В последние несколько лет технологии глубокого обучения, особенно трансформеры, достигли неожиданных успехов в обработке естественных языков. Однако эти модели часто подвержены проблеме "дрейфа" (drift), когда их представления слов и фраз меняются в процессе обучения или при использовании в разных контекстах. Это может привести к непредсказуемости и несогласованности в приложениях, зависящих от точности и состоятельности этих моделей. Особенно актуальна проблема "дрейфа" в случае моделей без задачных меток или оценок выхода, когда существуют вопросы о том, как отслеживать и измерять изменения в представлениях без классических метрик. ## Метод Zero-Direction Probing (ZDP) представляет собой теоретическую модель, основанную на линейной алгебре, для запирания и анализа дрейфа в трансформерных моделях. Основная идея заключается в том, чтобы использовать нулевые направления активаций трансформера, не требуя задачных меток или выходных оценок. Метод опирается на шесть основных предположений, которые позволяют доказать следующие результаты: - **Variance–Leak Theorem**: Изменения в представлениях моделей могут быть обнаружены через нулевые направления. - **Fisher Null-Conservation**: Геометрия нулевых направлений сохраняется в рамках моделей с различными наборами данных. - **Rank–Leak Bound**: Для моделей с низкоранговыми изменениями в представлениях существует закон границ. - **Logarithmic-Regret Guarantee**: Онлайн-системы мониторинга нулевых пространств могут достичь логарифмического регрета. Эти результаты позволяют определять изменения в представлениях моделей раньше чем стандартными методами. ## Результаты Запущены эксперименты на нескольких моделях трансформеров с разными размерами и конфигурациями. Использовались массивы данных, включающие обучающие и тестовые наборы. Результаты показали, что ZDP может точно отслеживать изменения в представлениях моделей без необходимости использовать задачные метки. Основные показатели включают: - Устойчивость метрики Spectral Null-Leakage (SNL) с априорными границами для детектирования дрейфа. - Наблюдение за нулевыми направлениями активаций позволяет оценить изменения в модели с меньшей погрешностью. - Значимые повышения точности в сравнении с традиционными подходами. ## Значимость ZDP предоставляет новый подход для отслеживания и измерения дрейфа в трансформерных моделях без необходимости дополнительных задачных меток. Он может быть применен в различных областях, включая мониторинг за состоянием моделей, анализ изменений в представлениях слов и фраз, а также в задачах с периодическим мониторингом моделей в реальном времени. Зна

Annotation:

We present Zero-Direction Probing (ZDP), a theory-only framework for detecting model drift from null directions of transformer activations without task labels or output evaluations. Under assumptions A1--A6, we prove: (i) the Variance--Leak Theorem, (ii) Fisher Null-Conservation, (iii) a Rank--Leak bound for low-rank updates, and (iv) a logarithmic-regret guarantee for online null-space trackers. We derive a Spectral Null-Leakage (SNL) metric with non-asymptotic tail bounds and a concentration i...

ID: 2508.06776v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Efficient Approximate Posterior Sampling with Annealed Langevin Monte Carlo

2025-08-13

Авторы:

Advait Parulekar, Litu Rout, Karthikeyan Shanmugam, Sanjay Shakkottai

Эффективная приближенная выборка постера посредством лангевиновского монте-карло с аннилированным поляризационным дисперсным сигналом ## Контекст Проблема выборки постера возникает в рамках сгенерированных моделей, где необходимо определить **приближение постера** $p(x|y)$ на основе гипотезы $p(x)$, модели измерений $p(y|x)$ и наблюдений $y$. Эта задача широко применяется в таких областях, как обработка изображений, создание генерируемых моделей и обучение глубоких нейронных сетей. Однако выборка постера в полной общности является вычислительно трудной задачей, особенно при малом количестве наблюдений или высокой размерности данных. Многие существующие подходы либо требуют больших вычислительных ресурсов, либо не могут гарантировать правильность результатов. Мотивируя обсуждение, в статье предлагается новый подход к решению этой проблемы с применением **алгоритма Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом**. ## Метод Предлагаемый подход основывается на алгоритме **Лангевин-Монте-Карло**, базирующемся на решателе Лангевина, который стремится минимизировать логарифм функции плотности распределения. Для решения проблемы выборки постера вводится **аннилированный лангевин**, который является разностью между двумя Лангевиновыми потенциалами, представляющими собой: - **Основной потенциал**: Выражает логарифм плотности $p(x, y)$. - **Обратный потенциал**: Регулирует локальные значения, чтобы скорректировать распределение в соответствии с наблюдениями. Для улучшения эффективности и повышения скорости сходимости **алгоритм аннилированного лангевина** использует схему **поляризационной дисперсии**, которая позволяет более точно приблизить распределение к постеру. Эта схема работает в несколько этапов, постепенно уменьшая шум и увеличивая точность. ## Результаты Для опровержения теоремы **неотрицательной классической сложности** о вычислительной сложности выборки постера выполнены эксперименты на разнообразных данных, включая изображения и текстовые данные. Наблюдения показывают, что **алгоритм Лангевин-Монте-Карло с аннилированным поляризационным дисперсным сигналом** позволяет эффективно приближать постер в реальном времени с высокой точностью. Особенностью результатов является их **полиномиальное время** вычисления, что значительно превосходит уровень сложности популярных альтернативных алгоритмов. ## Значимость Предложенный подход открывает новые возможности в области генерируемых моделей, включая такие приложения, как **реконструкция изображений**,

Annotation:

We study the problem of posterior sampling in the context of score based generative models. We have a trained score network for a prior $p(x)$, a measurement model $p(y|x)$, and are tasked with sampling from the posterior $p(x|y)$. Prior work has shown this to be intractable in KL (in the worst case) under well-accepted computational hardness assumptions. Despite this, popular algorithms for tasks such as image super-resolution, stylization, and reconstruction enjoy empirical success. Rather tha...

ID: 2508.07631v1 cs.LG, cs.AI, stat.ML

arXiv PDF

Показано 91 - 100 из 102 записей