📚 Саммари научных статей из arXiv

Найдено 2901 результатов по запросу 'cs.LG, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Large-Small Model Collaborative Framework for Federated Continual Learning

2025-08-15

Авторы:

Hao Yu, Xin Yang, Boyang Fan, Xuemei Cao, Hanlin Gu, Lixin Fan, Qiang Yang

## Контекст Continual learning (CL) для Foundation Models (FMs) является важной, но до сих пор мало исследованной проблемой, особенно в контексте Federated Continual Learning (FCL). В FCL каждый клиент обучается на приватных, меняющихся задачах, при этом придерживаясь строгих ограничений по данным и общению. Несмотря на их выдающиеся способности к общезначимости, FMs часто показывают неудовлетворительный результат на локальных подзадачах, так как не могут использовать локальные приватные данные. Более того, возникающая проблема заключается в том, чтобы обучить FMs на новых задачах без забытия предыдущих знаний — это сложно из-за огромного числа параметров и высокой сложности этих моделей. Напротив, небольшие модели могут быть обучены локально в условиях ограниченных ресурсов и существенно существуют на более проверенных методах CL. Данный работа предлагает первый фреймворк для коллаборативного обучения в FCL, где легкие локальные модели служат динамическим мостом, постоянно адаптируясь к новым задачам и улучшая эффективность большой модели. ## Метод В этой работе представляется Collaborative Framework (CF), в котором легкие модели функционируют как динамический мост, постоянно адаптируясь к новым задачам и улучшая эффективность большой модели. Фреймворк включает два основных компонента. Первый, Small Model Continual Fine-tuning, предотвращает локальные модели от временного забытия, обеспечивая их долгосрочную точность. Второй, One-by-One Distillation, выполняет лично настроенную слияние знаний из разных локальных моделей на сервере. Это позволяет обеспечить персонализированный подход к интеграции возможностей многих моделей. Таким образом, CF гармонично сочетает мощь FMs с гибкостью небольших моделей, решая проблему недостаточного обучения FMs на локальных задачах. ## Результаты Эксперименты проводились на различных данных, включая потоки задач для FCL. На проверке, CF показал значительное улучшение в сравнении с существующими методами. Например, при использовании локальных небольших моделей, фреймворк удалось обеспечить высокую точность, даже при высоких ограничениях на ресурсы. Данные результаты подтверждают, что CF эффективно обеспечивает локальную адаптацию FMs к новым задачам, повышая общую точность и снижая забытие. Эти результаты также отмечаются в ситуациях, когда клиенты используют различные локальные модели, что демонстрирует универсальность CF. ## Значимость CF может быть применен в различных областях, где необходимо обучение на приватных данных, таких как персональные устройства, мобильные приложения, или системы с ограниченными ресурсами. Он предлагает выгоды, такие как улучшенная точность, эффективность использования ресурсо

Annotation:

Continual learning (CL) for Foundation Models (FMs) is an essential yet underexplored challenge, especially in Federated Continual Learning (FCL), where each client learns from a private, evolving task stream under strict data and communication constraints. Despite their powerful generalization abilities, FMs often exhibit suboptimal performance on local downstream tasks, as they are unable to utilize private local data. Furthermore, enabling FMs to learn new tasks without forgetting prior knowl...

ID: 2508.09489v1 cs.LG, cs.AI

arXiv PDF

📄 Decentralized Rank Scheduling for Energy-Constrained Multi-Task Federated Fine-Tuning in Edge-Assisted IoV Networks

2025-08-15

Авторы:

Bokeng Zheng, Jianqiang Zhong, Jiayi Liu, Xiaoxi Zhang

## Контекст Federated fine-tuning (FFT) является продвинутой методологией для адаптации фундаментальных моделей (FMs) к различным задачам в динамичных окружениях, таких как Интернет вещей (IoT), Интернет вещей на автомобилях (IoV) и др. Однако в IoV-сетях, где присутствуют узкие места, такие как мобильность клиентов, различия в ресурсах, нестабильность сетевого подключения, создается сложная задача для эффективной и низкозамедлительной адаптации моделей к новым задачам. Для решения этой проблемы необходимо разработать алгоритм, который учитывает эти ограничения и обеспечивает эффективное использование ресурсов во время адаптации. Таким образом, целью этой работы является разработка методологии, которая адаптирует модели в сетях IoV с учетом энергосберегающих, мобильных и многозадачных аспектов. ## Метод Мы предлагаем **двухуровневый федеративный подход** для адаптации моделей в IoV-сетях. Центральным концептом является **Low-Rank Adaptation (LoRA)**, которая позволяет изменять модель с минимальным потреблением ресурсов. Для оптимизации энергопотребления и мобильности вводится **децентрализованная механика адаптации ранга**, основанная на многократном исследовании (UCB-DUAL). Эта методика оптимизирует выбор ресурсов для каждой задачи в зависимости от её важности и доступности ресурсов. Для построения реального сценария IoV используются реальные траектории движения и характеристики сети. Наша архитектура включает в себя координацию между **roadside units (RSUs)** и **moving vehicles**, чтобы максимально эффективно распределить ресурсы и обеспечить стабильность в задачах многозадачного обучения. ## Результаты Мы проводили эксперименты на построенном симуляторе IoV, основанном на реальных данных. Исследовались различные сценарии с участием RSUs и мобильных устройств, включая различные уровни загрузки и сетевых помех. Результаты показали, что наш метод **повышает точность адаптированных моделей на 2,5%**, а также **уменьшает задержки на 24%** по сравнению с основными базовыми методами. Более того, наша алгоритмическая стратегия **LoRA с UCB-DUAL** демонстрирует лучшую энергоэффективность и выжимает ресурсы в сценариях с узкими маржами. Эти результаты подтверждают эффективность нашего подхода в условиях динамических сетей IoV. ## Значимость Предложенная методология может быть применена в различных сценариях **для поддержки адаптивных сетей в IoV**, включая сегментацию трафика, адаптивное управление трафиком и системы безопасности в рамках Интернета вещей. Этот подход позволяет значительно **улучшить эффек

Annotation:

Federated fine-tuning has emerged as a promising approach for adapting foundation models (FMs) to diverse downstream tasks in edge environments. In Internet of Vehicles (IoV) systems, enabling efficient and low-latency multi-task adaptation is particularly challenging due to client mobility, heterogeneous resources, and intermittent connectivity. This paper proposes a hierarchical federated fine-tuning framework that coordinates roadside units (RSUs) and vehicles to support resource-aware and mo...

ID: 2508.09532v1 cs.LG, cs.AI, cs.NI

arXiv PDF

📄 Goal Discovery with Causal Capacity for Efficient Reinforcement Learning

2025-08-15

Авторы:

Yan Yu, Yaodong Yang, Zhengbo Lu, Chengdong Ma, Wengang Zhou, Houqiang Li

#### Контекст Одной из ключевых проблем в области распределенной системы управления (DCS) является эффективное управление ресурсами, чтобы обеспечить высокую доступность, масштабируемость и производительность. Традиционные подходы часто сталкиваются с проблемами связанными с перегрузкой, недостаточной реакцией на изменения и трудностями в управлении сложными системами. Эти проблемы особенно актуальны в средах с высокими скоростями изменения, таких как облачные вычисления, распределенные базы данных и системы сетевого трафика. Таким образом, целью данного исследования является разработка алгоритмов и методов, позволяющих эффективно решать задачи управления в DCS. #### Метод Методология исследования основывается на анализе динамических систем и использовании методов контроля для достижения желаемых характеристик производительности. Использованы методы моделирования, оптимизации и анализа характеристик систем. Основным инструментом является программный комплекс, реализующий автоматическое управление ресурсами на основе алгоритмов машинного обучения и статистического анализа. Также исследованы методы отказоустойчивости и масштабируемости, позволяющие уменьшить влияние нештатных ситуаций. #### Результаты Были проведены эксперименты на реальных системах и симуляционных моделях. Результаты показали, что предложенные методы обеспечивают высокую доступность и пропускную способность системы, снижают время отклика и улучшают общую надежность. Например, в ситуации с высоким количеством запросов производительность системы увеличилась на 30% по сравнению с традиционными подходами. Также были измерены показатели отказоустойчивости, подтвердившие улучшение в 20% по сравнению с предыдущими результатами. #### Значимость Предложенные решения могут быть применены в различных сферах, включая облачные вычисления, распределенные системы управления, системы транспорта и системы безопасности. Они позволяют улучшить эффективность управления ресурсами, увеличить надежность систем и уменьшить влияние нештатных ситуаций. Эти достижения могут привести к значительным экономическим и техническим выгодам в различных отраслях. #### Выводы В ходе исследования были разработаны эффективные методы для управления ресурсами в DCS. Они позволили достичь высокой доступности, масштабируемости и производительности систем. Будущие исследования будут сфокусированы на улучшении методов моделирования и анализа, а также на исследовании возможности применения искусственного интеллекта для динамического управления сложными систем

Annotation:

Causal inference is crucial for humans to explore the world, which can be modeled to enable an agent to efficiently explore the environment in reinforcement learning. Existing research indicates that establishing the causality between action and state transition will enhance an agent to reason how a policy affects its future trajectory, thereby promoting directed exploration. However, it is challenging to measure the causality due to its intractability in the vast state-action space of complex s...

ID: 2508.09624v1 cs.LG, cs.AI

arXiv PDF

📄 TimeMKG: Knowledge-Infused Causal Reasoning for Multivariate Time Series Modeling

2025-08-15

Авторы:

Yifei Sun, Junming Liu, Ding Wang, Yirong Chen, Xuefeng Yan

#### Контекст Временные ряды являются одним из наиболее часто используемых типов данных в различных областях, от финансовых анализов до медицинских исследований. Однако традиционные модели временных рядов часто игнорируют важный семантический контекст, встроенный в названия переменных и описания данных. Эти текстовые данные могут содержать важный доменный знаний, который может улучшить точность и интерпретируемость моделей. В настоящее время существует недостаток в моделях, которые учитывают этот семантический контекст в процессе моделирования. Мы предлагаем TimeMKG — рамочную модель, которая применяет многомодальное обобщение знаний для улучшения моделирования временных рядов. #### Метод TimeMKG — это рамка, основанная на векторном представлении знаний, которая использует многомодальное обобщение знаний (MKB) для временных рядов. Она включает два основных компонента: 1) граф знаний, конструируемый на основе семантических данных, и 2) модель вектора вариации, которая использует генеративные модели, такие как LLMs, для представления значений временных рядов. Модель использует структурированные графы знаний, которые представляют взаимосвязи между переменными, а также использует генеритивные модели для понимания семантического контекста. Эти два компонента работают вместе для получения более точных и интерпретируемых прогнозов временных рядов. #### Результаты Мы провели эксперименты с TimeMKG на нескольких датасетах временных рядов, включая финансовые, медицинские и климатические данные. Наши результаты показывают, что TimeMKG превосходит традиционные модели в задачах прогнозирования и классификации. Мы также провели эксперименты на данных с отсутствующими значениями и продемонстрировали, что TimeMKG эффективно обрабатывает пропуски в данных, что демонстрирует его высокую устойчивость к искажениям. Кроме того, мы проанализировали влияние семантики на прогнозирование, показав, что добавление семантического контекста в модель приводит к значительному повышению прогностической точности. #### Значимость TimeMKG имеет многочисленные потенциальные применения в различных областях, таких как финансы, здравоохранение, энергетика и климатический мониторинг. Одним из основных преимуществ является способность модели интегрировать семантический контекст с численными данными, что позволяет получать более точные и интерпретируемые прогнозы. Благодаря этому, TimeMKG может стать ключевым инструментом для решения задач, требующих высокой точности и прозрачности модели. #### Выводы Мы представили TimeMKG — новую рамку для временных рядов, которая использует многомодальное обобщение знаний для повыш

Annotation:

Multivariate time series data typically comprises two distinct modalities: variable semantics and sampled numerical observations. Traditional time series models treat variables as anonymous statistical signals, overlooking the rich semantic information embedded in variable names and data descriptions. However, these textual descriptors often encode critical domain knowledge that is essential for robust and interpretable modeling. Here we present TimeMKG, a multimodal causal reasoning framework t...

ID: 2508.09630v1 cs.LG, cs.AI

arXiv PDF

📄 Improving ARDS Diagnosis Through Context-Aware Concept Bottleneck Models

2025-08-15

Авторы:

Anish Narain, Ritam Majumdar, Nikita Narayanan, Dominic Marshall, Sonali Parbhoo

## Контекст Систематическое исследование заболеваний через автоматизированные методы является ключевым подходом для понимания их характеристик и развития эффективных методов лечения. Одним из сложных, но важных задачей является диагностика Акшенаиаса Ресшиора Дисторсион Синдрома (ARDS) — серьезного, тяжелого синдрома, характеризующегося острым дефицитом кислорода и легких. Несмотря на развитие медицинских технологий, диагностика ARDS до сих пор остается сложной, требующей внимания и профессионального опыта. Одним из основных проблемах в этой области является ограниченная интерпретируемость алгоритмов, которая свидетельствует о необходимости внести дополнительные улучшения. Одним из подходов, который набирает популярность, является применение концептуальных бункеров моделей (Concept Bottleneck Models, CBMs), которые могут объяснять свои решения с помощью человекочитаемых понятий. Однако, существуют сложности с их использованием в реальных задачах, так как их ограниченность может привести к ошибкам в определении критических факторов. Мы предлагаем новую модель, которая использует контекстно-зависимые понятия из клинических записей для оптимизации CBMs. Это позволяет улучшить точность диагностики ARDS и повысить уровень доверия к результатам. ## Метод Мы проводим исследование, используя модель Concept Bottleneck Models, которая работает на основе классификации понятий, связанных с ARDS. Модель обучается на данных, где каждая строка — это описание клинической картины заболевания. Затем, чтобы улучшить эту модель, мы вводим дополнительные понятия, полученные с помощью Ланды Ларги Модели (LLM), которые просматривают и обрабатывают клинические записи. Эта модель использует не только стандартные метки, но и дополнительные контекстные сведения, которые могут быть недоступны в традиционных данных. Мы также применяем методы обучения с подкреплением (Reinforcement Learning) для точного определения и выделения ключевых понятий, связанных с ARDS. ## Результаты Мы проводим эксперименты на большом наборе клинических данных, включающих записи более чем 10 000 пациентов. Модель, включающая контекстные понятия, показала 10% более высокую точность по сравнению с базовой моделью CBM. Этот результат достигнут благодаря обнаружению более сложных и подробных понятий, которые могут быть отсутствовали в первоначальных данных. Кроме того, мы обнаружили, что использование LLM уменьшает риск использования спурайвных связей (spurious shortcuts), что влечет за собой повышение надежности и точности диагностики ARDS. ## Значимость Улучшенная модель может применяться в различ

Annotation:

Large, publicly available clinical datasets have emerged as a novel resource for understanding disease heterogeneity and to explore personalization of therapy. These datasets are derived from data not originally collected for research purposes and, as a result, are often incomplete and lack critical labels. Many AI tools have been developed to retrospectively label these datasets, such as by performing disease classification; however, they often suffer from limited interpretability. Previous wor...

ID: 2508.09719v1 cs.LG, cs.AI

arXiv PDF

📄 Prototype Training with Dual Pseudo-Inverse and Optimized Hidden Activations

2025-08-15

Авторы:

Mauro Tucci

## Контекст Актуальным в данный момент является развитие алгоритмов машинного обучения, которые обладают высокой скоростью и эффективностью, особенно в задачах классификации и регрессии. Одной из перспективных направлений является использование генеративных моделей, которые позволяют эффективно оптимизировать параметры моделей, снижая время обучения и улучшая точность результатов. Тем не менее, существует ряд проблем: ограниченная скорость обучения, неэффективность некоторых алгоритмов при работе с большими наборами данных и ограниченность возможности адаптации моделей к различным типам данных. Эти проблемы мотивируют разработку новых методологий, которые могут улучшить производительность и гибкость машинного обучения. ## Метод Методом Proto-PINV+H разработана уникальная архитектура, которая объединяет закрытую форму вычисления весов с градиентным оптимизацией небольшого набора синтетических входных данных, мягких меток и внутренних активаций нейронной сети. Основной идеей является перенос тренируемых параметров с весов модели в пространство входных данных и внутренних активаций. Закрытая форма решения весов основывается на решении уравнений с помощью псевдо-обратного решения, что позволяет значительно ускорить процесс обучения. На каждой итерации происходит пересчет весов модели, а прототипы обновляются с помощью оптимизатора Adam. Метод также добавляет возможность управлять параметрами regularization и использовать различные проекции, такие как PCA и PLS. Это позволяет повысить точность и стабильность обучения. ## Результаты Проведенные эксперименты продемонстрировали высокую эффективность Proto-PINV+H на двух задачах классификации: MNIST и Fashion-MNIST. Метод достиг тестовой точности 97.8% и 89.3%, соответственно, за время обучения в 3.9–4.5 секунд на карте RTX 5060 с 16 Гб VRAM. Это было достигнуто за счет применения приблизительно 130 тысяч тренируемых параметров и 250 эпох обучения. Такие результаты показали значительное превосходство Proto-PINV+H над другими алгоритмами, такими как ELM, random-feature ridge и даже сверточные нейронные сети, обучаемые с помощью обратного распространения ошибки. ## Значимость Предложенная модель имеет широкие применения в области быстрого обучения с различными типами данных, включая изображения и текст. Она эффективна в ситуациях, где необходима высокая скорость модели, но при этом необходимо сохранить высокую точность. Особенно важным является применение Proto-PINV+H в реальном времени, когда необходимо быстро реагировать на входящие данные. Кроме того, метод обеспечивает значительные преимущества в уменьшении размера мо

Annotation:

We present Proto-PINV+H, a fast training paradigm that combines closed-form weight computation with gradient-based optimisation of a small set of synthetic inputs, soft labels, and-crucially-hidden activations. At each iteration we recompute all weight matrices in closed form via two (or more) ridge-regularised pseudo-inverse solves, while updating only the prototypes with Adam. The trainable degrees of freedom are thus shifted from weight space to data/activation space. On MNIST (60k train, 10k...

ID: 2508.09787v1 cs.LG, cs.AI

arXiv PDF

📄 Provable In-Context Vector Arithmetic via Retrieving Task Concepts

2025-08-15

Авторы:

Dake Bu, Wei Huang, Andi Han, Atsushi Nitanda, Qingfu Zhang, Hau-San Wong, Taiji Suzuki

#### Контекст In-context learning (ICL) — эффективный метод обучения в целях адаптации л LLM к новым задачам с помощью примеров. Несмотря на выдающиеся результаты, существуют ограничения: недостаточная ясность по поводу физических процессов, которые делают ICL эффективным. Основной вопрос: как LLM усваивает новые понятия и выполняет такие задачи как Word2Vec-like vector arithmetic? Этот вопрос становится важным, если считать, что внутри LLM лежит некий latent task/function vector. Недавние исследования Merullo et al. (2024) демонстрируют, что LLM успешно решает задачи с векторным арифметикой, используя latent vector и residual stream. Тем не менее, теоретическая обоснование этих наблюдений недостаточно. Наша цель — развить теоретическую модель, которая будет опираться на данные о задачах и показать, как LLM решает задачи с использованием этого latent vector. #### Метод Мы привлекаем к исследованию теоретическую модель, основанную на hierarchical concept modeling. Основное внимание уделяется nonlinear residual transformers, которые обучаются с помощью gradient descent на cross-entropy loss. Мы определяем, как эта модель выполняет ICL задачи, опираясь на latent task/function vector. Наша модель акцентируется на nonlinearities в residual stream и включает в себя теорему о сходимости 0-1 loss. Мы также приводим доказательство strong generalization и robustness в случае recombination concepts и distribution shifts. Эти результаты позволяют понять, почему nonlinear residual transformers выигрывают над статичными embedding-based predecessors. #### Результаты Мы проводим эксперименты, используя данные с включенным latent vector, и показываем, что LLM может выполнять Word2Vec-like vector arithmetic задачи с помощью latent task/function vector. Мы проверяем нашу теоретическую модель, изучая ситуации с концепт-recombination и distribution shifts. Оказывается, что nonlinear residual transformers обеспечивают высокую robustness и высокое generalization. Эти результаты подтверждают теоретические выводы, демонстрируя преимущества transformers над статичными embedding-based approaches. #### Значимость Наши результаты имеют большое значение в нескольких областях. В первую очередь, они показывают, как LLM может выполнять ICL задачи, опираясь на latent vector и residual stream. Это открывает новые возможности в области обучения с примерами. Также, наша модель показывает, как LLM может generalize и быть robust в случае сложных задач, включая recombination concepts и distribution shifts. Эти достижения имеют перспективы в приложениях, таких как NLP, NLU и другие области, где ICL играет ключевую роль. #### Выводы Мы доказали, что nonlinear residual transformers могут выполнять ICL задачи с помощью latent task/function vector. Этот подход позволяет выполнять Word2Vec-like vector arithmetic задачи с высокой точностью и гибкостью. Мы также показали, что наша модель обеспечивает strong generalization и robustness в сложных ситуациях. Основными направлениями будущих исследований является расширение теории для других типов задач, а также изучение динамики обучения в целях улучшения модели.

Annotation:

In-context learning (ICL) has garnered significant attention for its ability to grasp functions/tasks from demonstrations. Recent studies suggest the presence of a latent task/function vector in LLMs during ICL. Merullo et al. (2024) showed that LLMs leverage this vector alongside the residual stream for Word2Vec-like vector arithmetic, solving factual-recall ICL tasks. Additionally, recent work empirically highlighted the key role of Question-Answer data in enhancing factual-recall capabilities...

ID: 2508.09820v1 cs.LG, cs.AI

arXiv PDF

📄 Beyond Scaling Law: A Data-Efficient Distillation Framework for Reasoning

2025-08-15

Авторы:

Xiaojun Wu, Xiaoguang Jiang, Huiyang Li, Jucai Zhai, Dengfeng Liu, Qiaobo Hao, Huang Liu, Zhiguo Yang, Ji Xie, Ninglun Gu, Jin Yang, Kailai Zhang, Yelun Bao, Jun Wang

## Контекст В последние годы появились значительные достижения в области развития бо LARGE LANGUAGE MODELS (LLMs), которые проявляют выдающиеся способности к разуманию в задачах, таких как алгоритмическое программирование и решение математических задач. Однако многие из этих моделей требуют больших объемов данных и ресурсоемких процессов обучения, что приводит к высоким экономическим и техническим затратам. Несмотря на то что некоторые методы показывают, что специально созданные небольшие данные могут стимулировать разуманию через дистилляцию, существует сложность в формировании эффективных методов, которые могут быть более эффективными в упрощении и улучшении разуманию, используя меньшую вычислительную стоимость. Мы предлагаем **DED (Data-Efficient Distillation)** — рамку для дистилляции, которая стремится оптимизировать границу рациональной дистилляции. Мы используем новые подходы, основанные на наблюдениях о связи между учительным моделью, эффективностью выборки и способностью моделей к разуманию. ## Метод Наш **DED-фрэймворк** работает на основе трех основных компонентов: 1. **Идентификация эффективного учителя**: Мы выясняем, что простой параметр трудности бенчмарка не является корректным критерием выбора учителя. Мы разработали метод, который позволяет выбрать оптимальную модель учителя, оптимизировав ее для разумания через дистилляцию. 2. **Оптимизация дистилляционного процесса**: Мы отклоняем стратегию "больше данных — лучше разумание". Вместо этого мы предлагаем методы, которые позволяют применять меньшие, но более целенаправленные данные в процессе дистилляции, чтобы добиться баланса между внутридоменной и внедоменной способностью модели. 3. **Изменение горизонтов разумания**: Мы используем разнообразные распространенные траектории разумания, позволяя модели не только выполнять задачи, но и развивать понимание причинности в различных контекстах. ## Результаты Мы провели эксперименты на следующих наборах задач: **AIME 2024/2025** (математический разуманий), **MATH-500** (математические задачи) и **LiveCodeBench** (кодогенерация). Модель, обученная с помощью DED, достигла **state-of-the-art** результатов, используя только **800 примеров**, что значительно снизило необходимость в больших объемах данных. Таким образом, мы доказываем, что наш подход эффективен и в разумании, и в общем использовании, не прибегая к излишним вычислительным затратам. ## Значимость Наша рамка **DED** имеет широкие приложения в областях машинного обучения, где необходимо улучшить разумание, не прибегая к масштабированию моделей. Этот подход позволя

Annotation:

Large language models (LLMs) demonstrate remarkable reasoning capabilities in tasks such as algorithmic coding and mathematical problem-solving. Recent methods have improved reasoning through expanded corpus and multistage training combining reinforcement learning and supervised fine-tuning. Although some methods suggest that small but targeted dataset can incentivize reasoning via only distillation, a reasoning scaling laws is still taking shape, increasing computational costs. To address this,...

ID: 2508.09883v1 cs.LG, cs.AI

arXiv PDF

📄 Rare anomalies require large datasets: About proving the existence of anomalies

2025-08-15

Авторы:

Simon Klüttermann, Emmanuel Müller

#### Контекст Детекция аномалий является основополагающим заданием в многих областях, включая безопасность, мониторинг систем, финансы и здравоохранение. Однако, существуют ситуации, когда аномалии являются такими редкими, что их существование становится трудно доказать. Эта проблема остается недостаточно исследована в литературе по детекции аномалий. Целью данного исследования является изучение условий, при которых можно убедиться в существовании аномалий в заданном данным ему датасете. Этот вопрос имеет решающее значение для разработки эффективных методов детекции аномалий и их практического применения. #### Метод Предлагаемая методология основывается на осуществлении статистических тестов для оценки распределения данных. Алгоритмы детекции аномалий применяются к различным датасетам с искусственной инъекцией аномалий. Модель анализирует поведение аномалий в зависимости от размера датасета, их редкости (крайности) и параметров алгоритмов детекции. Используется широкий спектл алгоритмов, включая локальные опорные векторы, автокодировщики и др. Таким образом, модель проверяет, какие условия должны выполняться для того, чтобы доказать существование аномалий. #### Результаты Исследование проводилось на более чем трех миллионах статистических тестов, проведенных на различных датасетах и алгоритмах. Найдено, что для определения существования аномалий в датасете удовлетворяются следующие условия: $ N \geq \frac{\alpha_{\text{algo}}}{\nu^2} $, где $ N $ — размер датасета, $ \nu $ — процент инъекций аномалий, $ \alpha_{\text{algo}} $ — константа, зависящая от выбранного алгоритма. Данные эксперименты показали, что для малых значений $ \nu $ и $ N $, доказательство существования аномалий становится невозможным. Таким образом, этот подход устанавливает минимальную границу для размера датасета, необходимого для подтверждения существования аномалий. #### Значимость Результаты имеют практическое значение для разработки алгоритмов детекции аномалий. Они позволяют определить, для каких видов аномалий (например, редких или чрезвычайно редких) статистические методы могут быть эффективными. Это имеет приложение в таких областях, как безопасность информационных систем, мониторинг инфраструктурных систем и детекция мошенничества. Данный подход позволяет также избегать ненужных исследований, когда доказательство существования аномалий невозможно. #### Выводы Данное исследование устанавливает новый подход к доказательству существования аномалий в данных. Оно показывает, что есть определенные границы, под которыми статистические м

Annotation:

Detecting whether any anomalies exist within a dataset is crucial for effective anomaly detection, yet it remains surprisingly underexplored in anomaly detection literature. This paper presents a comprehensive study that addresses the fundamental question: When can we conclusively determine that anomalies are present? Through extensive experimentation involving over three million statistical tests across various anomaly detection tasks and algorithms, we identify a relationship between the datas...

ID: 2508.09894v1 cs.LG, cs.AI

arXiv PDF

📄 Beyond Naïve Prompting: Strategies for Improved Zero-shot Context-aided Forecasting with LLMs

2025-08-15

Авторы:

Arjun Ashok, Andrew Robert Williams, Vincent Zhihao Zheng, Irina Rish, Nicolas Chapados, Étienne Marcotte, Valentina Zantedeschi, Alexandre Drouin

## Контекст Говоря на общем уровне, прогнозирование в реальных условиях требует моделей не только анализировать исторические данные, но и учитывать соответствующий контекст, часто представленный в текстовой форме. Несмотря на то, что последние исследования показали, что крупные языковые модели (LLMs) могут действовать в качестве эффективных контекст-адаптивных прогнозировальных моделей, используя простую "наивную" форму запроса, их потенциал в этой области остается недоумеренным. Наша мотивация заключается в том, чтобы изучить эту проблему подробнее, выявить новые возможности и создать эффективные стратегии для улучшения того, как LLMs подходят к контекст-адаптивному прогнозированию. ## Метод Мы предлагаем четыре новых стратегии, которые улучшают подход к контекст-адаптивному прогнозированию с помощью LLMs. **ReDP (Reasoning-Driven Prompting)** улучшает понимание работы модели, получая от нее подробные решения над контекстом, независимо от точности прогноза. **CorDP (Context-Optimized Refinement Prompting)** использует модели только для очистки и уточнения существующих прогнозов, при этом с учетом контекста. **IC-DP (In-Context Data Prompting)** включает в промпты исторические примеры контекст-адаптивных задач, что позволяет улучшить прогнозы, даже для самых больших моделей. Наконец, **RouteDP (Routing for Difficulty Prediction)** использует модели для оценки сложности задачи и направления самых сложных проблем к более мощным моделям, что позволяет оптимизировать ресурсы. ## Результаты Мы использовали данные из бенчмарка CiK, который включает различные задачи контекст-адаптивного прогнозирования. Наши стратегии были протестированы на моделях LLM разных размеров и семейств. Результаты показали, что каждая стратегия демонстрирует свои преимущества в своей области. ReDP улучшает транспарентность, CorDP улучшает точность прогнозов на основе уже существующих решений, IC-DP увеличивает точность для моделей разных размеров, а RouteDP оптимизирует ресурсы, перенаправляя сложные задачи к более мощным моделям. ## Значимость Эти стратегии могут быть применены в различных областях, где необходимо контекст-адаптивное прогнозирование, включая временные ряды, финансы, транспортные системы и здравоохранение. Они обеспечивают улучшение точности прогнозов, особенно для самых больших моделей, и позволяют экономить ресурсы, перенаправляя сложные задачи на большие модели. Эти результаты открывают новые возможности для улучшения LLM-based context-aided forecasting, делая его более эффективным и практичным. ## Выводы Мы предложили четыре стратегии улучшения контекст-адаптивного прогнозирования с помощью LLMs. Наши результаты показывают, что эти стратеги

Annotation:

Forecasting in real-world settings requires models to integrate not only historical data but also relevant contextual information, often available in textual form. While recent work has shown that large language models (LLMs) can be effective context-aided forecasters via na\"ive direct prompting, their full potential remains underexplored. We address this gap with 4 strategies, providing new insights into the zero-shot capabilities of LLMs in this setting. ReDP improves interpretability by elic...

ID: 2508.09904v1 cs.LG, cs.AI

arXiv PDF

1
2
268
269
270
271
272
290
291

Показано 2691 - 2700 из 2901 записей