📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing

2025-12-04

Авторы:

Shuvom Sadhuka, Drew Prinster, Clara Fannjiang, Gabriele Scalia, Aviv Regev, Hanchen Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the success of their trajectories, researchers have developed verifiers, such as LLM judges and process-reward models, to score the quality of each action in an agent's trajectory. Although these heuristic scores can be informative, there are no guarantees of correctness when used to decide whether an agent will yield a successful output. Here, we introduce e-valuato...

ID: 2512.03109v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 Conformal Safety Monitoring for Flight Testing: A Case Study in Data-Driven Safety Learning

2025-11-27

Авторы:

Aaron O. Feldman, D. Isaiah Harp, Joseph Duncan, Mac Schwager

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We develop a data-driven approach for runtime safety monitoring in flight testing, where pilots perform maneuvers on aircraft with uncertain parameters. Because safety violations can arise unexpectedly as a result of these uncertainties, pilots need clear, preemptive criteria to abort the maneuver in advance of safety violation. To solve this problem, we use offline stochastic trajectory simulation to learn a calibrated statistical model of the short-term safety risk facing pilots. We use flight...

ID: 2511.20811v1 cs.LG, cs.AI, stat.AP

arXiv PDF

📄 Applying Time Series Deep Learning Models to Forecast the Growth of Perennial Ryegrass in Ireland

2025-11-08

Авторы:

Oluwadurotimi Onibonoje, Vuong M. Ngo, Andrew McCarre, Elodie Ruelle, Bernadette O-Briend, Mark Roantree

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Grasslands, constituting the world's second-largest terrestrial carbon sink, play a crucial role in biodiversity and the regulation of the carbon cycle. Currently, the Irish dairy sector, a significant economic contributor, grapples with challenges related to profitability and sustainability. Presently, grass growth forecasting relies on impractical mechanistic models. In response, we propose deep learning models tailored for univariate datasets, presenting cost-effective alternatives. Notably, ...

ID: 2511.03749v1 cs.LG, cs.AI, stat.AP

arXiv PDF

📄 Multi-task neural diffusion processes for uncertainty-quantified wind power prediction

2025-10-08

Авторы:

Joseph Rawson, Domniki Ladopoulou, Petros Dellaportas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Uncertainty-aware wind power prediction is essential for grid integration and reliable wind farm operation. We apply neural diffusion processes (NDPs)-a recent class of models that learn distributions over functions-and extend them to a multi-task NDP (MT-NDP) framework for wind power prediction. We provide the first empirical evaluation of NDPs in real supervisory control and data acquisition (SCADA) data. We introduce a task encoder within MT-NDPs to capture cross-turbine correlations and enab...

ID: 2510.03419v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 A Realistic Evaluation of Cross-Frequency Transfer Learning and Foundation Forecasting Models

2025-09-26

Авторы:

Kin G. Olivares, Malcolm Wolff, Tatiana Konstantinova, Shankar Ramasubramanian, Andrew Gordon Wilson, Andres Potapczynski, Willa Potosnak, Mengfei Cao, Boris Oreshkin, Dmitry Efimov

## Контекст Cross-frequency transfer learning (CFTL) является популярной стратегией для создания больших наборов данных с целью предварительно обучения фундаментальных моделей прогнозирования временных рядов. Несмотря на заявленные преимущества, существующие методы оценки не полностью учтут потенциал CFTL, что может привести к искаженным результатам. Основные проблемы заключаются в недостаточной тестовой выборке, неверном расчете статистических метрик, недостаточной качественной модели и неучтенном риске пересечения данных между тестовой и предварительной выборкой. Данная статья предлагает решение этих проблем через реинтерпретацию широко используемых нейронных моделей прогнозирования, адаптированных для CFTL, использование только собственных и синтетических данных для предварительного обучения, а также проведение экспериментов на 15 крупных, разнообразных наборах данных прогнозирования. ## Метод Методология исследования включает в себя несколько ключевых этапов. Во-первых, была реализована реинтерпретация нейронных моделей прогнозирования, адаптированных для CFTL, чтобы обеспечить эффективную передачу средне- и низкочастотных сигналов. Во-вторых, для предварительного обучения использовались только проприетарные и синтетические данные, чтобы избежать пересечения данных и повысить общую адекватность модели. В-третьих, проводились эксперименты на 15 внешних наборах данных с целью подтверждения результатов. Наконец, для оценки моделей были использованы критерии смещения и разброса, чтобы измерить точность и надежность прогнозов. ## Результаты По результатам экспериментов, статистические модели и их парные конфигурации показали значительное превосходство над существующими моделями CFTL. В частности, они показали снижение среднего среднеквадратичного отклонения (sCRPS) на 8,2% и улучшение меры нормализованного среднеквадратичного отношения ошибки (MASE) на 20%. Эти результаты подтверждают вышеперечисленные преимущества CFTL. Однако синтетическое обучение также показало свою эффективность, повысив точность моделей FFM на 7%. ## Значимость Результаты этого исследования могут быть применены в различных областях, где требуется точное прогнозирование временных рядов, например, в финансах, энергетике, инфраструктуре. Основные преимущества заключаются в значительном повышении точности прогноза, уменьшении риска пересечения данных и увеличении надежности моделей. Эти достижения могут иметь большое значение для улучшения моделей прогнозирования в конкретных секторах. ## Выводы Основные достижения статьи заключаются в том, что статистические модели и их парные

Annotation:

Cross-frequency transfer learning (CFTL) has emerged as a popular framework for curating large-scale time series datasets to pre-train foundation forecasting models (FFMs). Although CFTL has shown promise, current benchmarking practices fall short of accurately assessing its performance. This shortcoming stems from many factors: an over-reliance on small-scale evaluation datasets; inadequate treatment of sample size when computing summary statistics; reporting of suboptimal statistical models; a...

ID: 2509.19465v1 cs.LG, cs.AI, stat.AP

arXiv PDF

📄 Causal Machine Learning for Surgical Interventions

2025-09-26

Авторы:

J. Ben Tamo, Nishant S. Chouhan, Micky C. Nnamdi, Yining Yuan, Shreya S. Chivilkar, Wenqi Shi, Steven W. Hwang, B. Randall Brenn, May D. Wang

#### Контекст Surgical decision-making является сложной и требует глубокого понимания взаимосвязей между характеристиками пациента, методами лечения и полученными результатами. Особенно в критичных ситуациях, таких как стоингальная вмешательство или лечение сколиоза, точная оценка отдельных воздействий лечения (individualized treatment effects, ITEs) остается затрудненной. Традиционные статистические методы, опирающиеся на аппроксимации или линейные модели, часто сталкиваются с ограничениями при работе с сложными и гетерогенными данными. Данный исследование адресовано развитию методов, которые могут улучшить оценки ITEs, обеспечивая более точный анализ и поддержку в сфере хирургического вмешательства. #### Метод Для решения сформулированных задач в данном исследовании предложен многозадачный параметрический мета-прием машинного обучения, X-MultiTask. Он моделирует каждое хирургическое вмешательство (например, передняя к тыловой позвоночной колонне или операция против безоперационного подхода) как отдельную задачу, при этом гармонизируя общие представления между задачами. На основе механизмов мета-обучения, X-MultiTask учится выделять общие структуры и особенности в данных. Для усиления каузальной целесообразности включен метод inverse probability weighting (IPW) в целевую функцию. Это позволяет учитывать неоднородность данных и уменьшить влияние потенциальных факторов внедрения. Архитектура модели подразумевает использование нейросетевых моделей для учитывания сложности и хаотичности данных. #### Результаты В ходе экспериментов были использованы две датасета. Первая, публичная, включала 1017 пациентов с стоингальным вмешательством, проанализировавших эффект различных позвоночных подходов на серию осложнений. Вторая датасета, закрытая, включала 368 пациентов с сколиозом и исследовала воздействие PSF (протезации позвоночной колонны) и безоперационного способа на результаты клинических исследований. X-MultiTask демонстрирует высокую точность, оценя значение AUC в 0.84 для первой группы и 0.77 для второй. Он превосходит основные методы в оценке эффекта лечения, суммируясь в значение $\epsilon_{\text{NN-PEHE}} = 0.2778$ и $\epsilon_{\text{ATE}} = 0.0763$. На задаче прогнозирования клинических результатов в сколиозе X-MultiTask показывает значительное превосходство с $\epsilon_{\text{NN-PEHE}} = 0.2551$ и $\epsilon_{\text{ATE}} = 0.0902$. #### Значимость Предложенная модель X-MultiTask может использоваться в различных областях хирургии, где требуется точная оценка индивидуальных воздействий лечения. Она может помогать в персонализации терапии, улучшении результатов

Annotation:

Surgical decision-making is complex and requires understanding causal relationships between patient characteristics, interventions, and outcomes. In high-stakes settings like spinal fusion or scoliosis correction, accurate estimation of individualized treatment effects (ITEs) remains limited due to the reliance on traditional statistical methods that struggle with complex, heterogeneous data. In this study, we develop a multi-task meta-learning framework, X-MultiTask, for ITE estimation that mod...

ID: 2509.19705v1 cs.LG, cs.AI, stat.AP, stat.ME

arXiv PDF

📄 Bridging Performance Gaps for Foundation Models: A Post-Training Strategy for ECGFounder

2025-09-18

Авторы:

Ya Zhou, Yujie Yang, Xiaohan Fan, Wei Zhao

#### Контекст Фундаментальные модели (foundation models) получили большое применение в медицине, включая обработку электрокардиограмм (ECG). Однако, даже после пре-тренировки на больших данных и оптимизации для конкретных задач, эти модели часто сталкиваются с проблемой выполнения в сравнении с задачевоспособными моделями. Это относится и к ECGFounder, предложенной в современной работе, которая, несмотря на предварительное обучение на 7 миллионов ECG-записей, сталкивается с проблемой выполнения после подготовки к конкретным задачам. Это вызвано тем, что существующие методы пост-тренировки неэффективны для оптимизации таких моделей. Мы предлагаем новую пост-тренировочную стратегию, которая улучшает показатели ECGFounder и демонстрирует высокую эффективность в сравнении с другими подходами. #### Метод Мы предложили простой, но эффективный пост-тренировочный подход для улучшения ECGFounder. Архитектура основывается на использовании **stochastic depth** и **preview linear probing**. Эти методы позволяют улучшить устойчивость модели и её возможность предсказать на небольших обучающих выборках. Мы использовали данные PTB-XL для экспериментов, измеряя показатели качества, такие как AUROC и AUPRC. Метод был сравнен с текущими лучшими подходами, включая другие модели, оптимизированные для электрокардиографии. #### Результаты Наши эксперименты показали, что пост-тренировка с помощью нашего подхода улучшает базовый показатель AUROC на 1.2%-3.3% и AUPRC на 5.3%-20.9% по сравнению с текущими лучшими подходами. Этот подход также демонстрирует более высокую устойчивость и эффективность в обучении на небольших выборках, улучшая результаты на 9,1% в AUROC и 34,9% в AUPRC при использовании только 10% обучающих данных. Мы также проверили эффективность отдельных компонентов, таких как stochastic depth и preview linear probing, которые способствуют улучшению модели. #### Значимость Наш подход имеет широкое применение для улучшения фундаментальных моделей в области обработки ECG, решая проблему производительности после подготовки к задаче. Он демонстрирует высокую эффективность в сравнении с другими подходами и может быть применен для улучшения других моделей в медицинских задачах. Этот подход может повысить уровень доступности и точности обработки ECG в клинической практике. #### Выводы Мы показали, что наша пост-тренировочная стратегия эффективно улучшает производительность ECGFounder и превосходит другие подходы в области обработки ECG. Наши результаты открывают путь для дальнейшего исследования пост-тренировочных методов для фундаментальных моделей, которые могут повысить уровень доступности и точности обработки данных в медицине. Мы планируем провести допо

Annotation:

ECG foundation models are increasingly popular due to their adaptability across various tasks. However, their clinical applicability is often limited by performance gaps compared to task-specific models, even after pre-training on large ECG datasets and fine-tuning on target data. This limitation is likely due to the lack of an effective post-training strategy. In this paper, we propose a simple yet effective post-training approach to enhance ECGFounder, a state-of-the-art ECG foundation model p...

ID: 2509.12991v1 cs.LG, cs.AI, stat.AP

arXiv PDF

📄 Ensemble Learning for Healthcare: A Comparative Analysis of Hybrid Voting and Ensemble Stacking in Obesity Risk Prediction

2025-09-05

Авторы:

Towhidul Islam, Md Sumon Ali

#### Контекст Ожирение является критическим мировым здравоохранным проблемой, вызванным разными факторами, включая диету, физиологию и окружающую среду. Это сильно связано с такими хроническими заболеваниями, как диабет, сердечно-сосудистые расстройства и рак. Машинное обучение предлагает перспективные возможности для раннего прогнозирования риска ожирения, но оценка различных методов машинного обучения в этой области остается недостаточной. Особенно недостаточно понятны преимущества гибридных методов голосования и стекирования, которые могут значительно улучшить достоверность и эффективность прогнозирования. #### Метод Для сравнительного анализа использовались два датасета, каждый из которых был обработан с целью обеспечения баланса и идентификации выбросов. Три метода машинного обучения — **Majority Hard Voting**, **Weighted Hard Voting** и **Stacking** с мета-классификатором Multi-Layer Perceptron — были протестированы на комбинации 9 машинных обучаемых моделей (таких как Логистическая регрессия, Дерево решений, Случайный лес), протестированных на 50 конфигураций гиперпараметров. Данные были предварительно обработаны для гарантии качества и соответствия моделям. #### Результаты На Dataset-1 оба гибридных метода — Weighted Hard Voting и Stacking — показали почти одинаковую эффективность, превосходя Majority Hard Voting. Stacking достигло Accuracy 0.920304 и F1-Score 0.920070, тогда как Majority Hard Voting показал Accuracy 0.914160 и F1-Score 0.914115. На Dataset-2 Stacking показал существенное преимущество, достигнув Accuracy 0.989837 и F1-Score 0.989825. Weighted Hard Voting достиг Accuracy 0.981707 и F1-Score 0.981675, тогда как Majority Hard Voting показал Accuracy 0.981707 и F1-Score 0.981675. #### Значимость Нахождение лучшего подхода к прогнозированию риска ожирения имеет критическое значение для раннего выявления и профилактики хронических заболеваний. Это исследование подтверждает, что Stacking является эффективнее для комплексных данных, в то время как Majority Hard Voting может служить достаточной альтернативой для простых случаев. Эти находки могут помочь в выборе наиболее подходящего метода для различных задач в здравоохранении. #### Выводы Гибридные методы голосования и стекирования демонстрируют свою эффективность в прогнозировании риска ожирения. Stacking доказал свою превосходность в сложных случаях, в то время как Majority Hard Voting может быть оптимальным для простых задач. Будущие исследования должны ориентироваться на уточнение гибридных моделей и их применение к более широкому спектру здравоохранения.

Annotation:

Obesity is a critical global health issue driven by dietary, physiological, and environmental factors, and is strongly associated with chronic diseases such as diabetes, cardiovascular disorders, and cancer. Machine learning has emerged as a promising approach for early obesity risk prediction, yet a comparative evaluation of ensemble techniques -- particularly hybrid majority voting and ensemble stacking -- remains limited. This study aims to compare hybrid majority voting and ensemble stacking...

ID: 2509.02826v1 cs.LG, cs.AI, stat.AP, stat.CO

arXiv PDF

📄 Robustness is Important: Limitations of LLMs for Data Fitting

2025-09-01

Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

## Контекст Large Language Models (LLMs), изначально разработанные для языковых задач, недавно начали применяться в различных областях, включая фиттинг данных и прогнозирование. Хотя LLMs показывают выдающиеся результаты в предсказаниях, существуют значительные проблемы с их устойчивостью к изменениям данных. Такие изменения могут привести к существенно отличающимся результатам, даже если изменения не имеют отношения к основной задаче. Например, простые изменения, такие как изменение имен переменных, могут увеличить ошибку прогноза до 82%. Эта уязвимость не только ограничивает применение LLMs в широких сценариях, но и поднимает вопросы о их надежности в качестве заменителя традиционных методов описания данных. ## Метод Для исследования этой проблемы использовались общего назначения и добавочно обученные LLMs (с использованием in-context learning или супервизированного тренировки). Измерялись показатели устойчивости LLMs к изменениям в представлении данных, включая простые изменения, такие как переименование переменных. Также проводилось рассмотрение внутренней архитектуры LLMs, в том числе исследования влияния позиций примеров и переменных внутри продвижения на скорость и точность генерации прогнозов. ## Результаты Исследования показали, что LLMs быстро вносят изменения в прогнозы в ответ на полностью несущественные для задачи изменения в данных. Например, процент ошибки прогноза может меняться до 82% при переименовании переменных. Эти изменения не относятся к основному обучению или анализу данных, но нарушают устойчивость прогнозов LLMs. Была также выявлена неоднородная модель внимания: некоторые переменные и примеры получают больше внимания при формировании прогнозов, даже в случае, когда это не имеет никакого отношения к задаче. Доказано, что эта уязвимость присутствует как в базовых LLMs, так и в фундаментальных моделях для задач фиттинга данных. ## Значимость Полученные результаты подчеркивают значимость улучшения устойчивости LLMs к подобным изменениям. Это необходимо для их применения в серьезных задачах, таких как фиттинг данных в моделях прогнозов. Улучшение устойчивости может повысить доверие к LLMs в таких областях, как финансы, здравоохранение и технические приложения. Более устойчивые модели LLMs могут стать более надежными инструментами для принятия решений на основе данных. ## Выводы Несмотря на выдающиеся преимущества LLMs в предсказании, они не достигают необходимой устойчивости для применения в задачах фиттинга данных. Для решения этой проблемы необходимо разработать методы, которые сделают LLMs более устойчивыми к изменениям в данных, которые не имеют отношения к задаче. Будущие исследования должны фокусироваться на решении этой проблемы, а также на развитии моделей

Annotation:

Large Language Models (LLMs) are being applied in a wide array of settings, well beyond the typical language-oriented use cases. In particular, LLMs are increasingly used as a plug-and-play method for fitting data and generating predictions. Prior work has shown that LLMs, via in-context learning or supervised fine-tuning, can perform competitively with many tabular supervised learning techniques in terms of predictive performance. However, we identify a critical vulnerability of using LLMs for ...

ID: 2508.19563v2 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 Just Because You Can, Doesn't Mean You Should: LLMs for Data Fitting

2025-08-29

Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

## Контекст Large Language Models (LLMs) становятся все более популярными во всех областях применения, включая задачи не связанных с языком. Одним из таких применений является использование LLMs для данных подготовки и предсказания. Несмотря на их внеграфические возможности, LLMs не являются идеальными для таких задач. Например, изменение данных, которые не имеют отношения к задаче, может вносить существенные изменения в прогнозы LLMs. Этот вопрос требует детального изучения, чтобы понять, как LLMs обрабатывают данные и как это влияет на их прогнозы. ## Метод Для изучения этой проблемы, авторы проводят подробный анализ работы LLMs на примерах данных. Они изучают, как LLMs воспринимают и интерпретируют данные, особое внимание уделяется проблемам, связанным с несбалансированным вниманием к определенным частям данных. Авторы также исследуют, как определенные внесенные изменения в данных могут повлиять на прогнозы LLMs, даже когда эти изменения не имеют отношения к задаче. ## Результаты Исследования показали, что LLMs нередко оказываются чувствительными к изменениям данных, которые не имеют отношения к задаче. Например, простое изменение имён переменных может изменить ошибку прогноза на 82%. Анализ акцентов (attention scores) открытого типа LLM показал, что он неравномерно реагирует на различные части входных данных, даже когда это не должно происходить. Также было изучено специально разработанное для данных формирования TabPFN-система, но даже она не оказалась особенно устойчивой к таким изменениям. ## Значимость Полученные результаты имеют значительное значение для различных областей, в которых используются LLM для формирования данных. Особенно важно для систем, где точность прогнозов критична, таких как финансы, медицина и исследования. Использование LLMs для таких приложений может привести к ошибкам, если не будет приняты меры по улучшению их устойчивости. ## Выводы LLMs показывают великолепную подавляющую мощь и гибкость в обработке текста. Однако, когда применяются для формирования данных, они становятся чувствительными к изменениям, влияющим на прогнозы, даже если эти изменения не имеют отношения к задаче. Этот механизм требует дальнейшего рассмотрения и улучшения. Будущие исследования должны фокусироваться на улучшении устойчивости LLMs к задачу непосредственного прогнозирования.

Annotation:

ID: 2508.19563v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF