📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing

2025-12-04

Авторы:

Shuvom Sadhuka, Drew Prinster, Clara Fannjiang, Gabriele Scalia, Aviv Regev, Hanchen Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Agentic AI systems execute a sequence of actions, such as reasoning steps or tool calls, in response to a user prompt. To evaluate the success of their trajectories, researchers have developed verifiers, such as LLM judges and process-reward models, to score the quality of each action in an agent's trajectory. Although these heuristic scores can be informative, there are no guarantees of correctness when used to decide whether an agent will yield a successful output. Here, we introduce e-valuato...

ID: 2512.03109v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 Multi-task neural diffusion processes for uncertainty-quantified wind power prediction

2025-10-08

Авторы:

Joseph Rawson, Domniki Ladopoulou, Petros Dellaportas

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Uncertainty-aware wind power prediction is essential for grid integration and reliable wind farm operation. We apply neural diffusion processes (NDPs)-a recent class of models that learn distributions over functions-and extend them to a multi-task NDP (MT-NDP) framework for wind power prediction. We provide the first empirical evaluation of NDPs in real supervisory control and data acquisition (SCADA) data. We introduce a task encoder within MT-NDPs to capture cross-turbine correlations and enab...

ID: 2510.03419v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 Robustness is Important: Limitations of LLMs for Data Fitting

2025-09-01

Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

## Контекст Large Language Models (LLMs), изначально разработанные для языковых задач, недавно начали применяться в различных областях, включая фиттинг данных и прогнозирование. Хотя LLMs показывают выдающиеся результаты в предсказаниях, существуют значительные проблемы с их устойчивостью к изменениям данных. Такие изменения могут привести к существенно отличающимся результатам, даже если изменения не имеют отношения к основной задаче. Например, простые изменения, такие как изменение имен переменных, могут увеличить ошибку прогноза до 82%. Эта уязвимость не только ограничивает применение LLMs в широких сценариях, но и поднимает вопросы о их надежности в качестве заменителя традиционных методов описания данных. ## Метод Для исследования этой проблемы использовались общего назначения и добавочно обученные LLMs (с использованием in-context learning или супервизированного тренировки). Измерялись показатели устойчивости LLMs к изменениям в представлении данных, включая простые изменения, такие как переименование переменных. Также проводилось рассмотрение внутренней архитектуры LLMs, в том числе исследования влияния позиций примеров и переменных внутри продвижения на скорость и точность генерации прогнозов. ## Результаты Исследования показали, что LLMs быстро вносят изменения в прогнозы в ответ на полностью несущественные для задачи изменения в данных. Например, процент ошибки прогноза может меняться до 82% при переименовании переменных. Эти изменения не относятся к основному обучению или анализу данных, но нарушают устойчивость прогнозов LLMs. Была также выявлена неоднородная модель внимания: некоторые переменные и примеры получают больше внимания при формировании прогнозов, даже в случае, когда это не имеет никакого отношения к задаче. Доказано, что эта уязвимость присутствует как в базовых LLMs, так и в фундаментальных моделях для задач фиттинга данных. ## Значимость Полученные результаты подчеркивают значимость улучшения устойчивости LLMs к подобным изменениям. Это необходимо для их применения в серьезных задачах, таких как фиттинг данных в моделях прогнозов. Улучшение устойчивости может повысить доверие к LLMs в таких областях, как финансы, здравоохранение и технические приложения. Более устойчивые модели LLMs могут стать более надежными инструментами для принятия решений на основе данных. ## Выводы Несмотря на выдающиеся преимущества LLMs в предсказании, они не достигают необходимой устойчивости для применения в задачах фиттинга данных. Для решения этой проблемы необходимо разработать методы, которые сделают LLMs более устойчивыми к изменениям в данных, которые не имеют отношения к задаче. Будущие исследования должны фокусироваться на решении этой проблемы, а также на развитии моделей

Annotation:

Large Language Models (LLMs) are being applied in a wide array of settings, well beyond the typical language-oriented use cases. In particular, LLMs are increasingly used as a plug-and-play method for fitting data and generating predictions. Prior work has shown that LLMs, via in-context learning or supervised fine-tuning, can perform competitively with many tabular supervised learning techniques in terms of predictive performance. However, we identify a critical vulnerability of using LLMs for ...

ID: 2508.19563v2 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF

📄 Just Because You Can, Doesn't Mean You Should: LLMs for Data Fitting

2025-08-29

Авторы:

Hejia Liu, Mochen Yang, Gediminas Adomavicius

## Контекст Large Language Models (LLMs) становятся все более популярными во всех областях применения, включая задачи не связанных с языком. Одним из таких применений является использование LLMs для данных подготовки и предсказания. Несмотря на их внеграфические возможности, LLMs не являются идеальными для таких задач. Например, изменение данных, которые не имеют отношения к задаче, может вносить существенные изменения в прогнозы LLMs. Этот вопрос требует детального изучения, чтобы понять, как LLMs обрабатывают данные и как это влияет на их прогнозы. ## Метод Для изучения этой проблемы, авторы проводят подробный анализ работы LLMs на примерах данных. Они изучают, как LLMs воспринимают и интерпретируют данные, особое внимание уделяется проблемам, связанным с несбалансированным вниманием к определенным частям данных. Авторы также исследуют, как определенные внесенные изменения в данных могут повлиять на прогнозы LLMs, даже когда эти изменения не имеют отношения к задаче. ## Результаты Исследования показали, что LLMs нередко оказываются чувствительными к изменениям данных, которые не имеют отношения к задаче. Например, простое изменение имён переменных может изменить ошибку прогноза на 82%. Анализ акцентов (attention scores) открытого типа LLM показал, что он неравномерно реагирует на различные части входных данных, даже когда это не должно происходить. Также было изучено специально разработанное для данных формирования TabPFN-система, но даже она не оказалась особенно устойчивой к таким изменениям. ## Значимость Полученные результаты имеют значительное значение для различных областей, в которых используются LLM для формирования данных. Особенно важно для систем, где точность прогнозов критична, таких как финансы, медицина и исследования. Использование LLMs для таких приложений может привести к ошибкам, если не будет приняты меры по улучшению их устойчивости. ## Выводы LLMs показывают великолепную подавляющую мощь и гибкость в обработке текста. Однако, когда применяются для формирования данных, они становятся чувствительными к изменениям, влияющим на прогнозы, даже если эти изменения не имеют отношения к задаче. Этот механизм требует дальнейшего рассмотрения и улучшения. Будущие исследования должны фокусироваться на улучшении устойчивости LLMs к задачу непосредственного прогнозирования.

Annotation:

ID: 2508.19563v1 cs.LG, cs.AI, stat.AP, stat.ML

arXiv PDF