📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Causal-Symbolic Meta-Learning (CSML): Inducing Causal World Models for Few-Shot Generalization

2025-09-18

Авторы:

Mohamed Zayaan S

## Контекст Modern deep learning models отличаются сильным увлечением за спуриозными корреляциями, что приводит к низкому уровню общезначимости и к необходимости подготовки огромных выборок данных. Это ограничение особенно чувствительно в ситуациях, где необходима высокая производительность, а данных для обучения недостаточно. Одна из ключевых причин этого ограничения заключается в отсутствии понимания причинно-следственных связей в этих моделях. Чтобы избежать этих проблем, необходимо развитие моделей, которые могут учитывать причинно-следственные связи и использовать их для вывода и понимания. В настоящей работе мы предлагаем **Causal-Symbolic Meta-Learning (CSML)**, новую архитектуру, которая способна выявлять и использовать причинно-следственные структуры для мета-обучения. CSML объединяет модули перцепции, ориентированные на извлечение символических представлений, модули разбора причинно-следственных связей и модули логического рассуждения для точного прогнозирования. Эта архитектура позволяет CSML быстро адаптироваться к новым задачам, включая те, которые требуют анализа интервенций и кантов, даже при ограниченных данных. Мы вводим новый бенчмарк CausalWorld, который позволяет протестировать эти улучшения. ## Метод **Causal-Symbolic Meta-Learning** состоит из трех основных модулей. **Перцепционный модуль** выполняет разбор входных данных и их преобразование в символические представления. **Модуль разбора причинно-следственных связей** устанавливает причинно-следственные связи между символами, используя методы оптимизации, которые позволяют градиентно выявлять структуру причинно-следственных сетей. **Модуль логического рассуждения** использует эту структуру для прогнозирования и решения задач. CSML работает в среде мета-обучения, где он учитывает разнообразные задачи и изучает причинно-следственные связи, которые могут быть применены к новым задачам. Новый бенчмарк CausalWorld позволяет протестировать модель в условиях взаимодействия с физическими силами и вывода причинно-следственных связей. ## Результаты Мы провели эксперименты на синтетических и реальных данных, включая CausalWorld, и сравнили CSML с текущими моделями мета-обучения и нейро-символическими моделями. Наши результаты показывают, что CSML значительно превосходит существующие подходы в мета-обучении на разных задачах, в том числе тех, которые требуют анализа причинно-следственных связей. Модель показала высокую точность и устойчивость при малом количестве обучающих данных. ## Значимость CSML может быть применено в различных областях, включая робототехнику, игры и обработку естественного языка. Он предлагает следующие преиму

Annotation:

Modern deep learning models excel at pattern recognition but remain fundamentally limited by their reliance on spurious correlations, leading to poor generalization and a demand for massive datasets. We argue that a key ingredient for human-like intelligence-robust, sample-efficient learning-stems from an understanding of causal mechanisms. In this work, we introduce Causal-Symbolic Meta-Learning (CSML), a novel framework that learns to infer the latent causal structure of a task distribution. C...

ID: 2509.12387v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Single-stream Policy Optimization

2025-09-18

Авторы:

Zhongwen Xu, Zihan Ding

## Контекст Политические оптимизации служат основополагающим методам для обучения бо LARGE LANGUAGE MODELS (LLMs). Однако существующие подходы, такие как GRPO, сталкиваются с рядом проблем. Например, использование на-лету базисных значений позволяет снизить дисперсию, но часто приводит к вырожденным группам, которые лишаются обучающих сигналов. Более того, синхронизационные барьеры мешают масштабированию этих методов, особенно в сценариях, где размер батча или длина генерации варьируется. Эти ограничения приводят к затуханию обучающих сигналов и снижению эффективности. Однако возрастающий интерес к LLMs в задачах, таких как принятие решений, логическое моделирование и инструментальное развитие, подчеркивает необходимость эффективных, масштабируемых и устойчивых политических оптимизаций. Таким образом, необходим подход, который избавится от этих ограничений и обеспечит более стабильный и эффективный процесс обучения. ## Метод Мы предлагаем **Single-stream Policy Optimization (SPO)**, который представляет собой новый подход к политической оптимизации для LLMs. SPO заменяет на-лету базисные значения на постоянный, адаптивный треккер величины KL. Этот треккер гарантирует низкую дисперсию в представлении приближения, нормализовав приближения в соответствии с глобальными стандартами за один проход. Он также устраняет синхронизационные барьеры, позволяя работать с большими батчами и длинными генерационными задачами. Используя постоянную трассировку величины, SPO также включает в себя принцип адаптивной курсивизации, что позволяет приоритетно выбирать образцы в задачах обучения. Вычислительная эффективность SPO достигается благодаря его модульной архитектуре, которая отказывается от ненужных групповых структур и внедряет принципы глобального нормалирования. ## Результаты Мы проверили SPO на Qwen3-8B, тестируя его на пяти сложных задачах математики. SPO показал более сглаженный спуск и вышеуровневые результаты по отношению к GRPO. Например, на BRUMO 25 он повысил average maj@32 на +3.4 pp, на AIME 25 на +4.4 pp, на HMMT 25 на +3.3 pp. Эти результаты были поддержаны значительными повышениями в pass@$k$, показывая его эффективность в сложных сценариях. Эти результаты также подтверждают, что SPO превосходит GRPO не только в высоком масштабировании, но и в стабильности обучения. Благодаря исключению вырожденных групп и эффективной нормализации, SPO обеспечивает более надежное и высокопоточное тренирование по сравнению с существующими методами. ## Значимость SPO может быть применен в различных обла

Annotation:

We revisit policy-gradient optimization for Large Language Models (LLMs) from a single-stream perspective. Prevailing group-based methods like GRPO reduce variance with on-the-fly baselines but suffer from critical flaws: frequent degenerate groups erase learning signals, and synchronization barriers hinder scalability. We introduce Single-stream Policy Optimization (SPO), which eliminates these issues by design. SPO replaces per-group baselines with a persistent, KL-adaptive value tracker and n...

ID: 2509.13232v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 FACTORS: Factorial Approximation for Complementary Two-factor Optimization with Risk-aware Scoring

2025-09-17

Авторы:

Dongseok Kim, Wonjun Jeong, Gisung Oh

## Контекст В современной области оптимизации характеристик информационных систем возникают сложности при учете множества интересующих факторов, которые влияют на поведение и производительность. Одним из главных задач в этой области является нахождение корректных способов оценки позиций, исходя из данных, которые могут быть неполными или несогласованными. Дополнительные ограничения возникают при наличии неопределенностей в данных или когда требуется учитывать риски при оценке. Фреймворк FACTORS (Factorial Approximation for Complementary Two-factor Optimization with Risk-aware Scoring) предлагает решение этих проблем. ## Метод FACTORS сочетает методы экспериментального проектирования с применением декомпозиции Shapley для оценки характеристик факторов, влияющих на результат. Основные эффекты и взаимодействия между факторами осуществляются на двух разных путях: путем усредненных оценок (plug-in) и методом минимизации квадратов (least-squares). Эти подходы работают взаимозаменяемо, даже когда данные имеют разные уровни точности и несогласованности. Фреймворк также включает меру ошибки, коррекцию значений и оценку неопределенности. Он позволяет уменьшить риски и обеспечить устойчивую оптимизацию, даже при ограниченных бюджетных ресурсах. ## Результаты Фактические эксперименты показали, что FACTORS эффективно решает задачу оптимизации в различных условиях, в том числе при неопределенности и высоких рисках. За счёт характеристик доверительных интервалов, включенных в фреймворк, он обеспечивает более точную оценку и выбор конфигураций, даже в случае небольших данных. Это демонстрируется на разных данных и условиях, где FACTORS показывает оптимальные результаты в сравнении с другими существующими методами. ## Значимость FACTORS может быть применен в различных областях, таких как интеллектуальный анализ данных, адаптивная системная оптимизация и работа с нестабильными системами. Он предлагает выгоды в том, что обеспечивает более стабильные результаты, а также повышает уровень уверенности в выборе конфигураций. Помимо этого, FACTORS может быть использован в технологиях машинного обучения, когда необходимо учитывать неопределенность в данных. ## Выводы FACTORS представляет собой эффективный фреймворк для оптимизации с учетом неопределенности и рисков. Он позволяет повысить точность в выборе конфигураций, обеспечить устойчивость результатов и уменьшить время работы поиска оптимальных параметров. Будущими направлениями исследований могут стать расширение методов оценки не только двух факторов, но и многих факторов взаимодействий, а также расширение применения FACTORS в различных сферах, где необходима

Annotation:

We propose FACTORS, a framework that combines design of experiments with Shapley decomposition to address performance and stability issues that are sensitive to combinations of training factors. Our approach consistently estimates main effects and two-factor interactions, then integrates them into a risk-adjusted objective function that jointly accounts for uncertainty and cost, enabling reliable selection of configurations under a fixed budget. Effect estimation is implemented through two compl...

ID: 2509.10825v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 STRIDE: Subset-Free Functional Decomposition for XAI in Tabular Settings

2025-09-16

Авторы:

Chaeyun Ko

## Контекст Объяснение решений машинного обучения (eXplainable AI, XAI), особенно в задачах с табулярными данными, представляет собой ключевую проблему в AI. Существующие фреймворки часто ограничены в своей способности показать "как" функции взаимодействуют друг с другом. Это проблема приводит к ситуации, когда пользователи моделей могут понять "что" функции важны, но не понимают "как" они взаимодействуют. Это усложняет понимание моделей и их доверие. Для решения этой проблемы требуется метод, который может эффективно анализировать взаимодействия функций без громоздких вычислений. ## Метод STRIDE (Subset-Free Functional Decomposition) предлагает новую методологию для XAI, основанную на Reproducing Kernel Hilbert Space (RKHS). Он аналитически декомпозирует функциональные компоненты модели, используя рекурсивный процесс центрирования ядер. Этот подход устраняет необходимость в переборе подмножеств (subset enumeration), что приводит к эффективности. Метод является модельно-независимым и опирается на теоретические результаты, такие как гомотетичность и L^2-сходимость. STRIDE также вводит "компонентную хирургию", позволяющую выявлять и измерять вклад отдельных взаимодействий в модель. ## Результаты Эксперименты проводились на 10 табулярных датасетах с повторениями по 10 семантическим семям. STRIDE демонстрирует 3.0-кратный ускорение по сравнению с TreeSHAP в среднем, а также достигает среднего R^2=0.93 для реконструкции, что указывает на высокую точность. Также был проведен эксперимент "компонентная хирургия", демонстрирующий, что удаление одного взаимодействия может значительно изменить значение R^2, что подтверждает эффективность разбора взаимодействий. ## Значимость STRIDE может использоваться в различных областях, где требуется понимание решений моделей, таких как финансы, здравоохранение и агротехника. Метод предоставляет более глубокий взгляд на взаимодействия функций, чем существующие подходы, и позволяет пользователям доверять решениям моделей. Его высокая скорость и точность делают его привлекательным для реального применения. ## Выводы STRIDE предлагает новую архитектуру для XAI, эффективно разбирающую взаимодействия в табулярных моделях без перебора подмножеств. Он показывает свою эффективность в реальных данных и имеет значительный потенциал для улучшения доверия к AI. Будущие работы будут направлены на расширение STRIDE для других типов данных и моделей, а также на повышение его точности и скорости.

Annotation:

Most explainable AI (XAI) frameworks are limited in their expressiveness, summarizing complex feature effects as single scalar values \phi_i. This approach answers "what" features are important but fails to reveal "how" they interact. Furthermore, methods that attempt to capture interactions, like those based on Shapley values, often face an exponential computational cost. We present STRIDE, a scalable framework that addresses both limitations by reframing explanation as a subset-enumeration-fre...

ID: 2509.09070v2 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 STRIDE: Scalable and Interpretable XAI via Subset-Free Functional Decomposition

2025-09-13

Авторы:

Chaeyun Ko

## Контекст Сложность объяснения работы искусственного интеллекта (XAI) заключается в увеличении экспоненциальной сложности при осмыслении взаимодействий между входными переменными и выходными значениями модели. Общие подходы XAI, такие как SHAP или LIME, сталкиваются с проблемами, такими как высокая сложность вычислений при рассмотрении множественных подмножеств признаков и компромисс между выразительностью и скоростью. Эти ограничения приводят к необходимости разработки более эффективных и интерпретируемых методов объяснения. ## Метод STRIDE (Scalable and Interpretable XAI via Subset-Free Functional Decomposition) предлагает разделение вклада каждого признака в модель на аналитические компоненты, используя схему ряда Фурье в Reproducing Kernel Hilbert Space (RKHS). Вместо перебора подмножеств, STRIDE использует ориентированный на переменные подход, позволяющий выделять значимые взаимодействия. Эта модель агностична к модели, на основе которой проводится анализ, и обеспечивает как локальные, так и глобальные объяснения. В своей теоретической основе STRIDE основывается на теоремах о топологии, которые поддерживают целостность и точность результатов. ## Результаты В ходе экспериментов на 10 различных табличных датасетах STRIDE демонстрировала высокую точность по сравнению с другими методами XAI. Для оценки вычислительной эффективности показаны скорости расчетов и достигнутое согласие в результатах. Например, на датасете "California Housing" конкурирующие методы работали медленнее, тогда как STRIDE демонстрировала ускорение до 9.7 раз. Была достигнута высокая точность в диапазоне R² от 0.81 до 0.999, а также обнаружены новые возможности диагностики, таких как "компонентное оперирование", для точного измерения вклада конкретных интеракций. ## Значимость STRIDE предлагает новый подход к объяснению работы моделей, который устраняет необходимость в переборе подмножеств признаков, обеспечивая более эффективную работу и высокую точность. Этот метод может быть применен в широком круге областей, включая финансы, медицину и охрану окружающей среды. Он предоставляет новые средства для диагностики моделей, позволяя увидеть, как изменения в определенных интеракциях влияют на результат. Это может помочь сократить время на верификацию и улучшить надежность работы моделей в реальных условиях. ## Выводы STRIDE представляет собой более эффективный и интерпретируемый подход к XAI, который удаляет необходимость в переборе подмножеств признаков и обеспечивает новые возможности диагностики. Он доказал высокую точность и скорость, даже при работе с большими датасетами. Будущие исследования будут сконцентрированы на расширении STRIDE в

Annotation:

Most explainable AI (XAI) frameworks face two practical limitations: the exponential cost of reasoning over feature subsets and the reduced expressiveness of summarizing effects as single scalar values. We present STRIDE, a scalable framework that aims to mitigate both issues by framing explanation as a subset-enumeration-free, orthogonal functional decomposition in a Reproducing Kernel Hilbert Space (RKHS). Rather than focusing only on scalar attributions, STRIDE computes functional components ...

ID: 2509.09070v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

2025-09-12

Авторы:

Christo Mathew, Wentian Wang, Jacob Feldman, Lazaros K. Gallos, Paul B. Kantor, Vladimir Menkov, Hao Wang

#### Контекст Область исследования, связанная с метрологией искусственного интеллекта (AI), становится все более актуальной в связи с потребностью в методах эффективной оценки и понимания работы AI-систем. Одним из ключевых аспектов является разработка моделей, которые способны работать в условиях неполноты информации и неопределенности. Одна из таких моделей — игра Hidden Rule Environments (GOHR), в которой агент должен выявить неизвестные правила и применить их для решения задачи. Эта проблема отражает реальные ситуации, где системам необходимо извлекать знания из неполных данных и изучать политики действий в реальном времени. Задача GOHR является интересной для исследования, так как она симулирует сложные задачи реального мира, требующие высокого уровня интеллектуальных навыков. #### Метод Для изучения этой задачи была разработана архитектура, основанная на алгоритме Reinforcement Learning с использованием Transformer-based Advantage Actor-Critic (A2C). Агент обучается в условиях неполных наблюдений и должен одновременно выявить правила, регулирующие игру, и найти оптимальную политику действий. Для представления состояния использовались два подхода: Feature-Centric (FC) и Object-Centric (OC). Эти методы отличаются способом формирования представления окружающего мира для агента. Тренировочный процесс был проведен в условиях различных сценариев, включая использование различных правил и ситуаций, чтобы протестировать гибкость и эффективность разных представлений состояния. Эта архитектура позволяет изучать, как агент изучает неизвестные правила и применяет их в разных ситуациях. #### Результаты В ходе экспериментов были проанализированы различные представления состояний и правила, что позволило изучить эффективность разных подходов. Был проверен эффект перехода из одного представления в другое, чтобы оценить гибкость модели. Было выявлено, что Object-Centric представление позволяет достичь лучших результатов в ситуациях, где требуется более высокий уровень интеллектуальных навыков. Были также оценены влияние размера данных, времени обучения и других параметров на то, насколько быстро и точно агент узнает правила и применяет их в игре. Эти результаты демонстрируют возможность модели для решения сложных задач, требующих высокого уровня представления и обучения. #### Значимость Результаты этого исследования могут быть применены в различных областях, где необходимо применение AI для решения задач в условиях неполноты информации и неопределенности. Например, в сфере робототехники, игровой индустрии, или даже в области биологии, где необходимо выявлять закономерности и принимать решения на основе неполных данных. Благодаря использованию сло

Annotation:

We investigate reinforcement learning in the Game Of Hidden Rules (GOHR) environment, a complex puzzle in which an agent must infer and execute hidden rules to clear a 6$\times$6 board by placing game pieces into buckets. We explore two state representation strategies, namely Feature-Centric (FC) and Object-Centric (OC), and employ a Transformer-based Advantage Actor-Critic (A2C) algorithm for training. The agent has access only to partial observations and must simultaneously infer the governing...

ID: 2509.06213v2 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 No-Knowledge Alarms for Misaligned LLMs-as-Judges

2025-09-12

Авторы:

Andrés Corrada-Emmanuel

#### Контекст В последние годы искусственная интеллектуальная система, такая как Large Language Models (LLMs), набирают всё большую популярность в различных сферах, включая моделирование сложных решений. Однако, когда LLMs используются в качестве судей для оценки решений других моделей, возникает проблема мониторинга этих судей. Если нет доступа к истинным ответам на задачи, невозможно гарантировать, что судьи точно оценивают решения. Это приводит к потечению доверия к цепочкам мониторинга, которые могут стать бесконечными. Одним из способов уменьшить неопределенность в оценке является использование логической согласованности между несогласными судьями. Опираясь на выявленные несоответствия, можно вычислить возможные эталонные оценки возможностей оценки этих моделей. #### Метод Для решения этой проблемы предлагается методология, основанная на логическом анализе диспутов между моделями. Алгоритм использует технику линейного программирования, которая позволяет вычислить возможные варианты точности оценки на основе расхождений в решениях. Эта модель может работать со всеми типами логических задач и не требует доступа к истинным ответам. Тестирование проводится на отдельных задачах, где модели-судьи выдают ответы на вопросы, а затем проводится анализ расхождений в их ответах. Для этого разрабатывается программа, которая может выявить несоответствия в оценках, даже если некоторые модели могут иметь высокую долеуверенность в своих ответах. #### Результаты Исследование проводилось на наборе тестовых данных, представляющих собой множество задач, оцениваемых разными моделями-судьями. Данные включили разные типы задач, начиная от простых слов до сложных историй. В результате, программа могла выявлять логические противоречия в ответах моделей-судьей, не требуя доступа к истинному ответу. Эта модель демонстрирует способность обнаруживать ошибки в оценках судьями, даже когда они имеют высокую уверенность в своих ответах. Это, в свою очередь, способствует созданию более надежной системы мониторинга без доверия к истинному ответу. #### Значимость Результаты этой работы могут иметь значительное значение в области мониторинга и использования LLMs в сложных задачах. Они могут использоваться в сферах, где необходимо убедиться в правильности решений, например в области отбора персонала, оценки медицинских решений, или даже в юридических системах. Преимущество этой модели заключается в том, что она может обнаруживать логические противоречия с помощью логического анализа, а не на основе доступа к истинным ответам. Потенциально, эта модель может сущест

Annotation:

If we use LLMs as judges to evaluate the complex decisions of other LLMs, who or what monitors the judges? Infinite monitoring chains are inevitable whenever we do not know the ground truth of the decisions by experts and we do not want to trust them. One way to ameliorate our evaluation uncertainty is to exploit the use of logical consistency between disagreeing experts. By observing how LLM judges agree and disagree while grading other LLMs, we can compute the only possible evaluations of thei...

ID: 2509.08593v1 cs.AI, stat.ML, 90C05, 68T27, I.2.3; F.4.1

arXiv PDF

📄 Toward a Metrology for Artificial Intelligence: Hidden-Rule Environments and Reinforcement Learning

2025-09-10

Авторы:

Christo Mathew, Wentian Wang, Lazaros Gallos, Paul Kantor, Vladimir Menkov, Hao Wang

#### Контекст Исследование фундаментальных аспектов метрологии для искусственного интеллекта (ИИ) является ключевым направлением в развитии этого направления. Одна из проблем заключается в необходимости понятия метрики, которая могла бы оценивать эффективность ИИ в структурированных, но неточно определенных средах. Одним из таких сред является **Game Of Hidden Rules (GOHR)**, где агент должен выяснить и выполнить скрытые правила для успешного очищения платы. Проблема заключается в том, что готовые решения отсутствуют, и агенту необходимо применять универсальный подход к обучению, основываясь на частичных наблюдениях. Это делает GOHR важной моделью для изучения логики, способности адаптироваться и решать проблемы в сложных и неопределенных средах. #### Метод Чтобы оценить ИИ в GOHR, авторы применяют **Transformer-based Advantage Actor-Critic (A2C)** алгоритм с двумя стратегиями представления состояния: **Feature-Centric (FC)** и **Object-Centric (OC)**. Агент имеет только частичные наблюдения и должен осуществлять параллельное выяснение правил и изучение оптимальной стратегии решения задачи. Такой подход позволяет изучить, насколько эффективно ИИ может работать в условиях неполной информативности и как два разных представления данных влияют на обучение. Эксперименты проводятся в разных условиях, включая правила и списки задач. #### Результаты Результаты экспериментов показывают, что агент на основе FC более эффективен в сценариях с небольшим числом правил и меньшего количества испытаний. Однако OC-агент показывает лучшую стабильность и гибкость при увеличении сложности задачи. Это указывает на то, что оба представления имеют свои преимущества и недостатки, зависящие от специфики задачи. Таким образом, FC работает лучше в простых сценариях, тогда как OC демонстрирует преимущества в значительно более сложных задачах. #### Значимость Результаты имеют значительное значение для развития метрологии в ИИ, особенно в сфере улучшения способности ИИ к обучению с рефлексией и самокоррекции. Приложения могут найтися в сложных неупорядоченных средах, где требуется высокая универсальность и адаптация. Это может иметь отношение к системам распознавания речи, робототехнике, автономным вождению и другим областям, где необходимо определять и выполнять неявные правила. #### Выводы Исследование показывает, что обучение в средах с неявными правилами требует универсальных моделей, которые могут применяться к различным сценариям. Несмотря на то, что оба представления данных показали эффективность, они имеют различные сильные и слабые стороны. Будущие исследования должны сформировать более общую стратегию, которая бы у

Annotation:

ID: 2509.06213v1 cs.LG, cs.AI, stat.ML

arXiv PDF

📄 RAGuard: A Novel Approach for in-context Safe Retrieval Augmented Generation for LLMs

2025-09-06

Авторы:

Connor Walker, Koorosh Aslansefat, Mohammad Naveed Akram, Yiannis Papadopoulos

## Контекст Оффшорные ветроэнергетические станции являются критически важной частью современной энергетической системы. Однако их эффективное обслуживание и обслуживание требуют высокой точности и надежности, в том числе при работе с ситуациями, требующими специализированных знаний. Большинство существующих БоLargе Language Models (LLMs) не справляются с такими специфичными ситуациями, особенно когда речь идет о безопасности и контекстной актуальности. Это приводит к потенциальным ошибкам, которые могут привести к катастрофическим последствиям. Мотивирует это место внимания не только на технической, но и на безопасности, особенно в критически важных областях. ## Метод RAGuard представляет собой расширенную систему Retrieval-Augmented Generation (RAG), которая активно интегрирует специализированные документы по безопасности вместе с техническими материалами. Оно использует две отдельные индексации — для знаний и для безопасности — и выпускает две параллельные запросы, чтобы обеспечить глубокий технический анализ и гарантию безопасности. Для усиления безопасности вводится SafetyClamp, который расширяет поисковый запрос, "жестко фиксируя" гарантии безопасности в результате поиска. Такая архитектура обеспечивает комплексный подход к обеспечению технической и безопасности в критически важных задачах. ## Результаты Проведенные эксперименты показали, что RAGuard значительно повышает безопасность и точность в сравнении с традиционными RAG-системами. Например, Safety Recall@K, который изначально составлял почти 0% в традиционных RAG-системах, вырос до более чем 50% при использовании RAGuard, при этом Technical Recall@K оставался выше 60%. Эти результаты демонстрируют, что RAGuard и SafetyClamp могут стать новым стандартом для интеграции безопасности в LLM-системы, особенно в критически важных областях, таких как обслуживание ветроэнергетических станций. ## Значимость RAGuard может быть применено в критически важных сферах, где безопасность и точность являются ключевыми. Это включает не только ветроэнергетику, но и другие критически важные области, такие как генетические исследования, медицина или финансы. Преимущества RAGuard заключаются в его способности обеспечивать верифицированные, широко охватывающие результаты, что уменьшает риск ошибок и повышает надежность. Его потенциал включает в себя создание более безопасных, эффективных и контекстно-зависимых решений для широкого круга приложений. ## Выводы Результаты показывают, что RAGuard является эффективным решением для обеспечения безопасности и точности в LLM

Annotation:

Accuracy and safety are paramount in Offshore Wind (OSW) maintenance, yet conventional Large Language Models (LLMs) often fail when confronted with highly specialised or unexpected scenarios. We introduce RAGuard, an enhanced Retrieval-Augmented Generation (RAG) framework that explicitly integrates safety-critical documents alongside technical manuals.By issuing parallel queries to two indices and allocating separate retrieval budgets for knowledge and safety, RAGuard guarantees both technical d...

ID: 2509.03768v1 cs.AI, stat.ML

arXiv PDF

📄 Parking Availability Prediction via Fusing Multi-Source Data with A Self-Supervised Learning Enhanced Spatio-Temporal Inverted Transformer

2025-09-06

Авторы:

Yin Huang, Yongqi Dong, Youhua Tang, Li Li

## Контекст Проблема нехватки парковочных мест в урбанизированных районах становится все более актуальной в связи с повышающимся уровнем владельца запасных мест. Это не только усложняет жизнь гражданам, но и создает значительную проблему для управления городским транспортом. Удостовериться, что парковочные места доступны при необходимости, может стать ключевым фактором для повышения эффективности городской инфраструктуры. Для решения этой проблемы необходимо правильно формальизовать процесс прогнозирования доступности парковочных мест, основываясь на интеграции разнородных данных. ## Метод Для решения предлагается методология, названная SST-iTransformer. Метод использует K-means кластеризацию для группирования парковочных мест в кластеры, которые далее используются для извлечения интересных характеристик транспортных режимов (метро, автобус, такси, онлайн-заказы такси). Основные усовершенствования предлагаемого подхода заключаются в использовании масочной операции восстановления для обучения с самостоятельной сверткой, а также в разработанном двойном механизме внимания: серийного, который реализует зависимости временных рядов через патчинг, и канального, которое моделирует взаимодействия между различными переменными. ## Результаты Эксперименты проводились на реальных данных из города Чэнду, Китай. На них показана высокая точность прогноза, которая превосходит современные модели, такие как Informer, Autoformer и Crossformer. Использование данных по онлайн-заказам такси дает самый большой прирост в точности, а затем идут данные по такси. Из исследований также следует, что исключение исторических данных связанных парковочных мест в кластерах приводит к существенной потере точности. ## Значимость Предложенный подход может быть применен для оптимизации городской инфраструктуры, поддержания транспортной эффективности и планирования транспортных систем. Он предлагает достоверный, улучшенный способ прогнозирования доступности парковочных мест, который может быть использован в различных сценариях, включая городское управление и транспортную инфраструктуру. ## Выводы Опубликованная работа показывает, что SST-iTransformer представляет собой эффективный инструмент для решения проблемы прогнозирования доступности парковочных мест. Будущие исследования могут концентрироваться на улучшении метода с помощью более сложных моделей и использовании более подробных данных, чтобы повысить его точность и расширить область применения.

Annotation:

The rapid growth of private car ownership has worsened the urban parking predicament, underscoring the need for accurate and effective parking availability prediction to support urban planning and management. To address key limitations in modeling spatio-temporal dependencies and exploiting multi-source data for parking availability prediction, this study proposes a novel approach with SST-iTransformer. The methodology leverages K-means clustering to establish parking cluster zones (PCZs), extra...

ID: 2509.04362v1 cs.LG, cs.AI, stat.ML

arXiv PDF

Показано 91 - 100 из 124 записей