📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Group Fairness Meets the Black Box: Enabling Fair Algorithms on Closed LLMs via Post-Processing

2025-08-19

Авторы:

Ruicheng Xian, Yuxuan Wan, Han Zhao

## Контекст Инструкционно оптимизированные большие языковые модели (LLMs) способны выполнять определенные задачи с помощью простого парадигмы "простая модель - простой ввод", которая позволяет использовать их в качестве скелета для создания моделей предсказаний. Эта гибкость, в сочетании с постоянными улучшениями в силе моделей, делает их универсальными для различных сфер, включая важные приложения, где групповая справедливость -- предотвращение дискриминации между демографическими группами -- является ключевым. Однако, большинство существующих подходов к обеспечению групповой справедливости в моделях на основе LLMs основываются на традиционных методах, таких как моделирование или модификация последних слоёв модели, что не применимо для закрытых моделей управления (closed-weight LLMs), таких как GPT-4 и Gemini, которые не позволяют доступа к внутренним параметрам модели. Мы предлагаем новый подход к обеспечению групповой справедливости в LLMs с помощью опорного вывода (post-processing): LLM используется как функция выделения признаков, а затем применяются специально сконструированные пробы (prompts) для получения информации о признаках, необходимых для обеспечения справедливости, после чего основываются новые методы для обучения моделей справедливости. ## Метод Мы предлагаем фреймворк для обеспечения групповой справедливости в закрытых LLMs, используя пост-обработку (post-processing). Модель LLMs используется как функция выделения признаков, то есть вывод LLM (например, вероятности текстовых токенов) используется для получения данных, которые будут использованы в качестве признаков в функции справедливости. Для этого используются специально построенные пробы (prompts), которые позволяют выделить признаки, необходимые для обеспечения справедливости. Затем эти признаки используются в существующих методах для обучения модели справедливости. Мы также предлагаем новый тип проб, который может быть использован для получения данных для обучения моделей справедливости в закрытых LLMs. ## Результаты Мы проверили наш фреймворк на пяти различных датасетах, включая два табулярных датасета. Мы сравнили наш подход с другими подходами к обеспечению справедливости в LLMs, такими как моделирование и модификация моделей. Наши результаты показали, что наш фреймворк дает значительное улучшение точности моделей и улучшает групповую справедливость в сравнении с другими методами. В частности, у нас вышло лучше, чем модели, обучаемые на слоях модели или напрямую на текстовых данных. ## Значимость Наш подход может быть применен в различных сферах, где групповая справедливость крайне важна, например, в сфере здравоох

Annotation:

Instruction fine-tuned large language models (LLMs) enable a simple zero-shot or few-shot prompting paradigm, also known as in-context learning, for building prediction models. This convenience, combined with continued advances in LLM capability, has the potential to drive their adoption across a broad range of domains, including high-stakes applications where group fairness -- preventing disparate impacts across demographic groups -- is essential. The majority of existing approaches to enforcin...

ID: 2508.11258v1 cs.LG, cs.CL, cs.CY

arXiv PDF

📄 Generalize across Homophily and Heterophily: Hybrid Spectral Graph Pre-Training and Prompt Tuning

2025-08-19

Авторы:

Haitong Luo, Suhang Wang, Weiyao Zhang, Ruiqi Meng, Xuying Meng, Yujun Zhang

## Контекст Графовые модели становятся все более важными для решения проблем в различных областях, таких как социальные сети, биоинформатика и финансы. Однако, многие существующие модели ориентированы на обработку графов с высоким уровнем гомофилии (то есть, сильными взаимосвязями между соседними вершинами с одинаковыми признаками). Это делает их менее эффективными для решения задач на графах с низким уровнем гомофилии или даже с гетерофилией (сильными взаимосвязями между вершинами с разными признаками). Такие ситуации часто встречаются в реальном мире, например, в сетях социальных контактов, где люди могут иметь разные интересы и принадлежать разным сообществам. Недостаток в обработке таких графов с гетерофилией приводит к ограниченной моделированию и предсказанию. Мотивация заключается в том, чтобы разработать модель, которая могла бы одновременно справиться с гомофилией и гетерофилией, обеспечивая более значимые знания и более точные предсказания. ## Метод Мы предлагаем HS-GPPT (Hybrid Spectral Graph Pre-Training and Prompt Tuning), новую архитектуру, которая объединяет принципы широко известных моделей **pre-training** и **prompt-tuning** для улучшения предсказаний на графах. Наша модель использует гибридный спектральный фильтр для формирования основы, что позволяет получить богатый спектральный объем. Мы также используем **локально-глобальный контрастный обучение**, чтобы улучшить модель и выделить важные функции. Для улучшения предсказаний в условиях ограниченного наблюдения, мы разрабатываем **промпты-графы**, которые позволяют лучше выразить задачи и подготовить графы к успешному предсказанию. В своей работе мы также используем **теоретический анализ**, показывающий, как оптимальное предсказание зависит от того, насколько хорошо спектральная фильтрация соответствует интринсической спектральной структуре графа. ## Результаты Мы проводили первые эксперименты на нескольких задачах, включая классификацию вершин и регрессию в графах. Мы использовали **Cora**, **Citeseer** и другие реальные данные, чтобы проверить эффективность нашей модели. Наши результаты показали, что HS-GPPT не только существенно улучшает точность предсказания по сравнению с базовыми моделями, но и показывает хорошую устойчивость в различных условиях, в том числе с графами с высоким уровнем гомофилии, низким уровнем гомофилии и гетерофилией. Эксперименты подтвердили, что наша модель может лучше адаптироваться к различным типам графов за счет точного спектрального знания и метода промпто-тюнинга. ## Значимость HS-GPPT мо

Annotation:

Graph ``pre-training and prompt-tuning'' aligns downstream tasks with pre-trained objectives to enable efficient knowledge transfer under limited supervision. However, existing methods rely on homophily-based low-frequency knowledge, failing to handle diverse spectral distributions in real-world graphs with varying homophily. Our theoretical analysis reveals a spectral specificity principle: optimal knowledge transfer requires alignment between pre-trained spectral filters and the intrinsic spec...

ID: 2508.11328v2 cs.LG, cs.CL

arXiv PDF

📄 Memory-Augmented Transformers: A Systematic Review from Neuroscience Principles to Technical Solutions

2025-08-16

Авторы:

Parsa Omidi, Xingshuai Huang, Axel Laborieux, Bahareh Nikpour, Tianyu Shi, Armaghan Eshaghi

#### Контекст Память является основополагающим элементом интеллекта, обеспечивающим обучение, разумный анализ и адаптацию в обоих биологических и искусственных системах. Хотя Transformer-архитектуры доминируют в задачах моделирования последовательностей, они сталкиваются с значительными ограничениями: неэффективностью в долгосрочной контекстной памяти, неустойчивостью при непрерывном обучении и нехваткой встроенного знания. Эта статья создает совместную модель, объединяющую принципы нейронаучных исследований, такие как динамическое управление многоуровневой памятью, селективное внимание и консолидация, с техническими достижениями в области Memory-Augmented Transformers. Она анализирует инновации в развитии памяти для обеспечения долгосрочного знания и гибкого обучения. #### Метод Научная статья основывается на трех основных осях для систематизации прогресса в области Memory-Augmented Transformers. Во-первых, **целевые функции**, включают расширение контекста, разума, интеграции знаний и адаптацию. Во-вторых, **представления памяти**, такие как параметр-зависимые, состояние-зависимые, явные и смешанные. В-третьих, **механизмы интеграции**, такие как аттенционная слияние, гейт-контроль и ассоциативное восстановление. Авторы рассматривают фундаментальные операции памяти — чтение, запись, забывание и управление емкостью — и отмечают переход от статических к динамическим решениям. Они выявляют тенденции к адаптивным, настраиваемым системам, включая лежинг-возобновляемые методы и сюрприз-гатчированные обновления. #### Результаты Анализ показывает, что новые модели предлагают потрясающие улучшения в памяти, непрерывном обучении и работе с большими объемами данных. Эксперименты демонстрируют, что адаптивные системы с гибкими памятными представлениями превосходят статические модели в задачах, требующих долгосрочной памяти и разума. Например, ключевые результаты показывают, что новые методы, такие как гибридная память и управление вниманием, дают более точные и стабильные результаты в динамических средах. Эксперименты также подтверждают, что переход к динамическим, лежинг-возобновляемым системам открывает возможности для более эффективного обучения и контекстной обработки. #### Значимость Эта модель памяти имеет широкие применения в области глубокого обучения, в том числе в задачах распознавания речи, трансляции и синтеза текста. Она предлагает преимущества в области непрерывного обучения, гибкой адаптации к новым задачам и обработке больших данных. Благодаря своему гибком

Annotation:

Memory is fundamental to intelligence, enabling learning, reasoning, and adaptability across biological and artificial systems. While Transformer architectures excel at sequence modeling, they face critical limitations in long-range context retention, continual learning, and knowledge integration. This review presents a unified framework bridging neuroscience principles, including dynamic multi-timescale memory, selective attention, and consolidation, with engineering advances in Memory-Augmente...

ID: 2508.10824v1 cs.LG, cs.CL

arXiv PDF

📄 From Source to Target: Leveraging Transfer Learning for Predictive Process Monitoring in Organizations

2025-08-13

Авторы:

Sven Weinzierl, Sandra Zilker, Annina Liessmann, Martin Käppel, Weixin Wang, Martin Matzner

## Контекст Процессы бизнес-организаций описываются в event logs, которые отражают поведение и динамику работы. Predictive process monitoring (PPM) преобразует эти данные в ценность, создавая прогнозы, позволяющие принять проактивные меры во время работы процесса. Однако многие организации сталкиваются с проблемой недостатка достаточных данных или ресурсов для применения PPM. Это ограничивает возможность использования этой технологии для поддержки принятия решений. Настоящая статья предлагает новую подходящую технологию, основанную на transfer learning, которая позволяет организациям без достаточных данных использовать PPM для эффективного принятия решений. ## Метод Технология PPM, основанная на transfer learning, предлагает передачу знаний из одного бизнес-процесса в другой. Основной методологией является межбизнес-передача моделей, используя для этого предварительно обученные модели, которые могут быть переупотреблены для прогнозирования в другой организации. Для реализации PPM используется архитектура, включающую несколько слоев, которые позволяют передавать знания и адаптировать модели к новым условиям. Таким образом, модели могут быть использованы в различных организациях без необходимости повторной подготовки отдельных моделей для каждой из них. ## Результаты Чтобы продемонстрировать эффективность нового подхода, проведены эксперименты на двух реальных случаях использования. Event logs, полученные из IT-сервисных процессов в организациях, были использованы для проведения экспериментов. На основе этих данных, были проведены прогнозы, используя модели, переданные из одной организации в другую. Эксперименты показали, что модели, обученные на одном процессе, могут быть эффективно переданы и использованы для прогнозирования другого процесса, даже в разных организациях. Эти результаты указывают на то, что модель может быть использована для PPM в разных контекстах, без необходимости наличия больших объемов данных внутри каждой организации. ## Значимость Технология, описанная в этой статье, может быть применена в различных сценариях, включая области IT-сервиса, финансовых процессов, и других типов организаций. Она предоставляет организациям возможность использовать PPM даже при недостатке данных, позволяя им эффективно прогнозировать интересующие ими процессы. Благодаря transfer learning, модели могут быть переданы и использованы в разных контекстах, что позволяет увеличить эффективность и объем знаний, доступных для принятия решений. Это может привести к значительной экономии ресурсов и повышению точности прогнозирования. ## Выводы Настоящая статья выдвигает новый подход к PPM, который позволяет органи

Annotation:

Event logs reflect the behavior of business processes that are mapped in organizational information systems. Predictive process monitoring (PPM) transforms these data into value by creating process-related predictions that provide the insights required for proactive interventions at process runtime. Existing PPM techniques require sufficient amounts of event data or other relevant resources that might not be readily available, preventing some organizations from utilizing PPM. The transfer learni...

ID: 2508.08061v1 cs.LG, cs.CL, cs.DB

arXiv PDF

📄 Part I: Tricks or Traps? A Deep Dive into RL for LLM Reasoning

2025-08-13

Авторы:

Zihe Liu, Jiashun Liu, Yancheng He, Weixun Wang, Jiaheng Liu, Ling Pan, Xinyu Hu, Shaopan Xiong, Ju Huang, Jian Hu, Shengyi Huang, Siran Yang, Jiamang Wang, Wenbo Su, Bo Zheng

## Контекст Область исследования, связанная с Reinforcement Learning (RL) для Large Language Models (LLM), приобрела важное значение в последние годы. Это связано с необходимостью улучшения логической и решающей способности LLM через техники RL. Однако существуют некоторые проблемы, такие как отсутствие стандартизированных руководств для применения RL в этой области и неполное понимание механизмов, которые влияют на поведение этих моделей. Более того, различия в экспериментальных условиях, несогласованность в тренировочных данных и вариации моделей инициализации приводят к несогласию в результатах, что ограничивает отрасль. Наша работа сосредотачивается на разработке прозрачных и понятных рекомендаций для выбора RL-техник, которые могут быть применены в этой области, а также на создании надежного руководства для практиков, взаимодействующих с ней. ## Метод Методология, разработанная в нашей работе, основывается на подробном изучении и репликации существующих RL-техник в рамках открытого исходного кода. Мы определили стандартные тестовые наборы данных, различные размеры моделей, а также модели архитектуры, чтобы установить однородные условия для экспериментов. Наши эксперименты включали тщательное оценочное тестирование каждой техники на различных уровнях сложности данных, разнообразных моделей LLM, и сравнивали их показатели. Такой подход позволил нам изучить внутренние механизмы каждой техники, понять, какие условия являются оптимальными для их применения, и разработать рекомендации для практического применения. ## Результаты Мы провели многочисленные эксперименты, сравнивая ряд RL-техник, в том числе PPO, GRPO, DAPO и другие, в разных условиях. Наши результаты показали, что оптимальным подходом является комбинация двух методов, которая позволяет оптимизировать обучение без критика в рамках модели PPO. Этот подход не только улучшал результаты, но и демонстрировал значительное превосходство перед другими стратегиями, такими как GRPO и DAPO. Мы также подтвердили, что наше решение значительно улучшает логическую и решающую способность LLM в разных условиях, включая сложные задачи решающего типа. ## Значимость Наши находки имеют значительное значение для области прикладных технологий и теоретического понимания RL для LLM. Эти рекомендации и руководства могут быть применены в различных областях, включая NLP, когнитивные системы и робототехнику. Они предоставляют практикам надежный подход для выбора техник RL, что может ускорить их развитие и применение. Кроме того, наши результаты открывают путь для будущих исследований в этой области, в том числе развития более эффективных алгоритмов решения и расширению понимания в

Annotation:

Reinforcement learning for LLM reasoning has rapidly emerged as a prominent research area, marked by a significant surge in related studies on both algorithmic innovations and practical applications. Despite this progress, several critical challenges remain, including the absence of standardized guidelines for employing RL techniques and a fragmented understanding of their underlying mechanisms. Additionally, inconsistent experimental settings, variations in training data, and differences in mod...

ID: 2508.08221v1 cs.LG, cs.CL

arXiv PDF

📄 Sample-efficient LLM Optimization with Reset Replay

2025-08-12

Авторы:

Zichuan Liu, Jinyu Wang, Lei Song, Jiang Bian

---------------------------------------------------------------------------------------------------------------- ## Контекст ---------------------------------------------------------------------------------------------------------------- На данный момент, широко распространены технологии разработки бо LLM (Large Language Models). Одной из ключевых задач в этой области является улучшение их реагирования на задачи, связанные с разумами, с помощью пост-тренировочных методов. Одним из таких методов является ренфорс (RL), который позволяет улучшить оценки модели в процессе работы. Тем не менее, существуют некоторые проблемы, связанные с этим подходом. Например, высокоскоростное обучение может привести к переобучению к исходному вводу, что повлияет на качество решений и позволит привести к снижению эффективности процесса обучения. Увеличение объема данных, используемых во время обучения, может улучшить качество, но требует больших вычислительных ресурсов. Данный проект предлагает подход, который позволяет улучшить качество моделей, не прибегая к таким ресурсоемким методам. ---------------------------------------------------------------------------------------------------------------- ## Метод ---------------------------------------------------------------------------------------------------------------- Метод, предложенный в данном исследовании, называется Reset Replay (LoRR). Он представляет собой общую и мощную плагин-компоненту, которая может быть использована для повышения эффективности обучения в любом фреймворке, основанном на приоритетах. Ключевая особенность данного подхода заключается в том, что он позволяет не только увеличивать число пере replayer, но также сохранять качество обучения, используя технику периодического сброса сети. Это позволяет модели не останавливаться на промежуточных результатах, а постоянно развиваться. Более того, LoRR использует специальный гибридный функционал, который включает в себя супервизированное оптимизационное целе, что позволяет модели улучшить качество решений на основе более широкого круга данных. ---------------------------------------------------------------------------------------------------------------- ## Результаты ---------------------------------------------------------------------------------------------------------------- Тестирование данного метода проводилось на различных тестовых задачах, включая математические и общие реакции. Выяснилось, что использование LoRR существенно повышает эффективность обучения, особенно в случае ограниченных объемов данных. Например, в работе над задачами математического решения, LoRR увеличивает точность решений, при этом работая с гораздо меньшим количеством итераций. Также, LoRR позволило повысить качество работы моделей в общих задачах, не прибегая к высоким затратам на вычислительные ресурсы. Эти результаты показывают, что данный подход может быть эффективно использован для улучшения работы моделей без необходимости прибегать к дорогостоящим методам. ---------------------------------------------------------------------------------------------------------------- ## Значимость ---------------------------------------------------------------------------------------------------------------- Предложенный подход имеет широкие применения в различных областях, где требуется улучшение моделей с помощью пост-тренировочных методов. Например, он может использоваться в сфере обработки естественного языка, в медицине, в разработке игр, и д

Annotation:

Recent advancements in post-training Large Language Models (LLMs), particularly through Reinforcement Learning (RL) and preference optimization methods, are key drivers for enhancing their reasoning capabilities. However, these methods are often plagued by low sample efficiency and a susceptibility to primacy bias, where overfitting to initial experiences degrades policy quality and damages the learning process. To address these challenges, we introduce LLM optimization with Reset Replay (LoRR),...

ID: 2508.06412v1 cs.LG, cs.CL

arXiv PDF

📄 Language Model Guided Reinforcement Learning in Quantitative Trading

2025-08-09

Авторы:

Adam Darmanin, Vince Vella

**Резюме** В алгоритмическом трейдинге необходимо сбалансировать краткосрочные действия и долгосрочные финансовые цели. Однако reinforcement learning (RL), применяемый для таких задач, страдает от глазастых решений и непонятной политической логики. Модели естественного языка (LLMs), напротив, продемонстрировали способность стратегического мышления и мультимодального анализа финансовых сигналов при правильном протоколе управления. Мы предлагаем систему, в которой LLMs генерируют верхнеуровневые торговые стратегии, а RL-агенты оптимизируют их реализацию. Мы экспериментально проверили (i) логику LLM-стратегий с помощью экспертного анализа и (ii) показатели Sharpe Ratio (SR) и Maximum Drawdown (MDD) LLM-ориентированных агентов по сравнению с неуправляемыми базовыми агентами. Результаты показали значительное повышение результатов в Sharpe Ratio и снижение максимальных оборотных потерь по сравнению с стандартным RL. Это свидетельствует о потенциале LLMs в улучшении традиционных RL-подходов в трейдинге.

Annotation:

Algorithmic trading requires short-term decisions aligned with long-term financial goals. While reinforcement learning (RL) has been explored for such tactical decisions, its adoption remains limited by myopic behavior and opaque policy rationale. In contrast, large language models (LLMs) have recently demonstrated strategic reasoning and multi-modal financial signal interpretation when guided by well-designed prompts. We propose a hybrid system where LLMs generate high-level trading strategie...

ID: 2508.02366v1 cs.LG, cs.CL, q-fin.TR, I.2.7; I.2.6; J.4

arXiv PDF

📄 Understanding the Embedding Models on Hyper-relational Knowledge Graph

2025-08-09

Авторы:

Yubo Wang, Shimin Di, Zhili Wang, Haoyang Li, Fei Teng, Hao Xin, Lei Chen

Задача: Развитие и адаптация моделей для гипер-реляционных знаний (Hyper-relational Knowledge Graphs, HKGs), которые расширяют классические Knowledge Graphs (KGs) для подробного представления фактов с дополнительными квалификаторами. Однако неясно, допускаются ли повышенные показатели новых HKGE-моделей благодаря базовой модели KGE или специальным модулям обработки квалификаторов. Предлагаемое решение: Авторы предлагают конвертировать HKGs в формат KGs с помощью трех методов декомпозиции и сравнить показатели классических KGE-моделей с HKGE-моделями. Они также выявили ограничения декомпозиционных подходов и улучшения HKGE-моделей, такие как недостаточность в хранении длинных зависимостей или интеграции простых троек и квалификаторов. Основные выводы: Новые модели, такие как FormerGNN, которая сочетает квалификаторный интегратор и графовый кодировщик на основе GNN, показала значительное улучшение в сравнении с имеющимися решениями. Результаты подтверждают возможность улучшения обработки гипер-реляционных знаний с помощью новых парадигм.

Annotation:

Recently, Hyper-relational Knowledge Graphs (HKGs) have been proposed as an extension of traditional Knowledge Graphs (KGs) to better represent real-world facts with additional qualifiers. As a result, researchers have attempted to adapt classical Knowledge Graph Embedding (KGE) models for HKGs by designing extra qualifier processing modules. However, it remains unclear whether the superior performance of Hyper-relational KGE (HKGE) models arises from their base KGE model or the specially design...

ID: 2508.03280v1 cs.LG, cs.CL, cs.SI

arXiv PDF

📄 Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning

2025-08-09

Авторы:

Alexander Golubev, Maria Trofimova, Sergei Polezhaev, Ibragim Badertdinov, Maksim Nekrashevich, Anton Shevtsov, Simon Karasik, Sergey Abramov, Andrei Andriushchenko, Filipp Fisin, Sergei Skvortsov, Boris Yangel

**Резюме** Проблема. Многие изученные приложения Reinforcement Learning (RL) к Large Language Models (LLMs) ограничиваются простыми задачами, такими как математическое обучение или однократное генерирование кода. Эти задачи, хотя и имитируют многократный диалог, являются неэффективными, так как окружение не оказывает влиятельного в suggestions. Это ударно ставит их вразрез с реальными задачами, например, сложной работой в области программного обеспечения, требующей многоэтапного взаимодействия в статической среде, которая отвечает на каждое действие агента с значительными откликами. Решение. Мы применяем модифицированный Decoupled Advantage Policy Optimization (DAPO) алгоритм для обучения агента, основанного на Qwen2.5-72B-Instruct, для решения реальных задач программного обеспечения. Этот подход увеличивает успешность агента на SWE-bench Verified от 20% до 39%, а на SWE-rebench, агент показывает результаты, которые матчируют или превосходят соревнующиеся опен-вестовые модели, такие как DeepSeek-V3-0324 и Qwen3-235B-A22B, при использовании одного скелета. Выводы. Наш подход демонстрирует успешное применение RL к задачам многократного диалога в статических, сильно зависимых от состояния средах, таких как программное обеспечение. Это открывает путь к развитию более сильных автономных агентов для решения сложных задач с помощью открытых моделей.

Annotation:

Research on applications of Reinforcement Learning (RL) to Large Language Models (LLMs) has mostly been focused on single-turn problems, such as mathematical reasoning or single-shot code generation. While these problems can be viewed as token-level multi-turn MDPs, this view corresponds to a degenerate case of multi-turn interaction where the environment provides no feedback. This contrasts with many real-world domains, such as software engineering (SWE), which require rich multi-turn interacti...

ID: 2508.03501v1 cs.LG, cs.CL, cs.SE

arXiv PDF

📄 Causal Reflection with Language Models

2025-08-09

Авторы:

Abi Aryan, Zac Liu

**Резюме** Современные языковые модели (LLMs) в impressive fluency и factual recall, но часто опираются на spurious correlations и brittle patterns при робастном causal reasoning. Аналогично, reinforcement learning агенты, оптимизирующие rewards, не развивают касуального понимания. Мы предлагаем Causal Reflection, новую архитектуру, которая структурированно моделирует causality как динамическую функцию, зависящую от state, action, time и perturbation. Также мы внедрили Reflect mechanism, который идентифицирует mismatches в прогнозах и выводит causal hypotheses для перестройки internal model. LLMs в этой системе выступают не как black-box reasoners, а как structured inference engines, которые оценивают и описывают causal рассуждения в natural language. Наша работа базируется на новых теоретических предпосылках для Causal Reflective agents, способных adapt, self-correct и explain causal relations в changing environments.

Annotation:

While LLMs exhibit impressive fluency and factual recall, they struggle with robust causal reasoning, often relying on spurious correlations and brittle patterns. Similarly, traditional Reinforcement Learning agents also lack causal understanding, optimizing for rewards without modeling why actions lead to outcomes. We introduce Causal Reflection, a framework that explicitly models causality as a dynamic function over state, action, time, and perturbation, enabling agents to reason about delayed...

ID: 2508.04495v1 cs.LG, cs.CL

arXiv PDF

Показано 221 - 230 из 233 записей