Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

2509.00975v1 cs.AI, cs.CL, cs.LG 2025-09-05

Авторы:

Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos

Резюме на русском

## Контекст Темporal graph (TG) — это граф, в котором ребра имеют временные характеристики, такие как время создания или удаления. Развитие систем графа заключается в том, чтобы предсказать будущие связи между узлами в графе. Это задача центральная в развитии технологий, которая требует использования нейросетей и графовых структур. Однако, существующие модели, такие как temporal graph neural networks, недостаточно транспартны и не могут быть использованы для неизвестных графов без повторного обучения. Таким образом, существует необходимость в создании моделей, которые могут объяснить свои решения и применяться к неизвестным данным. В этом работе мы предлагаем модель, которая использует методы reinforcement learning для того, чтобы обучить модели понимания имен ответов в контексте, чтобы улучшить ясность и понятность своих решений. ## Метод Мы предлагаем Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), которая является фреймвормом, основанным на reinforcement learning. Он содержит модель LLM, которая получает набор данных с графами и их связями, а также набор возможных вопросов и ответов. Мы используем reward-based методику для того, чтобы модель могла самостоятельно выявлять логику, которая приводит к правильным ответам. Модель также обучается производить разъяснения, которые подкрепляют свои выводы. Мы также предлагаем новую методику оценки того, насколько верны и полезны рассуждения, которые были созданы моделью. Эта методика сочетает в себе метрики оценки рейтинга и систему LLM-as-a-Judge, которая может оценивать качество рассуждений и учитывать влияние возможных ложных сведений. ## Результаты Мы провели эксперименты с ReaL-TG-4B, моделью, которая была получена в результате fine-tuning Qwen3-4B. Мы сравнили его с текущими лидерами в области графовых моделей, включая GPT-5 mini. Наши эксперименты показали, что ReaL-TG-4B превосходит всех соперников по метрикам рейтинга, производя самые точные прогнозы. Более того, наши разъяснения, созданные моделью, получили высокий рейтинг как от системы LLM-as-a-Judge, так и от людей, что подтвердило качество нашей модели. ## Значимость Модель ReaL-TG может быть применена в различных направлениях. Например, в сфере data science, где необходимо прогнозировать дальнейшие связи в графах. Она также может применяться в социальных сетях, где поддержание связей и понимание их истории ключевое значение. Наше решение обеспечивает высокую точность и ясность в прогнозировании. Это предлагает новый подход к графовым моделям, который может повысить надежность и понимание в области data science и AI. ## Выводы Мы представили ReaL-TG, модель, которая использует reinforcement learning и LLM для того, чтобы обеспечи

Abstract

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic TGs and lack the evaluation of the quality of reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that fine-tunes LLMs to perform explainable link forecasting on real-world TGs. ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning strategies from graph structure and to produce explanations that directly justify their predictions. To enable evaluation on LLM-generated reasoning traces, we propose a new evaluation protocol combining ranking metrics with an LLM-as-a-Judge system that assesses both the quality of reasoning and the impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning Qwen3-4B under our framework, show that it outperforms much larger frontier LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality explanations confirmed by both the LLM judge and human evaluation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

STELLA: Guiding Large Language Models for Time Series Forecasting with Semantic ...

LEC: Linear Expectation Constraints for False-Discovery Control in Selective Pre...

Guided Self-Evolving LLMs with Minimal Human Supervision

Martingale Score: An Unsupervised Metric for Bayesian Rationality in LLM Reasoni...

ORION: Teaching Language Models to Reason Efficiently in the Language of Thought

Навигация