Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning
2509.00975v1
cs.AI, cs.CL, cs.LG
2025-09-05
Авторы:
Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos
Резюме на русском
## Контекст
Темporal graph (TG) — это граф, в котором ребра имеют временные характеристики, такие как время создания или удаления. Развитие систем графа заключается в том, чтобы предсказать будущие связи между узлами в графе. Это задача центральная в развитии технологий, которая требует использования нейросетей и графовых структур. Однако, существующие модели, такие как temporal graph neural networks, недостаточно транспартны и не могут быть использованы для неизвестных графов без повторного обучения. Таким образом, существует необходимость в создании моделей, которые могут объяснить свои решения и применяться к неизвестным данным. В этом работе мы предлагаем модель, которая использует методы reinforcement learning для того, чтобы обучить модели понимания имен ответов в контексте, чтобы улучшить ясность и понятность своих решений.
## Метод
Мы предлагаем Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), которая является фреймвормом, основанным на reinforcement learning. Он содержит модель LLM, которая получает набор данных с графами и их связями, а также набор возможных вопросов и ответов. Мы используем reward-based методику для того, чтобы модель могла самостоятельно выявлять логику, которая приводит к правильным ответам. Модель также обучается производить разъяснения, которые подкрепляют свои выводы. Мы также предлагаем новую методику оценки того, насколько верны и полезны рассуждения, которые были созданы моделью. Эта методика сочетает в себе метрики оценки рейтинга и систему LLM-as-a-Judge, которая может оценивать качество рассуждений и учитывать влияние возможных ложных сведений.
## Результаты
Мы провели эксперименты с ReaL-TG-4B, моделью, которая была получена в результате fine-tuning Qwen3-4B. Мы сравнили его с текущими лидерами в области графовых моделей, включая GPT-5 mini. Наши эксперименты показали, что ReaL-TG-4B превосходит всех соперников по метрикам рейтинга, производя самые точные прогнозы. Более того, наши разъяснения, созданные моделью, получили высокий рейтинг как от системы LLM-as-a-Judge, так и от людей, что подтвердило качество нашей модели.
## Значимость
Модель ReaL-TG может быть применена в различных направлениях. Например, в сфере data science, где необходимо прогнозировать дальнейшие связи в графах. Она также может применяться в социальных сетях, где поддержание связей и понимание их истории ключевое значение. Наше решение обеспечивает высокую точность и ясность в прогнозировании. Это предлагает новый подход к графовым моделям, который может повысить надежность и понимание в области data science и AI.
## Выводы
Мы представили ReaL-TG, модель, которая использует reinforcement learning и LLM для того, чтобы обеспечи
Abstract
Forecasting future links is a central task in temporal graph (TG) reasoning,
requiring models to leverage historical interactions to predict upcoming ones.
Traditional neural approaches, such as temporal graph neural networks, achieve
strong performance but lack explainability and cannot be applied to unseen
graphs without retraining. Recent studies have begun to explore using large
language models (LLMs) for graph reasoning, but most of them are constrained to
static graphs or small synthetic TGs and lack the evaluation of the quality of
reasoning traces generated by LLMs. In this work, we present Reasoning-Enhanced
Learning for Temporal Graphs (ReaL-TG), a reinforcement learning framework that
fine-tunes LLMs to perform explainable link forecasting on real-world TGs.
ReaL-TG uses outcome-based reward to encourage models to self-explore reasoning
strategies from graph structure and to produce explanations that directly
justify their predictions. To enable evaluation on LLM-generated reasoning
traces, we propose a new evaluation protocol combining ranking metrics with an
LLM-as-a-Judge system that assesses both the quality of reasoning and the
impact of hallucinations. Experiments with ReaL-TG-4B, obtained by fine-tuning
Qwen3-4B under our framework, show that it outperforms much larger frontier
LLMs, including GPT-5 mini, on ranking metrics, while producing high-quality
explanations confirmed by both the LLM judge and human evaluation.
Ссылки и действия
Дополнительные ресурсы: