Harnessing Adaptive Topology Representations for Zero-Shot Graph Question Answering
2508.06345v1
cs.CL, cs.AI, cs.GR, cs.LG
2025-08-12
Авторы:
Yanbin Wei, Jiangyue Yan, Chun Kang, Yang Chen, Hua Liu, James T. Kwok, Yu Zhang
Резюме на русском
#### Контекст
Large Multimodal Models (LMMs) показали свою способность к generalised zero-shot вопросам и ответам (QA) в различных областях, включая graph QA, которая включает в себя сложные графовые топологии. Однако большинство текущих подходов ограничиваются одним типом графовой представления, называемым Topology Representation Form (TRF), таким как промпт-объединенные текстовые описания или стилизованные визуальные стили. Такие "одно-размерное" решение не учитывает особенности и предпочтения различных моделей или задач, часто приводящие к неверным или слишком длинным ответам. Для решения этой проблемы мы проанализировали характеристики и слабые стороны существующих TRFs и разработали новый набор TRFs, названный $F_{ZS}$, призванный оптимизировать zero-shot graph QA.
#### Метод
Мы предлагаем DynamicTRF — развитое фреймворком, которое адаптивно выбирает лучший TRF для каждого вопроса во время выполнения. DynamicTRF состоит из двух ключевых компонентов. Во-первых, мы создали TRF Preference (TRFP) dataset, который рангован TRFs по их Graph Response Efficiency (GRE), чтобы определить предпочтения вопросов. Во-вторых, мы обучили TRF router, который использует TRFP dataset для адаптивного выделения лучшего TRF из комплекса $F_{ZS}$. Эта структура обеспечивает улучшение точности и краткости в zero-shot graph QA.
#### Результаты
Мы провели эксперименты на 7 внутренних задачах алгоритмического graph QA и 2 задачах за их пределами. Результаты показали, что DynamicTRF значительно улучшает точность zero-shot graph QA LMMs в отличие от стандартных подходов. Мы также провели анализ влияния каждого из компонентов на общую производительность, подтвердив эффективность DynamicTRF'a в сочетании с $F_{ZS}$.
#### Значимость
DynamicTRF может применяться в различных областях, где требуется zero-shot обучение для graph QA. Он предоставляет значительные преимущества по сравнению с традиционными подходами, такими как улучшение точности и эффективность ответа. Мы видим будущие исследования в расширении $F_{ZS}$ и экспериментах с другими моделями, а также в оптимизации GRE metrics для более широкого применения.
#### Выводы
Мы представили DynamicTRF, первый фреймворк, который адаптивно выбирает графовые представления для zero-shot graph QA. Это вытянуло значительные улучшения над существующими подходами. Наша работа открывает путь для будущих исследований в области графовых задач QA и динамического выбора представлений.
Abstract
Large Multimodal Models (LMMs) have shown generalized zero-shot capabilities
in diverse domain question-answering (QA) tasks, including graph QA that
involves complex graph topologies. However, most current approaches use only a
single type of graph representation, namely Topology Representation Form (TRF),
such as prompt-unified text descriptions or style-fixed visual styles. Those
"one-size-fits-all" approaches fail to consider the specific preferences of
different models or tasks, often leading to incorrect or overly long responses.
To address this, we first analyze the characteristics and weaknesses of
existing TRFs, and then design a set of TRFs, denoted by $F_{ZS}$, tailored to
zero-shot graph QA. We then introduce a new metric, Graph Response Efficiency
(GRE), which measures the balance between the performance and the brevity in
graph QA. Built on these, we develop the DynamicTRF framework, which aims to
improve both the accuracy and conciseness of graph QA. To be specific,
DynamicTRF first creates a TRF Preference (TRFP) dataset that ranks TRFs based
on their GRE scores, to probe the question-specific TRF preferences. Then it
trains a TRF router on the TRFP dataset, to adaptively assign the best TRF from
$F_{ZS}$ for each question during the inference. Extensive experiments across 7
in-domain algorithmic graph QA tasks and 2 out-of-domain downstream tasks show
that DynamicTRF significantly enhances the zero-shot graph QA of LMMs in terms
of accuracy