Transformers Can Learn Connectivity in Some Graphs but Not Others

2509.22343v1 cs.CL, cs.AI, cs.LG, cs.LO 2025-09-30

Авторы:

Amit Roy, Abulhair Saparov

Резюме на русском

## Контекст В последние годы трансформеры стали одной из самых популярных архитектур в области машинного обучения, особенно в сфере генерирования текста и обработки естественного языка. Одна из их ключевых сильных сторон — возможность выделять и обрабатывать зависимости в данных. Несмотря на это, их поverие в логических задачах, таких как распознавание транзитивных отношений, остается темной площадью. Транзитивные отношения — это отношения, которые можно вывести из других отношений, например, если известно, что "A вызывает B" и "B вызывает C", то "A вызывает C". Интерес к этой области возникает из-за важности логического разума для систем, которым требуется принятие обоснованных решений. Однако имеются ограничения в способности трансформеров решить такие задачи, особенно при работе с большими и неструктурированными данными. Это исследование фокусируется на рассмотрении способности трансформеров распознавать транзитивные отношения в различных типах графов. ## Метод Для изучения способности трансформеров распознавать транзитивные отношения были использованы директивные графы, которые представляют собой сетки (grid) с разным числом узлов и различной структурой связей. Сетки были сгенерированы в разных размерах, что позволило оценить возможности трансформеров в зависимости от размера и сложности графа. Были изучены модели различных размеров, чтобы провести сравнение моделей с меньшим и большим числом параметров. Для каждой модели был проведен тренировочный процесс, где модели получали графы в качестве входных данных, и тестировочный процесс, где они стремились извлечь транзитивные отношения. На основе этих экспериментов был проведен анализ показателей обучения и обобщения моделей. ## Результаты Результаты исследования показали, что трансформеры могут успешно учить и применять транзитивные отношения на "равномерных" графах вида сетка (grid), где каждый узел может быть вложен в низкоразмерное подпространство, а транзитивность легко выводится из позиций узлов. Такие графы хорошо соответствуют трансформерским моделям, которые способны обнаруживать такие структуры в данных. Однако, когда графы имели более сложную структуру, включая разбиение на отдельные компоненты, у трансформеров возникали серьезные трудности. Это особенно приметно при работе с большими графами, которые содержат много несоединенных компонент. Было также выявлено, что увеличение размера модели приводит к лучшей модели общей силы и полноте в области графов-сетей. ## Значимость Результаты экспериментов имеют важно

Abstract

Reasoning capability is essential to ensure the factual correctness of the responses of transformer-based Large Language Models (LLMs), and robust reasoning about transitive relations is instrumental in many settings, such as causal inference. Hence, it is essential to investigate the capability of transformers in the task of inferring transitive relations (e.g., knowing A causes B and B causes C, then A causes C). The task of inferring transitive relations is equivalent to the task of connectivity in directed graphs (e.g., knowing there is a path from A to B, and there is a path from B to C, then there is a path from A to C). Past research focused on whether transformers can learn to infer transitivity from in-context examples provided in the input prompt. However, transformers' capability to infer transitive relations from training examples and how scaling affects the ability is unexplored. In this study, we seek to answer this question by generating directed graphs to train transformer models of varying sizes and evaluate their ability to infer transitive relations for various graph sizes. Our findings suggest that transformers are capable of learning connectivity on "grid-like'' directed graphs where each node can be embedded in a low-dimensional subspace, and connectivity is easily inferable from the embeddings of the nodes. We find that the dimensionality of the underlying grid graph is a strong predictor of transformers' ability to learn the connectivity task, where higher-dimensional grid graphs pose a greater challenge than low-dimensional grid graphs. In addition, we observe that increasing the model scale leads to increasingly better generalization to infer connectivity over grid graphs. However, if the graph is not a grid graph and contains many disconnected components, transformers struggle to learn the connectivity task, especially when the number of components is large.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Transformers Can Learn Connectivity in Some Graphs but Not Others

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

A Neurosymbolic Approach to Natural Language Formalization and Verification

Are Language Models Efficient Reasoners? A Perspective from Logic Programming

Навигация