Transformers Can Learn Connectivity in Some Graphs but Not Others
2509.22343v1
cs.CL, cs.AI, cs.LG, cs.LO
2025-09-30
Авторы:
Amit Roy, Abulhair Saparov
Резюме на русском
## Контекст
В последние годы трансформеры стали одной из самых популярных архитектур в области машинного обучения, особенно в сфере генерирования текста и обработки естественного языка. Одна из их ключевых сильных сторон — возможность выделять и обрабатывать зависимости в данных. Несмотря на это, их поverие в логических задачах, таких как распознавание транзитивных отношений, остается темной площадью. Транзитивные отношения — это отношения, которые можно вывести из других отношений, например, если известно, что "A вызывает B" и "B вызывает C", то "A вызывает C". Интерес к этой области возникает из-за важности логического разума для систем, которым требуется принятие обоснованных решений. Однако имеются ограничения в способности трансформеров решить такие задачи, особенно при работе с большими и неструктурированными данными. Это исследование фокусируется на рассмотрении способности трансформеров распознавать транзитивные отношения в различных типах графов.
## Метод
Для изучения способности трансформеров распознавать транзитивные отношения были использованы директивные графы, которые представляют собой сетки (grid) с разным числом узлов и различной структурой связей. Сетки были сгенерированы в разных размерах, что позволило оценить возможности трансформеров в зависимости от размера и сложности графа. Были изучены модели различных размеров, чтобы провести сравнение моделей с меньшим и большим числом параметров. Для каждой модели был проведен тренировочный процесс, где модели получали графы в качестве входных данных, и тестировочный процесс, где они стремились извлечь транзитивные отношения. На основе этих экспериментов был проведен анализ показателей обучения и обобщения моделей.
## Результаты
Результаты исследования показали, что трансформеры могут успешно учить и применять транзитивные отношения на "равномерных" графах вида сетка (grid), где каждый узел может быть вложен в низкоразмерное подпространство, а транзитивность легко выводится из позиций узлов. Такие графы хорошо соответствуют трансформерским моделям, которые способны обнаруживать такие структуры в данных. Однако, когда графы имели более сложную структуру, включая разбиение на отдельные компоненты, у трансформеров возникали серьезные трудности. Это особенно приметно при работе с большими графами, которые содержат много несоединенных компонент. Было также выявлено, что увеличение размера модели приводит к лучшей модели общей силы и полноте в области графов-сетей.
## Значимость
Результаты экспериментов имеют важно
Abstract
Reasoning capability is essential to ensure the factual correctness of the
responses of transformer-based Large Language Models (LLMs), and robust
reasoning about transitive relations is instrumental in many settings, such as
causal inference. Hence, it is essential to investigate the capability of
transformers in the task of inferring transitive relations (e.g., knowing A
causes B and B causes C, then A causes C). The task of inferring transitive
relations is equivalent to the task of connectivity in directed graphs (e.g.,
knowing there is a path from A to B, and there is a path from B to C, then
there is a path from A to C). Past research focused on whether transformers can
learn to infer transitivity from in-context examples provided in the input
prompt. However, transformers' capability to infer transitive relations from
training examples and how scaling affects the ability is unexplored. In this
study, we seek to answer this question by generating directed graphs to train
transformer models of varying sizes and evaluate their ability to infer
transitive relations for various graph sizes. Our findings suggest that
transformers are capable of learning connectivity on "grid-like'' directed
graphs where each node can be embedded in a low-dimensional subspace, and
connectivity is easily inferable from the embeddings of the nodes. We find that
the dimensionality of the underlying grid graph is a strong predictor of
transformers' ability to learn the connectivity task, where higher-dimensional
grid graphs pose a greater challenge than low-dimensional grid graphs. In
addition, we observe that increasing the model scale leads to increasingly
better generalization to infer connectivity over grid graphs. However, if the
graph is not a grid graph and contains many disconnected components,
transformers struggle to learn the connectivity task, especially when the
number of components is large.