On the Theoretical Limitations of Embedding-Based Retrieval

2508.21038v1 cs.IR, cs.CL, cs.LG 2025-08-29

Авторы:

Orion Weller, Michael Boratko, Iftekhar Naim, Jinhyuk Lee

Резюме на русском

## Контекст В последние годы векторные представления (embeddings) приобрели важное место в системах рекомендаций, восстановления информации и прочих задачах. Эти представления позволяют системам оценивать и производить поиск связей между данными. Однако в последнее время возникла тенденция к применению этих систем для решения более сложных задач, таких как рассуждения, выполнение инструкций, программирование и др. Несмотря на выдающиеся результаты, остались незатронутые вопросы, связанные с теоретическими ограничениями векторных представлений. Эти ограничения, как предполагается, могут быть связаны с недостатком данных или малым размером моделей. В данной работе мы показываем, что эти теоретические ограничения могут возникать даже при использовании простых запросов и уже существующих моделей. ## Метод Мы применяем метод линейной алгебры и методы математической логики для анализа ограничений векторных представлений. Для этого мы рассматриваем задачу оценки выборок документов в зависимости от данного запроса. Также вводится новый метод, основывающийся на free parameterized embeddings, для оптимизации задач поиска. Для тестирования было создано реалистичное тестовое задание LIMIT, которое демонстрирует ситуации, в которых векторные представления не справляются с задачей, несмотря на простоту задачи. ## Результаты Наши эксперименты показали, что даже на простых задачах с запросами, состоящими из одного документа, векторные модели не могут удовлетворить все возможные релевантные критерии. Мы показали, что это происходит из-за теоретических ограничений, связанных с размерностью пространства векторов. Также мы установили, что даже использование сложных моделей и больших объемов данных не позволяет полностью решить эту проблему. Было создано новое тестовое задание LIMIT, в котором проверялось работоспособность моделей на различных входных данных. Эксперименты показали, что даже современные модели страдают от этого ограничения, несмотря на простоту задачи. ## Значимость Наша работа открывает новый взгляд на ограничения векторных представлений в реальных системах. Мы показали, что эти ограничения могут возникать не только в редких или нежизненных ситуациях, но и в рабочих условиях, даже при использовании простых запросов. Это может иметь большое значение для работы семантических и поисковых систем, где необходимо точно выбирать материалы. Наше исследование может привести к развитию новых методов, которые будут способны решать эти теоретические проблемы. ## Выводы Мы продемонстрировали, что векторные представления страдают от теоретических ограничений, которые могут возникать даже в прост

Abstract

Vector embeddings have been tasked with an ever-increasing set of retrieval tasks over the years, with a nascent rise in using them for reasoning, instruction-following, coding, and more. These new benchmarks push embeddings to work for any query and any notion of relevance that could be given. While prior works have pointed out theoretical limitations of vector embeddings, there is a common assumption that these difficulties are exclusively due to unrealistic queries, and those that are not can be overcome with better training data and larger models. In this work, we demonstrate that we may encounter these theoretical limitations in realistic settings with extremely simple queries. We connect known results in learning theory, showing that the number of top-k subsets of documents capable of being returned as the result of some query is limited by the dimension of the embedding. We empirically show that this holds true even if we restrict to k=2, and directly optimize on the test set with free parameterized embeddings. We then create a realistic dataset called LIMIT that stress tests models based on these theoretical results, and observe that even state-of-the-art models fail on this dataset despite the simple nature of the task. Our work shows the limits of embedding models under the existing single vector paradigm and calls for future research to develop methods that can resolve this fundamental limitation.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

On the Theoretical Limitations of Embedding-Based Retrieval

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Repre...

Beyond Sequential Reranking: Reranker-Guided Search Improves Reasoning Intensive...

ELIXIR: Efficient and LIghtweight model for eXplaIning Recommendations

Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analy...

Навигация