📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Han Zhang, Dongfang Zhao
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
While high-dimensional embedding vectors are being increasingly employed in
various tasks like Retrieval-Augmented Generation and Recommendation Systems,
popular dimensionality reduction (DR) methods such as PCA and UMAP have rarely
been adopted for accelerating the retrieval process due to their inability of
preserving the nearest neighbor (NN) relationship among vectors. Empowered by
neural networks' optimization capability and the bounding effect of Rayleigh
quotient, we propose a Regularized...
Авторы:
Alireza Heidari, Wei Zhang, Ying Xiong
#### Контекст
Современные технологии, основанные на трансформерах, способны эффективно обрабатывать векторные запросы, но реальной практике часто требуются запросы, комбинирующие векторную схожесть с атрибутивными фильтрами. Например, поиск "лучшего документа в категории X, от 2023 года". Текущие решения часто требуют сбалансированного компромисса между выявлением (recall), скоростью и гибкостью. Они опираются на усложненные структуры индексов, которые не справляются с масштабированием. Мы предлагаем FusedANN (Fused Attribute-Vector Nearest Neighbor) — новую геометрическую модель, которая интегрирует фильтрацию в оптимизационные ограничения для АНН (ближайших соседей по векторам), используя релаксацию Лагранжа. Наш подход объединяет атрибуты и векторы в единую модель, превращая жесткие фильтры в непрерывные, взвешенные пенальти, сохраняя при этом топ-k семантику и эффективность поиска.
#### Метод
Мы предлагаем новую архитектуру FusedANN, основанную на трансформерах, которая соединяет векторные и атрибутивные пространства в единое пространство через ковексная формализация. Это позволяет превратить жесткие атрибутивные фильтры в непрерывные взвешенные задачи, которые могут быть эффективно разрешены с помощью оптимизационных методов. Фильтры воспринимаются как постоянные критерии, но с весами, которые могут быть урезаны в случае невозможности точного соответствия. Эта гибкость позволяет гарантировать top-k результаты, даже при неполном соответствии. Мы также доказываем, что FusedANN сохраняет гарантии аппроксимации АНН и может быть легко адаптирован для различных задач.
#### Результаты
Мы провели эксперименты с FusedANN на стандартных бенчмарках для систем гибридного поиска. Наши результаты показывают, что FusedANN превосходит текущие системы гибридного и графового поиска, достигая до 3 раз вышей пропускной способности и более высокой точности. Мы также проверили FusedANN на реальных задачах, в которых требовалась как точность, так и быстрота. Наши результаты показали, что FusedANN не только обеспечивает высокую производительность, но и позволяет удалить ненужные слои фильтрации, что упрощает инфраструктуру и повышает надежность.
#### Значимость
FusedANN может быть применен в различных областях, включая модели естественного языка, модели машинного обучения и другие приложения, требующие быстрого и точного поиска. Он предлагает новый подход к решению задач связывания векторных данных с атрибутивными фильтрами, который является более эффективным и гибким по сравнению с существующими техно
Annotation:
Vector search powers transformers technology, but real-world use demands
hybrid queries that combine vector similarity with attribute filters (e.g.,
"top document in category X, from 2023"). Current solutions trade off recall,
speed, and flexibility, relying on fragile index hacks that don't scale. We
introduce FusedANN (Fused Attribute-Vector Nearest Neighbor), a geometric
framework that elevates filtering to ANN optimization constraints and
introduces a convex fused space via a Lagrangian-like...