HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data
2508.18048v1
cs.IR, cs.AI
2025-08-27
Авторы:
Jiyoon Myung, Jihyeon Park, Joohyung Han
Резюме на русском
## Контекст
В настоящее время пользователи часто выражают сложные запросы, которые включают как структурированные поля (например, категории, атрибуты), так и неструктурированные предпочтения (например, описания продуктов или отзывы). Такое смешение усложняет поисковые системы, которым требуется сочетать структурированный поиск с поиском семантических эмбеддингов. В отличие от традиционных подходов, которые либо сосредоточены на структурированной фильтрации, либо на поиске семантических эмбеддингов, но теряют в точности при объединении этих задач, HyST предлагает новый подход к обработке таких запросов. Он объединяет мощь Бо LLM для структурированного фильтрации с поиском семантических эмбеддингов, чтобы обеспечить эффективное решение для реальных запросов пользователей.
## Метод
HyST (Hybrid retrieval over Semi-structured Tabular data) — это рамка для обработки запросов, которая объединяет модели текстового понимания на основе Бо LLM с поиском эмбеддингов для эффективного обработки запросов. Метод разделяет запрос на две части: структурированные атрибуты (например, категории, характеристики) и неструктурированные компоненты (например, описания или отзывы). Вначале HyST использует Бо LLM для извлечения атрибутов из запроса в виде метаданных. Эти атрибуты используются для фильтрации данных на уровне атрибутов. Остальная часть запроса обрабатывается с помощью поиска по семантическим эмбеддингам. Такой двухэтапный подход позволяет обеспечить высокую точность в поиске и эффективность в обработке запросов.
## Результаты
Исследования проводились на бенчмарке семиантических запросов, который включал различные сценарии запросов с семантическими и структурированными компонентами. Результаты показали, что HyST показывает значительное улучшение точности в сравнении с традиционными подходами. В частности, этап фильтрации LLM позволяет сократить ненужные результаты, а поиск эмбеддингов обеспечивает высокую точность в поиске неструктурированных компонентов. Итоговая система демонстрирует высокую универсальность и эффективность в обработке сложных запросов пользователей.
## Значимость
Рамка HyST может быть применена в различных сферах, включая рекомендательные системы, поисковые системы и системы управления базами данных. Основные преимущества HyST заключаются в своей способности обрабатывать сложные запросы с семантическими и структурированными компонентами, что значительно улучшает точность и эффективность поиска. Это делает HyST привлекательным решением для реальных задач, где необходима высокая точность в обработке пользовательских запросов.
## Выводы
В хо
Abstract
User queries in real-world recommendation systems often combine structured
constraints (e.g., category, attributes) with unstructured preferences (e.g.,
product descriptions or reviews). We introduce HyST (Hybrid retrieval over
Semi-structured Tabular data), a hybrid retrieval framework that combines
LLM-powered structured filtering with semantic embedding search to support
complex information needs over semi-structured tabular data. HyST extracts
attribute-level constraints from natural language using large language models
(LLMs) and applies them as metadata filters, while processing the remaining
unstructured query components via embedding-based retrieval. Experiments on a
semi-structured benchmark show that HyST consistently outperforms tradtional
baselines, highlighting the importance of structured filtering in improving
retrieval precision, offering a scalable and accurate solution for real-world
user queries.
Ссылки и действия
Дополнительные ресурсы: