HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data

2508.18048v1 cs.IR, cs.AI 2025-08-27

Авторы:

Jiyoon Myung, Jihyeon Park, Joohyung Han

Резюме на русском

## Контекст В настоящее время пользователи часто выражают сложные запросы, которые включают как структурированные поля (например, категории, атрибуты), так и неструктурированные предпочтения (например, описания продуктов или отзывы). Такое смешение усложняет поисковые системы, которым требуется сочетать структурированный поиск с поиском семантических эмбеддингов. В отличие от традиционных подходов, которые либо сосредоточены на структурированной фильтрации, либо на поиске семантических эмбеддингов, но теряют в точности при объединении этих задач, HyST предлагает новый подход к обработке таких запросов. Он объединяет мощь Бо LLM для структурированного фильтрации с поиском семантических эмбеддингов, чтобы обеспечить эффективное решение для реальных запросов пользователей. ## Метод HyST (Hybrid retrieval over Semi-structured Tabular data) — это рамка для обработки запросов, которая объединяет модели текстового понимания на основе Бо LLM с поиском эмбеддингов для эффективного обработки запросов. Метод разделяет запрос на две части: структурированные атрибуты (например, категории, характеристики) и неструктурированные компоненты (например, описания или отзывы). Вначале HyST использует Бо LLM для извлечения атрибутов из запроса в виде метаданных. Эти атрибуты используются для фильтрации данных на уровне атрибутов. Остальная часть запроса обрабатывается с помощью поиска по семантическим эмбеддингам. Такой двухэтапный подход позволяет обеспечить высокую точность в поиске и эффективность в обработке запросов. ## Результаты Исследования проводились на бенчмарке семиантических запросов, который включал различные сценарии запросов с семантическими и структурированными компонентами. Результаты показали, что HyST показывает значительное улучшение точности в сравнении с традиционными подходами. В частности, этап фильтрации LLM позволяет сократить ненужные результаты, а поиск эмбеддингов обеспечивает высокую точность в поиске неструктурированных компонентов. Итоговая система демонстрирует высокую универсальность и эффективность в обработке сложных запросов пользователей. ## Значимость Рамка HyST может быть применена в различных сферах, включая рекомендательные системы, поисковые системы и системы управления базами данных. Основные преимущества HyST заключаются в своей способности обрабатывать сложные запросы с семантическими и структурированными компонентами, что значительно улучшает точность и эффективность поиска. Это делает HyST привлекательным решением для реальных задач, где необходима высокая точность в обработке пользовательских запросов. ## Выводы В хо

Abstract

User queries in real-world recommendation systems often combine structured constraints (e.g., category, attributes) with unstructured preferences (e.g., product descriptions or reviews). We introduce HyST (Hybrid retrieval over Semi-structured Tabular data), a hybrid retrieval framework that combines LLM-powered structured filtering with semantic embedding search to support complex information needs over semi-structured tabular data. HyST extracts attribute-level constraints from natural language using large language models (LLMs) and applies them as metadata filters, while processing the remaining unstructured query components via embedding-based retrieval. Experiments on a semi-structured benchmark show that HyST consistently outperforms tradtional baselines, highlighting the importance of structured filtering in improving retrieval precision, offering a scalable and accurate solution for real-world user queries.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

BookRAG: A Hierarchical Structure-aware Index-based Approach for Retrieval-Augme...

Structured Spectral Reasoning for Frequency-Adaptive Multimodal Recommendation

Q-BERT4Rec: Quantized Semantic-ID Representation Learning for Multimodal Recomme...

AskNearby: An LLM-Based Application for Neighborhood Information Retrieval and P...

Evaluating Embedding Models and Pipeline Optimization for AI Search Quality

Навигация