ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

2509.12610v1 cs.DB, cs.AI, cs.LG 2025-09-18

Авторы:

Hengrui Zhang, Yulong Hui, Yihao Liu, Huanchen Zhang

Резюме на русском

#### Контекст Современные системы анализа данных сталкиваются с возрастающим объемом неструктурированных документов, которые требуют не только значительных вычислительных ресурсов, но и способности к семантическому пониманию. Традиционные значение-ориентированные предикаты, широко используемые в этих системах, не могут справиться с такими задачами, так как не включают в себя особенности неструктурированных данных. Большие языковые модели (LLMs), в свою очередь, обладают мощными возможностями в области семантического понимания, но их высокая стоимость вызова становится проблемой при масштабировании. Для решения этой проблемы необходим метод, позволяющий эффективно использовать модели LLMs в сценариях массового анализа документов. #### Метод Система \textsc{ScaleDoc} предлагает разделение процесса выполнения предикатов на две фазы: оффлайнное представление и онлайн-фильтрацию. В оффлайн-фазе, \textsc{ScaleDoc} использует LLM для генерирования семантических представлений для каждого документа, что обеспечивает глубокое понимание контента. В онлайн-фазе, для каждого запроса, \textsc{ScaleDoc} обучает легковесную прокси-модель на этих представлениях для быстрого отбора документов, отправляя только неоднозначные случаи на полный анализ LLM. Для достижения эффективности итоговой системы, \textsc{ScaleDoc} внедряет две ключевые инновации: (1) фреймворк на основе контрастного обучения, обучающий прокси-модель для точного определения решений, и (2) адаптивный каскадный механизм, оптимизирующий политику фильтрации в зависимости от требуемой точности. #### Результаты В ходе экспериментов, проведенных на трех различных наборах данных, \textsc{ScaleDoc} демонстрирует существенные выигрыши в производительности. Система достигает быстродействия, которое превышает 2$\times$ по сравнению с прямым использованием LLMs. Более того, \textsc{ScaleDoc} снижает количество дорогостоящих вызовов LLMs до 85%, оставляя только самые неоднозначные случаи. Эти результаты показывают, что \textsc{ScaleDoc} эффективно решает проблему масштабирования предикатов для неструктурированных документов, снижая затраты вычислительных ресурсов и увеличивая скорость работы. #### Значимость \textsc{ScaleDoc} может быть применен в различных областях, где необходимо быстрый и эффективный анализ большого количества неструктурированных документов, например, в системах мониторинга, системах поддержки принятия решений и системах управления рисками. Основное преимущество \textsc{ScaleDoc} заключается в том, что он обеспечивает высокую эффективность без подрыва точности, что делает его привлекательным для решения реальных проблем. Этот подход может сущест

Abstract

Predicates are foundational components in data analysis systems. However, modern workloads increasingly involve unstructured documents, which demands semantic understanding, beyond traditional value-based predicates. Given enormous documents and ad-hoc queries, while Large Language Models (LLMs) demonstrate powerful zero-shot capabilities, their high inference cost leads to unacceptable overhead. Therefore, we introduce \textsc{ScaleDoc}, a novel system that addresses this by decoupling predicate execution into an offline representation phase and an optimized online filtering phase. In the offline phase, \textsc{ScaleDoc} leverages a LLM to generate semantic representations for each document. Online, for each query, it trains a lightweight proxy model on these representations to filter the majority of documents, forwarding only the ambiguous cases to the LLM for final decision. Furthermore, \textsc{ScaleDoc} proposes two core innovations to achieve significant efficiency: (1) a contrastive-learning-based framework that trains the proxy model to generate reliable predicating decision scores; (2) an adaptive cascade mechanism that determines the effective filtering policy while meeting specific accuracy targets. Our evaluations across three datasets demonstrate that \textsc{ScaleDoc} achieves over a 2$\times$ end-to-end speedup and reduces expensive LLM invocations by up to 85\%, making large-scale semantic analysis practical and efficient.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

ScaleDoc: Scaling LLM-based Predicates over Large Document Collections

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Forgetting by Pruning: Data Deletion in Join Cardinality Estimation

Cortex AISQL: A Production SQL Engine for Unstructured Data

Transformer-Gather, Fuzzy-Reconsider: A Scalable Hybrid Framework for Entity Res...

A Lightweight Learned Cardinality Estimation Model

Навигация