Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search

2508.20559v1 cs.CL, cs.IR 2025-08-30

Авторы:

Zeyu Xiong, Yixuan Nan, Li Gao, Hengzhu Tang, Shuaiqiang Wang, Junfeng Wang, Dawei Yin

Резюме на русском

#### Контекст Область крупномасштабного веб-поиска становится все более динамичной и требует эффективных способов обработки больших объемов данных. Реальному времени задачи Query-Driven Text Summarization (QDTS), предназначенной для формирования кратких и информативных сводок текстовых документов на основе запроса, приобретает важность для улучшения пользовательского опыта и облегчения принятия решений. Традиционные системы, основанные на исключающих моделях, имеют два основных недостатка: 1) многоэтапная архитектура часто приводит к убыточности информации и проблемам с производительностью; 2) они отстают в понимании семантического потенциала запросов и текстов, особенно в сложных поисковых поисковых запросах. #### Метод Фреймворк, предложенный в данной работе, использует генерирующие модели для QDTS в индустриальном веб-поиске. Он включает в себя такие техники, как дистилляция больших моделей, добавляющая значительную эффективность, подготовку на основе супервизованных данных, оптимизацию предпочтений и расширенные методы гомотопного декодирования. Базовый модельный характеристики 0.1B параметров был преобразован в эксперт для QDTS, проявляя выдающуюся точность и эффективность. #### Результаты Модель была проверена на нескольких индустриальных метриках и показала значительное превосходство перед базой производственной модели. Она отвечала за \textasciitilde50,000 запросов в секунду с средней задержкой в 55 мс на GPU NVIDIA L20. Это достижение отмечает новую точку высоты в сфере QDTS в отношении производительности и точности. #### Значимость Предложенная модель может быть применена в различных сферах, включая индустрию информационных сервисов, системы рекомендаций и веб-поиск. Основное преимущество заключается в своей способности предоставлять быстрые и точные сводки в реальном времени, что улучшает пользовательский опыт и поддерживает эффективность веб-сервисов. Будущие исследования будут сфокусированы на расширении модели для сложных сценариев и улучшении ее универсальности. #### Выводы Разработанная модель QDTS является первым примером эффективного применения генерирующих моделей в индустрии. Она достигла высокой точности и скорости работы, показав свое преимущество перед существующими моделями. Эти достижения открывают новые пути для исследований в области генерирующих моделей в сфере веб-поиска и других областях, требующих реального времени обработки текстовых данных.

Abstract

In the dynamic landscape of large-scale web search, Query-Driven Text Summarization (QDTS) aims to generate concise and informative summaries from textual documents based on a given query, which is essential for improving user engagement and facilitating rapid decision-making. Traditional extractive summarization models, based primarily on ranking candidate summary segments, have been the dominant approach in industrial applications. However, these approaches suffer from two key limitations: 1) The multi-stage pipeline often introduces cumulative information loss and architectural bottlenecks due to its weakest component; 2) Traditional models lack sufficient semantic understanding of both user queries and documents, particularly when dealing with complex search intents. In this study, we propose a novel framework to pioneer the application of generative models to address real-time QDTS in industrial web search. Our approach integrates large model distillation, supervised fine-tuning, direct preference optimization, and lookahead decoding to transform a lightweight model with only 0.1B parameters into a domain-specialized QDTS expert. Evaluated on multiple industry-relevant metrics, our model outperforms the production baseline and achieves a new state of the art. Furthermore, it demonstrates excellent deployment efficiency, requiring only 334 NVIDIA L20 GPUs to handle \textasciitilde50,000 queries per second under 55~ms average latency per query.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Leveraging Generative Models for Real-Time Query-Driven Text Summarization in Large-Scale Web Search

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

AR-Med: Automated Relevance Enhancement in Medical Search via LLM-Driven Informa...

Mitigating the Threshold Priming Effect in Large Language Model-Based Relevance ...

MMAG: Mixed Memory-Augmented Generation for Large Language Models Applications

Towards Unification of Hallucination Detection and Fact Verification for Large L...

Навигация