ARCADE: A Real-Time Data System for Hybrid and Continuous Query Processing across Diverse Data Modalities

2509.19757v1 cs.DB, cs.AI 2025-09-26
Авторы:

Jingyi Yang, Songsong Mo, Jiachen Shi, Zihao Yu, Kunhao Shi, Xuchen Ding, Gao Cong

Резюме на русском

## Контекст Современное цифровое пространство стремительно растет, внедряя новые формы данных, такие как текст, изображения, видео, пространственные данные и реляционные базы. Этот экспоненциальный рост требует эффективных систем для обработки и анализа такой данной в реальном времени. На сегодняшний день существуют системы, которые могут обрабатывать отдельные типы данных, но нет ни одной, которая в состоянии обеспечить эффективные и вы experssive гибридные аналитики в режиме реального времени. Это ограничение приводит к неэффективному использованию ресурсов и низкой скорости выполнения запросов. Мотивация для ARCADE заключается в создании системы, которая может обеспечить высокоэффективную обработку данных разных типов в реальном времени, без ущерба для производительности и гибкости. ## Метод ARCADE основывается на подходе, который комбинирует дисковую систему вторичных индексов с параллельной обработкой запросов. Она использует LSM-based storage (Log-Structured Merge-Tree) для хранения индексов в разных модальностях данных, включая векторы, пространственные данные и текст. Для обеспечения высокой производительности и дешевизны, ARCADE использует RocksDB, открытую систему хранения, и для выполнения запросов — MySQL query engine. Для поддержки гибридных и непрерывных запросов, ARCADE ввела расширенное фреймворком построения материализованных представлений, которое обеспечивает эффективную обработку данных в реальном времени. ## Результаты Чтобы оценить производительность ARCADE, проведены эксперименты с использованием реальных данных, включая векторные, пространственные и текстовые данные. Эксперименты показали, что ARCADE обеспечивает до 7.4x быстрее выполнения запросов, чем лидирующие системы на рынке при read-heavy workloads, и до 1.4x при write-heavy workloads. В частности, ARCADE обеспечивает высокую скорость обработки непрерывных запросов с минимальным временем ответа, что делает ее высокоэффективной для реального временного анализа данных. ## Значимость ARCADE может быть использована в различных сферах, включая поиск подсказок в реальном времени, анализ пространственных данных, мониторинг и анализ данных из социальных сетей. Одним из основных преимуществ является высокая скорость обработки данных разных типов, а также гибкость в их сочетании в одном запросе. Потенциальное влияние ARCADE заключается в том, что она может стать основой для развития новых алгоритмов и систем, которые работают с несколькими типами данных в реальном времени, и улучшают качество решения задач в цифровых исследованиях. ## Выводы Результаты исследований показывают, что ARCADE является эффективной системой для реального времени, обрабатывающей гибридные и непрерывные за

Abstract

The explosive growth of multimodal data - spanning text, image, video, spatial, and relational modalities, coupled with the need for real-time semantic search and retrieval over these data - has outpaced the capabilities of existing multimodal and real-time database systems, which either lack efficient ingestion and continuous query capability, or fall short in supporting expressive hybrid analytics. We introduce ARCADE, a real-time data system that efficiently supports high-throughput ingestion and expressive hybrid and continuous query processing across diverse data types. ARCADE introduces unified disk-based secondary index on LSM-based storage for vector, spatial, and text data modalities, a comprehensive cost-based query optimizer for hybrid queries, and an incremental materialized view framework for efficient continuous queries. Built on open-source RocksDB storage and MySQL query engine, ARCADE outperforms leading multimodal data systems by up to 7.4x on read-heavy and 1.4x on write-heavy workloads.

Ссылки и действия