ARCADE: A Real-Time Data System for Hybrid and Continuous Query Processing across Diverse Data Modalities
2509.19757v1
cs.DB, cs.AI
2025-09-26
Авторы:
Jingyi Yang, Songsong Mo, Jiachen Shi, Zihao Yu, Kunhao Shi, Xuchen Ding, Gao Cong
Резюме на русском
## Контекст
Современное цифровое пространство стремительно растет, внедряя новые формы данных, такие как текст, изображения, видео, пространственные данные и реляционные базы. Этот экспоненциальный рост требует эффективных систем для обработки и анализа такой данной в реальном времени. На сегодняшний день существуют системы, которые могут обрабатывать отдельные типы данных, но нет ни одной, которая в состоянии обеспечить эффективные и вы experssive гибридные аналитики в режиме реального времени. Это ограничение приводит к неэффективному использованию ресурсов и низкой скорости выполнения запросов. Мотивация для ARCADE заключается в создании системы, которая может обеспечить высокоэффективную обработку данных разных типов в реальном времени, без ущерба для производительности и гибкости.
## Метод
ARCADE основывается на подходе, который комбинирует дисковую систему вторичных индексов с параллельной обработкой запросов. Она использует LSM-based storage (Log-Structured Merge-Tree) для хранения индексов в разных модальностях данных, включая векторы, пространственные данные и текст. Для обеспечения высокой производительности и дешевизны, ARCADE использует RocksDB, открытую систему хранения, и для выполнения запросов — MySQL query engine. Для поддержки гибридных и непрерывных запросов, ARCADE ввела расширенное фреймворком построения материализованных представлений, которое обеспечивает эффективную обработку данных в реальном времени.
## Результаты
Чтобы оценить производительность ARCADE, проведены эксперименты с использованием реальных данных, включая векторные, пространственные и текстовые данные. Эксперименты показали, что ARCADE обеспечивает до 7.4x быстрее выполнения запросов, чем лидирующие системы на рынке при read-heavy workloads, и до 1.4x при write-heavy workloads. В частности, ARCADE обеспечивает высокую скорость обработки непрерывных запросов с минимальным временем ответа, что делает ее высокоэффективной для реального временного анализа данных.
## Значимость
ARCADE может быть использована в различных сферах, включая поиск подсказок в реальном времени, анализ пространственных данных, мониторинг и анализ данных из социальных сетей. Одним из основных преимуществ является высокая скорость обработки данных разных типов, а также гибкость в их сочетании в одном запросе. Потенциальное влияние ARCADE заключается в том, что она может стать основой для развития новых алгоритмов и систем, которые работают с несколькими типами данных в реальном времени, и улучшают качество решения задач в цифровых исследованиях.
## Выводы
Результаты исследований показывают, что ARCADE является эффективной системой для реального времени, обрабатывающей гибридные и непрерывные за
Abstract
The explosive growth of multimodal data - spanning text, image, video,
spatial, and relational modalities, coupled with the need for real-time
semantic search and retrieval over these data - has outpaced the capabilities
of existing multimodal and real-time database systems, which either lack
efficient ingestion and continuous query capability, or fall short in
supporting expressive hybrid analytics. We introduce ARCADE, a real-time data
system that efficiently supports high-throughput ingestion and expressive
hybrid and continuous query processing across diverse data types. ARCADE
introduces unified disk-based secondary index on LSM-based storage for vector,
spatial, and text data modalities, a comprehensive cost-based query optimizer
for hybrid queries, and an incremental materialized view framework for
efficient continuous queries. Built on open-source RocksDB storage and MySQL
query engine, ARCADE outperforms leading multimodal data systems by up to 7.4x
on read-heavy and 1.4x on write-heavy workloads.
Ссылки и действия
Дополнительные ресурсы: