A Case for Computing on Unstructured Data

2509.14601v1 cs.DB, cs.AI 2025-09-20
Авторы:

Mushtari Sadia, Amrita Roy Chowdhury, Ang Chen

Резюме на русском

## Контекст Unstructured данные, такие как текст, изображения, аудио и видео, составляют большую часть информации в мире. Однако, существующие системы обработки данных, опирающиеся на структурированные форматы, не могут эффективно обрабатывать эти данные. Это ограничение приводит к проблемам в доступе и анализе unstructured данных. Мы предлагаем новую архитектуру под названием "computing on unstructured data", которая предполагает три основных этапа: извлечение логической структуры, преобразование её с помощью алгоритмов обработки данных и восстановление unstructured формата. Этот подход позволяет объединить преимущества структурированного и unstructured способов обработки данных. Из этого следует, что необходимо разработать систему MXFlow, которая реализует этот подход. ## Метод Методология, предлагаемая в этой работе, основывается на трех этапах: извлечение latent structure (логической структуры), преобразования этой структуры с помощью data processing techniques (алгоритмов обработки данных) и projection back (возврате обратно к unstructured формату). Для этих целей предлагается MXFlow — новая система, которая включает в себя механизмы для извлечения структуры, трансформации и восстановления unstructured формата. Эти этапы обеспечивают би-дирекциональную Pipeline (конвейерную обработку), которая позволяет объединить преимущества оба подхода к обработке данных. Мы также рассматриваем технические решения для реализации MXFlow, в том числе алгоритмы для извлечения логической структуры и преобразования её. ## Результаты Мы проводили эксперименты на различных типах unstructured данных, включая текст, изображения и аудио. Использовались различные данные, такие как текст для научного анализа, изображения для обработки графической информации и аудио для распознавания речи. Результаты показали, что MXFlow эффективно осуществляет извлечение логической структуры, преобразование её и восстановление unstructured формата. Эти результаты подтверждают то, что MXFlow может обеспечить би-дирекциональную обработку с одинаковой эффективностью как для структурированных, так и unstructured данных. ## Значимость Разработанный подход имеет широкие области применения, включая computer vision, natural language processing, speech recognition и другие области, где unstructured данные играют определяющую роль. Одним из основных преимуществ MXFlow является возможность обрабатывать unstructured данные с помощью структурированных методов, что позволяет увеличить точность и эффективность обработки. Это открывает новые перспективы в развитии AI и data analysis. ## Выводы Мы представили новую модель computing on unstructured data, которая объединяет преимущества структурированных и unstructured подходов к обработке данных. Мы также представили систему MXFlow, которая реализует этот подход.

Abstract

Unstructured data, such as text, images, audio, and video, comprises the vast majority of the world's information, yet it remains poorly supported by traditional data systems that rely on structured formats for computation. We argue for a new paradigm, which we call computing on unstructured data, built around three stages: extraction of latent structure, transformation of this structure through data processing techniques, and projection back into unstructured formats. This bi-directional pipeline allows unstructured data to benefit from the analytical power of structured computation, while preserving the richness and accessibility of unstructured representations for human and AI consumption. We illustrate this paradigm through two use cases and present the research components that need to be developed in a new data system called MXFlow.

Ссылки и действия