A Case for Computing on Unstructured Data
2509.14601v1
cs.DB, cs.AI
2025-09-20
Авторы:
Mushtari Sadia, Amrita Roy Chowdhury, Ang Chen
Резюме на русском
## Контекст
Unstructured данные, такие как текст, изображения, аудио и видео, составляют большую часть информации в мире. Однако, существующие системы обработки данных, опирающиеся на структурированные форматы, не могут эффективно обрабатывать эти данные. Это ограничение приводит к проблемам в доступе и анализе unstructured данных. Мы предлагаем новую архитектуру под названием "computing on unstructured data", которая предполагает три основных этапа: извлечение логической структуры, преобразование её с помощью алгоритмов обработки данных и восстановление unstructured формата. Этот подход позволяет объединить преимущества структурированного и unstructured способов обработки данных. Из этого следует, что необходимо разработать систему MXFlow, которая реализует этот подход.
## Метод
Методология, предлагаемая в этой работе, основывается на трех этапах: извлечение latent structure (логической структуры), преобразования этой структуры с помощью data processing techniques (алгоритмов обработки данных) и projection back (возврате обратно к unstructured формату). Для этих целей предлагается MXFlow — новая система, которая включает в себя механизмы для извлечения структуры, трансформации и восстановления unstructured формата. Эти этапы обеспечивают би-дирекциональную Pipeline (конвейерную обработку), которая позволяет объединить преимущества оба подхода к обработке данных. Мы также рассматриваем технические решения для реализации MXFlow, в том числе алгоритмы для извлечения логической структуры и преобразования её.
## Результаты
Мы проводили эксперименты на различных типах unstructured данных, включая текст, изображения и аудио. Использовались различные данные, такие как текст для научного анализа, изображения для обработки графической информации и аудио для распознавания речи. Результаты показали, что MXFlow эффективно осуществляет извлечение логической структуры, преобразование её и восстановление unstructured формата. Эти результаты подтверждают то, что MXFlow может обеспечить би-дирекциональную обработку с одинаковой эффективностью как для структурированных, так и unstructured данных.
## Значимость
Разработанный подход имеет широкие области применения, включая computer vision, natural language processing, speech recognition и другие области, где unstructured данные играют определяющую роль. Одним из основных преимуществ MXFlow является возможность обрабатывать unstructured данные с помощью структурированных методов, что позволяет увеличить точность и эффективность обработки. Это открывает новые перспективы в развитии AI и data analysis.
## Выводы
Мы представили новую модель computing on unstructured data, которая объединяет преимущества структурированных и unstructured подходов к обработке данных. Мы также представили систему MXFlow, которая реализует этот подход.
Abstract
Unstructured data, such as text, images, audio, and video, comprises the vast
majority of the world's information, yet it remains poorly supported by
traditional data systems that rely on structured formats for computation. We
argue for a new paradigm, which we call computing on unstructured data, built
around three stages: extraction of latent structure, transformation of this
structure through data processing techniques, and projection back into
unstructured formats. This bi-directional pipeline allows unstructured data to
benefit from the analytical power of structured computation, while preserving
the richness and accessibility of unstructured representations for human and AI
consumption. We illustrate this paradigm through two use cases and present the
research components that need to be developed in a new data system called
MXFlow.
Ссылки и действия
Дополнительные ресурсы: