MMORE: Massive Multimodal Open RAG & Extraction
2509.11937v1
cs.SE, cs.AI, D.2.0; E.m
2025-09-17
Авторы:
Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, Fabrice Nemo, David Kalajdzic, Matthias Meyer, Mary-Anne Hartley
Резюме на русском
## Контекст
Область адаптивных генерируемых систем на базе языковых моделей (LLMs) постоянно растёт, становится все более важной в связи с возрастающим требованием к высококачественному решению проблем в различных сферах. Одна из главных проблем заключается в обработке и анализе разных форматов документов, включающих текст, таблицы, изображения, аудио, видео и другие. Настоящая работа уделяет особое внимание сложностям, связанным с единообразной обработкой этих данных, и предлагает решение в виде новой общедоступной и мощной системы, которая может заниматься обработкой и взаимодействием с такими многообразными данными.
## Метод
Методология, используемая в системе MMORE (Massive Multimodal Open RAG & Extraction), основывается на модульной архитектуре, позволяющей обрабатывать многообразные форматы документов в реальном времени. Данная система использует методы гибридной сетевой и разреженной нейронной нейронной сети для эффективной индексации и поиска данных. Также в MMORE реализовано широкое количество модулей для преобразования форматов и экстракции данных, что позволяет производить обработку и анализ больших массивов полезных данных в разных форматах.
## Результаты
Система MMORE была протестирована на различных наборах данных, включая текстовые документы, таблицы и изображения. Она способна обрабатывать более 15 различных форматов документов и достигает высокой скорости и точности в процессе обработки. На примере PubMedQA, где рассматривалась биомедицинская область, система показала увеличение точности ответов с помощью возможности выполнять более глубокий поиск в базе знаний. Также была установлена высокая эффективность в сравнении с другими похожими системами, в частности, Docling, где была достигнута 40% выше точность при обработке просканированных PDF-документов.
## Значимость
MMORE представляет собой мощное инструмент для многомодальной обработки и взаимодействия с текстом, таблицами, изображениями и другими форматами. Он может использоваться в различных областях, включая медицину, право, образование и технические задачи. Его мобильность и модульность делают его подходящим для различных ситуаций, где необходима быстрая и точная обработка данных. Возможно, MMORE может стать ключевым инструментом для создания более мощных и эффективных систем в области глубокого обучения и работы с многомодальными данными.
## Выводы
Система MMORE представляет собой высокоэффективный инструмент для обработки многомодальных данных, который обеспечивает высокую скорость и точность в процессе работы с различными форматами документов. Она позволяет создавать мощные системы для многомодальной адаптив
Abstract
We introduce MMORE, an open-source pipeline for Massive Multimodal Open
RetrievalAugmented Generation and Extraction, designed to ingest, transform,
and retrieve knowledge from heterogeneous document formats at scale. MMORE
supports more than fifteen file types, including text, tables, images, emails,
audio, and video, and processes them into a unified format to enable downstream
applications for LLMs. The architecture offers modular, distributed processing,
enabling scalable parallelization across CPUs and GPUs. On processing
benchmarks, MMORE demonstrates a 3.8-fold speedup over single-node baselines
and 40% higher accuracy than Docling on scanned PDFs. The pipeline integrates
hybrid dense-sparse retrieval and supports both interactive APIs and batch RAG
endpoints. Evaluated on PubMedQA, MMORE-augmented medical LLMs improve
biomedical QA accuracy with increasing retrieval depth. MMORE provides a
robust, extensible foundation for deploying task-agnostic RAG systems on
diverse, real-world multimodal data. The codebase is available at
https://github.com/swiss-ai/mmore.