MMORE: Massive Multimodal Open RAG & Extraction

2509.11937v1 cs.SE, cs.AI, D.2.0; E.m 2025-09-17
Авторы:

Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, Fabrice Nemo, David Kalajdzic, Matthias Meyer, Mary-Anne Hartley

Резюме на русском

## Контекст Область адаптивных генерируемых систем на базе языковых моделей (LLMs) постоянно растёт, становится все более важной в связи с возрастающим требованием к высококачественному решению проблем в различных сферах. Одна из главных проблем заключается в обработке и анализе разных форматов документов, включающих текст, таблицы, изображения, аудио, видео и другие. Настоящая работа уделяет особое внимание сложностям, связанным с единообразной обработкой этих данных, и предлагает решение в виде новой общедоступной и мощной системы, которая может заниматься обработкой и взаимодействием с такими многообразными данными. ## Метод Методология, используемая в системе MMORE (Massive Multimodal Open RAG & Extraction), основывается на модульной архитектуре, позволяющей обрабатывать многообразные форматы документов в реальном времени. Данная система использует методы гибридной сетевой и разреженной нейронной нейронной сети для эффективной индексации и поиска данных. Также в MMORE реализовано широкое количество модулей для преобразования форматов и экстракции данных, что позволяет производить обработку и анализ больших массивов полезных данных в разных форматах. ## Результаты Система MMORE была протестирована на различных наборах данных, включая текстовые документы, таблицы и изображения. Она способна обрабатывать более 15 различных форматов документов и достигает высокой скорости и точности в процессе обработки. На примере PubMedQA, где рассматривалась биомедицинская область, система показала увеличение точности ответов с помощью возможности выполнять более глубокий поиск в базе знаний. Также была установлена высокая эффективность в сравнении с другими похожими системами, в частности, Docling, где была достигнута 40% выше точность при обработке просканированных PDF-документов. ## Значимость MMORE представляет собой мощное инструмент для многомодальной обработки и взаимодействия с текстом, таблицами, изображениями и другими форматами. Он может использоваться в различных областях, включая медицину, право, образование и технические задачи. Его мобильность и модульность делают его подходящим для различных ситуаций, где необходима быстрая и точная обработка данных. Возможно, MMORE может стать ключевым инструментом для создания более мощных и эффективных систем в области глубокого обучения и работы с многомодальными данными. ## Выводы Система MMORE представляет собой высокоэффективный инструмент для обработки многомодальных данных, который обеспечивает высокую скорость и точность в процессе работы с различными форматами документов. Она позволяет создавать мощные системы для многомодальной адаптив

Abstract

We introduce MMORE, an open-source pipeline for Massive Multimodal Open RetrievalAugmented Generation and Extraction, designed to ingest, transform, and retrieve knowledge from heterogeneous document formats at scale. MMORE supports more than fifteen file types, including text, tables, images, emails, audio, and video, and processes them into a unified format to enable downstream applications for LLMs. The architecture offers modular, distributed processing, enabling scalable parallelization across CPUs and GPUs. On processing benchmarks, MMORE demonstrates a 3.8-fold speedup over single-node baselines and 40% higher accuracy than Docling on scanned PDFs. The pipeline integrates hybrid dense-sparse retrieval and supports both interactive APIs and batch RAG endpoints. Evaluated on PubMedQA, MMORE-augmented medical LLMs improve biomedical QA accuracy with increasing retrieval depth. MMORE provides a robust, extensible foundation for deploying task-agnostic RAG systems on diverse, real-world multimodal data. The codebase is available at https://github.com/swiss-ai/mmore.

Ссылки и действия