📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Attention Grounded Enhancement for Visual Document Retrieval

2025-11-19

Авторы:

Wanqing Cui, Wei Huang, Yazhi Guo, Yibo Hu, Meiguang Jin, Junfeng Ma, Keping Bi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Visual document retrieval requires understanding heterogeneous and multi-modal content to satisfy information needs. Recent advances use screenshot-based document encoding with fine-grained late interaction, significantly improving retrieval performance. However, retrievers are still trained with coarse global relevance labels, without revealing which regions support the match. As a result, retrievers tend to rely on surface-level cues and struggle to capture implicit semantic connections, hinde...

ID: 2511.13415v1 cs.IR, cs.CL, cs.CV

arXiv PDF

📄 Multimedia-Aware Question Answering: A Review of Retrieval and Cross-Modal Reasoning Architectures

2025-10-25

Авторы:

Rahul Raja, Arpita Vats

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Question Answering (QA) systems have traditionally relied on structured text data, but the rapid growth of multimedia content (images, audio, video, and structured metadata) has introduced new challenges and opportunities for retrieval-augmented QA. In this survey, we review recent advancements in QA systems that integrate multimedia retrieval pipelines, focusing on architectures that align vision, language, and audio modalities with user queries. We categorize approaches based on retrieval meth...

ID: 2510.20193v1 cs.IR, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Visual Lifelog Retrieval through Captioning-Enhanced Interpretation

2025-10-08

Авторы:

Yu-Fei Shih, An-Zi Yen, Hen-Hsen Huang, Hsin-Hsi Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

People often struggle to remember specific details of past experiences, which can lead to the need to revisit these memories. Consequently, lifelog retrieval has emerged as a crucial application. Various studies have explored methods to facilitate rapid access to personal lifelogs for memory recall assistance. In this paper, we propose a Captioning-Integrated Visual Lifelog (CIVIL) Retrieval System for extracting specific images from a user's visual lifelog based on textual queries. Unlike tradi...

ID: 2510.04010v1 cs.IR, cs.CL, cs.CV, cs.MM

arXiv PDF

📄 MetaEmbed: Scaling Multimodal Retrieval at Test-Time with Flexible Late Interaction

2025-09-24

Авторы:

Zilin Xiao, Qi Ma, Mengting Gu, Chun-cheng Jason Chen, Xintao Chen, Vicente Ordonez, Vijai Mohan

#### Контекст Увеличение объема данных и многообразия моделей обработки решаются с помощью мультимодальных моделей. Одной из проблем является качество обработки информации и ее точность в различных контекстах. Многие модели вынуждены оптимизировать как выравнивание, так и скорость обработки данных, что приводит к сложностям в реализации. Требуется модель, которая могла бы сочетать высокую точность и эффективность, а также удовлетворять требованиям различных сценариев применения. #### Метод Мы предлагаем MetaEmbed, новую архитектуру для мультимодального взаимодействия, которая использует последовательность Meta-токенов в качестве векторов для запросов и документов. Задача MetaEmbed состоит в том, чтобы лучше управлять хранением информации в сложной мультимодальной среде. Затем, во время обучения, мы добавляем заранее определенные мета-токены к входной последовательности. Во время выполнения, эти мета-токены представляют собой контекстные векторы, которые могут расширяться в несколько векторов для эффективной обработки. Метод Matryoshka Multi-Vector Retrieval обеспечивает выбор того, сколько векторов будет использовано в зависимости от требований к скорости и точности. #### Результаты Мы проверили MetaEmbed на двух больших наборах данных, Massive Multimodal Embedding Benchmark (MMEB) и Visual Document Retrieval Benchmark (ViDoRe). Наши результаты показали, что MetaEmbed показывает высокую эффективность и гибкость при работе с моделями, имеющими до 32 миллиардов параметров. Она удачно обеспечивает безупречное качество во время обработки и способна эффективно масштабироваться в зависимости от требований. #### Значимость Метод MetaEmbed может быть применен в различных сценариях, таких как поиск изображений, текста, а также в любых задачах, требующих высокого качества поиска и эффективности. Он обеспечивает дополнительные преимущества, такие как гибкость в выборе векторов и удобство в интеграции с другими моделями. Это открывает путь к новым возможностям в мультимодальной обработке, что может повлиять на развитие машинного обучения в области визуальных систем. #### Выводы Мы представили MetaEmbed, создав модель, которая значительно улучшает представление информации в мультимодальных средах. Мы показали, что модель хорошо справляется с масштабированием и достигает высокого качества работы в разных условиях. Наша работа открывает новые возможности для будущих исследований, в том числе в строительстве более эффективных моделей для мультимодальных задач.

Annotation:

Universal multimodal embedding models have achieved great success in capturing semantic relevance between queries and candidates. However, current methods either condense queries and candidates into a single vector, potentially limiting the expressiveness for fine-grained information, or produce too many vectors that are prohibitively expensive for multi-vector retrieval. In this work, we introduce MetaEmbed, a new framework for multimodal retrieval that rethinks how multimodal embeddings are co...

ID: 2509.18095v1 cs.IR, cs.CL, cs.CV

arXiv PDF