📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Alexander Martin, William Walden, Reno Kriz, Dengjia Zhang, Kate Sanders, Eugene Yang, Chihsheng Jin, Benjamin Van Durme
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce MiRAGE, an evaluation framework for retrieval-augmented
generation (RAG) from multimodal sources. As audiovisual media becomes a
prevalent source of information online, it is essential for RAG systems to
integrate information from these sources into generation. However, existing
evaluations for RAG are text-centric, limiting their applicability to
multimodal, reasoning intensive settings because they don't verify information
against sources. MiRAGE is a claim-centric approach to mul...
📄 Supervised Fine-Tuning or Contrastive Learning? Towards Better Multimodal LLM Reranking
2025-10-18Авторы:
Ziqi Dai, Xin Zhang, Mingxin Li, Yanzhao Zhang, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, Min Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In information retrieval, training reranking models mainly focuses on two
types of objectives: metric learning (e.g. contrastive loss to increase the
predicted scores on relevant query-document pairs) and classification (binary
label prediction of relevance vs. irrelevance). For BERT-style encoders,
various studies have shown that contrastive learning (CL) can be more effective
than discriminative (classification) learning. However, for large language
models (LLMs), classification via supervised...
Авторы:
Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin
**Резюме**
В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества.
Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.
Annotation:
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language
Models (MLLMs) show great promise for complex document understanding, yet their
development is critically hampered by inadequate evaluation. Current benchmarks
often focus on specific part of document RAG system and use synthetic data with
incomplete ground truth and evidence labels, therefore failing to reflect
real-world bottlenecks and challenges. To overcome these limitations, we
introduce Double-Bench: a new large-...