Empowering Multimodal LLMs with External Tools: A Comprehensive Survey
2508.10955v1
cs.CV, cs.CL, cs.MM
2025-08-19
Авторы:
Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng
Резюме на русском
## Контекст
Многоmodal Large Language Models (MLLMs), такие как GPT-4V, объединяют преимущества восприятия, предоставляемые multimodal encoders, с генерирующим потенциалом Large Language Models (LLMs). Они достигли выдающихся результатов в различных multimodal задачах, демонстрируя перспективу создания искусственного общего разума. Однако существуют значительные проблемы, ограничивающие их надежность и широтой применения. Это включает плохую качественность multimodal данных, недостаточную эффективность на сложных задачах, а также недостаточные методики оценки. Чтобы улучшить эти модели, идея использования внешних инструментов (например, APIs, экспертных моделей, и знаний) была предложена. Этот подход способствует улучшению качества данных, повышению производительности на трудных задачах, и созданию более точных методов оценки. Данная работа является подробным обзором текущих направлений использования внешних инструментов для улучшения MLLMs.
## Метод
В этом обзоре рассматриваются четыре основных направления, в которых внешние инструменты могут помочь улучшить MLLMs:
1. **Повышение качества данных**: Использование внешних инструментов для подбора, аннотации, и изменения multimodal данных для повышения качества.
2. **Повышение производительности на задачах**: Использование внешних инструментов для обнаружения проблем в задачах и оказания поддержки в решении этих проблем.
3. **Улучшение методов оценки**: Разработка новых методов оценки, использующих внешние инструменты для более точной и широкой оценки моделей.
4. **Ограничения и направления развития**: Обсуждение текущих ограничений и путей для будущих развитий в этой области.
## Результаты
На основе обзора, проведенного в рамках этой работы, был проанализирован набор исследований, которые использовали внешние инструменты для улучшения MLLMs. Были основаны ключевые направления, в которых внешние инструменты могут быть применены. Еще один аспект, рассмотренный в этой работе, заключается в том, как внешние инструменты могут облегчить получение качественных данных, улучшить производительность моделей в сложных задачах, и повысить уровень точности оценки.
## Значимость
Данная работа имеет значимость для развития MLLMs в следующих областях:
1. **Применение в различных сферах**: Внешние инструменты могут быть применены во многих областях, включая здравоохранение, финансы, и производство.
2. **Преимущества**: Использование внешних инструментов позволяет обеспечить более точную и надежную оценку моделей, а также улучшить их производительность в сложных задачах.
3. **Потенциальное влияние**: Будущие развития в этой области могут привести к значительным улучшениям в области искусственного общего раз
Abstract
By integrating the perception capabilities of multimodal encoders with the
generative power of Large Language Models (LLMs), Multimodal Large Language
Models (MLLMs), exemplified by GPT-4V, have achieved great success in various
multimodal tasks, pointing toward a promising pathway to artificial general
intelligence. Despite this progress, the limited quality of multimodal data,
poor performance on many complex downstream tasks, and inadequate evaluation
protocols continue to hinder the reliability and broader applicability of MLLMs
across diverse domains. Inspired by the human ability to leverage external
tools for enhanced reasoning and problem-solving, augmenting MLLMs with
external tools (e.g., APIs, expert models, and knowledge bases) offers a
promising strategy to overcome these challenges. In this paper, we present a
comprehensive survey on leveraging external tools to enhance MLLM performance.
Our discussion is structured along four key dimensions about external tools:
(1) how they can facilitate the acquisition and annotation of high-quality
multimodal data; (2) how they can assist in improving MLLM performance on
challenging downstream tasks; (3) how they enable comprehensive and accurate
evaluation of MLLMs; (4) the current limitations and future directions of
tool-augmented MLLMs. Through this survey, we aim to underscore the
transformative potential of external tools in advancing MLLM capabilities,
offering a forward-looking perspective on their development and applications.
The project page of this paper is publicly available
athttps://github.com/Lackel/Awesome-Tools-for-MLLMs.
Ссылки и действия
Дополнительные ресурсы: