Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

2508.10955v1 cs.CV, cs.CL, cs.MM 2025-08-19

Авторы:

Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng

Резюме на русском

## Контекст Многоmodal Large Language Models (MLLMs), такие как GPT-4V, объединяют преимущества восприятия, предоставляемые multimodal encoders, с генерирующим потенциалом Large Language Models (LLMs). Они достигли выдающихся результатов в различных multimodal задачах, демонстрируя перспективу создания искусственного общего разума. Однако существуют значительные проблемы, ограничивающие их надежность и широтой применения. Это включает плохую качественность multimodal данных, недостаточную эффективность на сложных задачах, а также недостаточные методики оценки. Чтобы улучшить эти модели, идея использования внешних инструментов (например, APIs, экспертных моделей, и знаний) была предложена. Этот подход способствует улучшению качества данных, повышению производительности на трудных задачах, и созданию более точных методов оценки. Данная работа является подробным обзором текущих направлений использования внешних инструментов для улучшения MLLMs. ## Метод В этом обзоре рассматриваются четыре основных направления, в которых внешние инструменты могут помочь улучшить MLLMs: 1. **Повышение качества данных**: Использование внешних инструментов для подбора, аннотации, и изменения multimodal данных для повышения качества. 2. **Повышение производительности на задачах**: Использование внешних инструментов для обнаружения проблем в задачах и оказания поддержки в решении этих проблем. 3. **Улучшение методов оценки**: Разработка новых методов оценки, использующих внешние инструменты для более точной и широкой оценки моделей. 4. **Ограничения и направления развития**: Обсуждение текущих ограничений и путей для будущих развитий в этой области. ## Результаты На основе обзора, проведенного в рамках этой работы, был проанализирован набор исследований, которые использовали внешние инструменты для улучшения MLLMs. Были основаны ключевые направления, в которых внешние инструменты могут быть применены. Еще один аспект, рассмотренный в этой работе, заключается в том, как внешние инструменты могут облегчить получение качественных данных, улучшить производительность моделей в сложных задачах, и повысить уровень точности оценки. ## Значимость Данная работа имеет значимость для развития MLLMs в следующих областях: 1. **Применение в различных сферах**: Внешние инструменты могут быть применены во многих областях, включая здравоохранение, финансы, и производство. 2. **Преимущества**: Использование внешних инструментов позволяет обеспечить более точную и надежную оценку моделей, а также улучшить их производительность в сложных задачах. 3. **Потенциальное влияние**: Будущие развития в этой области могут привести к значительным улучшениям в области искусственного общего раз

Abstract

By integrating the perception capabilities of multimodal encoders with the generative power of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs), exemplified by GPT-4V, have achieved great success in various multimodal tasks, pointing toward a promising pathway to artificial general intelligence. Despite this progress, the limited quality of multimodal data, poor performance on many complex downstream tasks, and inadequate evaluation protocols continue to hinder the reliability and broader applicability of MLLMs across diverse domains. Inspired by the human ability to leverage external tools for enhanced reasoning and problem-solving, augmenting MLLMs with external tools (e.g., APIs, expert models, and knowledge bases) offers a promising strategy to overcome these challenges. In this paper, we present a comprehensive survey on leveraging external tools to enhance MLLM performance. Our discussion is structured along four key dimensions about external tools: (1) how they can facilitate the acquisition and annotation of high-quality multimodal data; (2) how they can assist in improving MLLM performance on challenging downstream tasks; (3) how they enable comprehensive and accurate evaluation of MLLMs; (4) the current limitations and future directions of tool-augmented MLLMs. Through this survey, we aim to underscore the transformative potential of external tools in advancing MLLM capabilities, offering a forward-looking perspective on their development and applications. The project page of this paper is publicly available athttps://github.com/Lackel/Awesome-Tools-for-MLLMs.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Joint Modeling of Big Five and HEXACO for Multimodal Apparent Personality-trait ...

FinCap: Topic-Aligned Captions for Short-Form Financial YouTube Videos

Навигация