Controlling Multimodal LLMs via Reward-guided Decoding

2508.11616v1 cs.CV, cs.AI, cs.CL, cs.LG 2025-08-19
Авторы:

Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

Резюме на русском

## Контекст Multimodal Large Language Models (MLLMs) — это мощные модели, которые обрабатывают и генерируют текст, изображения и другие типы данных. Их применение растет в областях, таких как автоматическое описание изображений, робототехника и системы помощи людям с ограниченными возможностями. Однако возникает необходимость в том, чтобы эти модели могли быть более контролируемыми и адаптированы к различным потребностям пользователей. Например, в задачах, таких как интерактивное обучение или системы помощи, пользователи могут хотеть управлять точностью и шириной результатов. **Controlling Multimodal LLMs via Reward-guided Decoding** — это попытка решить эту проблему, предлагая первую методику для воздействия на процесс определения результатов модели. ## Метод Работа предлагает новую методику для управления процессом декодирования MLLM, используя вознаграждение (reward) в качестве руководства. Этот подход включает в себя создание моделей вознаграждения, которые оценивают качество результатов модели, например, точность и ширину обнаружения объектов. Эти модели вводятся в процесс декодирования, где они отзываются для влияния на выбор слов и фраз. Таким образом, пользователь может динамически регулировать точность и ширину результатов, которые модель генерирует, не требуя предварительного обучения. Это дает гибкость в управлении работой модели во время выполнения, что важно для задач, где требуется быстрая адаптация. ## Результаты Исследование проводилось на стандартных бенчмарках, включающих задачи, такие как обнаружение объектов и интерактивные задачи генерирования текста. Были проведены эксперименты, показавшие, что новая методика дает значительный улучшение в контролируемости модели. Например, модель может быть настроена на приоритет точности или ширины обнаружения, в зависимости от задачи. Было также показано, что она показывает лучшие результаты по сравнению с другими методами гарантии точности результатов. ## Значимость Предложенный подход может быть применен в различных областях, таких как робототехника, интерактивные системы обучения и системы помощи, где требуется контролируемая интерактивность. Он позволяет улучшить качество результатов, давая пользователям большее количество возможностей для регулирования модели. Это также может привести к экономии ресурсов, так как пользователи могут регулировать ширину процесса поиска, уменьшая необходимость выполнения дорогостоящих операций. ## Выводы Наша работа представляет первую методику для контролируемого декодирования MLLM через вознаграждение. Мы демонстрируем, что модель может быть настроена на приоритет точности или ширины результатов и показывает лучшие результаты по

Abstract

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Concretely, we build two separate reward models to independently control the degree of object precision and recall in the model's output. Our approach enables on-the-fly controllability of an MLLM's inference process in two ways: first, by giving control over the relative importance of each reward function during decoding, allowing a user to dynamically trade off object precision for recall in image captioning tasks; second, by giving control over the breadth of the search during decoding, allowing the user to control the trade-off between the amount of test-time compute and the degree of visual grounding. We evaluate our method on standard object hallucination benchmarks, showing that it provides significant controllability over MLLM inference, while consistently outperforming existing hallucination mitigation methods.

Ссылки и действия