📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Controlling Multimodal LLMs via Reward-guided Decoding

2025-08-19

Авторы:

Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

## Контекст Multimodal Large Language Models (MLLMs) — это мощные модели, которые обрабатывают и генерируют текст, изображения и другие типы данных. Их применение растет в областях, таких как автоматическое описание изображений, робототехника и системы помощи людям с ограниченными возможностями. Однако возникает необходимость в том, чтобы эти модели могли быть более контролируемыми и адаптированы к различным потребностям пользователей. Например, в задачах, таких как интерактивное обучение или системы помощи, пользователи могут хотеть управлять точностью и шириной результатов. **Controlling Multimodal LLMs via Reward-guided Decoding** — это попытка решить эту проблему, предлагая первую методику для воздействия на процесс определения результатов модели. ## Метод Работа предлагает новую методику для управления процессом декодирования MLLM, используя вознаграждение (reward) в качестве руководства. Этот подход включает в себя создание моделей вознаграждения, которые оценивают качество результатов модели, например, точность и ширину обнаружения объектов. Эти модели вводятся в процесс декодирования, где они отзываются для влияния на выбор слов и фраз. Таким образом, пользователь может динамически регулировать точность и ширину результатов, которые модель генерирует, не требуя предварительного обучения. Это дает гибкость в управлении работой модели во время выполнения, что важно для задач, где требуется быстрая адаптация. ## Результаты Исследование проводилось на стандартных бенчмарках, включающих задачи, такие как обнаружение объектов и интерактивные задачи генерирования текста. Были проведены эксперименты, показавшие, что новая методика дает значительный улучшение в контролируемости модели. Например, модель может быть настроена на приоритет точности или ширины обнаружения, в зависимости от задачи. Было также показано, что она показывает лучшие результаты по сравнению с другими методами гарантии точности результатов. ## Значимость Предложенный подход может быть применен в различных областях, таких как робототехника, интерактивные системы обучения и системы помощи, где требуется контролируемая интерактивность. Он позволяет улучшить качество результатов, давая пользователям большее количество возможностей для регулирования модели. Это также может привести к экономии ресурсов, так как пользователи могут регулировать ширину процесса поиска, уменьшая необходимость выполнения дорогостоящих операций. ## Выводы Наша работа представляет первую методику для контролируемого декодирования MLLM через вознаграждение. Мы демонстрируем, что модель может быть настроена на приоритет точности или ширины результатов и показывает лучшие результаты по

Annotation:

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Con...

ID: 2508.11616v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

2025-08-13

Авторы:

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

## Контекст В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG. ## Метод Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса: 1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы. 2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки. ## Результаты Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей. ## Значимость Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур. ## Вы

Annotation:

Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance...

ID: 2508.08066v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 41 - 43 из 43 записей