📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Controlling Multimodal LLMs via Reward-guided Decoding

2025-08-19

Авторы:

Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

## Контекст Multimodal Large Language Models (MLLMs) — это мощные модели, которые обрабатывают и генерируют текст, изображения и другие типы данных. Их применение растет в областях, таких как автоматическое описание изображений, робототехника и системы помощи людям с ограниченными возможностями. Однако возникает необходимость в том, чтобы эти модели могли быть более контролируемыми и адаптированы к различным потребностям пользователей. Например, в задачах, таких как интерактивное обучение или системы помощи, пользователи могут хотеть управлять точностью и шириной результатов. **Controlling Multimodal LLMs via Reward-guided Decoding** — это попытка решить эту проблему, предлагая первую методику для воздействия на процесс определения результатов модели. ## Метод Работа предлагает новую методику для управления процессом декодирования MLLM, используя вознаграждение (reward) в качестве руководства. Этот подход включает в себя создание моделей вознаграждения, которые оценивают качество результатов модели, например, точность и ширину обнаружения объектов. Эти модели вводятся в процесс декодирования, где они отзываются для влияния на выбор слов и фраз. Таким образом, пользователь может динамически регулировать точность и ширину результатов, которые модель генерирует, не требуя предварительного обучения. Это дает гибкость в управлении работой модели во время выполнения, что важно для задач, где требуется быстрая адаптация. ## Результаты Исследование проводилось на стандартных бенчмарках, включающих задачи, такие как обнаружение объектов и интерактивные задачи генерирования текста. Были проведены эксперименты, показавшие, что новая методика дает значительный улучшение в контролируемости модели. Например, модель может быть настроена на приоритет точности или ширины обнаружения, в зависимости от задачи. Было также показано, что она показывает лучшие результаты по сравнению с другими методами гарантии точности результатов. ## Значимость Предложенный подход может быть применен в различных областях, таких как робототехника, интерактивные системы обучения и системы помощи, где требуется контролируемая интерактивность. Он позволяет улучшить качество результатов, давая пользователям большее количество возможностей для регулирования модели. Это также может привести к экономии ресурсов, так как пользователи могут регулировать ширину процесса поиска, уменьшая необходимость выполнения дорогостоящих операций. ## Выводы Наша работа представляет первую методику для контролируемого декодирования MLLM через вознаграждение. Мы демонстрируем, что модель может быть настроена на приоритет точности или ширины результатов и показывает лучшие результаты по

Annotation:

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Con...

ID: 2508.11616v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets

2025-08-15

Авторы:

Lingyu Chen, Yawen Zeng, Yue Wang, Peng Wan, Guo-chen Ning, Hongen Liao, Daoqiang Zhang, Fang Chen

#### Контекст Анализ ультразвуковых изображений (US) широко применяется в медицине для диагностики различных заболеваний. Однако существуют значительные вызовы, связанные с ограниченностью размера данных, акустическими теньюми и раздражительным шумом. Эти факторы ограничивают переносимость моделей, обученных на одном наборе данных, к другим. Для того чтобы построить универсальную модель, которая была бы эффективной для разных ультразвуковых наборов данных, необходимо учитывать различия между ними и эффективно извлекать дискриминативные признаки. Поэтому, целью данного исследования является разработка универсального фреймворка, который бы способствовал улучшению общей точности детекции злокачественных образований в разных ультразвуковых данных. #### Метод Для развития универсальной модели был предложен метод **Universal Collaborative Mixture of Heterogeneous Source-Specific Experts (COME)**. Он состоит из двух главных компонентов: **универсальных структурно-семантических экспертов**, которые строят универсальное пространство представления, и **источник-специфических экспертов**, которые извлекают дискриминативные признаки для каждого отдельного набора данных. Метод COME работает следующим образом: первые эксперты создают обобщенное представление, а затем эти представления используются источник-специфическими экспертами для выделения признаков, относящихся к конкретной нагрузке. Эта конструкция позволяет модели COME лучше адаптироваться к новым данным и обеспечивает улучшения в общем знании за счет обмена опытом между разными наборами. #### Результаты Результаты экспериментов показывают, что модель COME выдает значительно лучшие результаты по сравнению с другими моделями. Она была протестирована на трех режимах: **одноданность**, **межорганическое** и **внутриорганическое** объединение наборов данных. На всех этих режимах COME показала значительные улучшения в метрике mean average precision (mAP) по сравнению с состоянием искусства. Например, на интегрированных наборах данных COME показала AP-улучшения до **15%** в сравнении с предыдущими моделями. Это демонстрирует высокую эффективность COME в обеспечении универсальной детекции злокачественных новообразований в разных ультразвуковых данных. #### Значимость Предлагаемый подход имеет значительное значение в области медицинского анализа изображений. Он может быть применен для развития универсальных моделей, которые будут эффективными для различных видов ультразвуковых изображений в разных задачах. COME позволяет улучшить точность детекции и обеспечивает более значимые результаты в медицинских приложениях. Данный подход может быть применен для глубокого обучения в других

Annotation:

Conventional single-dataset training often fails with new data distributions, especially in ultrasound (US) image analysis due to limited data, acoustic shadows, and speckle noise. Therefore, constructing a universal framework for multi-heterogeneous US datasets is imperative. However, a key challenge arises: how to effectively mitigate inter-dataset interference while preserving dataset-specific discriminative features for robust downstream task? Previous approaches utilize either a single sour...

ID: 2508.09886v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

2025-08-15

Авторы:

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li

## Контекст Одним из актуальных направлений в области глубокого обучения является создание моделей, эффективно генерирующих изображения на основе текстовых описаний. Несмотря на успех моделей GPT-4o в этой области, существуют отклонения в синхронизации текстовых и изображенийных семантик, а также ограничения в доступности качественных данных для обучения. Эти проблемы приводят к недостаточной точности в обработке редких или сложных запросов пользователей, таких как создание изображений в сюрреалистических или многореферентных сценариях. Для устранения этих проблем необходимо развитие систем, которые могли бы совершенствоватьсюреалистическийсозданиемоделей, которые могли бы совершенствоваться с помощью высококачественных синтетических данных. ## Метод Методология Echo-4o основывается на создании и использовании синтетического данных, генерируемых с помощью GPT-4o. Эта модель порождает 180K-масштабные изображения, оптимизированные для заполнения пробелов в реальных данных, таких как наличие редких сценариев и чистых фонов. Для тонкой настройки базовой модели Bagel введен синтетический датасет Echo-4o-Image, предназначенный для улучшения текстово-изображенией синхронизации. Для точного оценки результатов были разработаны две новые эвалиационные бенчмарки: GenEval++ для оценки сложностных инструкций, и Imagine-Bench для оценки ответов на интеллектуально-изобразительные задачи. ## Результаты Основными результатами данного исследования является повышение точности генерирования изображений в сравнении с существующими моделями. В результатах экспериментов на популярных бенчмарках Echo-4o показал значительное улучшение в задачах текстово-изображательной синхронизации. Новые бенчмарки, например GenEval++, позволили избежать сковывающих результаты оценочные метрики, а Imagine-Bench продемонстрировал улучшение моделей в экспериментах с изображениями сложных сценариев. Более того, применение Echo-4o-Image к другим моделям (например, OmniGen2 и BLIP3-o) показало значительные повышения метрик по нескольким показателям. ## Значимость Результаты Echo-4o-Image могут быть применены в различных областях, включая создание контента, ретуширование изображений, и создание многореферентных изображений. Эта модель предлагает значительные преимущества в том числе чистоту синтетических данных, которые улучшают текстово-изображательную синхронизацию и расширяют возможности моделей глубокого обучения. Это может привести к значительному повышению качества изображений в различных приложениях, в том числе в создании рекламных материалов, интерактивных игр, и контента для социальных сетей. ## Выводы Echo-4o представ

Annotation:

Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic...

ID: 2508.09987v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

2025-08-13

Авторы:

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

## Контекст В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG. ## Метод Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса: 1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы. 2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки. ## Результаты Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей. ## Значимость Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур. ## Вы

Annotation:

Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance...

ID: 2508.08066v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

2025-08-12

Авторы:

Han Lin, Jaemin Cho, Amir Zadeh, Chuan Li, Mohit Bansal

#### Контекст В последние годы возросло интерес к созданию систем, объединяющих мощные возможности предсказания и разума текстовых моделей с высококачественным генерированием изображений. Однако существующие методы, призванные объединить эти области, часто сталкиваются с трудностями. Они либо неэффективны в процессе обучения, либо не полностью сохраняют многомодальные способности моделей. Это ограничивает их удобство и применение в реальных задачах. В этом контексте возникает мотивация для разработки эффективных и универсальных методов, объединяющих текстовые и изображения. #### Метод Мы предлагаем Bifrost-1 — универсальный фреймворк, связывающий мультимодальные текстовые модели (MLLMs) и модели размытия (diffusion models) с использованием патч-уровневых встроенных визуальных эмбеддингов CLIP. Эти эмбеддинги генерируются на основе входных изображений и адаптируются с помощью упрощенной версии ControlNet. Для сохранения многомодальных возможностей MLLM, мы добавляем в модель визуальную генерацию, инициализированную оригинальными параметрами модели. Это позволяет Bifrost-1 применять свои визуальные способности в процессе работы. Такое решение обеспечивает высокую эффективность обучения и высокое качество визуального генерирования. #### Результаты Мы проводили эксперименты, используя различные данные и задачи, включая задачи генерирования изображений на основе текста. Благодаря нашему подходу, модель показала сравнительно лучшие результаты по фидбеку пользователей и оценкам визуального качества. Мы также приводим абляционные исследования, подтверждающие эффективность используемых технических решений. #### Значимость Bifrost-1 может быть применен в сферах, где требуется сочетание текстового понимания с высококачественным генерированием изображений. Например, в области создания контента, интерактивных игр или работы с данными. Он обеспечивает высокую эффективность обучения, что снижает затраты ресурсов, и позволяет передавать текстовые концепции в визуальный формат с высоким качеством. #### Выводы Результаты наших исследований подтверждают эффективность Bifrost-1 в сочетании текстовых и визуальных моделей. Наша работа открывает новые пути для будущих исследований в области мультимодальных моделей, снижая затраты времени и ресурсов на их обучение. Мы планируем продолжать работу над улучшением Bifrost-1, в том числе в эффективности, универсальности и расширении его применения.

Annotation:

There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level ...

ID: 2508.05954v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

2025-08-09

Авторы:

Vebjørn Haug Kåsene, Pierre Lison

**Резюме** В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.

Annotation:

Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atom...

ID: 2508.02917v1 cs.CV, cs.AI, cs.CL, cs.RO

arXiv PDF

📄 ChartCap: Mitigating Hallucination of Dense Chart Captioning

2025-08-09

Авторы:

Junyoung Lim, Jaewoo Ahn, Gunhee Kim

Генерирование точных и структурированных подписей для диаграмм остается сложной задачей для визуально-языковых моделей, в основном из-за недостатка больших, высококачественных датасетов реальных диаграмм. Основная проблема в том, что существующие датасеты часто включают лишнюю информацию, которая нельзя вывести из диаграмм, и недостаточно хорошо охватывают структурные элементы и основные выводы. Чтобы решить эту проблему, мы представляем ChartCap — большой датасет из 565К реальных диаграмм, покрывающий широкий спектр типов диаграмм. Наш датасет включает в себя точные, детальные подписи, которые исключают лишнюю информацию и сосредоточены на структуре и ключевых выводах. Чтобы повысить качество, мы разработали 4-х этапную методику с использованием циклической консистентности для проверки гуманными экспертами. Мы также предложили новый метрику — Visual Consistency Score — для оценки качества подписей, сравнивая регенерируемую диаграммой с оригиналом. Наши эксперименты показали, что модели, приточенные на ChartCap, генерируют более точные и информативные подписи с меньшим количеством халлуцинаций, превосходя даже профессионально аннотированные данные.

Annotation:

Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart...

ID: 2508.03164v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Test-Time Reinforcement Learning for GUI Grounding via Region Consistency

2025-08-08

Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для

Annotation:

Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...

ID: 2508.05615v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation

2025-08-06

Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.

Annotation:

Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...

ID: 2508.03351v1 cs.CV, cs.AI, cs.CL

arXiv PDF

Показано 151 - 160 из 161 записей