📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Boammani Aser Lompo, Marc Haraoui
## Контекст
Одним из ключевых аспектов развития современных визуально-языковых моделей (Vision-Language Models, VLMs) является возможность эффективного визуального рассуждения над структурированными данными, такими как таблицы. Тем не менее, существующие бенчмарки для оценки визуального рассуждения над таблицами имеют значительные ограничения в масштабе, разнообразии и глубине рассуждений, особенно при использовании рендеринга таблиц в виде изображений. Этот лаконичный ресурс определяет значительные проблемы для развития моделей, которые могут не только распознавать таблицы, но и выполнять глубокую логическую рассуждение о них. Ввиду этого, есть необходимость в создании более объемных и разнообразных данных, которые могут более точно оценивать визуально-логические способности моделей.
## Метод
Методология, использованная в этой работе, основывается на создании модульной, автоматизированной и стоимостно-эффективной генерационной конвейерной системы. Эта система включает несколько моделей глубокого обучения (LLMs), которые работают вместе в разных ролях: генерации, валидации и использовании в качестве вдохновения. Начальные модели ставят сложные табличные структуры и темы, а другие модели развивают эти идеи, внося дополнительный контент. Этот процесс позволяет создавать высококачественные, разнообразные и логически глубокие реальные сценарии в рамках моделирования. Бенчмарк Visual-TableQA включает 2.5k LaTeX-таблиц и 6k вопросов-ответов, построенных на них, созданных при минимальных затратах (менее $100), что демонстрирует эффективность технологии.
## Результаты
В результате экспериментов показано, что модели, обученные на Visual-TableQA, демонстрируют высокую гибкость и общеуниверсальность. Они показали значительные улучшения в производительности по сравнению с другими моделями, даже несмотря на синтетический характер данных. Эти модели оказались более точными в обработке табличных данных вне зависимости от того, синтетические они ли оказались или нет, что указывает на потенциал такого подхода для развития моделей среды.
## Значимость
Этот подход имеет широкие применения в сферах, где требуется развитая визуально-логическая обработка данных. Он может быть применен в таких областях, как данные отраслей, финансы, медицина, и даже в развитие продуктов учебных систем. Одним из основных преимуществ является своя стоимость, быстродействие и тот факт, что он может быть применен для широкой обработки различных типов данных. В будущем, этот подход может быть развит для добавления более сложных задач и тестов, чтобы повысить допускаемую точность моделей.
##
Annotation:
Visual reasoning over structured data such as tables is a critical capability
for modern vision-language models (VLMs), yet current benchmarks remain limited
in scale, diversity, or reasoning depth, especially when it comes to rendered
table images. Addressing this gap, we introduce Visual-TableQA, a large-scale,
open-domain multimodal dataset specifically designed to evaluate and enhance
visual reasoning over complex tabular data. Our generation pipeline is modular,
scalable, and fully autonomo...
Авторы:
Eric Slyman, Mehrab Tanjim, Kushal Kafle, Stefan Lee
#### Контекст
Многоmodalные large language models (MLLMs) приобрели значительное применение в оценке систем генерации текст-to-image (TTI), обеспечивая автоматизированные решения на основе визуальных и текстовых контекстов. Однако эти "судьи" терпят неудачу в учёте разнообразия визуальных данных, часто страдая от смещений, переоценки и непоследовательности в результатах. Дополнительно, существующие методы энсемблирования проваливаются в генерализованности к TTI. Это приводит к недостаточной точности и неполадкам в оценке качества изображений. Мы разработали Multimodal Mixture-of-Bayesian Prompt Ensembles (MMB) — метод, который учитывает multimodal-специфику и исправляет эти проблемы.
#### Метод
ММБ — это способ, основанный на Байесовской модели, который применяет несколько промодовных моделей для подготовки запросов. Мы используем кластеризацию изображений для уточнения весов при решении, а также внедряем multimodal-контекст в процесс оценки. Это позволяет модели оптимально сочетать вклады каждого модели, учитывая визуальные особенности каждого изображения. ММБ позволяет модели более точно эвристически определять неопределённость и выводить принятия, что улучшает качество предсказаний.
#### Результаты
Мы провели эксперименты с двумя TTI-датасетами HPSv2 и MJBench. ММБ показала превосходство по алгоритмам по умолчанию в предсказаниях и калибровке. Наши результаты показали, что MMB значительно улучшает верность оценок в pairwise-предпочтениях и повышает уверенность в полученных результатах. Эти результаты подтверждают, что MMB значительно превосходит существующие технологии в качестве метода для оценки TTI.
#### Значимость
ММБ применяется в формировании запросов к моделям с многоуровневой оценкой изображений. Она позволяет улучшить качество вывода и повысить уверенность в решениях. Это имеет огромный потенциал в разработке новых систем TTI, включая системы для проверки качества изображений, поиска и анализа.
#### Выводы
Мы показали, что MMB является эффективным способом улучшить калибровку судей в TTI-сценариях. Наши достижения указывают на необходимость развития multimodal-конкретных стратегий в глубоком обучении. Мы планируем расширить наши исследования, обобщая MMB на более отклонённые наборы данных и развивая более широкую поддержку multimodal-технологий.
Annotation:
Multimodal large language models (MLLMs) are increasingly used to evaluate
text-to-image (TTI) generation systems, providing automated judgments based on
visual and textual context. However, these "judge" models often suffer from
biases, overconfidence, and inconsistent performance across diverse image
domains. While prompt ensembling has shown promise for mitigating these issues
in unimodal, text-only settings, our experiments reveal that standard
ensembling methods fail to generalize effective...
Авторы:
Taha Koleilat, Hassan Rivaz, Yiming Xiao
#### Контекст
Vision-language models (VLMs), такие как CLIP, демонстрируют впечатляющие возможности zero-shot и few-shot обучения в различных приложениях. Однако, приложение этих моделей к новым, тонко отформированным доменам становится проблемой из-за зависимости от предварительной настройки (prompt engineering) и высоких затрат на полную переобучку модели. Существующие методы адаптации часто вводят дополнительные компоненты, такие как токены-обозначения (prompt tokens) и модули-адаптера, которые могут ограничить качество адаптации, повлиять на стабильность модели и снизить эффективность, полученную в процессе предобучения. В этой работе мы предлагаем **CLIP-SVD**, новую многомодальную и параметр-эффективную методику адаптации, основанную на технике разложения по собственным значениям (Singular Value Decomposition, SVD), для изменения внутреннего пространства параметров CLIP без добавления дополнительных модулей.
#### Метод
CLIP-SVD делает использование Singular Value Decomposition (SVD) для изменения внутреннего пространства параметров модели CLIP. Вместо внедрения дополнительных модулей или токенов, мы изменяем только значения собственные (singular values) в матрицах параметров CLIP. Это позволяет изменять базисные векторы для выполнения доменной адаптации, сохраняя в то же время внутреннюю структуру и общую возможность модели. Наша техника требует только **0.04%** от общего числа параметров модели, чтобы достичь высокого уровня адаптации и генерализации. Это делает CLIP-SVD эффективным и универсальным инструментом для решения проблем адаптации во всех видах визуальных задач.
#### Результаты
Мы проводим эксперименты на 21 датасетах, включая 11 натуральных и 10 биомедицинских. Наши результаты показывают, что CLIP-SVD достигает **state-of-the-art** результатов в few-shot обучении по объёму достигнутых показателей точности и общей стабильности. Мы также создали новый подход, использующий естественный язык, для анализа эффективности и динамики адаптации CLIP-SVD, позволяющий понять и проанализировать процессы, происходящие внутри модели.
#### Значимость
CLIP-SVD может быть применен в различных областях, включая биомедицинскую интерпретацию изображений, обработку медицинских изображений и общую обработку изображений. Он предоставляет существенные преимущества в скорости и эффективности адаптации, а также сохраняет богатую базу знаний, полученную в процессе предобучения. Это означает, что CLIP-SVD может использоваться в ситуациях, требующих быстрого адаптирования моделей к новым данным, не теряя качества предсказаний.
#### Выводы
Мы представили CLIP-SVD, новую технику адаптации, которая применяет Singular Value Decomposition для изменения
Annotation:
Vision-language models (VLMs) like CLIP have shown impressive zero-shot and
few-shot learning capabilities across diverse applications. However, adapting
these models to new fine-grained domains remains difficult due to reliance on
prompt engineering and the high cost of full model fine-tuning. Existing
adaptation approaches rely on augmented components, such as prompt tokens and
adapter modules, which could limit adaptation quality, destabilize the model,
and compromise the rich knowledge learn...
Авторы:
Xiaofu Chen, Israfel Salazar, Yova Kementchedjhieva
## Контекст
В последние годы возрастает интерес к разработке систем, способных формировать подробные и точные описания изображений в текстовом виде. Однако существующие метрики, используемые для оценки качества таких описаний, начинают продемонстрировать ограничения. Н-грам-based метрики, хотя и эффективны в быстрой оценке сходства с текстом, не могут отразить полноту семантического смысла. Метрики Representational Similarity (RS), которые предназначены для точной оценки логики и семантики, сталкиваются с проблемой высокой вычислительной сложности и низким корреляционным показателем с оценками людей. Улучшения в технической стороне не привели к их популярности. Лишь LLM-based метрики (например, CLIPScore) доказали свою эффективность, но остаются дорогостоящими для широкого применения в процессе разработки и тренировки моделей.
## Метод
SPECS (Specificity-Enhanced CLIPScore) предлагается как решение данных проблем. Это усовершенствованная версия CLIP, которая нацелена на улучшение оценки точности и специфичности описаний. SPECS вводит дополнительный тренировочный функционал, который поощряет модель признаковая спецификация корректных фактов и отклонение от неточностей. Метод призван обеспечить высокую корреляцию с оценками людей при значительном сокращении вычислительных затрат по сравнению с прямыми LLM-based метриками.
## Результаты
Сравнительные эксперименты проводились на датасетах с длинными текстовыми описаниями изображений. SPECS демонстрирует высокую корреляцию с оценками людей, которая сопоставима с LLM-based метриками. Однако SPECS показывает значительно меньшую вычислительную сложность и требует меньших ресурсов, что делает его привлекательным для широкого использования в оптимизации и тренировке изображений-описаний.
## Значимость
SPECS может быть применено в различных областях, включая развитие систем обработки естественного языка, компьютерного зрения и машинного обучения. Он предоставляет практическое, эффективное и доступное решение для точного оценивания длинных описаний изображений. SPECS также открывает пути к будущим исследованиям в области улучшения RS-метрик и их интеграции с моделями для естественного языка.
## Выводы
SPECS является революционным шагом в повышении точности и эффективности оценки длинных описаний изображений. Он выполняет роль эффективного альтернативного LLM-based метрик, сохраняя их высокую корреляцию с оценками людей. Дальнейшие исследования могут рассматривать расширение SPECS для других типов задач, таких как референс-based оценка или мультимодальные задачи.
Annotation:
As interest grows in generating long, detailed image captions, standard
evaluation metrics become increasingly unreliable. N-gram-based metrics though
efficient, fail to capture semantic correctness. Representational Similarity
(RS) metrics, designed to address this, initially saw limited use due to high
computational costs, while today, despite advances in hardware, they remain
unpopular due to low correlation to human judgments. Meanwhile, metrics based
on large language models (LLMs) show str...
Авторы:
Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao
#### Контекст
Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение связано с увеличивающимися вызовами для обеспечения безопасности. Реальный мир часто порождает сложные сценарии, требующие учета множества факторов, включая различные ситуации, вызовы и реакции. Существующие методы построения датасетов, ориентированные на риск, не полностью учитывают эти сложности. Это приводит к недостаточности многих текущих подходов в построении датасетов, удовлетворяющих потребностям реальных сценариев. Более того, отсутствие единого метрического подхода к оценке эффективности датасетов делает их итоговую эффективность неоднозначной. В этой работе мы предлагаем новую методику построения датасетов, ориентированную на изображения, которая позволяет лучше учитывать реальные сценарии безопасности и обеспечивает более широкий и точный подход к их оценке.
#### Метод
Мы предлагаем изображение-ориентированный подход для сбора данных, который начинается с выбора сцен, связанных с мультимодальной безопасностью, затем автоматически строит текстовые ответы и рекомендации, основываясь на этих изображениях. Наша методика включает в себя несколько этапов: сбор изображений, описание их сцен, структурирование рекомендаций и текстовых ответов. Это позволяет создавать большие датасеты, содержащие различные сценарии, которые могут быть использованы для обучения и оценки безопасности. Мы также предлагаем метрику для оценки эффективности датасетов, основанную на том, как хорошо модель, обученная на данных, справляется с этими данными в других сценариях. Эта метрика помогает сравнивать различные датасеты и определять их уровень эффективности в реальных сценариях.
#### Результаты
Мы применили нашу методику для построения датасета, содержащего 35 000 изображение-текстовых пар с рекомендациями. Мы проверили эффективность этого подхода с помощью различных задач, включая оценку безопасности, распознавание объектов и анализ текста. Результаты показали, что наша методика дает значительный выигрыш в точности и общей эффективности по сравнению с другими методами. Мы также проверили нашу метрику, применяя ее к различным датасетам, и показали, что она обеспечивает надежный и универсальный подход к оценке безопасности.
#### Значимость
Наш подход может быть использован в различных областях, где требуется учет различных факторов безопасности в реальном мире. Например, он может применяться в транспортных системах, где сценарии безопасности разнообразны и сложны. Этот подход также может быть полезен для ра
Annotation:
Multimodal large language models (MLLMs) are rapidly evolving, presenting
increasingly complex safety challenges. However, current dataset construction
methods, which are risk-oriented, fail to cover the growing complexity of
real-world multimodal safety scenarios (RMS). And due to the lack of a unified
evaluation metric, their overall effectiveness remains unproven. This paper
introduces a novel image-oriented self-adaptive dataset construction method for
RMS, which starts with images and end c...
Авторы:
Sabbir Mollah, Rohit Gupta, Sirnam Swetha, Qingyang Liu, Ahnaf Munir, Mubarak Shah
#### Контекст
Современные визуально-языковые модели (Visual Language Models, VLM) стремятся объединить возможности по обработке имиджей и текста в единой модели. Эти модели обладают высоким потенциалом в задачах, требующих устойчивого понимания и консистентного генерирования визуальной и текстовой информации. Однако существуют проблемы с приоритезацией одной области над другой во время обучения, что приводит к снижению качества взаимодействия модели с данными в процессе циклических преобразований. Эта проблема, известная как semantic drift, остается недостаточно изученной.
#### Метод
Для изучения semantic drift мы предлагаем **Unified Consistency Framework for Unified Models (UCF-UM)** — новый протокол оценки, основанный на циклическом тестировании. Он включает в себя многошаговый процесс: текст преобразуется в изображение, а затем это изображение снова преобразуется обратно в текст. Этот цикл повторяется несколько раз, чтобы измерить ухудшение понимания и консистентность. Мы представляем три новых метрики:
- **Mean Cumulative Drift (MCD)** — усредненное изменение семантики с использованием векторного представления.
- **Semantic Drift Rate (SDR)** — скорость уменьшения значимости смысла.
- **Multi-Generation GenEval (MGG)** — мера соответствия объектной информации на последних этапах цикла.
Данные для экспериментов были подготовлены с помощью создания нового бенчмарка ND400, сочетающего данные из NoCaps и DOCCI. Мы проверили семь моделей с разными архитектурами и обучающими данными.
#### Результаты
Эксперименты показали, что модели различаются существенно по устойчивости в циклических задачах. Например, модель BAGEL показала маргинальную потерю семантики после множественных итераций, в то время как модель Vil-u быстро утратила смысл даже с хорошими одношаговыми результатами. Эти наблюдения подтверждают, что устойчивость к semantic drift является ключевым фактором для оценки моделей, а не только I2T и T2I оценок.
#### Значимость
Результаты могут быть применены в разработке моделей с глубжей синергией между визуальным и текстовым пониманием. Метрики UCF-UM позволяют выявлять недостатки в общей обработке смысла, независимо от высоких результатов в отдельных задачах. Это может улучшить протоколы обучения и разработку моделей, способных поддерживать консистентность в различных моделях VLM.
#### Выводы
Мы показали, что cyclic consistency является ключевым аспектом для оценки сильной модели VLM. Наши результаты раскрывают необходимость продолжительных циклических тестов в дополнение к стандартным одношаговым оценкам. Будущие исследования будут сосредоточены на расширении UCF-UM для разных моделей и задач, а также на создании моделей с более высокой устойчивостью к semantic
Annotation:
Employing a single, unified model (UM) for both visual understanding
(image-to-text: I2T) and and visual generation (text-to-image: T2I) has opened
a new direction in Visual Language Model (VLM) research. While UMs can also
support broader unimodal tasks (e.g., text-to-text, image-to-image), we focus
on the core cross-modal pair T2I and I2T, as consistency between understanding
and generation is critical for downstream use. Existing evaluations consider
these capabilities in isolation: FID and G...
Авторы:
Hyunjong Ok, Jaeho Lee
#### Контекст
В последние годы внимание научного сообщества было привлечено к развитию многомодальных больших языковых моделей (MLLMs), которые способны обрабатывать не только текстовые данные, но и видео. Эти модели предлагают эффективные решения для задач видео-понимания, таких как классификация, поиск и описание видео. Однако использование таких моделей часто связано с высокой стоимостью вычислений, поскольку они обрабатывают все кадры видео. Чтобы уменьшить затраты, используются методы, ограничивающие обработку только ключевыми кадрами. Однако возникает вопрос о точности выбора этих кадров. Несмотря на распространенность предложенных стратегий, неясно, насколько эффективно они позволяют моделям определить именно те кадры, которые действительно необходимо обработать.
#### Метод
Чтобы изучить этот вопрос, авторы применяют модели SigLIP для выбора ключевых кадров. Они проводят эксперименты, сравнивая выборки кадров, полученные этими моделями, с теми, что могут быть выбраны с использованием других подходов. Эксперименты проводятся на разных наборах данных, включая те, которые содержат сложные сценарии и задачи. Для оценки качества выбора авторы используют метрики, оценивающие точность и полноту понимания видео. Также в исследовании применяются методы визуализации, позволяющие проанализировать, как модели решают, где следует обратить внимание.
#### Результаты
За счет экспериментов выявляется, что популярные модели SigLIP страдают от серьезных ограничений в способности выбирать наиболее информативные кадры. Авторы обнаружили, что модели часто пропускают ключевые моменты, которые важны для понимания заданного текстового запроса в контексте видео. Эти пропуски приводят к понижению точности решения задач. Также было обнаружено, что модели не всегда способны корректно интерпретировать контекст, что приводит к неточностям в выборе кадров.
#### Значимость
Результаты показывают, что технологии современных моделей видео-понимания нуждаются в улучшении. Особенно это касается стратегий выбора ключевых кадров. Если будут разработаны более эффективные стратегии, это позволит моделям обрабатывать видео более эффективно и с меньшими ресурсами. Такие улучшения могут иметь значительное применение в различных областях, таких как анализ массовых видеоданных в социальных сетях, мониторинг безопасности и медицинский анализ.
#### Выводы
Выводы исследования сводятся к необходимости развития новых методов для выбора ключевых кадров в моделях видео-понимания. Авторы предлагают свои рекомендации для будущих исследований, в том числе использова
Annotation:
Recent advances in multimodal large language models (MLLMs) have led to much
progress in video understanding tasks. To avoid the heavy computational cost of
processing all frames, these models typically rely on keyframe sampling methods
guided by vision-language encoders (\textit{e.g.,} SigLIP). However, it remains
unclear whether such encoders can truly identify the most informative frames.
In this work, we provide several empirical pieces of evidence revealing that
popular vision encoders crit...
📄 Reinforced Visual Perception with Tools
2025-09-05Авторы:
Zetong Zhou, Dongping Chen, Zixian Ma, Zhihan Hu, Mingyang Fu, Sinan Wang, Yao Wan, Zhou Zhao, Ranjay Krishna
#### Контекст
Визуальное разумение является одной из основных способностей человеческого разума, включая сложные процессы восприятия и логического мышления. Оно необходимо для решения различных задач, которые включают в себя визуальную обработку и логическую синтезированность. Несмотря на то, что современные компьютерные модели визуального распознавания показали замечательные результаты в определенных задачах, широкомасштабное визуальное разумение остается чрезвычайно сложной проблемой. Одной из ключевых проблем является необходимость объединить мощные модели визуального восприятия с возможностью логического мышления. До сих пор было показано, что добавление моделей визуального распознавания к ло LLM-моделям через супервизированный тип тюнинга может повысить их эффективность, однако этот подход имеет значительные ограничения, включая дорогостоящую генерацию данных, необходимость тщательной фильтрации данных и ограниченную общийствость.
#### Метод
Для решения этих проблем мы предлагаем Reinforced Visual Perception with Tools (ReVPT), систему, которая позволяет улучшить возможности ло LLM-моделей в отношении визуального рассуждения и использования визуальных инструментов. ReVPT основывается на градиентно-релаксационном процессе оптимизации (GRPO), который укрепляет модели для логического вывода и визуального инструментального использования. Мы представляем процесс обучения с поддержкой подкреплений, использующий специализированные визуальные инструменты для решения задач. Этот подход позволяет модели более эффективно обучаться, используя градиентную оптимизацию и подачу подкреплений. Мы вводим новую архитектуру, которая сочетает в себе модели визуального восприятия и логического вывода, чтобы создать более гибкий и мощный инструмент для решения визуальных задач.
#### Результаты
Мы проводили широкий ряд экспериментов, используя несколько визуальных бенчмарок, таких как SAT, CV-Bench, BLINK и MMStar. Наши результаты показали, что ReVPT не только повышает производительность, но и превосходит супервизированные методы и текстовые методы RL-типа в области визуального рассуждения. Такие модели, как ReVPT-3B и ReVPT-7B, показали существенные улучшения в задачах CV-Bench, благодаря тому, что имеют 9.03% и 9.44% более высокую эффективность по сравнению с инструктивными моделями. Мы также провели ряд абляционных экспериментов, которые подтвердили эффективность различных компонентов процесса обучения.
#### Значимость
Предлагаемый подход может быть применен в различных областях, таких как искусственный интеллект, программирование с помощью виз
Annotation:
Visual reasoning, a cornerstone of human intelligence, encompasses complex
perceptual and logical processes essential for solving diverse visual problems.
While advances in computer vision have produced powerful models for various
perceptual tasks, leveraging these for general visual reasoning remains
challenging. Prior work demonstrates that augmenting LLMs with vision models
via supervised finetuning improves performance, but faces key limitations such
as expensive data generation, reliance on...
Авторы:
Zhenyuan Chen, Chenxi Wang, Ningyu Zhang, Feng Zhang
## Контекст
Исследования по распознаванию и анализу динамических изменений на земной поверхности с помощью дистанционного зрения играют ключевую роль в мониторинге и прогнозировании различных природных и человеческих катастроф. Однако, существующие данные, используемые в этой области, часто ограничиваются односниппетными изображениями без детальных текстовых описаний. Это ограничение не позволяет эффективно отслеживать и анализировать динамику повреждений, восстановлений и других процессов в результате стихийных бедствий. Для устранения этой проблемы и введения более широкого контекста в распознавание изображений, авторы представляют RSCC — большой датасет, который объединяет пред- и постразвития бедствий, подкрепленный человекоподобными текстовыми описаниями. RSCC позволяет создавать модели, которые не только распознают объекты, но и понимают динамику внесенных изменений.
## Метод
RSCC состоит из 62 315 пред- и постразвития изображений, связанных с различными катастрофами, такими как землетрясения, наводнения, пожары и цунами. Каждое изображение сопровождается подробным текстовым описанием, изменениями, отраженными на изображениях. Изображения подбирались с помощью методов машинного обучения и геокодирования для обеспечения точности и соответствия реальным условиям. Методы использовались как для сбора данных, так и для создания связанных с ними текстовых описаний, чтобы обеспечить человекоподобный контекст. Эти методы позволяют широко использовать данные для обучения би-темпоральных моделей, которые могут понять и описать процессы, происходящие во времени.
## Результаты
Эксперименты показали, что RSCC эффективно используется для обучения моделей, которые могут выполнять би-темпоральный анализ изображений. Использование человекоподобных текстовых описаний позволяет моделям более точно интерпретировать изменения на изображениях. Данные демонстрируют высокую точность распознавания и оценки временных изменений, что может быть использовано в реальных сценариях мониторинга бедствий. Эти результаты подтверждают значимость RSCC в качестве бенчмарка для развития технологий, которые могут быть применены в системах мониторинга и предупреждения о бедствиях.
## Значимость
RSCC может быть применен в различных областях, таких как мониторинг климата, стратегическое планирование в городах, анализ земельного пользования и мониторинг безопасности. Он предоставляет значительные преимущества в сравнении с существующими датасетовыми решениями, в частности — в детализации и полноте описания изменений. Благодаря этому, RSCC может способствовать созданию более точных, понятных и скорострелных моделей для
Annotation:
Remote sensing is critical for disaster monitoring, yet existing datasets
lack temporal image pairs and detailed textual annotations. While
single-snapshot imagery dominates current resources, it fails to capture
dynamic disaster impacts over time. To address this gap, we introduce the
Remote Sensing Change Caption (RSCC) dataset, a large-scale benchmark
comprising 62,315 pre-/post-disaster image pairs (spanning earthquakes, floods,
wildfires, and more) paired with rich, human-like change captio...
Авторы:
Shan Wang, Maying Shen, Nadine Chang, Chuong Nguyen, Hongdong Li, Jose M. Alvarez
#### Контекст
В последние годы наблюдается большой рост интереса к развитию многомодальных машинного обучения, включая такие модели, как LLaVA. Однако эти модели часто сталкиваются с проблемой "мультимодальных галлюцинаций", определяемых двумя основными мотивами. Во-первых, текстовая приоритетность обусловлена тем, что модели часто предпочитают информацию из текста, даже когда визуальная информация более релевантна. Во-вторых, статистические объектно-парные модели, основывающиеся на частотах сочетаний объектов в обучающих данных, могут приводить к неправильным выводам. Эти проблемы снижают точность моделей и их надежность в реальной жизни. Наша мотивация заключается в разработке метода, который бы не только устранил эти галлюцинации, но и делал это без дорогостоящих ресурсов, таких как дополнительные модели или тренировочные данные.
#### Метод
Мы предлагаем использовать **градиент-базу саморефлексии** для оценки вклада каждого типа токенов (визуальных, выводимых и прочих) в процесс принятия решений. Эта методология позволяет определять уровень вклада токенов в реальном времени, что дает более точный контроль за выбором модели. Далее мы предлагаем **вендортую свертку по детектированным объектам**, чтобы включить результаты визуального анализа в процесс декодирования. Это позволяет модели более точно учитывать как текстовые, так и визуальные признаки. Наш подход не требует дополнительных тренировочных данных, моделей или ресурсов, что делает его эффективным и простым в применении.
#### Результаты
Мы проводили ряд экспериментов на различных вариантах LLaVA-QA, используя данные из больших многомодальных баз. Наши результаты показали, что метод саморефлексии существенно снижает мультимодальные галлюцинации, улучшая точность до **92% в LLaVA-QA90**. На практических примерах, таких как тесты составления текста по видео, наблюдался значительный выигрыш в качестве вывода. Также мы обнаружили, что наш подход работает эффективно в разных условиях и не требует изменений в основной инфраструктуре моделей.
#### Значимость
Наш подход имеет широкие приложения в области многомодального обучения, включая видео-и текстовый диалог, обнаружение объектов и системы помощи в реальном времени. Он предоставляет преимущества в том, что устраняет галлюцинации без требуемых ресурсов и может быть легко интегрирован в существующие модели. Мы считаем, что наш метод может стать ключевым для повышения точности и доверия к многомодальным системам, а также может обеспечить новые возможности в приложениях, таких как системы
Annotation:
Hallucinations in multimodal large language model are caused by the
text-visual bias and the co-occurrence bias. The former reflects an
over-reliance on text information in the decision-making process, while the
latter arises from the statistical object-pairing patterns abstracted from the
training data. Existing mitigation methods heuristically address these biases
without understanding the fluctuating bias level across the instances. We first
propose estimating the influence of respective toke...
Показано 151 -
160
из 185 записей