📚 Саммари научных статей из arXiv

Найдено 185 результатов по запросу 'cs.CV, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Improving Alignment in LVLMs with Debiased Self-Judgment

2025-08-30

Авторы:

Sihan Yang, Chenhang Cui, Zihao Zhao, Yiyang Zhou, Weilong Yan, Ying Wei, Huaxiu Yao

#### Контекст В последние годы визуально-языковые модели (Visual-Language Models, VLMs) получили большое распространение благодаря своим возможностям в области интеграции визуальных и языковых сигналов. Однако, проблемой для этих моделей является несовершенная синхронизация визуальных и языковых моделей, что приводит к визуальным и текстовым ошибкам — "вымышленностям" (hallucinations). Такая несоответствие может привести к ошибкам в задачах, таких как синтез образа на основе описания, и создавать проблемы с безопасностью в критичных приложениях. До сих пор, методы с SOTA (state-of-the-art) для улучшения синхронизации с точки зрения гибкости и экономичности остаются недостаточно эффективными. Наша мотивация заключается в разработке простого, эффективного метода, который может улучшить согласованность моделей без использования дорогостоящих и сложных систем внешних ресурсов. #### Метод Мы предлагаем новую архитектуру "Debiased Self-Judgment" (Дебиас самостоятельного суждения), которая работает как внутренняя метрика для модели. Модель сама оценивает свои выходные данные, используя самостоятельно сгенерированный субъективный "корректирующий" сигнал. Этот сигнал определяется через независимую модель самостоятельного суждения, которая не полагается на внешние данные или любые другие внешние входы. Этот сигнал используется для оптимизации стратегии декодирования и для расширения существующих методов приближения обучения с подкреплением (Preference Tuning). Таким образом, мы достигаем более стабильной синхронизации моделей без необходимости использовать дополнительные данные или постобработку. #### Результаты Мы провели эксперименты на нескольких датасетах, включая общие доменные датасеты и специальные, ориентированные на визуально-языковые задачи. Наши эксперименты показали, что дебиазированная самостоятельная оценка позволяет снизить вымышленности (hallucinations) на 25-30% в сравнении с традиционными методами. Также, мы заметили улучшение в области безопасности модели, так как меньше ошибок возникают при выполнении критичных задач. Этот подход также продемонстрировал высокую эффективность при интеграции с различными моделями VLMs, включая эксперименты с обучением с подкреплением на примере различных задач. #### Значимость Наш метод может применяться в многочисленных областях, включая генерацию и визуализацию, моделирование языка и интерактивные приложения. Он обеспечивает значительное повышение эффективности в области визуально-языковых моделей без необходимости затрат на внешние ресурсы или дополнительное обучение. В будущем, этот подход мо

Annotation:

The rapid advancements in Large Language Models (LLMs) and Large Visual-Language Models (LVLMs) have opened up new opportunities for integrating visual and linguistic modalities. However, effectively aligning these modalities remains challenging, often leading to hallucinations--where generated outputs are not grounded in the visual input--and raising safety concerns across various domains. Existing alignment methods, such as instruction tuning and preference tuning, often rely on external datas...

ID: 2508.20655v1 cs.CV, cs.CL

arXiv PDF

📄 KRETA: A Benchmark for Korean Reading and Reasoning in Text-Rich VQA Attuned to Diverse Visual Contexts

2025-08-29

Авторы:

Taebaek Hwang, Minseo Kim, Gisang Lee, Seonuk Kim, Hyunjun Eun

#### Контекст Компетентное понимание и вывод при помощи языково-визуальных моделей (Vision-Language Models, VLM) является важной проблемой в области искусственного интеллекта. Особенно трудными оказываются задачи, которые требуют понимания текстового контента в визуальных контекстах. Хотя в области Vision-Language Understanding (VLU) существуют многочисленные данные и бенчмарки для высокоресурсных языков, таких как английский, для низкоресурсных языков, таких как корейский, такие данные отсутствуют. Это вызывает значительные ограничения в сравнительном анализе и развитии VLM для корейского языка. Для заполнения этой целевой зоны мы предлагаем KRETA (Korean Reading and Reasoning in Text-rich VQA Attuned to Diverse Visual Contexts) — новый бенчмарк, который включает в себя тестовые среды для оценки умений понимания текстов и вывода в текст-богатых визуальных задачах. #### Метод KRETA представляет собой комплексный подход к созданию текстово-богатых бенчмарков для языка корейского. Мы разработали собственную текстовую генерацию VQA, которая оптимизирована для текстово-богатых задач. Метод включает: 1. Шаг задекларации: начальная версия текстовой VQA. 2. Шаг декомпозиции изображения: разбор изображения на отдельные части, чтобы получить ключевые сведения. 3. Шаг вывода: применение логических выводов для получения ответа. 4. Шаг абстрагирования: генерирование новых вопросов и ответов для увеличения модели. Эта процедура обеспечивает высокую точность и репрезентативность данных для KRETA. Бенчмарк покрывает 15 различных доменов и 26 типов изображений, чтобы убедиться в широком аспекте вывода. #### Результаты Мы провели эксперименты с KRETA и сравнили результаты с существующими вариантами текстовых бенчмарков. Наши тесты показали, что KRETA обеспечивает высокую точность и позволяет лучше оценить модели на текстовых задачах. Мы также были в состоянии выявить некоторые ограничения существующих моделей, которые не были ранее обнаружены. Эти результаты подтверждают значительный потенциал KRETA в повышении уровня корейского VLM. #### Значимость KRETA оказывается приложимым в различных областях, в том числе в робототехнике, медицине и образовании. Его преимущества заключаются в том, что он обеспечивает более точную оценку моделей VLM для языка корейского, что значительно увеличивает степень понимания текста в визуальных контекстах. Будущие исследования будут сосредоточены на расширении KRETA для других низкоресурсных языков и интеграции многоязычных моделей для улучшения межъязыковой поддержки VLM. #### Выводы KRETA является значительным шагом в развитии текстово-богатых б

Annotation:

Understanding and reasoning over text within visual contexts poses a significant challenge for Vision-Language Models (VLMs), given the complexity and diversity of real-world scenarios. To address this challenge, text-rich Visual Question Answering (VQA) datasets and benchmarks have emerged for high-resource languages like English. However, a critical gap persists for low-resource languages such as Korean, where the lack of comprehensive benchmarks hinders robust model evaluation and comparison....

ID: 2508.19944v1 cs.CV, cs.CL

arXiv PDF

📄 Beyond the Textual: Generating Coherent Visual Options for MCQs

2025-08-28

Авторы:

Wanqiang Wang, Longzhu He, Wei Zheng

## Контекст Образовательные вопросы с несколькими вариантами ответов (MCQs) являются одним из основных средств в обучении, позволяющими формировать глубокое понимание и способность к анализу. Исследования, ранее проводившиеся в этой области, фокусировались преимущественно на текстовых вариантах ответов. Однако, в учебных материалах часто присутствуют как текстовые, так и визуальные элементы, что делает важной задачу генерации MCQs с визуальными вариантами ответов. Это приводит к проблемам, связанным с недостаточной разнообразием вариантов ответов и сложностью в создании качественных допущениями. Наше исследование направлено на развитие новых подходов, которые не только улучшат качество генерируемых вопросов, но и устранят эти ограничения. ## Метод Мы предлагаем Cross-modal Options Synthesis (CmOS) — рамоструктурный подход для генерирования MCQs, включающий в себя несколько технологических компонентов. Мы используем Multimodal Chain-of-Thought (MCoT), который позволяет создавать вопросы с разумными вариантами ответов. Для расширения возможностей генерирования включается Retrieval-Augmented Generation (RAG), что обеспечивает доступ к большому количеству знаний. Для выделения вопросов, которые могут быть генерированы с визуальными вариантами, используется модуль дискриминации. В итоге, CmOS объединяет эти компоненты для создания качественных вопросов с визуальными вариантами ответов, что повышает их релевантность и ценность в образовательных рамках. ## Результаты Мы провели эксперименты с тестовыми задачами, используя различные наборы данных и текстовые, а также визуальные варианты ответов. Результаты показали, что CmOS превосходит существующие методы в генерации качественных вопросов с визуальными вариантами ответов. Мы провели анализ яркости ответов и точности генерации, что подтвердило сильные позиции нашей модели. Благодаря интеграции MCoT и RAG, CmOS демонстрирует высокую точность и эффективность, особенно в сфере образовательных задач с визуальными элементами. ## Значимость CmOS может использоваться в различных областях образования, в том числе для создания уроков, тестов и других учебных материалов с визуальными элементами. Он дает преимущество в том, что позволяет генерировать более разнообразные и качественные вопросы, открывая новые возможности для улучшения обучения. Данный подход может положительно сказаться на обучении студентов, повысив их интерес к интегрированной работе с текстом и визуальными материалами. ## Выводы Мы представили CmOS, новый подход к генерации MCQs с визуальными вариантами ответов. Результаты наших эксп

Annotation:

Multiple-choice questions (MCQs) play a crucial role in fostering deep thinking and knowledge integration in education. However, previous research has primarily focused on generating MCQs with textual options, but it largely overlooks the visual options. Moreover, generating high-quality distractors remains a major challenge due to the high cost and limited scalability of manual authoring. To tackle these problems, we propose a Cross-modal Options Synthesis (CmOS), a novel framework for generati...

ID: 2508.18772v1 cs.CV, cs.CL

arXiv PDF

📄 Dynamic Embedding of Hierarchical Visual Features for Efficient Vision-Language Fine-Tuning

2025-08-27

Авторы:

Xinyu Wei, Guoli Yang, Jialu Zhou, Mingyue Yang, Leqian Li, Kedi Zhang, Chunping Qiu

#### Контекст В последнее время становится все более актуальным использование визуальных данных в комбинации с текстовыми данными для решения различных задач, таких как визуально-языковые описания, вопросы-ответы и поиск информации. Одна из основных проблем в данной области – эффективное представление визуальных данных в моделях, которые обычно используются в визуально-языковых моделях (LVLMs). Большинство нынешних алгоритмов пытаются совместить визуальные и текстовые данные с помощью последовательностных моделей, что приводит к значительному увеличению длины входных последовательностей и, как следствие, к большому количеству вычислительных ресурсов, необходимых для обучения и интерпретации. Этот вопрос требует разработки более эффективных методов, которые могли бы уменьшить количество вычислений, не ухудшая точность результатов. #### Метод Мы предлагаем метод с именем DEHVF (Dynamic Embedding of Hierarchical Visual Features), который предназначен для эффективного визуально-языкового описания. Основная идея DEHVF заключается в том, чтобы использовать богатые внутренние структуры визуальных моделей, которые уже могут представлять визуальные данные на разных уровнях детализации. Мы предлагаем систему, которая может динамически выбирать и комбинировать эти уровни детализации в зависимости от контекста и задачи. Эта система включает в себя легковесный модуль, который выбирает информацию на разных уровнях детализации из визуальной модели и комбинирует ее с текстовыми данными. Это позволяет уменьшить количество необходимых вычислений, сохранив высокое качество решения задач. #### Результаты Мы провели эксперименты на нескольких бенчмарках в области визуально-языковых моделей, включая задачи визуального вопроса-ответа (например, ScienceQA) и автоматического описания изображений (например, COCO Captions). В результате наших испытаний, DEHVF показал значительное улучшение в точности в сравнении с другими методами, которые используются для эффективного визуально-языкового описания. Мы также могли обнаружить, что DEHVF требует меньше вычислительных ресурсов, что делает его более эффективным в терминах использования ресурсов. Это позволяет использовать DEHVF в сценариях, где требуется быстрая и точная обработка визуально-языковых данных на ограниченных вычислительных ресурсах. #### Значимость Предлагаемый метод DEHVF может быть применен в различных сферах, где требуется эффективное визуально-языковое представление. Например, он может использоваться в системах поиска информации, системах визуального поиска и в системах, кото

Annotation:

Large Vision-Language Models (LVLMs) commonly follow a paradigm that projects visual features and then concatenates them with text tokens to form a unified sequence input for Large Language Models (LLMs). However, this paradigm leads to a significant increase in the length of the input sequence, resulting in substantial computational overhead. Existing methods attempt to fuse visual information into the intermediate layers of LLMs, which alleviate the sequence length issue but often neglect the ...

ID: 2508.17638v1 cs.CV, cs.CL

arXiv PDF

📄 CEIDM: A Controlled Entity and Interaction Diffusion Model for Enhanced Text-to-Image Generation

2025-08-27

Авторы:

Mingyue Yang, Dianxi Shi, Jialu Zhou, Xinyu Wei, Leqian Li, Shaowu Yang, Chunping Qiu

## Контекст Текст-в-изображение (Text-to-Image, T2I) — это одна из наиболее выгодных областей искусственного интеллекта, которая позволяет преобразовывать текстовые описания в живые, детальные изображения. Однако, существуют значительные проблемы с эффективным управлением сущностями и их взаимодействиями в текст-в-изображение на основе модели распространения (diffusion models). Эти проблемы влияют на качество изображения и его соответствие реальному зрелищу. Традиционные подходы часто не могут полностью учесть сложные взаимосвязи между сущностями в тексте, что приводит к изображениям с неточным выражением сущностей или неестественным взаимодействием. Этот факт подчеркивает необходимость разработки более усовершенствованных методов, которые могут эффективно управлять этими взаимодействиями для повышения качества изображений. ## Метод CEIDM (Controlled Entity and Interaction Diffusion Model) представляет собой развитый подход к текст-в-изображение, основанный на модели распространения, с двумя основными компонентами управления: управлением сущностями и их взаимодействиями. Для выявления интерактивных отношений между сущностями, CEIDM использует Large Language Models (LLMs) с цепочкой мыслей (chain of thought), чтобы добывать надежные и разумные интерактивные отношения. Для улучшения понимания интерактивных действий, CEIDM применяет метод кластеризации и оффсета интерактивных действий, который разделяет и оффсетирует действия в текст-описании. Кроме того, CEIDM представляет сеть для управления сущностями, которая использует маски семантического руководства, многомерную сеть для улучшения особенностей сущностей, и динамическую сеть для слияния этих особенностей. Эти компоненты объединяются для точного управления сущностями и их взаимодействиями, что влечет за собой высококачественные изображения. ## Результаты CEIDM был проверен на популярных датасетах для текст-в-изображение, включая COCO и Flickr30k. Эксперименты показали, что CEIDM превосходит существующие методы в области управления сущностями и их взаимодействиями. Изображения, сгенерированные CEIDM, обладали более высоким уровнем детализации, более логичным взаимодействием сущностей и большей соответствием текстовым описаниям. Например, в сравнении с предыдущими моделями, CEIDM показал значительное улучшение в точности интерпретации интерактивных действий и создании рациональных изображений. ## Значимость CEIDM имеет широкие возможности применения в сферах, где требуется высококачественная текст-в-изображение генерация, таких как поисковые системы, виртуальная реальность, и искусственная графика. Этот подход предоставляет не

Annotation:

In Text-to-Image (T2I) generation, the complexity of entities and their intricate interactions pose a significant challenge for T2I method based on diffusion model: how to effectively control entity and their interactions to produce high-quality images. To address this, we propose CEIDM, a image generation method based on diffusion model with dual controls for entity and interaction. First, we propose an entity interactive relationships mining approach based on Large Language Models (LLMs), extr...

ID: 2508.17760v1 cs.CV, cs.CL

arXiv PDF

📄 Virtual Community: An Open World for Humans, Robots, and Society

2025-08-22

Авторы:

Qinhong Zhou, Hongxin Zhang, Xiangye Lin, Zheyuan Zhang, Yutian Chen, Wenjun Liu, Zunzhe Zhang, Sunli Chen, Lixing Fang, Qiushi Lyu, Xinyu Sun, Jincheng Yang, Zeyuan Wang, Bao Chi Dang, Zhehuan Chen, Daksha Ladia, Jiageng Liu, Chuang Gan

#### Контекст Современное прогрессивное развитие искусственного интеллекта (ИИ) и робототехники приводит к глубокой трансформации общественного развития. Интеллектуальные системы начинают входить в общий цикл жизнедеятельности человека, образуя общую среду для сотрудничества и взаимодействия. Однако это процесс порождает решение множества новых задач и вопросов. Одним из таких задач является создание условий для эффективного взаимодействия между людьми, роботами и обществом в целом. В этой работе предлагается Virtual Community — платформа для создания общности, в которой могут действовать люди, роботы и общество. Данная платформа основывается на универсальном физическом движке и включает в себя реальные 3D-сцены. Её целью является исследование проблем эмбодьд социального интеллекта, в частности: 1) исследование возможностей мотивированного сотрудничества или конкуренции между роботами; 2) изучение способов формирования социальных отношений и создания общин; 3) разработка моделей для сотрудничества между роботами и людьми в открытом мире. #### Метод Virtual Community представляет собой уникальную среду с открытым кодом, сочетающую в себе физическую модель действий, 3D-сцены и многоагентную систему. Физический движок включает в себя систему роботов, людей и их интеракций в рамках общества. Для построения среды используется большой набор реальных 3D-сцен, включая домашние интерьеры, улицы и другие общественные места. Это позволяет создать реалистичную общность, в которой могут действовать роботы, люди и другие субъекты общества. Для решения задач в рамках Virtual Community разработана оригинальная методология, включающая: 1) широкомасштабное построение сцен с учетом существующих реальных структур; 2) использование разнообразных агентов с разнообразными характеристиками и возможностями; 3) разработка протоколов для конкурентного и сотрудничествующего взаимодействия. #### Результаты Для оценки возможностей Virtual Community проведены эксперименты, в которых были использованы различные методы компьютерного зрения, машинного обучения и физических моделей. Были проведены эксперименты на оценке способности роботов совместно решать задачи, взаимодействовать с человеком и работать в составе общественных сообществ. Были оценены различные базовые алгоритмы, включая методы глубокого обучения, для решения задач, охватывающих различные уровни абстракции, от высокоуровневых задач планирования до низкоуровневых задач координации действий. #### Значимость Virtual Community может быть использована в многочисленных областях применения. Например

Annotation:

The rapid progress in AI and Robotics may lead to a profound societal transformation, as humans and robots begin to coexist within shared communities, introducing both opportunities and challenges. To explore this future, we present Virtual Community-an open-world platform for humans, robots, and society-built on a universal physics engine and grounded in real-world 3D scenes. With Virtual Community, we aim to study embodied social intelligence at scale: 1) How robots can intelligently cooperate...

ID: 2508.14893v1 cs.CV, cs.CL, cs.RO

arXiv PDF

📄 Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation

2025-08-20

Авторы:

Yuheng Zha, Kun Zhou, Yujia Wu, Yushu Wang, Jie Feng, Zhi Xu, Shibo Hao, Zhengzhong Liu, Eric P. Xing, Zhiting Hu

## Контекст Научные исследования в области визуального языкового рассуждения (Visual Language Reasoning, VLR) становятся все более важными в связи с потребностью в моделях, которые могут справляться с разнообразными задачами, включая математическое, логическое и интуитивное рассуждение. Однако существующие модели часто страдают от ограниченности в области применения и сложностях при обучении на многообразных данных. Дефицит качественных данных и сложности интеграции данных из различных доменов остаются значимыми проблемами. В этом контексте поставлена цель разработки обобщенной визуально-языковой модели, способной эффективно осуществлять рассуждения в различных областях. ## Метод Мы предлагаем новую архитектуру визуальной модели, названную Vision-G1, которая основывается на методе оптимизации посредством градиентов с использованием визуальных и языковых признаков. Алгоритм обучения включает многоуровневую итерационную стратегию, применяющую данные из 46 источников в 8 различных доменов. Для выбора высококачественных обучающих примеров используется метод определения влияния и фильтрации по сложности задачи. Модель обучается с использованием многоитерационного метода реактивного обучения (Reinforcement Learning, RL) с последовательным курсивным обучением (curriculum learning). Это позволяет модели стремительно улучшать свои визуально-языковые навыки в ходе обучения. ## Результаты Мы проводили эксперименты на нескольких визуально-языковых бенчмарках, включая данные из математических, логических и гуманитарных наук. Модель Vision-G1 показала выдающиеся результаты, превосходя свои собратьев менее чем по размеру (схожими по размеру моделями) и даже проприетарные модели, такие как GPT-4o и Gemini-1.5 Flash. Был достигнут состояние-искусства (state-of-the-art) в нескольких задачах, включая предсказание результатов и распознавание объектов на изображениях. Эти результаты демонстрируют значительную улучшенную универсальность и точность визуального рассуждения. ## Значимость Результаты модели Vision-G1 открывают новые возможности для областей, требующих рассуждений, в том числе автоматизированной оценки, интерактивных систем и систем поддержки решений. Модель демонстрирует преимущества в области общей визуальной и языковой работы, уменьшая необходимость в отдельных моделях для каждого домена. Ее мощь и гибкость делают ее оптимальным решением для будущих задач визуального и языкового рассуждения, в том числе в области искусственного интеллекта и робототехники. ## Выводы Мы представили Vision-G1, обобщенную визуально-языковую модель, оптимизирова

Annotation:

Despite their success, current training pipelines for reasoning VLMs focus on a limited range of tasks, such as mathematical and logical reasoning. As a result, these models face difficulties in generalizing their reasoning capabilities to a wide range of domains, primarily due to the scarcity of readily available and verifiable reward data beyond these narrowly defined areas. Moreover, integrating data from multiple domains is challenging, as the compatibility between domain-specific datasets r...

ID: 2508.12680v1 cs.CV, cs.CL

arXiv PDF

📄 Has GPT-5 Achieved Spatial Intelligence? An Empirical Study

2025-08-20

Авторы:

Zhongang Cai, Yubo Wang, Qingping Sun, Ruisi Wang, Chenyang Gu, Wanqi Yin, Zhiqian Lin, Zhitao Yang, Chen Wei, Xuanke Shi, Kewang Deng, Xiaoyang Han, Zukai Chen, Jiaqi Li, Xiangyu Fan, Hanming Deng, Lewei Lu, Bo Li, Ziwei Liu, Quan Wang, Dahua Lin, Lei Yang

## Контекст В последние годы многомодальные модели демонстрируют уверенный прогресс, но столкнулись с острой проблемой — недостаточной способностью к пространственному пониманию и рассуждению. Эти навыки являются ключевыми для достижения искусственного общего разума (Artificial General Intelligence, AGI). На этой фоне выход GPT-5, который утверждается как самая мощная модель AI, приобрел особое значение. Чтобы оценить современное состояние моделей в пространственной сфере, необходимо провести комплексный анализ их способности. Наша мотивация заключается в том, чтобы выявить текущие ограничения, определить основные проблемы в оценке пространственной интеллектуальности и привлечь внимание к развитию более совершенных решений. ## Метод Мы разработали подробную категоризацию пространственных задач, которая объединила различные бенчмарки и указала на их слабые места. Для оценки моделей использовались современные архитектуры, включая GPT-5, а также несколько открытых решений. Для обеспечения справедливой сравнительной оценки были применены стандартизированные данные и метрики. Эксперименты были проведены на восьми ключевых бенчмарках, требующих различных пространственных навыков, от простого распознавания объектов до сложных задач пространственного рассуждения. Бюджет экспериментов превысил 1 миллиард токенов, что дало возможность обоснованно понять силу и слабости моделей. ## Результаты Новая модель GPT-5 продемонстрировала примечательные улучшения в пространственном понимании, но еще не достигла гуманского уровня производительности. Мы выявили следующие результаты: (1) на первых трех бенчмарках GPT-5 показал самые высокие результаты, оказавшись лучше всех остальных моделей, (2) в более сложных задачах, особенно тех, требующих глубокого контекстуального понимания, его производительность падала, (3) открытые модели демонстрировали практически одинаковую производительность по сравнению с закрытыми решениями в самых сложностных сценариях. Также мы выявили некоторые ключевые проблемы, на которых даже самые мощные модели до сих пор не сумели дать полноценного ответа, включая задачи с неоднозначным контекстом и ситуациями, требующими глубокого знания ситуации. ## Значимость Результаты нашего исследования имеют большое значение в нескольких областях: (1) модели GPT-5 демонстрируют, что пространственное понимание может быть эффективно интегрировано в общую модель многомодального рассуждения, но (2) остаются проблемы в задачах, требующих высокой степени контекстуального понимания, (3) открытые модели, несмотря на недостатки, показывают высокую э

Annotation:

Multi-modal models have achieved remarkable progress in recent years. Nevertheless, they continue to exhibit notable limitations in spatial understanding and reasoning, which are fundamental capabilities to achieving artificial general intelligence. With the recent release of GPT-5, allegedly the most powerful AI model to date, it is timely to examine where the leading models stand on the path toward spatial intelligence. First, we propose a comprehensive taxonomy of spatial tasks that unifies e...

ID: 2508.13142v1 cs.CV, cs.CL, cs.LG, cs.MM, cs.RO

arXiv PDF

📄 Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

2025-08-19

Авторы:

Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng

## Контекст Многоmodal Large Language Models (MLLMs), такие как GPT-4V, объединяют преимущества восприятия, предоставляемые multimodal encoders, с генерирующим потенциалом Large Language Models (LLMs). Они достигли выдающихся результатов в различных multimodal задачах, демонстрируя перспективу создания искусственного общего разума. Однако существуют значительные проблемы, ограничивающие их надежность и широтой применения. Это включает плохую качественность multimodal данных, недостаточную эффективность на сложных задачах, а также недостаточные методики оценки. Чтобы улучшить эти модели, идея использования внешних инструментов (например, APIs, экспертных моделей, и знаний) была предложена. Этот подход способствует улучшению качества данных, повышению производительности на трудных задачах, и созданию более точных методов оценки. Данная работа является подробным обзором текущих направлений использования внешних инструментов для улучшения MLLMs. ## Метод В этом обзоре рассматриваются четыре основных направления, в которых внешние инструменты могут помочь улучшить MLLMs: 1. **Повышение качества данных**: Использование внешних инструментов для подбора, аннотации, и изменения multimodal данных для повышения качества. 2. **Повышение производительности на задачах**: Использование внешних инструментов для обнаружения проблем в задачах и оказания поддержки в решении этих проблем. 3. **Улучшение методов оценки**: Разработка новых методов оценки, использующих внешние инструменты для более точной и широкой оценки моделей. 4. **Ограничения и направления развития**: Обсуждение текущих ограничений и путей для будущих развитий в этой области. ## Результаты На основе обзора, проведенного в рамках этой работы, был проанализирован набор исследований, которые использовали внешние инструменты для улучшения MLLMs. Были основаны ключевые направления, в которых внешние инструменты могут быть применены. Еще один аспект, рассмотренный в этой работе, заключается в том, как внешние инструменты могут облегчить получение качественных данных, улучшить производительность моделей в сложных задачах, и повысить уровень точности оценки. ## Значимость Данная работа имеет значимость для развития MLLMs в следующих областях: 1. **Применение в различных сферах**: Внешние инструменты могут быть применены во многих областях, включая здравоохранение, финансы, и производство. 2. **Преимущества**: Использование внешних инструментов позволяет обеспечить более точную и надежную оценку моделей, а также улучшить их производительность в сложных задачах. 3. **Потенциальное влияние**: Будущие развития в этой области могут привести к значительным улучшениям в области искусственного общего раз

Annotation:

By integrating the perception capabilities of multimodal encoders with the generative power of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs), exemplified by GPT-4V, have achieved great success in various multimodal tasks, pointing toward a promising pathway to artificial general intelligence. Despite this progress, the limited quality of multimodal data, poor performance on many complex downstream tasks, and inadequate evaluation protocols continue to hinder the reliabil...

ID: 2508.10955v1 cs.CV, cs.CL, cs.MM

arXiv PDF

📄 VideoAVE: A Multi-Attribute Video-to-Text Attribute Value Extraction Dataset and Benchmark Models

2025-08-19

Авторы:

Ming Cheng, Tong Wu, Jiazhen Hu, Jiaying Gong, Hoda Eldardiry

## Контекст Видео-to-text Attribute Value Extraction (AVE) является ключевым аспектом структурирования продуктной информации в электронной коммерции. Однако существующие датасеты AVE ограничены текстовыми или изображениями, не учитывая видео, широкий спектр атрибутов и открытый доступ. Эти ограничения приводят к недостатку ресурсов для развития мощных моделей видео-to-text AVE. Мотивация заключается в создании первого открытого видео-to-text датасета AVE для электронной коммерции, предоставляющего обширный профиль атрибутов и высокую качественную структуру. ## Метод Датасет VideoAVE состоит из 250k видео-продуктных пар, представленных в 14 различных доменах с 172 уникальными атрибутами. Для обеспечения качества данных разработан CLIP-MoE, система фильтрации на основе CLIP, удаляющая несоответствующие видео-продуктные пары. Эта система позволяет повысить точность и качество данных, создав датасет с 224k обучающих и 25k оценочных пар. Для оценки датасета разработаны модели VideoAVE VLMs, оценивающие производительность в задачах условного уточнения значений атрибутов и извлечения свободных атрибутов-значений. ## Результаты Выполнены эксперименты на VideoAVE с использованием нескольких моделей VLMs, включая Clip4Clip, VideoCLIP и Frozen. Данные были протестированы для условного уточнения значений атрибутов и открытого извлечения пар атрибут-значение. Результаты показали, что VideoAVE является сложной для моделей, особенно в открытой среде, где необходимо учитывать временную информацию. Это подтверждает необходимость развития более продвинутых моделей VLMs, эффективно использующих временные сведения. ## Значимость VideoAVE открывает новые возможности для развития моделей видео-to-text в электронной коммерции, обеспечивая первый открытый датасет с обширным профилем атрибутов и высоким качеством. Он может использоваться в приложениях, таких как поиск продуктов, рекомендации и структурирование продуктных данных. Благодаря новым моделям VLMs, VideoAVE может способствовать улучшению точности и качества извлечения продуктных атрибутов из видео, что в конечном итоге повысит эффективность электронной коммерции. ## Выводы Выводы подтверждают, что VideoAVE является значительным достижением в области видео-to-text AVE, но существуют проблемы, особенно в открытой среде, требующие более развитых моделей VLMs. Будущие исследования будут ориентированы на повышение точности моделей, учитывая временные сведения и улучшение моделей для широкого профиля атрибутов. Это позволит создавать более точные и эффективные решения для продуктной структуризации в электронной коммерции.

Annotation:

Attribute Value Extraction (AVE) is important for structuring product information in e-commerce. However, existing AVE datasets are primarily limited to text-to-text or image-to-text settings, lacking support for product videos, diverse attribute coverage, and public availability. To address these gaps, we introduce VideoAVE, the first publicly available video-to-text e-commerce AVE dataset across 14 different domains and covering 172 unique attributes. To ensure data quality, we propose a post-...

ID: 2508.11801v1 cs.CV, cs.CL

arXiv PDF

1
2
15
16
17
18
19

Показано 161 - 170 из 185 записей