📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.CV, cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Failure Makes the Agent Stronger: Enhancing Accuracy through Structured Reflection for Reliable Tool Interactions

2025-09-25

Авторы:

Junhao Su, Yuanliang Wan, Junwei Yang, Hengyu Shi, Tianyang Han, Junfeng Luo, Yurui Qiu

## Контекст Область исследования связана с развитием инструментами для улучшения надежности интеракций с тулами в средах с бо LLM. Несмотря на заметные улучшения, существуют значительные трудности в обеспечении устойчивой надёжности в сложных сценариях многократного взаимодействия. Ошибки в таких сценариях часто приводят к неточности вывода, неэффективности и повторному повторению ошибок в последующих шагах. Это исходное состояние мотивирует разработку структурированной методики рефлексии, способной обнаруживать и исправлять ошибки в рамках многошаговых интеракций. ## Метод Методология разработки называется Structured Reflection. Она представляет собой конструктивный подход к обнаружению и исправлению ошибок во время многошаговых интеракций с использованием инструментов. Агент производит подробный анализ того, что пошло не так в предыдущем шаге, выявляет причины неудачи и предлагает выполнить конкретное действие для исправления. Технической основой является использование целевых функций DAPO и GSPO, которые учитывают не только правильность результатов но и структуру стратегии. Затем тренируется агент с использованием штурмовых алгоритмов, направленных на оптимизацию стратегии "Ошибка - Размышление - Исправление". Для эффективного мониторинга качества решений разработана специальная бенчмарк-среда Tool-Reflection-Bench. ## Результаты На экспериментальных задачах были продемонстрированы существенные улучшения в точности и надежности интеракций. Агент структурированной рефлекции показал значительное сокращение количества неудачных вызовов инструментов и увеличение точности после неудачных попыток. Также доказано, что структурированная рефлексия позволяет значительно сократить количество необходимых операций для достижения правильных результатов. Эти результаты были получены при оценке на Tool-Reflection-Bench и BFCL v3. ## Значимость Предложенная методика может быть использована в различных областях, где требуется взаимодействие с инструментами, например, в системах автоматизации, в системах управления проектами и в системах поддержки пользователей. Основные преимущества заключаются в улучшении надёжности, эффективности и уменьшении количества повторных действий. Этот подход может иметь значительное влияние на развитие умных инструментов, улучшая взаимодействие между пользователями и лингвистическими моделями. ## Выводы Результаты исследования подтверждают эффективность структурированной рефлексии в решении ошибок и улучшении надежности интеракций с инструментами. В дальнейшем повышается потенциал для улучшения методологии с помощью более с

Annotation:

Tool-augmented large language models (LLMs) are usually trained with supervised imitation or coarse-grained reinforcement learning that optimizes single tool calls. Current self-reflection practices rely on heuristic prompts or one-way reasoning: the model is urged to 'think more' instead of learning error diagnosis and repair. This is fragile in multi-turn interactions; after a failure the model often repeats the same mistake. We propose structured reflection, which turns the path from error to...

ID: 2509.18847v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

2025-09-25

Авторы:

Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

#### Контекст В последние годы внимание сообщества AI привлекают видеопонимание и извлечение информации из видео. Эти задачи становятся все более важными с учетом развития технологий для роботов, VR/AR, и AI-поддерживаемых приложений. Однако существующие бенчмарки ограничены видео из индорных сцен или коротких внедорожных путешествий. Длительные путешествия, сложные задачи планирования и перемещения по GPS-трекам остаются недооцененными. Многомерное понимание видео, включая геоспациальное и временное контексты, является ключевым для развития следующего поколения моделей МЛЛМ. #### Метод VIR-Bench представляет собой бенчмарк, состоящий из 200 долговременных видео, покрывающих различные географические регионы. Он оценивает модели по возможности воспроизводить путешествия, рассчитывая географические маршруты, временные последовательности и релевантные объекты. Метод основывается на создании синтетических контекстов, анализе потока видео и использовании технологий текстового понимания. Архитектура VIR-Bench включает в себя скелетный рендеринг, многомодальный контекст-анализ, а также методы оценки точности и полноты реконструкции. #### Результаты Эксперименты проводились на 200 видео, с использованием нескольких современных МЛЛМ. Оценивались показатели точности и полноты реконструкции путешествий. Большинство моделей показали низкие результаты, особенно при высокой сложности исходных видео. Модели способны распознавать простые географические маршруты, но предсказывать длительные траектории и повторять взаимодействие с объектами остаются затруднительными. #### Значимость Вир-Бенч широко может применяться в области AI для путешествий, обеспечивая базу для развития моделей, умеющих передвигаться по сложным географическим маршрутам. Его особенностью является возможность тестирования моделей на реальных траекториях и реконструкции пользовательских путешествий. Он не только улучшает понимание геоспациальных и временных задач, но также может использоваться для создания новых типов приложений в области эмбедид AI. #### Выводы VIR-Bench демонстрирует значительную сложность в задаче реконструкции траекторий в долговременных видео. Он позволяет тестировать модели на высокой сложности и создает новые возможности для развития AI в путешествиях. В дальнейшем, бенчмарк будет расширен для поддержки новых моделей и задач, таких как взаимодействие с пользователем и развитие AI-агентов для путешествий.

Annotation:

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning...

ID: 2509.19002v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Citrus-V: Advancing Medical Foundation Models with Unified Medical Image Grounding for Clinical Reasoning

2025-09-25

Авторы:

Guoxin Wang, Jun Zhao, Xinyi Liu, Yanbo Liu, Xuyang Cao, Chao Li, Zhuoyun Liu, Qintian Sun, Fangru Zhou, Haoqiang Xing, Zhenhong Yang

## Контекст Область медицинского искусственного интеллекта играет ключевую роль в современной клинической практике, где необходимо сочетание точной диагностики, эффективного лечения и объединенного подхода к клиническому обоснованию. Медицинские изображения являются важной источником информации, которая используется для диагностики, планирования лечения и принятия решений во время операций. Однако существующие модели часто ограничены в их области применения, требуют развития специализированных сетей и не могут обеспечить широкие возможности для клинического разума. Кроме того, появление больших языковых моделей и моделей мультимодальных систем показало мощь машинного здравого смысла и многозадачности. Тем не менее, реальные клинические задачи требуют уточненного зрения, взаимодействия мультимодальных моделей и цепочки мыслей при обосновании клинических решений. Было предложено Citrus-V — многомодальная модель фундаментальных задач медицинского искусственного интеллекта, которая объединяет анализ изображений, текстовый анализ и цепочку разума в одной системе. ## Метод Citrus-V является современной многомодальной моделью, которая объединяет понимание изображений и текста, а также имеет цепочку рассуждений как часть своей архитектуры. Модель предназначена для решения проблем, связанных с клиническим обоснованием, и включает в себя такие модули, как распознавание, сегментация и цепочка разума. Она использует универсальное обучение, которое позволяет обучать модель по разным видам задач: от распознавания объектов и сегментации зон интереса до текстового понимания и создания клинических отчетов. Citrus-V работает с помощью пиксельного уровня локализации лезионов, структурированного создания отчетов и инфекционного обоснования. Архитектура Citrus-V включает в себя модели представления языка, модели визуальных сетей и различные методы обучения, чтобы обеспечить точность и эффективность. ## Результаты Команда авторов провела многочисленные эксперименты, используя различные базы данных, чтобы протестировать модель Citrus-V. Она была проверена на таких задачах, как распознавание объектов, сегментация, текстовое понимание и клиническое обоснование. Результаты показали, что Citrus-V превосходит другие модели, включая специализированные сети и системы, которые используются для клинических задач. На основе открытых данных, команда показала, что Citrus-V обеспечивает лучшие результаты в плане точности, скорости и обобщаемости. Она также обеспечивает возможность точной локализации лезионов, автоматическо

Annotation:

Medical imaging provides critical evidence for clinical diagnosis, treatment planning, and surgical decisions, yet most existing imaging models are narrowly focused and require multiple specialized networks, limiting their generalization. Although large-scale language and multimodal models exhibit strong reasoning and multi-task capabilities, real-world clinical applications demand precise visual grounding, multimodal integration, and chain-of-thought reasoning. We introduce Citrus-V, a multimod...

ID: 2509.19090v2 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Seeing Culture: A Benchmark for Visual Reasoning and Grounding

2025-09-24

Авторы:

Burak Satar, Zhixin Ma, Patrick A. Irawan, Wilfried A. Mulyawan, Jing Jiang, Ee-Peng Lim, Chong-Wah Ngo

## Контекст В настоящее время многомодальные языково-визуальные модели (VLMs) достигли значительных успехов в решении задач, требующих одновременного понимания визуальных и текстовых данных. Особую массу работ вызывают задачи, связанные с культурным разумом, возникшие вместе с появлением новых культурных данных. Однако многие из этих данных недостаточно отражают культурные характеристики, а также представляют недостаточное количество культур, особенно относительно культурных реалий, которые часто остаются за пределами внимания. Для устранения этих недостатков и обогащения культурного понимания визуально-текстовых моделей мы предлагаем бенчмарк Seeing Culture Benchmark (SCB). Он сосредоточен на культурном разуме, обеспечивая VLMs сложными задачами, включающими визуальное рассуждение и пространственное обозначение. ## Метод SCB основывается на систематической организации визуальных вариантов во время процесса рассуждения. Первый этап заключается в выборе правильной вариантной группы в виде множественного выбора с использованием мультимодального вопроса-ответа (VQA). Затем, в случае правильного выбора, происходит второй этап: сегментация культурного предмета, который служит доказательством культурного разума. Варианты в первом этапе разделены на три категории: варианты из одной страны, из разных стран, и смешанные варианты. Каждая категория включает в себя варианты, принадлежащие одной категории. Бенчмарк включает 1065 изображений, представляющих 138 культурных предметов из пяти категорий культур, охватывающих семь стран Юго-Восточной Азии. В настоящее время эта региональная культура часто остается недостаточно изученной. Бенчмарк также включает 3178 вопросов, включая 1093 уникальных вопросов, ручному анализу и контролю. ## Результаты Мы провели эксперименты с несколькими моделями мультимодального понимания, такими как LXMERT, VisualBERT, VL-BERT и UNITER. Эксперименты показали, что даже самые современные модели сталкиваются с трудностями при решении задач, связанных с культурным разумом и пространственным обозначением. Особенно большой пробел отмечен в случае культур, которые часто остаются за пределами внимания. SCB эффективно выявляет эти проблемы, объединяя в себе вопросы многомодального рассуждения и пространственного обозначения. ## Значимость SCB может применяться в области культурного понимания, визуального рассуждения и пространственного обозначения. Оно предоставляет возможность выявления проблем, связанных с культурным разумом, которые часто не учитываются другими б

Annotation:

Multimodal vision-language models (VLMs) have made substantial progress in various tasks that require a combined understanding of visual and textual content, particularly in cultural understanding tasks, with the emergence of new cultural datasets. However, these datasets frequently fall short of providing cultural reasoning while underrepresenting many cultures. In this paper, we introduce the Seeing Culture Benchmark (SCB), focusing on cultural reasoning with a novel approach that requires VLM...

ID: 2509.16517v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 When Big Models Train Small Ones: Label-Free Model Parity Alignment for Efficient Visual Question Answering using Small VLMs

2025-09-24

Авторы:

Abhirama Subramanyam Penamakuri, Navlika Singh, Piyush Arora, Anand Mishra

#### Контекст Визуально-языковые модели (VLM) обладают выдающимися возможностями в решении задач, включая визуальный вопрос-ответ (VQA). Однако высокая стоимость вычислений приостанавливает их применение в ресурсосущущих средах. Малые визуально-языковые модели (S-VLM), хотя и эффективны, находятся в существенном дефиците по производительности по сравнению с их более крупными аналогами. Исследователи сталкиваются с основной проблемой: как улучшить производительность S-VLM без сокращения ее выгодных свойств, таких как эффективность. Наша мотивация заключается в разработке эффективного метода, который будет улучшать S-VLM при помощи знаний, полученных из более крупных моделей, не утруждая ресурсы. #### Метод Мы предлагаем Model Parity Aligner (MPA) — новую архитектуру, ориентированную на синхронизацию S-VLM с L-VLM без использования меток. MPA определяет различия в поведении моделей и использует эти различия для точного оптимизации S-VLM. Основной идеей является парадигма неразделенного знания, которая позволяет S-VLM учиться не только из своих ошибок, но и из ошибок L-VLM. Мы используем необъявленные изображения для ввода и проводим стратегическую парадигму взаимодействия между моделями, чтобы достичь гармонии в их работе. #### Результаты Мы провели эксперименты на четырёх различных бенчмарках VQA: TextVQA, ST-VQA, ChartQA и OKVQA. Каждый из этих базированных на специализированных моделях, включая текстовое распознавание, интерпретацию диаграмм и коммонсенс-понимание. Наши результаты показывают, что MPA постоянно улучшает производительность S-VLM на всех базе, существенно уменьшая производительность, но при этом сохраняя высокую эффективность вычислений. Это указывает на эффективность MPA в параллельной синхронизации моделей. #### Значимость Разработанный подход может быть применен в ресурсократчных средах, таких как мобильные устройства и низкопроизводительные серверы. Он предоставляет преимущества в области эффективности и точности. MPA может иметь потенциал в различных приложениях, включая умные города, здравоохранение и промышленность, где ресурсы ограничены, но требуется высокая точность. Этот подход может способствовать расширению применения VQA в разрешаемых сценариях. #### Выводы Мы успешно представили MPA, фреймворк, который позволяет S-VLM проходить значительную часть производительности L-VLM без меток. Наши результаты предполагают возможность будущих исследований в развитии эффективных техник знаний для малых моделей. Мы делаем наш код общедосту

Annotation:

Large Vision-Language Models (L-VLMs) have demonstrated remarkable performance in various vision and language tasks, including visual question answering (VQA). However, their high computational cost makes them impractical for resource-constrained settings and inference-heavy applications. In contrast, Small Vision-Language Models (S-VLMs) offer efficiency but suffer from a significant performance gap compared to their larger counterparts. In this work, we introduce the Model Parity Aligner (MPA)...

ID: 2509.16633v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 ChartHal: A Fine-grained Framework Evaluating Hallucination of Large Vision Language Models in Chart Understanding

2025-09-24

Авторы:

Xingqi Wang, Yiming Cui, Xin Yao, Shijin Wang, Guoping Hu, Xiaoyu Qin

## Контекст Огромные визуально-языковые модели (LVLMs) стали сильным инструментом для различных задач, но их применение в чарт-анализе становится все более актуальным. Чарты — графические представления данных — требуют из моделей высокого уровня гранулярности, точности и фактической аккуратности. Однако недавние исследования показали, что LVLMs часто совершают ошибки в понимании чартов, теряя фактическую точность. Этот аспект — hallucination (иллюзионное представление) — остается недостаточно изученным, особенно в контексте чартов. Наша мотивация — разработать подробный фреймворк для оценки и изучения этой проблемы. ## Метод Мы предлагаем ChartHal — новую б BENCHMARK, которая включает в себя развитую таксономию hallucination в чарт-анализе. Методология включает: 1. **Сбор данных**: мы создали 1062 чартов с предложениями, которые покрывают различные сценарии работы модели. 2. **Категоризация размышлений**: каждый случай удовлетворяет конкретной категории эксперимента, чтобы обеспечить точную оценку модели. 3. **Подтверждение человеческим опытникам**: каждая сценарий прошел ручную верификацию, чтобы обеспечить качество и актуальность данных. ## Результаты Мы проверили ChartHal на нескольких моделях, включая GPT-5 и o4-mini. Результаты показали, что даже эти современные модели проваливаются на ChartHal: GPT-5 показал только 34,46% точности, а o4-mini — 22,79%. Это показывает, что все модели часто совершают ошибки в чарт-анализе, особенно когда ответы зависят от недоступных или противоречивых данных. Эти результаты подкрепляют нашу мотивацию: существуют серьезные проблемы с hallucination в LVLMs. ## Значимость Мы убедились, что ChartHal может использоваться в разных областях применения, включая развитие более высококачественных моделей, оценку точности моделей, и улучшение интеллектуальных систем для работы с чартами. Фреймворк ChartHal может помочь оптимизировать ошибки hallucination, что является критически важной задачей для обеспечения фактической точности и понимания в широких задачах визуального понимания. ## Выводы ChartHal — первая работа, которая направлена на развитие подробного фреймворка для оценки hallucination в чарт-анализе. Мы представили новую таксономию и 1062-примерный датасет, который показывает существенные проблемы даже с лучшими моделями. Наше исследование подчеркивает необходимость более сильных методов и методологий для улучшения точности LVLMs в чарт-анализе. В будущем мы планируем расширить датасет и провести его многосторонний анализ с различными моделями, чтобы улучшить гранулярность и точность.

Annotation:

Large Vision-Language Models (LVLMs) have recently demonstrated remarkable progress, yet hallucination remains a critical barrier, particularly in chart understanding, which requires sophisticated perceptual and cognitive abilities as well as rigorous factual accuracy. While prior work has investigated hallucinations and chart comprehension independently, their intersection remains largely unexplored. To address this gap, we present ChartHal, a benchmark that features a fine-grained taxonomy of ...

ID: 2509.17481v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks

2025-09-23

Авторы:

Het Patel, Muzammil Allie, Qian Zhang, Jia Chen, Evangelos E. Papalexakis

#### Контекст Vision-Language Models (VLMs) становятся все более популярными в области многомодального понимания, особенно в задачах распознавания объектов и текстов. Однако эти модели чувствительны к адверсарным атакам, когда незначительные изменения в входных данных могут привести к серьезным ошибкам. Эта жечь между точностью и уязвимостью ограничивает их применение в реальной жизни. Существуют методы улучшения устойчивости VLMs, но они требуют дорогостоящих реинтринзирований или значительных изменений архитектуры. Наша работа сосредотачивается на разработке легковесного, универсального метода, который может быть применен к уже обученным моделям, не требуя их переучивания. #### Метод Мы предлагаем метод основанный на тензорной декомпозиции для фильтрации адверсарного шума в визуальных репрезентациях. Наша идея заключается в том, чтобы декомпозировать тензоры, представляющие входные данные модели, используя метод Тензорного Трена (Tensor Train). Это позволяет выделить адверсарные смущения и удалить их, оставив основные характеристики входных данных. Метод может быть применен ко всем существующим VLMs, не требуя никаких изменений в их архитектуре или дополнительной модерированной обучения. Мы оптимизировали гиперпараметры, такие как ранг тензора и уровень резонанса, чтобы достичь оптимального баланса между уязвимостью и устойчивостью. #### Результаты Мы проверили нашу модель на двух крупных датасетах: Flickr30K и COCO. На Flickr30K, мы восстановили 12.3% проигранной точности из-за адверсарных атак, повысив Recall@1 от 7.5% до 19.8%. На COCO, мы достигли повышения точности с 3.8% до 11.9%, что соответствует восстановлению 8.1% пропущенных в данных точности. Мы также провели подробный анализ, показав, что подбор гиперпараметров, таких как ранг тензора (8-32) и уровень резонанса ($\alpha=0.1-0.2$), является ключевым для успеха этого подхода. #### Значимость Наша работа предлагает практическое решение для улучшения устойчивости VLMs к адверсарным атакам. Она может быть легко интегрирована в существующие модели без необходимости переучивания или изменений архитектуры. Мы показали, что наш подход эффективен на разных датасетах и может быть применен в различных приложениях, таких как поиск изображений, мультимедийный поиск и обнаружение объектов в реальном времени. Это демонстрирует потенциал нашего метода для увеличения надежности и устойчивости VLMs в реальных условиях. #### Выводы Мы представили новую, легковесную методику для защиты VLMs от адверсарных атак, базирующуюся на тензорной декомпозиции. Мы

Annotation:

Vision language models (VLMs) excel in multimodal understanding but are prone to adversarial attacks. Existing defenses often demand costly retraining or significant architecture changes. We introduce a lightweight defense using tensor decomposition suitable for any pre-trained VLM, requiring no retraining. By decomposing and reconstructing vision encoder representations, it filters adversarial noise while preserving meaning. Experiments with CLIP on COCO and Flickr30K show improved robustness. ...

ID: 2509.16163v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 MARIC: Multi-Agent Reasoning for Image Classification

2025-09-20

Авторы:

Wonduk Seo, Minhyeong Yu, Hyunjin An, Seunghyun Lee

#### Контекст Область исследований в области изображений и классификации в последние годы доминируется требованиями к большим данным и высокопараметричным моделям. Альтернативные подходы, такие как Vision Language Models (VLMs), упрощают задачу, но часто не могут ловко обрабатывать сложные объекты или несогласованные аспекты в изображениях. Это ограничение приводит к неэффективности или недостоверности результатов. Целью настоящего исследования является развитие метода, который может лучше учитывать глобальный контекст и подробные отдельные аспекты в изображениях, обеспечивая более точную интерпретируемую классификацию. #### Метод MARIC представляет собой новую архитектуру, основанную на многоагентном подходе. Основные компоненты включают: **Outliner Agent**, который определяет глобальный контекст изображения и формирует задачи для других агентов; **Aspect Agents**, которые специализируются на определенных аспектах изображения (например, цвет, форма, текстура); и **Reasoning Agent**, который объединяет все полученные выводы в единую модель. Задачи этих агентов образуют совокупность, призванную улучшить интерпретируемость и точность классификации. Реализация включает не только глубокую нейронную архитектуру, но и специально организованные процессы синтеза вывода. #### Результаты В экспериментах использовались такие датасеты, как CIFAR, ImageNet и др. Замеры показали, что MARIC превосходит существующие модели, в том числе VLMs, в показателях точности и интерпретируемости. Были проведены анализы по сравнению с параметрическими моделями и VLMs, демонстрируя преимущество MARIC в объеме данных и прозрачности решений. Эти результаты демонстрируют, что MARIC может эффективно обрабатывать трудные изображения, объединяя компоненты взаимодействия между агентами. #### Значимость Метод MARIC может быть применен в различных областях, включая медицину, робототехнику и анализ изображений для соцсетей. В отличие от традиционных моделей, MARIC предоставляет более гибкий и точный подход к классификации, с учетом множества аспектов изображения. Он также демонстрирует возможность интерактивного взаимодействия с пользователем для корректировки результатов. Это может открыть новые пути в интеллектуальной обработке изображений, где точность и интерпретированность ключевые факторы. #### Выводы Результаты экспериментов подтверждают, что MARIC представляет собой эффективный подход для многоагентной классификации изображений. Он успешно обходит ограничения традиционных моделей, в то же время сочетая точность и понятность. Будущие исследования будут на

Annotation:

Image classification has traditionally relied on parameter-intensive model training, requiring large-scale annotated datasets and extensive fine tuning to achieve competitive performance. While recent vision language models (VLMs) alleviate some of these constraints, they remain limited by their reliance on single pass representations, often failing to capture complementary aspects of visual content. In this paper, we introduce Multi Agent based Reasoning for Image Classification (MARIC), a mult...

ID: 2509.14860v1 cs.CV, cs.AI, cs.CL, cs.MA

arXiv PDF

📄 Dense Video Understanding with Gated Residual Tokenization

2025-09-19

Авторы:

Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

## Контекст Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью. ## Метод Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными. ## Результаты Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный

Annotation:

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing...

ID: 2509.14199v2 cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8

arXiv PDF

📄 The System Description of CPS Team for Track on Driving with Language of CVPR 2024 Autonomous Grand Challenge

2025-09-17

Авторы:

Jinghan Peng, Jingwen Wang, Xing Yu, Dehui Du

## Контекст В последние годы наблюдается значительный рост интереса к интеграции языка и видения в автоматизированные системы, особенно в контексте автономного вождения. Это связано с тем, что водители часто принимают решения на основе как визуальной информации, так и языковых команд или описаний. Однако объединение этих двух сфер представляет серьезные вызовы, включая необходимость обработки больших объемов данных, аккуратной интеграции языковых моделей с результатами визуального анализа, а также вопросы точности и надежности решений. Трек Driving with Language в CVPR 2024 Autonomous Grand Challenge предлагает разработчикам систем автономного вождения решать задачи на основе языка, описывающих действия, динамику и сценарии на дороге. Недостаток специализированных данных и сложность моделей, объединяющих многомодальные данные, оставляет много пространства для развития и инноваций. Наша команда, CPS, выделила эту область как ключевую для исследований и приложила усилия к развитию моделей, которые могут эффективно обрабатывать такие задачи. ## Метод Мы разработали систему на основе моделей языка и видения, ориентированную на задачи, которые появляются при вождении с учетом языковых команд. Наша архитектура основывается на LLaVA (Large Language and Vision Assistant), широко известной за свою способность объединять визуальные сенсоры и текстовые модели. Для улучшения модели мы применили методы fine-tuning, включая LoRA (Low-Rank Adaptation) и DoRA (Decoupled LoRA). Эти методы позволили адаптировать модель к конкретным задачам, улучшив ее общую точность и универсальность. Более того, мы интегрировали открытые технологии depth estimation для добавления глубины в изображения, что помогло модели сопоставить визуальные данные с пространственным контекстом. Для обработки задач с несколькими вариантами ответов (multiple-choice) и логически заданных вопросов (yes/no), мы применяли Chain-of-Thought (CoT) reasoning. Это позволило модели организовывать логику решения задачи поэтапно, улучшая качество вывода и связность. ## Результаты Мы проводили эксперименты на датасете DriveLM-nuScenes, оптимизировав модель для различных сценариев, включая действия водителя, обнаружение объектов и реакции на ситуации на дороге. Наша модель показала самые высокие результаты на предварительной этапе, достигнув точности 0.7799 на валидационной выборке. Это стало причиной того, что наша система заняла первое место в рейтинге. Эти результаты доказывают эффективность нашего подхода в объединении визуальных и языковых моделей в контексте автономного вождения. ## Значимость Наш подход имеет широкие применения в области автономных систем вождения, включая обеспечение безопасно

Annotation:

This report outlines our approach using vision language model systems for the Driving with Language track of the CVPR 2024 Autonomous Grand Challenge. We have exclusively utilized the DriveLM-nuScenes dataset for training our models. Our systems are built on the LLaVA models, which we enhanced through fine-tuning with the LoRA and DoRA methods. Additionally, we have integrated depth information from open-source depth estimation models to enrich the training and inference processes. For inference...

ID: 2509.11071v1 cs.CV, cs.AI, cs.CL

arXiv PDF

1
2
10
11
12
13
14
16
17

Показано 111 - 120 из 161 записей