📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MedCLM: Learning to Localize and Reason via a CoT-Curriculum in Medical Vision-Language Models

2025-10-08

Авторы:

Soo Yong Kim, Suin Cho, Vincent-Daniel Yun, Gyeongyeon Hwang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Bridging clinical diagnostic reasoning with AI remains a central challenge in medical imaging. We introduce MedCLM, an automated pipeline that converts detection datasets into large-scale medical visual question answering (VQA) data with Chain-of-Thought (CoT) reasoning by linking lesion boxes to organ segmentation and structured rationales. These contextual signals enable medical vision-language models to generate question-answer pairs with step-by-step reasoning. To utilize this data effective...

ID: 2510.04477v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Can World Models Benefit VLMs for World Dynamics?

2025-10-04

Авторы:

Kevin Zhang, Kuangzhi Ge, Xiaowei Chi, Renrui Zhang, Shaojun Shi, Zhen Dong, Sirui Han, Shanghang Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Trained on internet-scale video data, generative world models are increasingly recognized as powerful world simulators that can generate consistent and plausible dynamics over structure, motion, and physics. This raises a natural question: with the advent of strong video foundational models, might they supplant conventional vision encoder paradigms for general-purpose multimodal understanding? While recent studies have begun to explore the potential of world models on common vision tasks, these ...

ID: 2510.00855v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Authentic Discrete Diffusion Model

2025-10-04

Авторы:

Xiao Li, Jiaqi Zhang, Shuxiang Zhang, Tianshui Chen, Liang Lin, Guangrun Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We propose an Authentic Discrete Diffusion (ADD) framework that fundamentally redefines prior pseudo-discrete approaches by preserving core diffusion characteristics directly in the one-hot space through a suite of coordinated mechanisms. Unlike conventional "pseudo" discrete diffusion (PDD) methods, ADD reformulates the diffusion input by directly using float-encoded one-hot class data, without relying on diffusing in the continuous latent spaces or masking policies. At its core, a timestep-con...

ID: 2510.01047v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

2025-10-03

Авторы:

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Spatial intelligence spans a rich suite of abilities, including visualising and transforming shapes, mentally rotating objects, judging relational positions and containment, and estimating numerosity. However, it still remains a critical unresolved challenge for Multimodal Large Language Models (MLLMs).To fill this gap, we propose to treat Euclidean geometry problem-solving as a surrogate task. Specifically, we meticulously constructed a curated multimodal dataset, called Euclid30K, comprising a...

ID: 2509.24473v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 RIV: Recursive Introspection Mask Diffusion Vision Language Model

2025-10-01

Авторы:

YuQian Li, Limeng Qiao, Lin Ma

#### Контекст Mask Diffusion-based Vision Language Models (MDVLMs) показали свою эффективность в решении задач мультимодального понимания. Однако, они страдают от отсутствия самокоррекционных возможностей, что ограничивает их универсальность и точность. Данная проблема мотивирует разработку модели, которая сможет обнаруживать и исправлять ошибки в процессе генерации. #### Метод Мы предлагаем Recursive Introspection Mask Diffusion Vision Language Model (RIV), который включает в себя два ключевых механизма. Отметим интроспекционный тренировочный процесс (Introspection Training), в котором вводится Introspection Model для определения ошибок в полученных последовательностях. Этот подход позволяет модели не только идентифицировать грамматические и орфографические ошибки, но и анализировать логические несоответствия. Второй механизм — рекурсивный инференс (Recursive Inference). Он заключается в том, что после инициального этапа раскрытия масок (unmasking), Introspection Model исправляет ошибки, затем происходит повторное маскирование (remask), и этот цикл ($\text{unmask} \rightarrow \text{introspection} \rightarrow \text{remask}$) повторяется до тех пор, пока результаты не будут достаточно достоверны. #### Результаты Мы проверили RIV на нескольких бенчмарках, включая задачи визуального понимания и мультимодального понимания. Модель показала превосходство над многими современными MDVLMs в метриках точности и общей качественной оценки. Эксперименты подтвердили, что RIV способен не только улучшить точность генерации, но также устранить ошибки в ранних этапах потока генерации. #### Значимость Исследование может быть применено в многомодальных системах, таких как автоматические системы понимания и генерации текста, графического и видеоконтента. Одним из преимуществ является увеличение точности и надежности моделей, что может положительно сказаться на применении в реальном мире. Будущие исследования могут быть направлены на улучшение эффективности и скорости моделей, а также расширение их применений в различных областях. #### Выводы Основным достижением является создание модели RIV, которая единолично добавляет моделям MDVLM самокоррекционные возможности. Эта разработка открывает новые перспективы в области мультимодального понимания. Дальнейшие исследования будут сконцентрированы на улучшении эффективности и реализации моделей RIV в реальных системах.

Annotation:

Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable progress in multimodal understanding tasks. However, these models are unable to correct errors in generated tokens, meaning they lack self-correction capability. In this paper, we propose Recursive Introspection Mask Diffusion Vision Language Model (RIV), which equips the model with self-correction ability through two novel mechanisms. The first is Introspection Training, where an Introspection Model is introduced to i...

ID: 2509.23625v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Euclid's Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks

2025-10-01

Авторы:

Shijie Lian, Changti Wu, Laurence Tianruo Yang, Hang Yuan, Bin Yu, Lei Zhang, Kai Chen

## Контекст Многомодальные большие языковые модели (МЛЛМ) широко применяются в различных областях, но их способность решать задачи, требующие способностей пространственного рассуждения, остается недостаточно развитой. Эти способности включают визуализацию и преобразование фигур, ментальную поворотную трансформацию объектов, оценку относительных позиций и заполнения, а также оценку количественных свойств. Такие ограничения моделей становятся причиной проблем в задачах, которые требуют геометрического мышления. Для решения этой проблемы, авторы предлагают использовать разрешительную геометрию в качестве структурного средства для улучшения пространственных способностей МЛЛМ. Характеристики задач геометрии, такие как логика и многоступенчатая выводимость, позволяют моделям развивать способности, которые могут быть применены к различным пространственным ситуациям. ## Метод Для решения этой проблемы была разработана мультимодальная датасет Euclid30K, содержащая примерно 30 000 задач геометрии, включающих плоскую и твердотельную геометрию. Для обучения моделей использовалась групповая оптимизация политики (Group Relative Policy Optimization, GRPO), которая позволяла моделям приобретать и применять геометрические принципы Евклида. Модели были настроены на выполнение задач, таких как идентификация форм, подсчет элементов и многоступенчатый вывод, используя принципы Евклида. Это позволило моделям развивать геометрические способности, которые могут быть использованы в других задачах, включая смежные задачи смыслового понимания. ## Результаты Проведенные эксперименты показали, что модели, настроенные на датасет Euclid30K, демонстрируют существенный показательный прирост в производительности на 4 различных бенчмарках пространственного рассуждения: Super-CLEVR, Omni3DBench, VSI-Bench и MindCube. Особый успех был показан в VSI-Bench, где увеличение точности в среднем составило 5.5 процентных единиц, набрав до 40.5%. Здесь RoboBrain2.0-Euclid-7B достиг 49.6% точности, превзойдя предыдущую скор лидера Spatial-MLLM. Эти результаты являются первым доказательством того, что геометрический анализ может стать сильным средством для улучшения пространственных способностей МЛЛМ. ## Значимость Результаты исследования открывают новые возможности для применения геометрического подхода в области мультимодальных языковых моделей. Датасет Euclid30K предоставляет широкие возможности для отработки пространственных задач, а методология GRPO позволяет моделям приобретать геометрические навыки, которые могут быть использованы для решения различных задач пространственного мышления. Это не то

Annotation:

ID: 2509.24473v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ERGO: Efficient High-Resolution Visual Understanding for Vision-Language Models

2025-09-30

Авторы:

Jewon Lee, Wooksu Shin, Seungmin Yang, Ki-Ung Song, DongUk Lim, Jaeyeon Kim, Tae-Ho Kim, Bo-Kyeong Kim

#### Контекст В последние годы визионно-языковые модели (VLMs) получили широкое применение в различных областях, таких как анализ изображений, генерация текста и семантический поиск. Однако существующие модели страдают от высоких затрат на вычисления при работе с высокорезольвентными изображениями, что ограничивает их эффективность в реальном времени. Эта проблема усиливается с развитием моделей " thinking with images", которые расширяют область научного исследования с текста на визуальные данные. Наша мотивация заключается в создании более эффективной модели для решения этих задач, оптимизируя процесс работы с высокорезольвентными изображениями. #### Метод Мы предлагаем ERGO (Efficient Reasoning & Guided Observation), метод, основанный на двухступенчатой "коарсе-то-файн" (грубая до строгой) пипейлни. В первой стадии сокращается разрешение изображения, чтобы выделить задачу-применимые области, а во второй стадии обрабатываются только эти области с полным разрешением. Для того чтобы отличить релевантные области, мы предлагаем решение, основанное на мультимодальном контексте, которое учитывает не только текстовую информацию, но и визуальную. Это позволяет управлять перцептивной неопределенностью, расширяя область обработки для ответа на запросы. Мы используем фреймворк реинфорсментного обучения для оптимизации этого процесса. #### Результаты Мы провёряли нашу модель на нескольких датасетах, включая V*, и сравнили её с оригинальной моделью и другими конкурентными подходами. ERGO достигла значительного улучшения производительности с меньшими затратами на вычисления. Например, на V* она превосходит Qwen2.5-VL-7B на 4.7%, при этом используя только 23% визуальных токенов и получая 3x ускорение в инференсе. Это демонстрирует эффективность нашего подхода в решении задач высокорезольвентного визуального понимания. #### Значимость Исследования ERGO могут применяться в различных областях, включая автоматизированный контент-анализ, робототехнику и системы опоры на реальном времени. Основное преимущество заключается в снижении вычислительных затрат, что особенно критично для мобильных устройств и реального времени. Наш подход также может расширить возможности визуально-языковых моделей, улучшив их точность и скорость работы. Это делает нашу модель привлекательной для применения в реальном мире. #### Выводы Мы представляем ERGO, метод, который эффективно решает проблему высоких затрат на работу с высокорезольвентными изображениями в визуально-языковых моделях. Наш подход демонстрирует высокую точность и эффективность, достигнутые за счёт двухступенчатого принципа обработки. Мы планируем дальней

Annotation:

Efficient processing of high-resolution images is crucial for real-world vision-language applications. However, existing Large Vision-Language Models (LVLMs) incur substantial computational overhead due to the large number of vision tokens. With the advent of "thinking with images" models, reasoning now extends beyond text to the visual domain. This capability motivates our two-stage "coarse-to-fine" reasoning pipeline: first, a downsampled image is analyzed to identify task-relevant regions; th...

ID: 2509.21991v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Table Detection with Active Learning

2025-09-26

Авторы:

Somraj Gautam, Nachiketa Purohit, Gaurav Harit

## Контекст Обработка и анализ данных постоянно набирает обороты, в том числе в сфере обучения с подкреплением. Одним из важных заданий является обнаружение и извлечение таблиц из документов, которое имеет широкое применение в различных областях, таких как бизнес-анализ, документооборот и ИИ-приложения. Однако этот процесс часто связан с высокими затратами на аннотацию данных, которые необходимы для обучения моделей. Активное обучение (Active Learning, AL) предлагает эффективное решение для этой проблемы, позволяя снизить затраты на аннотацию, выбирая самые полезные образцы для изучения модели. Однако многие текущие AL-методы ориентированы на обычные задачи классификации, а не на задачи обнаружения объектов, таких как обнаружение таблиц. Наша исследовательская группа рассматривает возможности использования AL для обнаружения таблиц в документах, чтобы улучшить эффективность и точность. ## Метод Мы предлагаем инновационный подход к обнаружению таблиц, основанный на активном обучении. Метод включает следующие этапы: 1. **Инициализация**: Мы начинаем с набора экземпляров, аннотированных вручную, который используется для инициализации модели. 2. **Обучение модели**: Модель обучается на этом начальном наборе данных, чтобы выявить признаки для дальнейшего выявления таблиц. 3. **Выбор образцов для аннотации**: Алгоритм активного обучения выбирает образцы, которые считаются наиболее важными для модели на основе мер информативности и разнообразия. Этот выбор основывается на сочетании некоторых метрик, таких как неопределенность и множественность. 4. **Обучение и повторение**: Аннотированные образцы добавляются к обучающему набору, и процесс повторяется, чтобы улучшить точность модели. Для оценки эффективности нашего подхода мы использовали два бенчмарк-данных: TableBank-LaTeX и TableBank-Word. Эти данные представляют собой таблицы, созданные с помощью различных текстовых процессоров, что дает разнообразие в стилях и структурах таблиц. Мы проводим эксперименты с двумя современными архитектурами обнаружения таблиц: CascadeTabNet и YOLOv9. ## Результаты В ходе экспериментов мы сравнили нашу AL-методику с традиционным случайным выбором образцов для аннотации. Наши результаты показывают, что AL-метод эффективнее, снижает затраты на аннотацию при ограниченном бюджете и позволяет повысить точность. На двух датасетах TableBank-LaTeX и TableBank-Word наши результаты по метрике mAP (mean Average Precision) показали, что AL-метод дает значительные пользы в сравнении с случайным выбором. Мы также сравнили нашу модель с другими AL-методами и установили, что наш подход дает более высокий mAP на ограниченном бюджете аннотации. ## Значимость Наш подход мо

Annotation:

Efficient data annotation remains a critical challenge in machine learning, particularly for object detection tasks requiring extensive labeled data. Active learning (AL) has emerged as a promising solution to minimize annotation costs by selecting the most informative samples. While traditional AL approaches primarily rely on uncertainty-based selection, recent advances suggest that incorporating diversity-based strategies can enhance sampling efficiency in object detection tasks. Our approach ...

ID: 2509.20003v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 VIR-Bench: Evaluating Geospatial and Temporal Understanding of MLLMs via Travel Video Itinerary Reconstruction

2025-09-25

Авторы:

Hao Wang, Eiki Murata, Lingfang Zhang, Ayako Sato, So Fukuda, Ziqi Yin, Wentao Hu, Keisuke Nakao, Yusuke Nakamura, Sebastian Zwirner, Yi-Chia Chen, Hiroyuki Otomo, Hiroki Ouchi, Daisuke Kawahara

#### Контекст В последние годы внимание сообщества AI привлекают видеопонимание и извлечение информации из видео. Эти задачи становятся все более важными с учетом развития технологий для роботов, VR/AR, и AI-поддерживаемых приложений. Однако существующие бенчмарки ограничены видео из индорных сцен или коротких внедорожных путешествий. Длительные путешествия, сложные задачи планирования и перемещения по GPS-трекам остаются недооцененными. Многомерное понимание видео, включая геоспациальное и временное контексты, является ключевым для развития следующего поколения моделей МЛЛМ. #### Метод VIR-Bench представляет собой бенчмарк, состоящий из 200 долговременных видео, покрывающих различные географические регионы. Он оценивает модели по возможности воспроизводить путешествия, рассчитывая географические маршруты, временные последовательности и релевантные объекты. Метод основывается на создании синтетических контекстов, анализе потока видео и использовании технологий текстового понимания. Архитектура VIR-Bench включает в себя скелетный рендеринг, многомодальный контекст-анализ, а также методы оценки точности и полноты реконструкции. #### Результаты Эксперименты проводились на 200 видео, с использованием нескольких современных МЛЛМ. Оценивались показатели точности и полноты реконструкции путешествий. Большинство моделей показали низкие результаты, особенно при высокой сложности исходных видео. Модели способны распознавать простые географические маршруты, но предсказывать длительные траектории и повторять взаимодействие с объектами остаются затруднительными. #### Значимость Вир-Бенч широко может применяться в области AI для путешествий, обеспечивая базу для развития моделей, умеющих передвигаться по сложным географическим маршрутам. Его особенностью является возможность тестирования моделей на реальных траекториях и реконструкции пользовательских путешествий. Он не только улучшает понимание геоспациальных и временных задач, но также может использоваться для создания новых типов приложений в области эмбедид AI. #### Выводы VIR-Bench демонстрирует значительную сложность в задаче реконструкции траекторий в долговременных видео. Он позволяет тестировать модели на высокой сложности и создает новые возможности для развития AI в путешествиях. В дальнейшем, бенчмарк будет расширен для поддержки новых моделей и задач, таких как взаимодействие с пользователем и развитие AI-агентов для путешествий.

Annotation:

Recent advances in multimodal large language models (MLLMs) have significantly enhanced video understanding capabilities, opening new possibilities for practical applications. Yet current video benchmarks focus largely on indoor scenes or short-range outdoor activities, leaving the challenges associated with long-distance travel largely unexplored. Mastering extended geospatial-temporal trajectories is critical for next-generation MLLMs, underpinning real-world tasks such as embodied-AI planning...

ID: 2509.19002v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Dense Video Understanding with Gated Residual Tokenization

2025-09-19

Авторы:

Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

## Контекст Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью. ## Метод Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными. ## Результаты Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный

Annotation:

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing...

ID: 2509.14199v2 cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8

arXiv PDF

Показано 21 - 30 из 43 записей