📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Ovis2.5 Technical Report

2025-08-19

Авторы:

Shiyin Lu, Yang Li, Yu Xia, Yuwei Hu, Shanshan Zhao, Yanqing Ma, Zhichao Wei, Yinglun Li, Lunhao Duan, Jianshan Zhao, Yuxuan Han, Haijun Li, Wanying Chen, Junke Tang, Chengkun Hou, Zhixing Du, Tianli Zhou, Wenjie Zhang, Huping Ding, Jiahe Li, Wen Li, Gui Hu, Yiliang Gu, Siran Yang, Jiamang Wang, Hailong Sun, Yibo Wang, Hui Sun, Jinlong Huang, Yuping He, Shengze Shi, Weihong Zhang, Guodong Zheng, Junpeng Jiang, Sensen Gao, Yi-Feng Wu, Sijia Chen, Yuhui Chen, Qing-Guo Chen, Zhao Xu, Weihua Luo, Kaifu Zhang

## Контекст Ovis2.5 является усовершенствованием Ovis2, разработанным для нативного разрешения визуального восприятия и сильного многомодального разума. Он интегрирует трансформер визуального восприятия нативного разрешения, обрабатывающий изображения в их первоначальных, переменных разрешениях. Это позволяет избежать ухудшения качества, связанного с фиксированным разрешением, и сохранить как тонкие детали, так и глобальный макет, что крайне важно для текстов с большим количеством информации, таких как сложные чарты. Дополнительно, модель обучена перейти за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Эта расширенная функция доступна в качестве дополнительного "режима мышления" во время интерпретации, позволяя пользователям соотносить затраты на процессорное время с улучшением точности в сложных задачах. Обучение Ovis2.5 проходит через пятиэтажную систему курса, постепенно углубляющую свои навыки. Эта процедура начинается с основных визуальных и многомодальных предварительных тренировок, потом переходит к широкомасштабному тюнингу инструкций и заканчивается выравниванием и улучшением разума с помощью DPO и GRPO. Для эффективного масштабирования этих улучшений, авторы использовали мультимодальный пакетный данных и гибридную параллельность, что привело к значительному ускорению в общем виде. ## Метод Ovis2.5 использует совершенно новую конструкцию, включающую в себя трансформер визуального восприятия нативного разрешения, который обрабатывает изображения в их исходных разрешениях. Это позволяет избежать потерь деталей и глобального макета, которые могут возникнуть при использовании фиксированного разрешения. Более того, модель обучена выступать в режиме "мышления", что позволяет перемещаться за линейный цепочный способ мышления и выполнять рефлексию, включая самопроверку и корректировку. Этот режим может быть активирован во время интерпретации, чтобы улучшить точность на сложных задачах, при этом это может привести к увеличению затрат на процессорное время. Для обучения использовалась пятиэтажная система курса, которая постепенно углубляет навыки модели. Этот процесс начинается с основных визуальных и многомодальных предварительных тренировок, затем переходит к широкомасштабному тюнингу инструкций и завершается выравниванием и улучшением разума с помощью DPO и GRPO. ## Результаты Проведенные эксперименты показали, что Ovis2.5-9B показал средний результат 78.3 на OpenCompass multimodal leaderboard, что значительно превышает результаты Ovis2-8B и других открытых моделей с менее чем 40B параметра

Annotation:

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform ...

ID: 2508.11737v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Labels or Input? Rethinking Augmentation in Multimodal Hate Detection

2025-08-19

Авторы:

Sahajpreet Singh, Rongxin Ouyang, Subhayan Mukerjee, Kokil Jaidka

#### Контекст Современное веб-пространство поsылает значительные вызовы для моделей визионно-языковых систем (Vision-Language Models, VLMs) при обнаружении враждебного контента, такого как хейт-спич, где формируется вредное воздействие скрытым образом в контексте юмора или сатиры. Существующие модели часто недостаточно гибки в плане настройки входных данных и структуры задач. Кроме того, их уязвимость к неявному хейт-спичу ограничивает их эффективность в ситуациях, где тонкость взаимодействия текста и изображения ключом к пониманию тонких нюансов. В статье предлагается подход, который направляется на улучшение обнаружения хейт-спича с помощью гибкого проектирования моделей и синтетических данных. #### Метод Методология основывается на двух основных компонентах. Во-первых, структурированные предложения (prompts), которые позволяют контролировать уровень гибкости в обучении и настройке системы. Во-вторых, многоагентная система, сочетающая в себе визуальную и языковую модели (LLM-VLM), для генерации синтетических данных. Эта система генерирует 2479 противоположных к хейт-спичу модификаций мемов, изолируя и переписывая хейт-спические модификации. Это улучшает обнаружение и снижает спуфинг, позволяя модели лучше ориентироваться на различные контексты. #### Результаты Используя данные из различных моделей (включая InternVL2), авторы проводили эксперименты для оценки эффективности своих подходов. Отчет о первом подходе, связанном с оптимизацией предложений, показал улучшение устойчивости модели даже в моделях меньшего размера. Отчет о данных, сгенерированных многоагентной системой, показал уменьшение ненужных корреляций и улучшение генерализируемости классификатора. #### Значимость Подходы, предлагаемые в статье, могут применяться в области мониторинга хейт-спича в социальных сетях, интерактивном анализе контента, а также в поиске ненужных зависимостей в данных. Они выделяются тем, что улучшают робастность моделей, снижая зависимость от их размера, и позволяют более эффективно учитывать контекст в обнаружении хейт-спича. #### Выводы В результате исследования было доказано, что гибкость в структуре задачи и в размере модели, а также целенаправленная генерация синтетических данных, являются ключевыми факторами для улучшения обнаружения хейт-спича. Будущие исследования будут сфокусированы на расширении этого подхода на другие типы враждебного контента и создании более тонких методов для обнаружения неявного негативного контента в реальных сетях.

Annotation:

The modern web is saturated with multimodal content, intensifying the challenge of detecting hateful memes, where harmful intent is often conveyed through subtle interactions between text and image under the guise of humor or satire. While recent advances in Vision-Language Models (VLMs) show promise, these models lack support for fine-grained supervision and remain susceptible to implicit hate speech. In this paper, we present a dual-pronged approach to improve multimodal hate detection. First,...

ID: 2508.11808v1 cs.CV, cs.AI, cs.CL, cs.CY, cs.MM, I.2.7; I.2.10

arXiv PDF

📄 Recent Advances in Transformer and Large Language Models for UAV Applications

2025-08-19

Авторы:

Hamza Kheddar, Yassine Habchi, Mohamed Chahine Ghanem, Mustapha Hemis, Dusit Niyato

## Контекст Управление и операция непосредственно зависят от того, насколько эффективно выполняются задачи в области производительности и автономной работы систем непосредственно в рамках функциональных моделей и новых технологий. Развитие Трансформеров и больших языковых моделей (LLM) привело к переосмыслению области Трансформеров и элементов данных в УАВ, в том числе перцепции, решениями, а также в результате устойчивой работы в разных условиях. Однако существуют проблемы, связанные с высоким расходом ресурсов, требованиями к вычислительной эффективности и вопросами реального времени, которые до сих пор не решены в области УАВ. Данная статья стремится к новым техническим решениям, которые позволяют повысить эффективность и оптимизировать использование ресурсов в системах УАВ. ## Метод Данная работа предлагает подробный сопоставительный анализ и новую структуру Трансформеров в УАВ. Она выявляет три основных технических решения: а) использование аттенционных механизмов для улучшения решений в системах непосредственного управления, b) гибридные системы, которые объединяют трансформеры и целковые нейронные сети (CNN), c) реинфорсментовые алгоритмы, сочетающие Трансформеры с алгоритмами решений для реального времени. Также рассматривается развитие больших языковых моделей (LLM) для поддержки этих моделей. Работа по визуализации и оценке решений включает в себя таблицы с результатами и конкретные кейсы из УАВ, такие как автономная навигация и операции в разных условиях. ## Результаты Работа представляет собой трехуровневый подход к сравнению Трансформеров в УАВ: сравнение архитектур, сравнение результатов, а также оценку удовлетворяемости требований к реальному времени. Были рассмотрены несколько данных, включая LLMs и датасеты, которые помогли в тестировании и оценке моделей, в том числе по УАВ. Результаты показывают, что новые гибридные модели и Трансформеры на основе визуальных сигналов позволяют повысить точность решений и работу в реальном времени. Отдельная оценка основана на симуляторах и реальных данных, что позволяет сравнить решения в разных условиях. ## Значимость Открытое применение Трансформеров и LLMs в УАВ открывает новые возможности в области автономной работы и управления, в том числе в полевых операциях, фермерском секторе, доставке и других. Трансформеры предоставляют высокую точность и устойчивость, что является ключевым преимуществом. Большие языковые модели также позволяют оптимизировать работу, умень

Annotation:

The rapid advancement of Transformer-based models has reshaped the landscape of uncrewed aerial vehicle (UAV) systems by enhancing perception, decision-making, and autonomy. This review paper systematically categorizes and evaluates recent developments in Transformer architectures applied to UAVs, including attention mechanisms, CNN-Transformer hybrids, reinforcement learning Transformers, and large language models (LLMs). Unlike previous surveys, this work presents a unified taxonomy of Transfo...

ID: 2508.11834v1 cs.CV, cs.AI, cs.RO, cs.SY, eess.IV, eess.SY

arXiv PDF

📄 AdaRing: Towards Ultra-Light Vision-Language Adaptation via Cross-Layer Tensor Ring Decomposition

2025-08-19

Авторы:

Ying Huang, Yuanbin Man, Wenqi Jia, Zhengzhong Tu, Junzhou Huang, Miao Yin

## Контекст В последние годы стали получать всё большую популярность модели визуального понимания языка, которые обладают высокой точностью и гибкостью при решении различных задач. Однако, применение этих моделей к реальным задачам часто сталкивается с проблемой их большого размера и высоким потреблением ресурсов. Это особенно актуально при их применении в устройствах с ограниченным мощностью вычислений. Уменьшение размера моделей, не уменьшая их производительности, является ключевым требованием для эффективного применения в реальной жизни. В этой статье мы рассматриваем проблему уменьшения размера моделей для эффективного использования визуально-языковых моделей в различных задачах. ## Метод Для достижения эффективного применения визуально-языковых моделей мы предлагаем использовать новую методологию, основанную на тензорной декомпозиции. Мы вводим понятие **Cross-Layer Tensor Ring Decomposition (TRD)**, которая позволяет уменьшить размер модели, сохранив при этом высокую точность. Это достигается за счёт использования кросс-слойной декомпозиции, которая удаляет из модели ненужные тензоры и уменьшает размер всего модели. Мы также вводим идею **Adaptive Ring Collaboration**, чтобы адаптировать размер и количество адаптеров в зависимости от задачи. Это позволяет достичь большей эффективности в ресурсов и увеличить производительность модели. ## Результаты Мы проводили эксперименты с различными моделями визуально-языковых моделей и сравнили их с нашей моделью AdaRing. Наши результаты показывают, что AdaRing позволяет достичь **уменьшения размера модели на 90%**, при этом сохраняя высокую точность. Мы провели эксперименты на различных задачах, включая обнаружение объектов, классификацию изображений и текста, и показали, что наша модель показывает лучшие результаты при меньшей модели. Это позволяет использовать модель в устройствах с низким расходом ресурсов, таких как мобильные устройства и смартфоны. ## Значимость Мы видим огромный потенциал нашего подхода в применении в широком круге задач, включая **мобильные приложения**, **машинное зрение**, **интеллектуальные системы** и **реального времени обработки изображений**. Наш подход не только увеличивает производительность моделей, но и позволяет их применять в устройствах с ограниченным мощностью вычислений. Это значит, что наш подход может быть применен в различных областях, включая **машинное обучение** и **видеонаблюдение**. Мы считаем, что наша модель может существенно повлиять на развитие визуально-языковых моделей в будущем. ## Выводы Мы предлагаем новый подход к уменьшению размера моделей визуально-языковых моделей, основанный на кросс-слойной декомпозици

Annotation:

Adapter-based fine-tuning has gained remarkable attention in adapting large pre-trained vision language models (VLMs) for a wide range of downstream tasks efficiently. In this paradigm, only the inserted adapters are fine-tuned, without the need for training the original VLM backbone. Existing works scale adapters by integrating them into every layer of VLMs to increase the capacity of adapters. However, these methods face two primary limitations: 1) limited compression rate due to ignoring cros...

ID: 2508.11870v1 cs.CV, cs.AI

arXiv PDF

📄 EVTP-IVS: Effective Visual Token Pruning For Unifying Instruction Visual Segmentation In Multi-Modal Large Language Models

2025-08-19

Авторы:

Wenhui Zhu, Xiwen Chen, Zhipeng Wang, Shao Tang, Sayan Ghosh, Xuanzhao Dong, Rajat Koner, Yalin Wang

#### Контекст В последние годы появились многомодальные большие языковые модели (MLLMs), которые оперируют несколькими типами данных, включая текст и изображения. Одной из ключевых задач, с которой сталкиваются такие модели, является Instructed Visual Segmentation (IVS), или указательная визуальная сегментация. Задача IVS заключается в том, чтобы выделить объекты на изображении или видео в соответствии с естественным языковым запросом. Несмотря на то, что MLLMs достигли высокой точности в IVS, их высокий косвенный затратный порог, особенно при работе с видео, остается значительной проблемой. Это ограничение становится все более актуальным в ситуациях, требующих реального времени. В этой статье мы исследуем эффективность визуальных токенов в MLLMs и разрабатываем метод, который позволяет сократить накладные расходы без существенного ущерба качеству. #### Метод Мы предлагаем на основе EVTP-IVS, новый метод эффективной визуальной токен-прайзинг, который оптимизирует выбор токенов для того, чтобы сохранить максимальную информативность с минимальным количеством токенов. Метод основывается на алгоритме k-center, который включает в себя специальные техники для учета пространственной информации. Это позволяет гарантировать представительность выделяемых областей изображения или видео. Мы также применяем информационно-теоретический анализ, который подтверждает эффективность нашего подхода. Решение EVTP-IVS целенаправленно уменьшает требования к вычислительным ресурсам без потери качества, что делает его пригодным для применения в реальном времени. #### Результаты Мы провести эксперименты на нескольких стандартных IVS-benchmarks, включая образцы изображений и видео. Наши результаты показывают, что EVTP-IVS дает скорость выполнения задачи до 5 раз выше на видео-задачах и до 3,5 раз на изображениях, сохранив при этом около 80% токенов. Это приводит к значительной экономии времени и ресурсов при сохранении высокой точности. Метод EVTP-IVS также показал лучшие результаты по сравнению с другими методами упрощения вывода, в том числе с теми, которые используют более сложные архитектуры или методы. #### Значимость Предлагаемый метод EVTP-IVS имеет широкие возможности применения в сферах, требующих высокой производительности и эффективности. Например, это может быть использовано в робототехнике, автоматизированной работе, в задачах анализа видео на требовательных устройствах или в ситуациях, где ресурсы вычислений ограничены. Наш подход не только уменьшает стоимость вычислений, но и улучшает производительность в реальном времени, что открывает

Annotation:

Instructed Visual Segmentation (IVS) tasks require segmenting objects in images or videos based on natural language instructions. While recent multimodal large language models (MLLMs) have achieved strong performance on IVS, their inference cost remains a major bottleneck, particularly in video. We empirically analyze visual token sampling in MLLMs and observe a strong correlation between subset token coverage and segmentation performance. This motivates our design of a simple and effective toke...

ID: 2508.11886v1 cs.CV, cs.AI, cs.CL, cs.LG, eess.IV

arXiv PDF

📄 MOON: Generative MLLM-based Multimodal Representation Learning for E-commerce Product Understanding

2025-08-19

Авторы:

Daoze Zhang, Zhanheng Nie, Jianyu Liu, Chenghan Fu, Wanxian Guan, Yuan Gao, Jun Song, Pengjie Wang, Jian Xu, Bo Zheng

#### Контекст В последние годы, скоростному росту электронной коммерции присутствуют множество вызовов, связанных с конвейером обработки товаров. Одним из ключевых аспектов является повышение точности и эффективности понимания товаров. Несмотря на то, что существующие модели, ориентированные на конкретные задачи, демонстрируют хорошие результаты в этой области, они не всегда эффективно обрабатывают многообразие данных, включая текст, изображения и атрибуты товаров. Это приводит к проблемам в моделировании более общих, универсальных представлений. Наша модель MOON (Multimodal MLLM-based Representation Learning) впервые предлагает широкомасштабную генерирующую модель на основе Multimodal Large Language Models (MLLMs), которая значительно улучшает понимание продуктов в различных задачах, таких как кросс-модальная рекогнация, классификация товаров и предсказание атрибутов. #### Метод MOON использует современные методы машинного обучения для моделирования продуктов в рамках многомодальных представлений. Основной модуль — это guided Mixture-of-Experts (MoE), который моделирует мультимодальные аспекты товаров. Кроме того, мы вводим технику **core semantic regions detection** для устранения шума и недружественных факторов в изображениях товаров. Метод **negative sampling strategy** позволяет увеличить сложность и разнообразие отрицательных значений. Благодаря этой технологической архитектуре, MOON может эффективно связать мультимодальные представления товаров, включая текст и изображения, и повысить общую точность модели. #### Результаты Мы провели ряд экспериментов с использованием нашей большой коллекции данных для продуктов MBE (Multimodal Benchmark for E-commerce), включающей более 10 миллионов товаров. Модель MOON демонстрирует высокую точность в задачах zero-shot кросс-модальной рекогнации, классификации товаров и предсказания атрибутов. Особенно важно отметить, что MOON превосходит существующие методы в ряде ключевых задач, что подтверждает ее силу в общей генеративной моделировании. Также мы выполнили ряд визуализаций, показав, как MOON выявляет ключевые аспекты товаров и отсеивает шумные элементы, что демонстрирует ее эффективность в реальной среде. #### Значимость Модель MOON может быть применена в различных областях, таких как визуально-текстовые задачи, анализ товаров, автоматизация логистики и рекомендательные системы. Ее особенно значимость заключается в генеративной природе модели, которая позволяет легко адаптироваться к различным задачам. Мы также отмечаем, что MOON обеспечивает улучшенную эффективность и точность, что позволяет сократить время обработки и улучшить пользовательский опыт в электронной коммерции. #### Выводы

Annotation:

With the rapid advancement of e-commerce, exploring general representations rather than task-specific ones has attracted increasing research attention. For product understanding, although existing discriminative dual-flow architectures drive progress in this field, they inherently struggle to model the many-to-one alignment between multiple images and texts of products. Therefore, we argue that generative Multimodal Large Language Models (MLLMs) hold significant potential for improving product r...

ID: 2508.11999v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 Q-FSRU: Quantum-Augmented Frequency-Spectral Fusion for Medical Visual Question Answering

2025-08-19

Авторы:

Rakesh Thakur, Yusra Tariq

## Контекст Одной из основных проблем в сфере здравоохранения является сложность решения клинических вопросов, требующих одновременного понимания изображений и текста. Это влечет за собой необходимость создания моделей, которые могут эффективно обрабатывать и комбинировать данные из разных источников для получения точных и понятных ответов. Особый интерес представляет область медицинской визуальной вопросно-ответной системы (Visual Question Answering, VQA), где задача состоит в том, чтобы правильно интерпретировать медицинские изображения и сочетать их с текстовыми данными для точных ответов. Несмотря на прогресс в искусственном интеллекте, существуют сложности в обеспечении высокой точности и объяснимости решений, особенно при работе с большими данными. Модели Q-FSRU (Quantum-Augmented Frequency-Spectral Fusion) нацелены на решение этих проблем, объединяя техники выражения частотного спектра и квантовый подход к вопросам и ответам. ## Метод Q-FSRU представляет собой совмещение двух основных подходов: **Frequency Spectrum Representation and Fusion (FSRU)** и **Quantum Retrieval-Augmented Generation (Quantum RAG)**. FSRU включает в себя преобразование изображений и текстовых данных в частотный спектр с помощью Fast Fourier Transform (FFT). Это позволяет модели сосредоточиться на смысловых частях данных, игнорируя шум. Quantum RAG добавляет квантовую технику для поиска информации в медицинских источниках, используя технологии схожести на основе квантовых методов. Таким образом, модель объединяет частотные данные с квантовыми выводами, чтобы обеспечить точные и поддерживаемые знаниями ответы. Эта архитектура обеспечивает обоснованность ответов и повышает их качество, в то же время увеличивая уровень объяснимости. ## Результаты Модель Q-FSRU была опробована на датасете VQA-RAD, который содержит медицинские изображения и вопросы из реальных клинических ситуаций. Эксперименты показали, что Q-FSRU превосходит существующие модели в решении сложных задач, требующих комбинации изображений и текстов для получения ответа. Особенно выдающиеся результаты были получены при решении вопросов, требующих высокого уровня разбора и различения между сущностями на изображениях. Модель также показала значительные улучшения в объяснимости решений, что является критическим для применения в медицине. Эти результаты указывают на эффективность Q-FSRU в сочетании частотных и квантовых техник для построения надежной и понятной AI-системы для медицинского применения. ## Значимость Q-FSRU может применяться в различных областях медицины, например, в радиологии, диагностике и мониторинге заболеваний. Её преимущества включают высокую точность, квантовую обеспеченность для повышения

Annotation:

Solving tough clinical questions that require both image and text understanding is still a major challenge in healthcare AI. In this work, we propose Q-FSRU, a new model that combines Frequency Spectrum Representation and Fusion (FSRU) with a method called Quantum Retrieval-Augmented Generation (Quantum RAG) for medical Visual Question Answering (VQA). The model takes in features from medical images and related text, then shifts them into the frequency domain using Fast Fourier Transform (FFT). ...

ID: 2508.12036v1 cs.CV, cs.AI

arXiv PDF

📄 VimoRAG: Video-based Retrieval-augmented 3D Motion Generation for Motion Language Models

2025-08-19

Авторы:

Haidong Xu, Guangwei Xu, Zhedong Zheng, Xiatian Zhu, Wei Ji, Xiangtai Li, Ruijie Guo, Meishan Zhang, Min zhang, Hao Fei

## Контекст В последние годы выражающееся увеличение количества видеоданных, собранных методом видеосъемки, обусловило развитие многообразных моделей, ориентированных на анализ и понимание такого типа данных. Одной из главных проблем в этой сфере является создание моделей, которые могут эффективно использовать видеоданные для генерации моделей движений. Одним из наиболее актуальных подходов является видео-подкрепленная модель генерации трехмерных движений, которая может обнаружить и использовать знания из больших баз данных видео для улучшения генерации движений. Однако существуют значительные проблемы, связанные с ограниченностью данных для обучения, ошибками во время генерации и высоким уровнем комплексности процесса. Эти проблемы привели к развитию моделей, которые могут использовать видео для повышения качества генерации трехмерных моделей движения. ## Метод Метод, представленный в работе, называется **VimoRAG**. Это новая рама, ориентированная на видео, которая использует возможности видео-подкрепленных моделей для улучшения генерации трехмерных движений. Рама включает несколько ключевых компонентов, таких как **Gemini Motion Video Retriever**, который отвечает за эффективное выявление и выборка 2D моделей движения из базы данных видео, и **Motion-centric Dual-alignment DPO Trainer**, который укрепляет связь между выбранными моделями движения и генерируемыми трехмерными моделями движения. Эта архитектура позволяет VimoRAG решать два ключевых проблемы: (1) повышение эффективности модели поиска 2D движений, которая отличает позы и действия, и (2) уменьшение ошибок, возникающих в процессе генерации движений в результате неудачных выборок. Таким образом, VimoRAG предлагает совершенствованный подход к видео-подкрепленной генерации трехмерных моделей движения. ## Результаты Результаты исследований показывают, что VimoRAG существенно повышает качество генерации трехмерных моделей движения в сравнении с существующими моделями. Эксперименты проводились на большом объеме видеоданных, включая широкую палитру 2D моделей движения. Использование видео-подкрепленной модели позволило VimoRAG различать различные типы движения и позы в видео, что приводило к более точной и качественной генерации трехмерных моделей движения. Результаты показывают, что VimoRAG существенно повышает качество генерации движений, даже при ограниченном количестве данных для обучения. Это указывает на эффективность этого подхода в решении проблем, связанных с ограниченностью данных и ошибками во время генерации. ## Значимость Разработанная модель VimoRAG имеет большой потенциал в различных областях, таких как

Annotation:

This paper introduces VimoRAG, a novel video-based retrieval-augmented motion generation framework for motion large language models (LLMs). As motion LLMs face severe out-of-domain/out-of-vocabulary issues due to limited annotated data, VimoRAG leverages large-scale in-the-wild video databases to enhance 3D motion generation by retrieving relevant 2D human motion signals. While video-based motion RAG is nontrivial, we address two key bottlenecks: (1) developing an effective motion-centered video...

ID: 2508.12081v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Automated Model Evaluation for Object Detection via Prediction Consistency and Reliablity

2025-08-19

Авторы:

Seungju Yoo, Hyuk Kwon, Joong-Won Hwang, Kibok Lee

## Контекст Объектное распознавание является ключевым заданием в области компьютерного зрения, и его эффективная оценка является ключевым фактором для продвижения технологий. Традиционно, оценка моделей обнаружения объектов требует значительных ресурсов для подготовки тренировочных данных и проведения экспериментов. Одним из основных вызовов является то, что при обучении и оценке моделей требуется подробное трудоемкое и дорогостоящее ручное аннотирование, что затрудняет широкое применение моделей в реальных условиях. Для решения этой проблемы авторы предлагают метод, который позволяет оценивать модели обнаружения объектов автоматически, сокращая трудозатраты и улучшая удобство использования. ## Метод Авторы предлагают фреймворк AutoEval, основанный на методе Prediction Consistency and Reliability (PCR). Такой подход использует неопределенность, которая встречается при использовании нескольких кандидатов на боксы, предлагаемых моделями перед применением NMS (Non-Maximum Suppression). PCR оценивает модели на основе двух важных аспектов: 1) пространственной консистентности между боксами до и после применения NMS и 2) надежности полученных результатов, определяемой на основе отношения доверия к полученным боксам. Этот подход позволяет оценивать модель обнаружения объектов без необходимости иметь доступ к истинным меткам. Метод также использует мета-датасет, построенный на основе изображений с различными уровнями помех и деструктивных эффектов, для более реалистичной и скептической оценки. ## Результаты Для оценки эффективности метода были проведены эксперименты, в которых использовались различные модели обнаружения объектов и мета-датасет с изображениями, подвергнутыми различным уровням помех. Результаты показали, что PCR дает более точные оценки производительности, чем традиционные методы. Также была проверена возможность PCR для оценки моделей в условиях реальных помех, где данный подход продемонстрировал высокую точность и надежность. ## Значимость Метод PCR и AutoEval-фреймворк имеют широкое применение в области компьютерного зрения, особенно в ситуациях, когда доступ к трудоемкому ручному аннотированию ограничен. Он позволяет эффективно оценивать модели в различных условиях, в том числе при определенных помехах и изменениях в изображениях. Это делает метод более реалистичным и удобным в использовании, чем традиционные оценки, которые требуют ручного вмешательства. ## Выводы Разработанный метод PCR устанавливает новые стандарты для автоматизированной оценки моделей обнаружения объектов. Он демонстрирует более точную и надежную оценку производительности моделей в сравнении с традиционны

Annotation:

Recent advances in computer vision have made training object detectors more efficient and effective; however, assessing their performance in real-world applications still relies on costly manual annotation. To address this limitation, we develop an automated model evaluation (AutoEval) framework for object detection. We propose Prediction Consistency and Reliability (PCR), which leverages the multiple candidate bounding boxes that conventional detectors generate before non-maximum suppression (N...

ID: 2508.12082v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Generic Event Boundary Detection via Denoising Diffusion

2025-08-19

Авторы:

Jaejun Hwang, Dayoung Gong, Manjin Kim, Minsu Cho

#### Контекст Генерическая детекция разделов событий (Generic Event Boundary Detection, GEBD) — это процесс анализа видео и разделения его на логические, смысловые части. Эта задача находит применение в машинном видении, редактировании видео и анализе видеоконтента. Однако существующие подходы стремятся к детерминированным результатам, не учитывая разнообразие возможных разделов, которое может существовать в зависимости от контекста и предпочтений пользователя. Это ограничение может привести к неполной интерпретации видеоконтента. Наша мотивация заключается в развитии гибкого подхода, который учитывает это разнообразие, обеспечивая как точность, так и широту возможных решений. #### Метод Мы предлагаем DiffGEBD, прогностическую модель на основе диффузионного подхода для детекции генерических разделов событий. Модель строится на основе модели Денойсинг Диффузион (Denoising Diffusion), которая использует шум для создания различных вариантов разделов событий. Решающая функция использует темпоральную самосходство (Temporal Self-Similarity) для характеризации изменений в адаптивной структуре областей видео. Мы также вводим классификатор-бесплатную подстройку (classifier-free guidance), которая позволяет регулировать степень разнообразия в генерируемых результатах. Эта структура позволяет модели охватить широкий спектр возможных разделов событий, учитывая их субъективность и градацию. #### Результаты Мы провели эксперименты на двух стандартных бенчмарках GEBD: Kinetics-GEBD и TAPOS. Модель DiffGEBD показала высокую точность в детекции разделов событий, изменяя различные режимы разделения в зависимости от установленных параметров. Мы также вводим новую метрику, которая оценивает качество прогнозов, с учетом как точности, так и разнообразия в генерируемых разделах. Эксперименты подтвердили, что модель DiffGEBD превосходит существующие подходы как по качеству, так и по гибкости решения. #### Значимость Модель DiffGEBD может быть применена в различных областях, таких как редактирование видео, анализ видеоконтента, автоматизация видеомонтажа и робототехника. Она предоставляет гибкий и точный способ детектировать границы событий, который может быть адаптирован к разным нуждам пользователей. Основное преимущество заключается в том, что она не только точно определяет разделы событий, но и учитывает их разнообразие, что делает ее уникальной в своем классе. Мы видим потенциал для повышения эффективности в приложениях, где необходимо учитывать разного рода разделы в видеоконтенте. #### Выводы Мы представили DiffGEBD, новый подход к генерической детекции разделов событий, основан

Annotation:

Generic event boundary detection (GEBD) aims to identify natural boundaries in a video, segmenting it into distinct and meaningful chunks. Despite the inherent subjectivity of event boundaries, previous methods have focused on deterministic predictions, overlooking the diversity of plausible solutions. In this paper, we introduce a novel diffusion-based boundary detection model, dubbed DiffGEBD, that tackles the problem of GEBD from a generative perspective. The proposed model encodes relevant c...

ID: 2508.12084v1 cs.CV, cs.AI

arXiv PDF

1
2
202
203
204
205
206
227
228

Показано 2031 - 2040 из 2274 записей