📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Can Large Multimodal Models Actively Recognize Faulty Inputs? A Systematic Evaluation Framework of Their Input Scrutiny Ability

2025-08-09

Авторы:

Haiqi Yang, Jinzhe Li, Gengxu Li, Yi Chang, Yuan Wu

**Резюме** Large Multimodal Models (LMMs) показали возможности работы с высокосложной мультимодальной информацией, однако сталкиваются с проблемой активного определения дефективных входных данных. Это приводит к бессмысленной рассуждаемости на основе неверных промптов. Для заполнения этого пробела авторы предлагают Input Scrutiny Ability Evaluation Framework (ISEval), содержащий семь категорий ошибочных предположений и три метрики валидации. Исследования включали 10 LMM-моделей и показали, что большинство не успешно выявляют логические несоответствия без явной подсказки. Модели более эффективны в определении логических недочетов, но страдают от нарушений семантической грамматики и условий. Также отмечены различия в модальной надежности моделей. Результаты указывают на необходимость развития LMMs для автоматической валидации входных данных и становятся важным шагом к улучшению их надежности и точности.

Annotation:

Large Multimodal Models (LMMs) have witnessed remarkable growth, showcasing formidable capabilities in handling intricate multimodal tasks with exceptional performance. Recent research has underscored the inclination of large language models to passively accept defective inputs, often resulting in futile reasoning on invalid prompts. However, the same critical question of whether LMMs can actively detect and scrutinize erroneous inputs still remains unexplored. To address this gap, we introduce ...

ID: 2508.04017v1 cs.CV

arXiv PDF

📄 Prototype-Driven Structure Synergy Network for Remote Sensing Images Segmentation

2025-08-09

Авторы:

Junyi Wang, Jinjiang Li, Guodong Fan, Yakun Ju, Xiang Fang, Alex C. Kot

Одной из основных задач в семантической сегментации изображений дистанционного зондирования земли является получение точных и полных результатов, что затрудняется двумя главными проблемами: высокой внутриклассовой вариативностью и высокой межклассовой схожестью. Традиционные методы часто приводят к неполной сегментации из-за неэффективного объединения классовых представлений и неудачного различения похожих фич. Даже алгоритмы, ориентирующиеся на классы, страдают от грубых классовых прототипов и невнимательности к структурной информации. Для решения этих проблем предложен алгоритм Prototype-Driven Structure Synergy Network (PDSSNet). Он основывается на принципе, что полный объект определяется как сочетание неизменных классовых признаков и переменной пространственной структуры. Алгоритм включает три модуля: Adaptive Prototype Extraction Module (APEM) для получения точных классовых прототипов, Semantic-Structure Coordination Module (SSCM) для синхронизации семантики и структуры, и Channel Similarity Adjustment Module (CSAM) для усиления дискриминативности фич. Эксперименты показали, что PDSSNet превосходит современные методы, демонстрируя высокую точность и полноту сегментации. Исходный код доступен по ссылке.

Annotation:

In the semantic segmentation of remote sensing images, acquiring complete ground objects is critical for achieving precise analysis. However, this task is severely hindered by two major challenges: high intra-class variance and high inter-class similarity. Traditional methods often yield incomplete segmentation results due to their inability to effectively unify class representations and distinguish between similar features. Even emerging class-guided approaches are limited by coarse class proto...

ID: 2508.04022v1 cs.CV, cs.IR

arXiv PDF

📄 Dual Prompt Learning for Adapting Vision-Language Models to Downstream Image-Text Retrieval

2025-08-09

Авторы:

Yifan Wang, Tao Wang, Chenwei Tang, Caiyang Yu, Zhengqing Zang, Mengmi Zhang, Shudong Huang, Jiancheng Lv

Данная работа адресует проблему применения динамического обучения с помощью предложений (prompt learning) для адаптации визуально-языковых моделей (Vision-Language Models, VLMs) к задаче изображение-текст поиска (image-text retrieval, ITR). Ранее продемонстрированная эффективность prompt learning в изображении-классификации оказывается менее устойчивой для задач ITR из-за сложности отличительного описания тонких атрибутов и подкатегорий в потоке данных. Чтобы устранить эту проблему, предложено дополнительное решение Dual Prompt Learning with Joint Category-Attribute Reweighting (DCAR), которое включает двухуровневую параметризацию. Оно позволяет многообразию классов и атрибутов на уровне точного совпадения для изображений и текстов. Технология изучает признаки категорий и атрибутов в рамках двух промптов, динамически адаптируя веса в зависимости от корреляции текста и изображения, что позволяет улучшить точность и яркость представления. Эксперименты на созданной Fine-class Described Retrieval Dataset (FDRD) показали, что DCAR превосходит существующие базовые системы, устанавливая новый состояние ведущей модели в такой области интеллектуальных технологий.

Annotation:

Recently, prompt learning has demonstrated remarkable success in adapting pre-trained Vision-Language Models (VLMs) to various downstream tasks such as image classification. However, its application to the downstream Image-Text Retrieval (ITR) task is more challenging. We find that the challenge lies in discriminating both fine-grained attributes and similar subcategories of the downstream data. To address this challenge, we propose Dual prompt Learning with Joint Category-Attribute Reweighting ...

ID: 2508.04028v1 cs.CV, cs.IR

arXiv PDF

📄 Radar-Based NLoS Pedestrian Localization for Darting-Out Scenarios Near Parked Vehicles with Camera-Assisted Point Cloud Interpretation

2025-08-09

Авторы:

Hee-Yeun Kim, Byeonggyu Park, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seung-Woo Seo, Seong-Woo Kim

**Резюме** Проблема невидимых (NLoS) областей возле паркованных автомобилей в урбанизированных пространствах характеризуется возможностью непредвиденного появления пешеходов, что увеличивает риск дорожно-транспортных происшествий. Мм-волновая технология позволяет обнаруживать объекты за труднодоступными преградами, но существующие подходы ограничиваются простыми моделями отражений или предварительно сформированными спатехическими моделями. Эти ограничения становятся особенно острыми при неожиданном появлении пешеходов из-за парковок. Мы предлагаем фреймворк, объединяющий 2D-радарную точечную сетку (PCD) с монокурсорной камерой для обнаружения и локализации пешеходов в NLoS-областях. Метод вначале использует изображение для распознавания парковок, далее оценивает глубину для приближенной интерпретации пространства и, наконец, использует радар-данные для точного расположения пешеходов. Эксперименты в реальных условиях показали, что этот подход улучшает раннее обнаружение пешеходов и помогает повысить дорожно-транспортную безопасность.

Annotation:

The presence of Non-Line-of-Sight (NLoS) blind spots resulting from roadside parking in urban environments poses a significant challenge to road safety, particularly due to the sudden emergence of pedestrians. mmWave technology leverages diffraction and reflection to observe NLoS regions, and recent studies have demonstrated its potential for detecting obscured objects. However, existing approaches predominantly rely on predefined spatial information or assume simple wall reflections, thereby li...

ID: 2508.04033v1 cs.CV, eess.SP

arXiv PDF

📄 ZARA: Zero-shot Motion Time-Series Analysis via Knowledge and Retrieval Driven LLM Agents

2025-08-09

Авторы:

Zechen Li, Baiyu Chen, Hao Xue, Flora D. Salim

Отсутствие гибкости и интерпретируемости в существующих методах распознавания человеческих действий (HAR) чревато дорогостоящим переуправлением, когда внедряются новые действия или сенсорные устройства. Мы предлагаем ZARA — первый рамфрейм для нулевого-шота (zero-shot), способный распознавать действия напрямую из данных подвижности временных рядов, основываясь на автоматически создаваемой базе знаний о парах атрибутов и модуле навигации ресурсов. ZARA объединяет агентную систему, использующую технологии генеративных моделей языка (LLM), для решения задач HAR с помощью выбираемых функций и подробных выводов, обоснованных сенсорными данными. Мы проверили ZARA на 8 бенчмарках HAR и показали, что он делает более точные выводы с лучшим макро-F1-метрикой по сравнению со стандартными методами. Наши результаты подтверждают, что ZARA может стать промежуточным шагом к созданию доверительных, без вмешательства методов для анализа подвижности. Результаты доступны на GitHub.

Annotation:

Motion sensor time-series are central to human activity recognition (HAR), with applications in health, sports, and smart devices. However, existing methods are trained for fixed activity sets and require costly retraining when new behaviours or sensor setups appear. Recent attempts to use large language models (LLMs) for HAR, typically by converting signals into text or images, suffer from limited accuracy and lack verifiable interpretability. We propose ZARA, the first agent-based framework fo...

ID: 2508.04038v1 cs.CL, cs.CV

arXiv PDF

📄 SPJFNet: Self-Mining Prior-Guided Joint Frequency Enhancement for Ultra-Efficient Dark Image Restoration

2025-08-09

Авторы:

Tongshun Zhang, Pingling Liu, Zijian Zhang, Qiuzhan Zhou

Текущие методы восстановления тёмных изображений сталкиваются с серьёзными проблемами эффективности, в основном из-за зависимости от внешних признаков (ручных или междоменных), ненужных операций в многоэтапных пайплайнах и неэффективного обработки частотных компонент в методах частотного домена. Мы предлагаем архитектуру SPJFNet, которая адресует эти проблемы. Решение основывается на инновационном Self-Mining Guidance Module (SMGM), которое генерирует лайтвейтные признаки изнутри сети, избавляя от зависимости от внешних признаков и уменьшая ошибки. Также, мы предлагаем новую схему Dual-Frequency Guidance Framework (DFGF), разделяющую частотные компоненты на две специализированные подсистемы (волновой домен для высоких частот и Фурье-домен для низких), что существенно сокращает комплексность. Эксперименты показали, что SPJFNet не только превосходит состояние техники по эффективности, но и демонстрирует высокую точность восстановления изображений.

Annotation:

Current dark image restoration methods suffer from severe efficiency bottlenecks, primarily stemming from: (1) computational burden and error correction costs associated with reliance on external priors (manual or cross-modal); (2) redundant operations in complex multi-stage enhancement pipelines; and (3) indiscriminate processing across frequency components in frequency-domain methods, leading to excessive global computational demands. To address these challenges, we propose an Efficient Self-M...

ID: 2508.04041v1 cs.CV

arXiv PDF

📄 VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning

2025-08-09

Авторы:

Yuheng Ji, Yipu Wang, Yuyang Liu, Xiaoshuai Hao, Yue Liu, Yuting Zhao, Huaihai Lyu, Xiaolong Zheng

**Резюме** В статье представлена первая комплексная бенчмарк-среда VisualTrans для реалистичного визуального логического рассуждения (Visual Transformation Reasoning, VTR) в сценариях интеракции с объектами. Несмотря на развитие VTR, существующие бенчмарки страдают от проблем симуляции, ограниченного сложности задач и неполного покрытия логических аспектов. VisualTrans предлагает 12 поseмантически разных заданий, которые оценивают три ключевые части причинения — пространственные, процедурные и количественные — через 6 подзадач. Он включает 472 вопроса-ответа различных форматов (множественный выбор, открытый ответ, счет и т.д.), построенные на основе первого лица видеоманипуляций. Бенчмарк также предлагает автоматическую метаданную и структурированное сгенерированное вопросно-ответное описание. Эксперименты показали, что новый бенчмарк выявляет слабые места в системах VTR, особенно в динамических задачах и последовательности логических действий. Это выделяет важность развития моделей с более сильным пониманием пространства и времени, а также систематической оценки проблемы в развитии VTR. Данные и код доступны по ссылке.

Annotation:

Visual transformation reasoning (VTR) is a vital cognitive capability that empowers intelligent agents to understand dynamic scenes, model causal relationships, and predict future states, and thereby guiding actions and laying the foundation for advanced intelligent systems. However, existing benchmarks suffer from a sim-to-real gap, limited task complexity, and incomplete reasoning coverage, limiting their practical use in real-world scenarios. To address these limitations, we introduce VisualT...

ID: 2508.04043v1 cs.CV

arXiv PDF

📄 Iterative pseudo-labeling based adaptive copy-paste supervision for semi-supervised tumor segmentation

2025-08-09

Авторы:

Qiangguo Jin, Hui Cui, Junbo Wang, Changming Sun, Yimiao He, Ping Xuan, Linlin Wang, Cong Cong, Leyi Wei, Ran Su

**Резюме** Обработка медицинских изображений чрезвычайно важна для диагностики и лечения, но обучение моделей классификации и сегментации часто требует больших объемов маркированных данных, которые могут быть трудно доступны. Semi-supervised learning (SSL) позволяет использовать как метки, так и немаркированные данные, но большинство методов SSL ориентированы на большие органы и не эффективны при работе с малыми или многочисленными тканными патологиями, такими как рак. Мы предлагаем **Iterative Pseudo-labeling based Adaptive Copy-Paste Supervision (IPA-CP)**, новую SSL-методику для сегментации тканевых повреждений в CT-сканах. Метод основывается на итеративной перезагрузке псевдометок и адаптивной данных модификации, что позволяет улучшить информативность псевдометок и учитывать неуверенность в данных. Наши эксперименты показали, что IPA-CP превосходит существующие SSL-методы в сегментации ткани, демонстрируя его эффективность в обработке сложных зрения в медицинских изображениях.

Annotation:

Semi-supervised learning (SSL) has attracted considerable attention in medical image processing. The latest SSL methods use a combination of consistency regularization and pseudo-labeling to achieve remarkable success. However, most existing SSL studies focus on segmenting large organs, neglecting the challenging scenarios where there are numerous tumors or tumors of small volume. Furthermore, the extensive capabilities of data augmentation strategies, particularly in the context of both labeled...

ID: 2508.04044v1 cs.CV

arXiv PDF

📄 Motion is the Choreographer: Learning Latent Pose Dynamics for Seamless Sign Language Generation

2025-08-09

Авторы:

Jiayi He, Xu Wang, Shengeng Tang, Yaxiong Wang, Lechao Cheng, Dan Guo

Для генерации сигнальных языков необходимо создавать реалистичные движения с точным семантическим контролем, что приводит к двум основным проблемам: требование большого объема идентификационных данных для каждого знакомого и ограниченная гибкость в работе с новыми. Для решения этой задачи предлагается новый подход, основанный на двухфазной синтезабельной модели. В первой фазе формируется мультимодальный двигательный лексикон, где каждая "словесная часть" запоминается в виде идентификационно-независимых траекторий пикселей, жестов и 3D-изображений, требуя только одной записи на знак. Во второй фазе эти лексиконы превращаются в поток движения с помощью непрерывной синтеза, а затем визуализируются в реалистичных видеоклипах, подходящих для любого знакомого с помощью личностно-сознательного рендеринга. Этот подход выделяет движение как центральную задачу, создавая модульный "постановочный лайтер", который можно переносить между различными лицами. Испытания показали, что этот подход не только улучшает качество синтеза, но и позволяет достичь более широкого уровня гибкости в области персонализации.

Annotation:

Sign language video generation requires producing natural signing motions with realistic appearances under precise semantic control, yet faces two critical challenges: excessive signer-specific data requirements and poor generalization. We propose a new paradigm for sign language video generation that decouples motion semantics from signer identity through a two-phase synthesis framework. First, we construct a signer-independent multimodal motion lexicon, where each gloss is stored as identity-a...

ID: 2508.04049v1 cs.CV

arXiv PDF

📄 DOMR: Establishing Cross-View Segmentation via Dense Object Matching

2025-08-09

Авторы:

Jitong Liao, Yulu Gao, Shaofei Huang, Jialin Gao, Jie Lei, Ronghua Liang, Si Liu

**Резюме** Cross-view object correspondence, то есть сопоставление объектов между egocentric (первого лица) и exocentric (третьего лица) видами, является ключевым, но сложным задачей в области визуального понимания. В статье предлагается DOMR-фреймворк (Dense Object Matching and Refinement) для установления плотных соответствий объектов между двумя видами. Фреймворк основывается на Dense Object Matcher (DOM)-модуле, который моделирует данные о нескольких объектах, учитывая их позиционные и семантические отношения. DOM объединяет модуль генерации предложений и модуль плотного сопоставления, которые вместе включают визуальные, пространственные и семантические признаки для построения отношений между объектами. Для повышения точности и полноты предсказаний используется модуль рефинема на уровне масок. На Ego-Exo4D-бенчмарке DOMR показал лучшие результаты: 49.7% мен на Ego$\to$Exo и 55.2% на Exo$\to$Ego, что значительно превосходит предыдущие методы. Это подтверждает эффективность интегрированного подхода DOMR в задаче cross-view understanding.

Annotation:

Cross-view object correspondence involves matching objects between egocentric (first-person) and exocentric (third-person) views. It is a critical yet challenging task for visual understanding. In this work, we propose the Dense Object Matching and Refinement (DOMR) framework to establish dense object correspondences across views. The framework centers around the Dense Object Matcher (DOM) module, which jointly models multiple objects. Unlike methods that directly match individual object masks t...

ID: 2508.04050v1 cs.CV

arXiv PDF

1
2
1131
1132
1133
1134
1135
1161
1162

Показано 11321 - 11330 из 11614 записей