📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Canonical Space Representation for 4D Panoptic Segmentation of Articulated Objects

2025-11-11

Авторы:

Manuel Gomes, Bogdan Raducanu, Miguel Oliveira

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Articulated object perception presents significant challenges in computer vision, particularly because most existing methods ignore temporal dynamics despite the inherently dynamic nature of such objects. The use of 4D temporal data has not been thoroughly explored in articulated object perception and remains unexamined for panoptic segmentation. The lack of a benchmark dataset further hurt this field. To this end, we introduce Artic4D as a new dataset derived from PartNet Mobility and augmented...

ID: 2511.05356v1 cs.CV, I.2.10; I.4.6; I.5.1; I.5.4

arXiv PDF

📄 Dense Motion Captioning

2025-11-11

Авторы:

Shiyao Xu, Benedetta Liberatori, Gül Varol, Paolo Rota

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in 3D human motion and language integration have primarily focused on text-to-motion generation, leaving the task of motion understanding relatively unexplored. We introduce Dense Motion Captioning, a novel task that aims to temporally localize and caption actions within 3D human motion sequences. Current datasets fall short in providing detailed temporal annotations and predominantly consist of short sequences featuring few actions. To overcome these limitations, we present the ...

ID: 2511.05369v1 cs.CV, I.2.10; I.4.8; I.5.4

arXiv PDF

📄 Web-Scale Collection of Video Data for 4D Animal Reconstruction

2025-11-07

Авторы:

Brian Nlong Zhao, Jiajun Wu, Shangzhe Wu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer vision for animals holds great promise for wildlife research but often depends on large-scale data, while existing collection methods rely on controlled capture setups. Recent data-driven approaches show the potential of single-view, non-invasive analysis, yet current animal video datasets are limited--offering as few as 2.4K 15-frame clips and lacking key processing for animal-centric 3D/4D tasks. We introduce an automated pipeline that mines YouTube videos and processes them into obje...

ID: 2511.01169v1 cs.CV, I.2.10; I.4.5

arXiv PDF

📄 Domain-Adaptive Transformer for Data-Efficient Glioma Segmentation in Sub-Saharan MRI

2025-11-07

Авторы:

Ilerioluwakiiye Abolade, Aniekan Udo, Augustine Ojo, Abdulbasit Oyetunji, Hammed Ajigbotosho, Aondana Iorumbur, Confidence Raymond, Maruf Adewole

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Glioma segmentation is critical for diagnosis and treatment planning, yet remains challenging in Sub-Saharan Africa due to limited MRI infrastructure and heterogeneous acquisition protocols that induce severe domain shift. We propose SegFormer3D-plus, a radiomics-guided transformer architecture designed for robust segmentation under domain variability. Our method combines: (1) histogram matching for intensity harmonization across scanners, (2) radiomic feature extraction with PCA-reduced k-means...

ID: 2511.02928v1 eess.IV, cs.CV, I.2.10; I.4.8; J.3

arXiv PDF

📄 Exposing Blindspots: Cultural Bias Evaluation in Generative Image Models

2025-10-25

Авторы:

Huichan Seo, Sieun Choi, Minki Hong, Yi Zhou, Junseo Kim, Lukman Ismaila, Naome Etori, Mehul Agarwal, Zhixuan Liu, Jihie Kim, Jean Oh

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Generative image models produce striking visuals yet often misrepresent culture. Prior work has examined cultural bias mainly in text-to-image (T2I) systems, leaving image-to-image (I2I) editors underexplored. We bridge this gap with a unified evaluation across six countries, an 8-category/36-subcategory schema, and era-aware prompts, auditing both T2I generation and I2I editing under a standardized protocol that yields comparable diagnostics. Using open models with fixed settings, we derive cro...

ID: 2510.20042v1 cs.CV, I.2.10; I.2.6; I.4.9

arXiv PDF

📄 Kinaema: a recurrent sequence model for memory and pose in motion

2025-10-25

Авторы:

Mert Bulent Sariyildiz, Philippe Weinzaepfel, Guillaume Bono, Gianluca Monaci, Christian Wolf

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

One key aspect of spatially aware robots is the ability to "find their bearings", ie. to correctly situate themselves in previously seen spaces. In this work, we focus on this particular scenario of continuous robotics operations, where information observed before an actual episode start is exploited to optimize efficiency. We introduce a new model, Kinaema, and agent, capable of integrating a stream of visual observations while moving in a potentially large scene, and upon request, processing a...

ID: 2510.20261v1 cs.RO, cs.CV, I.2.10

arXiv PDF

📄 Towards a Generalizable Fusion Architecture for Multimodal Object Detection

2025-10-22

Авторы:

Jad Berjawi, Yoann Dupas, Christophe C'erin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Multimodal object detection improves robustness in chal- lenging conditions by leveraging complementary cues from multiple sensor modalities. We introduce Filtered Multi- Modal Cross Attention Fusion (FMCAF), a preprocess- ing architecture designed to enhance the fusion of RGB and infrared (IR) inputs. FMCAF combines a frequency- domain filtering block (Freq-Filter) to suppress redun- dant spectral features with a cross-attention-based fusion module (MCAF) to improve intermodal feature sharing. ...

ID: 2510.17078v1 cs.CV, I.2.10; I.4.8

arXiv PDF

📄 ERNet: Efficient Non-Rigid Registration Network for Point Sequences

2025-10-21

Авторы:

Guangzhao He, Yuxi Xiao, Zhen Xu, Xiaowei Zhou, Sida Peng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Registering an object shape to a sequence of point clouds undergoing non-rigid deformation is a long-standing challenge. The key difficulties stem from two factors: (i) the presence of local minima due to the non-convexity of registration objectives, especially under noisy or partial inputs, which hinders accurate and robust deformation estimation, and (ii) error accumulation over long sequences, leading to tracking failures. To address these challenges, we introduce to adopt a scalable data-dri...

ID: 2510.15800v1 cs.CV, I.2.10

arXiv PDF

📄 CCD: Mitigating Hallucinations in Radiology MLLMs via Clinical Contrastive Decoding

2025-10-01

Авторы:

Xi Zhang, Zaiqiao Meng, Jake Lever, Edmond S. L. Ho

#### Контекст В последнее время multimodal large language models (MLLMs) показали существенные успехи в области радиологии, объединяя в себе визуальные исследования и естественный языковой понимание. Тем не менее, эти модели часто генерируют клинически неподтвержденные описания, известные как "медицинские халлуцинации" (medical hallucinations). Эти неточности могут иметь серьезные последствия в сфере медицины, где точность и гранулярность вывода ключевые. Несмотря на развитие методов, таких как модификация процесса обучения или использование контекстно-зависимых моделей, эти проблемы остаются актуальными. Этот аспект мотивирует разработку новых подходов, которые могут обеспечить более устойчивый и точный генеративный процесс. #### Метод Мы предлагаем Clinical Contrastive Decoding (CCD), методику, основанную на двух этапах различия (contrastive mechanism). Эта методика интегрирует структурированные клинические сигналы, полученные от задач-специфических моделей радиологии, в текстовую генерацию MLLMs. CCD не требует дополнительного обучения или вычислительных ресурсов, а сводится к изменению токен-уровня логитов в процессе генерации. Основной идеей является укрепление клинической точности, структурировав выходные данные отдельными этапами: множественному учету соответствия структурной информации (clustering) и последовательному фильтрованию по клинической семантике. Этот подход легко модифицируется для работы с различными моделями и ситуациями. #### Результаты Мы провести эксперименты на трех различных датасетах, включая MIMIC-CXR, Open-I и CheXpert. Мы использовали несколько моделей, включая state-of-the-art RRG (radiology report generation) модели. Результаты показали, что CCD постоянно улучшает общую эффективность моделей на задаче RRG. Например, на MIMIC-CXR, CCD повысил RadGraph-F1 до 17% при использовании самых современных моделей. Эти результаты подтверждают то, что CCD эффективно устраняет медицинские халлуцинации без изменения основных MLLM. #### Значимость Предлагаемый подход имеет расширенные области применения, включая радиологию, эндокринологию и другие сферы медицины, где необходима точность генерируемой информации. Он предлагает легкий в использовании, общедоступный и эффективный подход для уменьшения медицинских халлуцинаций. Благодаря повышению точности и релевантности в выводах, CCD может улучшить безопасность и эффективность медицинских приложений, которые полагаются на информацию, полученную с помощью MLLMs. #### Выводы CCD представляет собой новый подход к устранению медицинских халлуцинаций в радиологии MLLMs. Он продемонстрировал высокую эфф

Annotation:

Multimodal large language models (MLLMs) have recently achieved remarkable progress in radiology by integrating visual perception with natural language understanding. However, they often generate clinically unsupported descriptions, known as medical hallucinations, which pose serious risks in medical applications that demand accuracy and image-grounded outputs. Through empirical analysis, we find that prompt-induced hallucinations remain prevalent in radiology MLLMs, largely due to over-sensitiv...

ID: 2509.23379v1 cs.CL, cs.AI, cs.CV, I.2.10; J.3; I.5.4

arXiv PDF

📄 Decoding the Surgical Scene: A Scoping Review of Scene Graphs in Surgery

2025-09-27

Авторы:

Angelo Henriques, Korab Hoxha, Daniel Zapp, Peter C. Issa, Nassir Navab, M. Ali Nasseri

## Контекст Оперативная среда представляет собой сложную динамическую систему, требующую точного анализа и понимания для поддержки безопасности и эффективности в медицинской практике. Одним из ключевых инструментов для понимания таких окружений являются **Scene Graphs (SGs)** — структурированные сети, описывающие отношения между объектами в среде. SGs уже применяются в многих областях, включая распознавание образов, анализ текста и синтез речи. Однако в медицинской сфере, особенно в хирургии, их потенциал остается недостаточно исследованным. Несмотря на растущий интерес к использованию SGs в ситуациях, требующих мониторинга, анализа и управления хирургическим процессом, текущие исследования сильно разрознены, что создает сложности в оценке их реального вклада в улучшение медицинских технологий. ## Метод Для оценки вклада SGs в хирургические приложения использовалась методология разработанная в соответствии с PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses extension for Scoping Reviews). Исследование включило поиск, оценку и систематическую картирование данных из различных источников. Основное внимание было уделено сравнению технологий и методов, используемых для построения и применения SGs в различных сценариях. Рассматривались два основных направления: внутренний (2D-видео) и внешний (4D-моделирование) взгляд на оперативную среду. Также, были проанализированы технические решения, методы обучения и архитектуры, используемые в современных SGs. ## Результаты Исследование выявило значительный рост в новых решениях, которые используют SGs в хирургии. Особенно заметны развития в области **графовых нейронных сетей (GNN)** и более специализированных **основных моделей**, которые превосходят широко используемые общие модели зрения и языка. Данные были получены из ограниченного, но качественного набора работ, включающих триплетное распознавание, синтез сценариев и моделирование внешних обзорных данных. Однако обнаружилось, что существует критическая разница в использовании данных: внутренние сцены часто основываются на реальных 2D-видео, в то время как внешние сцены — на симуляционных данных. Это создает трансляционную проблему, ограничивающую передачу решений из лабораторных условий в практическое применение. ## Значимость SGs не только улучшают работу систем мониторинга и анализа в хирургии но и открывают новые перспективы для **контролируемого моделирования и симуляции**. Они могут использоваться для развития безопасных и эффективных систем для обучения и мониторинга хирургических процессов. Эти технологии мог

Annotation:

Scene graphs (SGs) provide structured relational representations crucial for decoding complex, dynamic surgical environments. This PRISMA-ScR-guided scoping review systematically maps the evolving landscape of SG research in surgery, charting its applications, methodological advancements, and future directions. Our analysis reveals rapid growth, yet uncovers a critical 'data divide': internal-view research (e.g., triplet recognition) almost exclusively uses real-world 2D video, while external-vi...

ID: 2509.20941v1 cs.CV, I.2.10; I.4.8; J.3

arXiv PDF

Показано 1 - 10 из 20 записей