📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Multi-modal Loop Closure Detection with Foundation Models in Severely Unstructured Environments

2025-11-11

Авторы:

Laura Alejandra Encinar Gonzalez, John Folkesson, Rudolph Triebel, Riccardo Giubilato

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Robust loop closure detection is a critical component of Simultaneous Localization and Mapping (SLAM) algorithms in GNSS-denied environments, such as in the context of planetary exploration. In these settings, visual place recognition often fails due to aliasing and weak textures, while LiDAR-based methods suffer from sparsity and ambiguity. This paper presents MPRF, a multimodal pipeline that leverages transformer-based foundation models for both vision and LiDAR modalities to achieve robust lo...

ID: 2511.05404v1 cs.CV, cs.AI, I.2.9; I.2.10

arXiv PDF

📄 CoMViT: An Efficient Vision Backbone for Supervised Classification in Medical Imaging

2025-11-04

Авторы:

Aon Safdar, Mohamed Saadeldin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Vision Transformers (ViTs) have demonstrated strong potential in medical imaging; however, their high computational demands and tendency to overfit on small datasets limit their applicability in real-world clinical scenarios. In this paper, we present CoMViT, a compact and generalizable Vision Transformer architecture optimized for resource-constrained medical image analysis. CoMViT integrates a convolutional tokenizer, diagonal masking, dynamic temperature scaling, and pooling-based sequence ag...

ID: 2510.27442v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 Human-Centric Anomaly Detection in Surveillance Videos Using YOLO-World and Spatio-Temporal Deep Learning

2025-10-29

Авторы:

Mohammad Ali Etemadi Naeen, Hoda Mohammadzade, Saeed Bagheri Shouraki

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Anomaly detection in surveillance videos remains a challenging task due to the diversity of abnormal events, class imbalance, and scene-dependent visual clutter. To address these issues, we propose a robust deep learning framework that integrates human-centric preprocessing with spatio-temporal modeling for multi-class anomaly classification. Our pipeline begins by applying YOLO-World - an open-vocabulary vision-language detector - to identify human instances in raw video clips, followed by Byte...

ID: 2510.22056v1 cs.CV, cs.AI, I.2.10; I.4.9; I.2.6

arXiv PDF

📄 Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views

2025-10-23

Авторы:

Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Though recent advances in vision-language models (VLMs) have achieved remarkable progress across a wide range of multimodal tasks, understanding 3D spatial relationships from limited views remains a significant challenge. Previous reasoning methods typically rely on pure text (e.g., topological cognitive maps) or on 2D visual cues. However, their limited representational capacity hinders performance in specific tasks that require 3D spatial imagination. To address this limitation, we propose 3DT...

ID: 2510.18632v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 DEXTER: Diffusion-Guided EXplanations with TExtual Reasoning for Vision Models

2025-10-18

Авторы:

Simone Carnemolla, Matteo Pennisi, Sarinda Samarasinghe, Giovanni Bellitto, Simone Palazzo, Daniela Giordano, Mubarak Shah, Concetto Spampinato

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Understanding and explaining the behavior of machine learning models is essential for building transparent and trustworthy AI systems. We introduce DEXTER, a data-free framework that employs diffusion models and large language models to generate global, textual explanations of visual classifiers. DEXTER operates by optimizing text prompts to synthesize class-conditional images that strongly activate a target classifier. These synthetic samples are then used to elicit detailed natural language re...

ID: 2510.14741v1 cs.CV, cs.AI, I.2.m

arXiv PDF

📄 Beyond Pixels: Efficient Dataset Distillation via Sparse Gaussian Representation

2025-10-02

Авторы:

Chenyang Jiang, Zhengcen Li, Hang Zhao, Qiben Shan, Shaocong Wu, Jingyong Su

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Dataset distillation has emerged as a promising paradigm that synthesizes compact, informative datasets capable of retaining the knowledge of large-scale counterparts, thereby addressing the substantial computational and storage burdens of modern model training. Conventional approaches typically rely on dense pixel-level representations, which introduce redundancy and are difficult to scale up. In this work, we propose GSDD, a novel and efficient sparse representation for dataset distillation ba...

ID: 2509.26219v1 cs.CV, cs.AI, I.2.0; I.4.2; I.4.10

arXiv PDF

📄 Detection and Simulation of Urban Heat Islands Using a Fine-Tuned Geospatial Foundation Model

2025-09-24

Авторы:

David Kreismann

## Контекст Urban heat islands (UHIs) — это явление, когда города становятся значительно теплее, чем окружающая сельскую местность, в результате теплогоклимата, городской строительной деятельности и теплоотвода. Этот эффект может усиливать риски для здоровья, энергопотребление и общую жизнеспособность города. Чтобы противостоять этим проблемам, необходимы точные данные о температуре воздуха и стратегии минимизации эффекта UHI. Однако традиционные методы, основанные на машинном обучении и ограниченных данных, часто неэффективны, особенно в урбанизированных регионах с недостаточным объемом информации. На основе этого, этот исследователь работает над геоспациальными фондациональными моделями, которые могут обеспечивать более точные прогнозы и требуют минимальной настройки. ## Метод Основной подход в этой работе заключается в окружении и изучении геоспациальных фондациональных моделей, которые обычно используются для обработки геоданных. Модель была оптимизирована с помощью тренировки на большом множестве глобальных геоданных, используя методы подвыборки и регуляризации. Для прогноза температур земли использовалось вспомогательное распределение температурных значений, а также данные земного покрова, чтобы улучшить точность и экстраполяцию. Эта модель также может обрабатывать и визуализировать локальные изменения в температуре в ответ на симуляции стратегий воздействия на уровне пикселей. ## Результаты Используя данные о террасах и земных покровах, модель достигла минимальных ошибок в 1.74 °C при прогнозе температур в урбанизированных районах. Была получена высокая точность и возможность экстраполяции, достигающая 3.62 °C по отношению к температурам в традиционных моделях. Эксперименты показали, что модель может успешно обрабатывать недостаточно доступные данные и сильно генерализируется, что делает ее пригодной для применения в различных климатических условиях. ## Значимость Результаты этой работы могут быть применены в области планирования городов, энергетики и земельного управления. Модель предоставляет новый подход к прогнозированию температур, предоставляя точные данные для стратегий по борьбе с UHI. Благодаря её общей пригодности и настраиваемости, она может использоваться для моделирования эффектов на локальном уровне и даже в масштабе целых регионов. Это может привести к более эффективным мероприятиям по снижению теплового эффекта в городах. ## Выводы В заключение, оптимизированная геоспациальная модель стала маркером в прогнозировании температур в

Annotation:

As urbanization and climate change progress, urban heat island effects are becoming more frequent and severe. To formulate effective mitigation plans, cities require detailed air temperature data. However, predictive analytics methods based on conventional machine learning models and limited data infrastructure often provide inaccurate predictions, especially in underserved areas. In this context, geospatial foundation models trained on unstructured global data demonstrate strong generalization ...

ID: 2509.16617v1 cs.CV, cs.AI, I.2.6; I.5.4; I.6.8

arXiv PDF

📄 Skeleton-based sign language recognition using a dual-stream spatio-temporal dynamic graph convolutional network

2025-09-11

Авторы:

Liangjin Liu, Haoyang Zheng, Pei Zhou

#### Контекст Изолированное распознавание жестов жестовой речи (Isolated Sign Language Recognition, ISLR) сталкивается с тем, что многие жесты, несмотря на схожую морфологию, означают разные понятия. Эта проблема возникает из-за сложного взаимодействия между формой руки и траекторией движения. Существующие методы, часто основывающиеся на одной специфической системе координат, сталкиваются с трудностями при разрешении геометрической неоднозначности таких ситуаций. Данная работа предлагает DSLNet — двойной специализированный открытый архитектурный подход, который позволяет лучше разделить и моделировать различные аспекты жестов, включая морфологическую структуру и траекторию движения. #### Метод Основная идея DSLNet заключается в использовании двойной системы координат — ориентированных относительно локтевой или лицевой точки — для детального анализа жестов. Локтевая система координат используется для точного распознавания рукоположения, а лицевая — для моделирования траектории движения. Для каждой системы координат разработаны специализированные сети: топологическая сеть для анализа рукоположения и Finsler-геометрическая сеть для моделирования траектории. Эти две сети объединяются через механизм геометрического порядка, основанного на принципах оптимального транспорта. Это позволяет DSLNet использовать сильные стороны каждой системы координат в сочетании для точного распознавания жестов. #### Результаты Проведенные эксперименты показали, что DSLNet достигает высокой точности распознавания жестов на различных датасетах. На WLASL-100, WLASL-300 и LSA64 точность составила 93,70%, 89,97% и 99,79% соответственно. Этот результат был достигнут при значительно меньшем числе параметров, чем у конкурентных моделей. Это свидетельствует о высокой эффективности DSLNet в сравнении с другими методами распознавания жестов. #### Значимость Предложенный подход имеет широкую область применения в системах роботов, видеомониторинге и реализации систем для поддержки инвалидов. Одним из преимуществ является высокая точность распознавания даже при подвижности и морфологической схожести жестов. Будущие исследования станут сфокусированы на расширении DSLNet для работы с более сложными датасетами и расширении его задач, включая распознавание жестов в открытом мире. #### Выводы Разработанная DSLNet достигла совершенно нового уровня точности в распознавании жестов, которое не было достигнуто ранее. Она разделяет жесты по морфологической и динамической структуре, используя две специализированные сети. Данный подход открывает новые во

Annotation:

Isolated Sign Language Recognition (ISLR) is challenged by gestures that are morphologically similar yet semantically distinct, a problem rooted in the complex interplay between hand shape and motion trajectory. Existing methods, often relying on a single reference frame, struggle to resolve this geometric ambiguity. This paper introduces Dual-SignLanguageNet (DSLNet), a dual-reference, dual-stream architecture that decouples and models gesture morphology and trajectory in separate, complementar...

ID: 2509.08661v1 cs.CV, cs.AI, I.2.m; I.2.0

arXiv PDF

📄 XSRD-Net: EXplainable Stroke Relapse Detection

2025-09-11

Авторы:

Christian Gapp, Elias Tappeiner, Martin Welk, Karl Fritscher, Stephanie Mangesius, Constantin Eisenschink, Philipp Deisl, Michael Knoflach, Astrid E. Grams, Elke R. Gizewski, Rainer Schubert

## Контекст Ишемический инсульт является второй по распространенности причиной смерти в мире, с аннуальной смертностью около 5,5 миллионов человек. Частота рецидивов инсульта в первый год достигает 5-25%, при этом величина смертности при рецидивах громадно выше среднего и составляет 40%. Необходимость в раннем выявлении больных, подверженных риску рецидива, очевидна, так как это позволяет согласовывать терапию вовремя и улучшить прогноз. Наша цель заключается в разработке метода автоматизированной диагностики, который бы позволил комплексно оценивать риск рецидива и определять пациентов, нуждающихся в тщательном мониторинге и внезапных мероприятиях. ## Метод Мы вдохновились тем, чтобы построить объединенную модель, которая использует данные в различных форматах для точного выявления рецидивов инсульта. Использовался метод многомодального обучения сети XSRD-Net, которая объединяет визуальные данные (от трехмерных CTA-сканов) и табличные данные (состояние сердечно-сосудистой системы, возраст и пол). Модель должна была решать две задачи: статистическое разделение пациентов с рецидивом от тех без него (Task 1) и регрессионное предсказание времени без рецидива (Task 2) с последующей классификацией. ## Результаты Мы провели тщательные эксперименты с использованием наших данных, которые собрались за период с 2010 по 2024 год. Для Task 1 (разделение рецидивов от него), наша модель демонстрирует AUC 0.84 на тестовом наборе данных, указывая на высокую точность классификации. Для Task 2 (регрессия и классификация), XSRD-Net продемонстрировала c-индекс 0.68 и AUC 0.71. Далее, мы провели глубокий анализ модели в поисках интерпретируемых признаков. Мы выявили связь между заболеваниями сердечно-сосудистой системы и заболеваниями связности с одновременным воздействием на кариотидные артерии, которая позволяет точнее предсказывать рецидивы и время без рецидива. ## Значимость Результаты модели XSRD-Net имеют большое значение в области ранней диагностики инсульта. Это позволяет улучшить стратегии терапии и снизить риск смерти у рисковых пациентов. Помимо этого, наша модель может использоваться в различных областях медицинских исследований для определения рисков рецидивов и для разработки систем автоматизированного мониторинга. Такой подход позволит сократить время реакции врачей и увеличить вероятность успешного лечения. ## Выводы Мы разработали модель XSRD-Net, которая эффективно решает задачу выявления рецидивов инсульта и предсказания времени без рецидива. Наши результаты показали, что модель

Annotation:

Stroke is the second most frequent cause of death world wide with an annual mortality of around 5.5 million. Recurrence rates of stroke are between 5 and 25% in the first year. As mortality rates for relapses are extraordinarily high (40%) it is of utmost importance to reduce the recurrence rates. We address this issue by detecting patients at risk of stroke recurrence at an early stage in order to enable appropriate therapy planning. To this end we collected 3D intracranial CTA image data and r...

ID: 2509.07772v1 cs.CV, cs.AI, I.2.1

arXiv PDF

📄 RampNet: A Two-Stage Pipeline for Bootstrapping Curb Ramp Detection in Streetscape Images from Open Government Metadata

2025-08-15

Авторы:

John S. O'Meara, Jared Hwang, Zeyu Wang, Michael Saugstad, Jon E. Froehlich

## Контекст Curb ramps являются критически важными для городского развития, так как обеспечивают доступность для людей с ограниченными физическими возможностями. Однако их точное расположение на спутниковых изображениях недостаточно хорошо определено, что создает проблемы для построения моделей детектирования. Несмотря на то, что ранее были предприняты усилия для создания данных с помощью краудсорсинга или ручной разметки, эти методы часто либо ограничены в масштабе, либо недостаточно точны. Хотя такие подходы могут быть полезными в маломасштабных проектах, они не подходят для развития моделей, которые должны работать в городах разных размеров. ## Метод Мы предлагаем две-ступенчатую архитектуру для создания и обучения моделей детектирования curb ramps. В первой стадии мы автоматически переводим географические координаты городских curb ramps (из открытых метаданных властей) в пиксельные координаты на Google Street View (GSV) картинках. Это позволяет автоматически создать большой датасет с разметкой. Во второй стадии мы обучаем модель детектирования на этом датасете, используя современные архитектуры сверточных нейронных сетей. Это позволяет не только создать модель с высокой точностью, но и тренировать ее на большом датасете, повышая ее универсальность. ## Результаты Мы сгенерировали датасет из более чем 210,000 изображений GSV с разметкой, используя первую стадию нашей архитектуры. Наша модель детектирования, основанная на ConvNeXt V2, достигла аппроксимированной точности (AP) 0.9236, значительно превосходя предыдущие результаты в области. Мы также проверили точность и достоверность нашего датасета, получив 94.0% при полноте и 92.5% при точности. Эти результаты указывают на высокую качественную работу нашего подхода и его готовность к применению в реальных сценариях. ## Значимость Наша работа предлагает первый большой датасет для детектирования curb ramps, который может быть использован для обучения моделей и тестирования их эффективности. Он также позволяет существенно повысить точность моделей, что может быть применено в различных городах для улучшения доступности городского пространства. Наши вычислительные модели могут быть использованы для сканирования городов на поиск curb ramps, чтобы снизить барьеры для инвалидов и людей с ограниченными возможностями. ## Выводы Мы представили RampNet, первую успешную двухстадийную архитектуру для создания и обучения моделей детектирования curb ramps. Наши результаты показывают, что наш подход может быть применен в больших городах для улучшения доступности. В будущем мы планируем расширить датасет, предложить новые приз

Annotation:

Curb ramps are critical for urban accessibility, but robustly detecting them in images remains an open problem due to the lack of large-scale, high-quality datasets. While prior work has attempted to improve data availability with crowdsourced or manually labeled data, these efforts often fall short in either quality or scale. In this paper, we introduce and evaluate a two-stage pipeline called RampNet to scale curb ramp detection datasets and improve model performance. In Stage 1, we generate a...

ID: 2508.09415v1 cs.CV, cs.AI, I.2

arXiv PDF

Показано 1 - 10 из 12 записей