📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Lumin Chen, Zhiying Wu, Tianye Lei, Xuexue Bai, Ming Feng, Yuxi Wang, Gaofeng Meng, Zhen Lei, Hongbin Liu

**Резюме** В питомической хирургии возникает трудность с предсказанием рисков повреждения близлежащих важных анатомических структур в реальном времени. Одной из ключевых задач здесь является сегментация анатомических структур во время операции. Однако отсутствие больших анотированных тренировочных данных и особенности интраоперационной среды (камерный движение, кровоизлияния и пр.) препятствуют развитию эффективных алгоритмов. Мы предлагаем F2PASeg — модель, основанную на функции слияния признаков (Feature Fusion), которая улучшает сегментацию анатомических структур в условиях внутриоперационных неполадок. Модель обучается на новом датасете **Pituitary Anatomy Segmentation (PAS)**, содержащем 7,845 временно связанных изображений из 120 видео. Для уменьшения классового несбалансированности были использованы аугментационные техники, представляющие собой имитацию наличия средств в операционной сцене. Результаты экспериментов показали, что F2PASeg обеспечивает точную и быструю сегментацию ключевых анатомических структур, даже при переменных условиях внутриоперационной среды. Это делает её полезной для улучшения безопасности и планирования операций.
Annotation:
Pituitary tumors often cause deformation or encapsulation of adjacent vital structures. Anatomical structure segmentation can provide surgeons with early warnings of regions that pose surgical risks, thereby enhancing the safety of pituitary surgery. However, pixel-level annotated video stream datasets for pituitary surgeries are extremely rare. To address this challenge, we introduce a new dataset for Pituitary Anatomy Segmentation (PAS). PAS comprises 7,845 time-coherent images extracted from ...
ID: 2508.05465v1 cs.CV, cs.SY, eess.IV, eess.SY
Авторы:

Samuel Räber, Till Aczel, Andreas Plesner, Roger Wattenhofer

Атаки на аддитивные модели часто столкнулись с проблемой высокой реалистичности восстановленных изображений, которая существенно усложняет проведение атак. В статье "Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification" авторы исследуют этот аспект, проводя разности атак против различных моделей сжатия изображений. Они выясняют, что модели, которые формируют высококачественные и реалистичные изображения, гораздо более устойчивы к атакам по сравнению с моделями, которые генерируют низкокачественные изображения. Эта устойчивость не связана с градиентным маскированием, а связана с дискретной структурой изображений, которая сохраняется в реалистичных моделях. Таким образом, модели, продуцирующие реалистичную продукцию, представляют собой значительную трудность для атак. Основным выводом статьи является то, что развитие технологий, которые могут преодолеть эту эволюцию, является ключевым заданием для создания эффективных методов защиты от атак в будущем.
Annotation:
Previous work has suggested that preprocessing images through lossy compression can defend against adversarial perturbations, but comprehensive attack evaluations have been lacking. In this paper, we construct strong white-box and adaptive attacks against various compression models and identify a critical challenge for attackers: high realism in reconstructed images significantly increases attack difficulty. Through rigorous evaluation across multiple attack scenarios, we demonstrate that compre...
ID: 2508.05489v1 cs.CV, cs.LG, eess.IV
Авторы:

Yunshuang Yuan, Frank Thiemann, Thorsten Dahms, Monika Sester

**Резюме** Исторические карты являются ценным источником для исследования изменений на земной поверхности. Однако семантическое сегментирование таких карт с помощью глубокого обучения сталкивается с проблемами, так как предварительно обученные модели, такие как UNet, не приспособлены для работы с историческими картами. Эти модели обычно обучаются на современных или доменно-специфичных изображениях, где сущности искажаются определенными стилями и стабильными концепциями. В отличие от этого, исторические карты часто содержат схожие элементы, но разнообразие их форм и стилей делает их трудно распознаваемыми для обученных моделей. Чтобы решить эту проблему, мы предлагаем On-Need Declarative (OND) knowledge-based prompting — метод, который использует явные знания для указания модели какие узоры соответствуют каким концепциям. Это реализуется за счет замены процесса обучения модели на основе SAM-модели с нашей OND-процедурой. Модель, полученная в результате, SMOL-MapSeg (Show Me One Label), позволяет пользователю указывать нужные классы на лету во время инференции. Этот подход демонстрирует улучшенную точность сегментации таких классов, в том числе неизвестных изначально. SMOL-MapSeg показала лучшую среднюю точность по сравнению с UNet-подобными моделями.
Annotation:
Historical maps are valuable for studying changes to the Earth's surface. With the rise of deep learning, models like UNet have been used to extract information from these maps through semantic segmentation. Recently, pre-trained foundation models have shown strong performance across domains such as autonomous driving, medical imaging, and industrial inspection. However, they struggle with historical maps. These models are trained on modern or domain-specific images, where patterns can be tied t...
ID: 2508.05501v1 cs.CV
Авторы:

Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

**Резюме** Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков. В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости. Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
Annotation:
Multimodal Large Language Models (MLLMs) have shown remarkable performance in high-resource languages. However, their effectiveness diminishes significantly in the contexts of low-resource languages. Current multilingual enhancement methods are often limited to text modality or rely solely on machine translation. While such approaches help models acquire basic linguistic capabilities and produce "thin descriptions", they neglect the importance of multimodal informativeness and cultural groundedn...
ID: 2508.05502v1 cs.CV, cs.CL
Авторы:

Dongwei Ji, Bingzhang Hu, Yi Zhou

**Резюме** Индустриальная аномальная детекция (IAD) является ключевым компонентом качественного контроля в производстве, но до сих пор требует значительного ручного вмешательства. В статье представляется AutoIAD — рамка работы с несколькими агентами, ориентированная на автоматизацию процесса разработки моделей аномальной детекции в производственных сценариях. Фреймворк реализует Manager-Driven коллаборацию специализированных под-агентов (например, для подготовки данных, загрузки, проектирования моделей и обучения), оперируя доменной знаниями для полного оптимизированного цикла. Исследования проводились на датасете MVTec AD. Результаты показывают, что AutoIAD выполняет задачи эффективнее агентных и AutoML-фреймворков, обеспечивая высокое качество моделей (метрика AUROC) и уменьшая проблемы, такие как халлуцинации, с помощью итеративной рефинализации. Аблационные эксперименты подтвердят ключевую роль Manager-агента и модуля доменных знаний в достижении надежной и качественной работы IAD.
Annotation:
Industrial anomaly detection (IAD) is critical for manufacturing quality control, but conventionally requires significant manual effort for various application scenarios. This paper introduces AutoIAD, a multi-agent collaboration framework, specifically designed for end-to-end automated development of industrial visual anomaly detection. AutoIAD leverages a Manager-Driven central agent to orchestrate specialized sub-agents (including Data Preparation, Data Loader, Model Designer, Trainer) and in...
ID: 2508.05503v1 cs.CV
Авторы:

Kristina P. Sinaga, Sara Colantonio, Miin-Shen Yang

Усовершенствование методов многовидного кластеризации является актуальной задачей в области машинного обучения, особенно при работе с высокомерновыми и зашумленными данными. В статье предлагается новый подход к решению этой проблемы, основанный на алгоритмах AMVFCM-U и AAMVFCM-U. Они отличаются тем, что заменяют традиционные параметры на регуляризационные элементы, основанные на сигнал-шум и энтропии. Это позволяет адаптивно консенсусы между представлениями и эффективно сжимать пространство признаков. Была представлена расширенная версия AAMVFCM-U, включающая в себя встроенную горизонтальную дименициональность с использованием трешхолдинга. Эксперименты показали, что предложенные методы достигли прироста вычислительной эффективности до 97%, снизили размер признакового пространства до 0.45% от исходного, а также автоматически выделили критические комбинации представлений, улучшив итоговый результат кластеризации в сравнении с 15 современными методами.
Annotation:
Multi-view clustering faces critical challenges in automatically discovering patterns across heterogeneous data while managing high-dimensional features and eliminating irrelevant information. Traditional approaches suffer from manual parameter tuning and lack principled cross-view integration mechanisms. This work introduces two complementary algorithms: AMVFCM-U and AAMVFCM-U, providing a unified parameter-free framework. Our approach replaces fuzzification parameters with entropy regularizati...
ID: 2508.05504v1 cs.LG, cs.CV, math.ST, stat.TH, 62H30, 68T05, 68T09, 62H25, 94A17
Авторы:

Weikang Wang, Tobias Weißberg, Nafie El Amrani, Florian Bernard

В статье **"Symmetry Understanding of 3D Shapes via Chirality Disentanglement"** рассматривается проблема анализа симметрии трехмерных объектов, где существующие дескрипторы не полностью учитывают чиральность (информацию о различии левого и правого симметричных частей). Для решения этой проблемы предложена нейросетевая модель, основанная на Diff3F-фреймворке, реализующая нейронную сеть, которая учитывает чиральность в процессе извлечения фичей для трехмерных моделей. Модель обучается с помощью 2D-фундаментальных моделей и декодирует чиральные признаки для 3D-моделей. Оценка модели проводилась на различных данных, включая сетки и точечные облака, используя задачи типа left-right disentanglement, shape matching и part segmentation. Результаты показали эффективность нового подхода в обработке чиральных признаков и подтвердили его практическую полезность в различных задачах анализа трехмерных моделей.
Annotation:
Chirality information (i.e. information that allows distinguishing left from right) is ubiquitous for various data modes in computer vision, including images, videos, point clouds, and meshes. While chirality has been extensively studied in the image domain, its exploration in shape analysis (such as point clouds and meshes) remains underdeveloped. Although many shape vertex descriptors have shown appealing properties (e.g. robustness to rigid-body transformations), they are often not able to di...
ID: 2508.05505v1 cs.CV
Авторы:

Shibo Wang, Haonan He, Maria Parelli, Christoph Gebhardt, Zicong Fan, Jie Song

На мобильных устройствах часто возникает необходимость воссоздать интерактивные объекты в реальном времени, но существующие методы часто сталкиваются с проблемами неполного обнаружения объектов из-за ограниченных видов камеры и статичных хватов. Мы предлагаем MagicHOI — метод реконструкции рук и объектов из коротких монокульарных видео, даже при неполном видимом взаимодействии. Наша идея заключается в использовании представлений объектов, полученных в рамках моделей нового вида синтеза, для регулирования невидимых объектных регионов в ходе интерактивного взаимодействия. В нашем подходе включена методика установления контакта руки с объектом, что позволяет обеспечить более точные реконструкции. Наши эксперименты показали, что MagicHOI значительно превосходит текущие методы, реализуя эффективный интеграционный подход с применением моделей нового вида синтеза для регулирования невидимых регионов. Это демонстрирует значительный вклад в развитие технологий для мобильных устройств и виртуальной реальности.
Annotation:
Most RGB-based hand-object reconstruction methods rely on object templates, while template-free methods typically assume full object visibility. This assumption often breaks in real-world settings, where fixed camera viewpoints and static grips leave parts of the object unobserved, resulting in implausible reconstructions. To overcome this, we present MagicHOI, a method for reconstructing hands and objects from short monocular interaction videos, even under limited viewpoint variation. Our key i...
ID: 2508.05506v1 cs.CV
Авторы:

Lin Zhu, Ruonan Liu, Xiao Wang, Lizhi Wang, Hua Huang

Event camera — это инновационный нейроморфный визуальный сенсор, который заметает изображения с высокой темпоральной разрешенностью и широким динамическим диапазоном, благодаря чему позволяет извлекать точные визуальные представления в сложных сценариях. Однако существуют значительные трудности при извлечении признаков из эвент-данных, поскольку они характеризуются его монотонностью и шумовой природой, в основном отражая изменения яркости. Для решения этой проблемы предлагается метод самостоятельного обучения, нацеленный на раскрытие запасных семантических сведений в event data, включая информацию об обводах и текстуре. Разработанный подход включает в себя три этапа: гидроактивное моделирование с пропусками на основе физического семплирования, утяжеление данных внешними соображениями, и семантическое разрешение через контрастное обучение. Опыты показали, что предложенный подход обеспечивает высокую устойчивость и превосходит современные методы на различных задачах, таких как распознавание объектов, сегментация сцен и оптическое размещение потока.
Annotation:
Event camera, a novel neuromorphic vision sensor, records data with high temporal resolution and wide dynamic range, offering new possibilities for accurate visual representation in challenging scenarios. However, event data is inherently sparse and noisy, mainly reflecting brightness changes, which complicates effective feature extraction. To address this, we propose a self-supervised pre-training framework to fully reveal latent information in event data, including edge information and texture...
ID: 2508.05507v1 cs.CV
Авторы:

Zewei Wu, César Teixeira, Wei Ke, Zhang Xiong

Проблема: Визуальный трекинг пешеходов сталкивается с значительными вызовами при решении задач интеллектуального мониторинга, анализа поведения и интерактивных систем. Наиболее сложным является сценарий множественных пересечений пешеходов, когда трекинг лица и полного тела становится неустойчивым из-за потери признаков или ключевых частей тела. Решение: Мы предлагаем Head Anchor Enhanced Detection and Association for Crowded Pedestrian Tracking — расширенную модель, которая использует фичи обнаружения из регрессионного и классификационных ветвей объектного детектора. Мы внедрили модель детектирования головы, менее подверженной оккультации, для более надежных опорных точек. Для моделирования движения введена итеративная модель Kalman Filtering, оптимизированная для современных моделей детекторов и включающая 3D-признаки для улучшения специальных сцен. Основные выводы: Наши улучшения позволяют справляться с множественными пересечениями, повышая точность трекинга и устойчивость к оккультациям в задачах слежения за людьми в загруженных пространствах.
Annotation:
Visual pedestrian tracking represents a promising research field, with extensive applications in intelligent surveillance, behavior analysis, and human-computer interaction. However, real-world applications face significant occlusion challenges. When multiple pedestrians interact or overlap, the loss of target features severely compromises the tracker's ability to maintain stable trajectories. Traditional tracking methods, which typically rely on full-body bounding box features extracted from {R...
ID: 2508.05514v1 cs.CV
Показано 11491 - 11500 из 11614 записей