📊 Статистика дайджестов
Всего дайджестов: 34123 Добавлено сегодня: 101
Последнее обновление: сегодня
Авторы:
Samuel Räber, Till Aczel, Andreas Plesner, Roger Wattenhofer
Атаки на аддитивные модели часто столкнулись с проблемой высокой реалистичности восстановленных изображений, которая существенно усложняет проведение атак. В статье "Keep It Real: Challenges in Attacking Compression-Based Adversarial Purification" авторы исследуют этот аспект, проводя разности атак против различных моделей сжатия изображений. Они выясняют, что модели, которые формируют высококачественные и реалистичные изображения, гораздо более устойчивы к атакам по сравнению с моделями, которые генерируют низкокачественные изображения. Эта устойчивость не связана с градиентным маскированием, а связана с дискретной структурой изображений, которая сохраняется в реалистичных моделях. Таким образом, модели, продуцирующие реалистичную продукцию, представляют собой значительную трудность для атак. Основным выводом статьи является то, что развитие технологий, которые могут преодолеть эту эволюцию, является ключевым заданием для создания эффективных методов защиты от атак в будущем.
Annotation:
Previous work has suggested that preprocessing images through lossy
compression can defend against adversarial perturbations, but comprehensive
attack evaluations have been lacking. In this paper, we construct strong
white-box and adaptive attacks against various compression models and identify
a critical challenge for attackers: high realism in reconstructed images
significantly increases attack difficulty. Through rigorous evaluation across
multiple attack scenarios, we demonstrate that compre...
📄 SMOL-MapSeg: Show Me One Label
2025-08-09Авторы:
Yunshuang Yuan, Frank Thiemann, Thorsten Dahms, Monika Sester
**Резюме**
Исторические карты являются ценным источником для исследования изменений на земной поверхности. Однако семантическое сегментирование таких карт с помощью глубокого обучения сталкивается с проблемами, так как предварительно обученные модели, такие как UNet, не приспособлены для работы с историческими картами. Эти модели обычно обучаются на современных или доменно-специфичных изображениях, где сущности искажаются определенными стилями и стабильными концепциями. В отличие от этого, исторические карты часто содержат схожие элементы, но разнообразие их форм и стилей делает их трудно распознаваемыми для обученных моделей.
Чтобы решить эту проблему, мы предлагаем On-Need Declarative (OND) knowledge-based prompting — метод, который использует явные знания для указания модели какие узоры соответствуют каким концепциям. Это реализуется за счет замены процесса обучения модели на основе SAM-модели с нашей OND-процедурой. Модель, полученная в результате, SMOL-MapSeg (Show Me One Label), позволяет пользователю указывать нужные классы на лету во время инференции. Этот подход демонстрирует улучшенную точность сегментации таких классов, в том числе неизвестных изначально. SMOL-MapSeg показала лучшую среднюю точность по сравнению с UNet-подобными моделями.
Annotation:
Historical maps are valuable for studying changes to the Earth's surface.
With the rise of deep learning, models like UNet have been used to extract
information from these maps through semantic segmentation. Recently,
pre-trained foundation models have shown strong performance across domains such
as autonomous driving, medical imaging, and industrial inspection. However,
they struggle with historical maps. These models are trained on modern or
domain-specific images, where patterns can be tied t...
📄 MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs
2025-08-09Авторы:
Yufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi
**Резюме**
Многоязычные большие языковые модели (МЛЛМ) доказали свою эффективность в высокоресурсных языках, но в низкоресурсных языках их эффективность значительно снижается. Существующие подходы к улучшению многоязычности часто ограничиваются текстовыми данными или полагаются лишь на перевод машинным переводом. Эти методы способствуют развитию базовых языковых навыков, но не учитывают важность мультимодальности и культурного контекста, которые критически важны для поддержки низкоресурсных языков.
В статье предлагается MELLA — мультимодальный многоязычный датасет, созданный для решения проблемы нехватки культурной осведомлённости и навыков работы с текстом в МЛЛМ. Данный датасет собирает сведения из сети (нативный web alt-text для культурной глубины и MLLM-генерируемые капшны для развития языковых навыков). Исследование показало, что после тюнинга на MELLA модели показывают улучшение по всему спектру задач, включая продуктивность в "толстых описаниях", благодаря улучшению как языковых навыков, так и культурной осведомлённости.
Наши результаты свидетельствуют о важности сочетания этих двух параметров для эффективной работы МЛЛМ в низкоресурсных языках. Датасет доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
Annotation:
Multimodal Large Language Models (MLLMs) have shown remarkable performance in
high-resource languages. However, their effectiveness diminishes significantly
in the contexts of low-resource languages. Current multilingual enhancement
methods are often limited to text modality or rely solely on machine
translation. While such approaches help models acquire basic linguistic
capabilities and produce "thin descriptions", they neglect the importance of
multimodal informativeness and cultural groundedn...
📄 AutoIAD: Manager-Driven Multi-Agent Collaboration for Automated Industrial Anomaly Detection
2025-08-09Авторы:
Dongwei Ji, Bingzhang Hu, Yi Zhou
**Резюме**
Индустриальная аномальная детекция (IAD) является ключевым компонентом качественного контроля в производстве, но до сих пор требует значительного ручного вмешательства. В статье представляется AutoIAD — рамка работы с несколькими агентами, ориентированная на автоматизацию процесса разработки моделей аномальной детекции в производственных сценариях. Фреймворк реализует Manager-Driven коллаборацию специализированных под-агентов (например, для подготовки данных, загрузки, проектирования моделей и обучения), оперируя доменной знаниями для полного оптимизированного цикла.
Исследования проводились на датасете MVTec AD. Результаты показывают, что AutoIAD выполняет задачи эффективнее агентных и AutoML-фреймворков, обеспечивая высокое качество моделей (метрика AUROC) и уменьшая проблемы, такие как халлуцинации, с помощью итеративной рефинализации. Аблационные эксперименты подтвердят ключевую роль Manager-агента и модуля доменных знаний в достижении надежной и качественной работы IAD.
Annotation:
Industrial anomaly detection (IAD) is critical for manufacturing quality
control, but conventionally requires significant manual effort for various
application scenarios. This paper introduces AutoIAD, a multi-agent
collaboration framework, specifically designed for end-to-end automated
development of industrial visual anomaly detection. AutoIAD leverages a
Manager-Driven central agent to orchestrate specialized sub-agents (including
Data Preparation, Data Loader, Model Designer, Trainer) and in...
📄 Parameter-free entropy-regularized multi-view clustering with hierarchical feature selection
2025-08-09Авторы:
Kristina P. Sinaga, Sara Colantonio, Miin-Shen Yang
Усовершенствование методов многовидного кластеризации является актуальной задачей в области машинного обучения, особенно при работе с высокомерновыми и зашумленными данными. В статье предлагается новый подход к решению этой проблемы, основанный на алгоритмах AMVFCM-U и AAMVFCM-U. Они отличаются тем, что заменяют традиционные параметры на регуляризационные элементы, основанные на сигнал-шум и энтропии. Это позволяет адаптивно консенсусы между представлениями и эффективно сжимать пространство признаков. Была представлена расширенная версия AAMVFCM-U, включающая в себя встроенную горизонтальную дименициональность с использованием трешхолдинга. Эксперименты показали, что предложенные методы достигли прироста вычислительной эффективности до 97%, снизили размер признакового пространства до 0.45% от исходного, а также автоматически выделили критические комбинации представлений, улучшив итоговый результат кластеризации в сравнении с 15 современными методами.
Annotation:
Multi-view clustering faces critical challenges in automatically discovering
patterns across heterogeneous data while managing high-dimensional features and
eliminating irrelevant information. Traditional approaches suffer from manual
parameter tuning and lack principled cross-view integration mechanisms. This
work introduces two complementary algorithms: AMVFCM-U and AAMVFCM-U, providing
a unified parameter-free framework. Our approach replaces fuzzification
parameters with entropy regularizati...
Авторы:
Weikang Wang, Tobias Weißberg, Nafie El Amrani, Florian Bernard
В статье **"Symmetry Understanding of 3D Shapes via Chirality Disentanglement"** рассматривается проблема анализа симметрии трехмерных объектов, где существующие дескрипторы не полностью учитывают чиральность (информацию о различии левого и правого симметричных частей). Для решения этой проблемы предложена нейросетевая модель, основанная на Diff3F-фреймворке, реализующая нейронную сеть, которая учитывает чиральность в процессе извлечения фичей для трехмерных моделей. Модель обучается с помощью 2D-фундаментальных моделей и декодирует чиральные признаки для 3D-моделей. Оценка модели проводилась на различных данных, включая сетки и точечные облака, используя задачи типа left-right disentanglement, shape matching и part segmentation. Результаты показали эффективность нового подхода в обработке чиральных признаков и подтвердили его практическую полезность в различных задачах анализа трехмерных моделей.
Annotation:
Chirality information (i.e. information that allows distinguishing left from
right) is ubiquitous for various data modes in computer vision, including
images, videos, point clouds, and meshes. While chirality has been extensively
studied in the image domain, its exploration in shape analysis (such as point
clouds and meshes) remains underdeveloped. Although many shape vertex
descriptors have shown appealing properties (e.g. robustness to rigid-body
transformations), they are often not able to di...
Авторы:
Shibo Wang, Haonan He, Maria Parelli, Christoph Gebhardt, Zicong Fan, Jie Song
На мобильных устройствах часто возникает необходимость воссоздать интерактивные объекты в реальном времени, но существующие методы часто сталкиваются с проблемами неполного обнаружения объектов из-за ограниченных видов камеры и статичных хватов. Мы предлагаем MagicHOI — метод реконструкции рук и объектов из коротких монокульарных видео, даже при неполном видимом взаимодействии. Наша идея заключается в использовании представлений объектов, полученных в рамках моделей нового вида синтеза, для регулирования невидимых объектных регионов в ходе интерактивного взаимодействия. В нашем подходе включена методика установления контакта руки с объектом, что позволяет обеспечить более точные реконструкции. Наши эксперименты показали, что MagicHOI значительно превосходит текущие методы, реализуя эффективный интеграционный подход с применением моделей нового вида синтеза для регулирования невидимых регионов. Это демонстрирует значительный вклад в развитие технологий для мобильных устройств и виртуальной реальности.
Annotation:
Most RGB-based hand-object reconstruction methods rely on object templates,
while template-free methods typically assume full object visibility. This
assumption often breaks in real-world settings, where fixed camera viewpoints
and static grips leave parts of the object unobserved, resulting in implausible
reconstructions. To overcome this, we present MagicHOI, a method for
reconstructing hands and objects from short monocular interaction videos, even
under limited viewpoint variation. Our key i...
Авторы:
Lin Zhu, Ruonan Liu, Xiao Wang, Lizhi Wang, Hua Huang
Event camera — это инновационный нейроморфный визуальный сенсор, который заметает изображения с высокой темпоральной разрешенностью и широким динамическим диапазоном, благодаря чему позволяет извлекать точные визуальные представления в сложных сценариях. Однако существуют значительные трудности при извлечении признаков из эвент-данных, поскольку они характеризуются его монотонностью и шумовой природой, в основном отражая изменения яркости. Для решения этой проблемы предлагается метод самостоятельного обучения, нацеленный на раскрытие запасных семантических сведений в event data, включая информацию об обводах и текстуре. Разработанный подход включает в себя три этапа: гидроактивное моделирование с пропусками на основе физического семплирования, утяжеление данных внешними соображениями, и семантическое разрешение через контрастное обучение. Опыты показали, что предложенный подход обеспечивает высокую устойчивость и превосходит современные методы на различных задачах, таких как распознавание объектов, сегментация сцен и оптическое размещение потока.
Annotation:
Event camera, a novel neuromorphic vision sensor, records data with high
temporal resolution and wide dynamic range, offering new possibilities for
accurate visual representation in challenging scenarios. However, event data is
inherently sparse and noisy, mainly reflecting brightness changes, which
complicates effective feature extraction. To address this, we propose a
self-supervised pre-training framework to fully reveal latent information in
event data, including edge information and texture...
Авторы:
Zewei Wu, César Teixeira, Wei Ke, Zhang Xiong
Проблема: Визуальный трекинг пешеходов сталкивается с значительными вызовами при решении задач интеллектуального мониторинга, анализа поведения и интерактивных систем. Наиболее сложным является сценарий множественных пересечений пешеходов, когда трекинг лица и полного тела становится неустойчивым из-за потери признаков или ключевых частей тела.
Решение: Мы предлагаем Head Anchor Enhanced Detection and Association for Crowded Pedestrian Tracking — расширенную модель, которая использует фичи обнаружения из регрессионного и классификационных ветвей объектного детектора. Мы внедрили модель детектирования головы, менее подверженной оккультации, для более надежных опорных точек. Для моделирования движения введена итеративная модель Kalman Filtering, оптимизированная для современных моделей детекторов и включающая 3D-признаки для улучшения специальных сцен.
Основные выводы: Наши улучшения позволяют справляться с множественными пересечениями, повышая точность трекинга и устойчивость к оккультациям в задачах слежения за людьми в загруженных пространствах.
Annotation:
Visual pedestrian tracking represents a promising research field, with
extensive applications in intelligent surveillance, behavior analysis, and
human-computer interaction. However, real-world applications face significant
occlusion challenges. When multiple pedestrians interact or overlap, the loss
of target features severely compromises the tracker's ability to maintain
stable trajectories. Traditional tracking methods, which typically rely on
full-body bounding box features extracted from {R...
Авторы:
Ekaterina Shumitskaya, Dmitriy Vatolin, Anastasia Antsiferova
Мы предлагаем новую стратегию защиты для моделей Image Quality Assessment (IQA), основанную на случайном сглаживании в пространстве признаков, а не в пространстве входных данных. Это позволяет сохранить высокое качество изображений, не прибегая к шуму в их прямом представлении. Метод подключает уровни шума в пространстве признаков с помощью вычисления максимального сингулярного значения якобиана сети. Он применим к full- и no-reference IQA моделям без изменений их архитектуры и подходит для различных сценариев использования. Метод эффективен, требуя только одного прохода через сеть, при этом ускоряя вывод в 99.5% при незащищенной и в 20.6% при защищенной версии. Наши эксперименты на двух бенчмарк-данных показали, что наш метод достигает высокой корреляции с субъективными оценками качества в 30.9% больше, чем существующие защищенные алгоритмы.
Annotation:
We propose a novel certified defense method for Image Quality Assessment
(IQA) models based on randomized smoothing with noise applied in the feature
space rather than the input space. Unlike prior approaches that inject Gaussian
noise directly into input images, often degrading visual quality, our method
preserves image fidelity while providing robustness guarantees. To formally
connect noise levels in the feature space with corresponding input-space
perturbations, we analyze the maximum singul...
Показано 33581 -
33590
из 34123 записей