📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 An MLP Baseline for Handwriting Recognition Using Planar Curvature and Gradient Orientation

2025-08-19

Авторы:

Azam Nouri

## Контекст Написание с помощью ручного управления является одним из наиболее ранних и важных способов трансляции мыслей в материальное произведение. Однако, с другой стороны, распознавание написанного текста по-прежнему остается вызовом, особенно при использовании алгоритмов машинного обучения. Основной проблемой в этой области является то, что распознавание текста часто требует обработки больших массивов данных, что может быть труднодоступно для моделей, не оснащенных специальным аппаратным обеспечением. Традиционными методами являются сверточные нейронные сети (CNNs), но они могут быть нереалистичными для реализации в ограниченных ресурсах. В этом исследовании рассматривается возможность использования простого многослойного перцептрона (MLP) для распознавания рукописного текста с использованием геометрических признаков. ## Метод В данном исследовании используется многослойный перцептрон (MLP), который принимает три геометрических признака: магнитуду и знак плоской кривизны, а также угол направления градиента. Эти признаки были вычислены из изображений рукописных символов, применяя последовательность инвариантных преобразований. Эта модель противопоставляется CNN-моделям, используемым в объяснении распознавания рукописного текста. Использование MLP позволяет достичь высокой точности распознавания с меньшими вычислительными затратами. ## Резултаты Исследование проводилось на двух наборах данных: МНИСТ (Министерство Образования и Науки США) и EMNIST (Enlarged MNIST). На MNIST данные показали, что модель MLP достигла 97% точности в распознавании рукописных цифр. На EMNIST, модель достигла 89% точности в распознавании рукописных букв. Эти результаты демонстрируют, что MLP может использоваться для распознавания рукописных символов с высокой точностью, даже если используются геометрические признаки. ## Значимость Это исследование открывает новые пути для использования MLP в задачах распознавания рукописного текста. Из-за его простоты и эффективности, он может быть применен в реальных системах, где требуется высокая точность и низкий потребление ресурсов. Модель также может быть использована в задачах, где необходима полная прозрачность работы модели, так как веса MLP могут быть легко интерпретированы. ## Выводы В ходе исследования было показано, что извлечение геометрических признаков может быть достаточно для того, чтобы достичь высокой точности распознавания рукописного текста. Это демонстрирует перспективу использования MLP в ситуациях, где ресурсы ограничены. В будущем можно будет расширить исследование, используя более сло

Annotation:

This study investigates whether second-order geometric cues - planar curvature magnitude, curvature sign, and gradient orientation - are sufficient on their own to drive a multilayer perceptron (MLP) classifier for handwritten character recognition (HCR), offering an alternative to convolutional neural networks (CNNs). Using these three handcrafted feature maps as inputs, our curvature-orientation MLP achieves 97 percent accuracy on MNIST digits and 89 percent on EMNIST letters. These results un...

ID: 2508.11803v1 cs.CV, cs.LG

arXiv PDF

📄 From Pixels to Graphs: Deep Graph-Level Anomaly Detection on Dermoscopic Images

2025-08-19

Авторы:

Dehn Xu, Tim Katzke, Emmanuel Müller

#### Контекст Графовые нейронные сети (GNN) являются мощным инструментом для обработки данных, организованных в виде графов, и применяются в различных задачах машинного обучения, включая классификацию и обнаружение аномалий. Однако, несмотря на их успех, существуют значительные проблемы в понимании и оптимизации их эффективности в задачах связанных с изображениями. Одна из таких проблем — обнаружение аномалий в дерматологии, где необходимо выявлять необычные модели на дерматоскопических изображениях. Данная область исследования важна для диагностики злокачественных опухолей на ранней стадии. Несмотря на возможности графовых моделей, остается неясным, какие схемы преобразования изображений в графы лучше подходят для подобных задач. #### Метод Для решения этой проблемы были рассмотрены различные схемы преобразования дерматоскопических изображений в графы, включая различные методы сегментации изображений, различные подходы к построению ребер графа и различные наборы признаков для узлов, основывающиеся на цвете, текстуре и форме. На основе этих преобразований проводилась систематическая оценка эффективности с помощью современных моделей GNN для обнаружения аномалий на графах (GLAD). Эксперименты проводились на данных дерматоскопических изображений, использовались как неуправляемые, так и управляемые режимы обучения. #### Результаты Результаты экспериментов показали, что цветные признаки самые эффективные для раннего обнаружения аномалий, но их эффективность может быть значительно повышена при использовании дополнительных признаков, таких как текстура и форма. Наилучший результат был получен в условиях неуправляемого обучения, где модель OCGTL достигла AUC-ROC в 0.805. При добавлении сплошных меток, эффектность увеличилась до 0.872, а при полной супервайзированной обучении — до 0.914. Это показывает, что при подходящем подборе преобразований и признаков, модель GNN может давать результаты, которые не уступают сложным подходам с предобученными сетями. #### Значимость Результаты этого исследования могут быть применимы в многих областях медицины, где необходимо обнаруживать необычные модели на изображениях. Одной из применимостей является дерматология, где модель GNN может помочь в непрерывном мониторинге здоровья пациентов. Также, полученные результаты демонстрируют, что GNN могут давать похожие или даже лучшие результаты по сравнению с традиционными алгоритмами, не используя предобученные модели. Это открывает новые возможности для эффективного использования графовых моделей в сложных задачах обнаружения и

Annotation:

Graph Neural Networks (GNNs) have emerged as a powerful approach for graph-based machine learning tasks. Previous work applied GNNs to image-derived graph representations for various downstream tasks such as classification or anomaly detection. These transformations include segmenting images, extracting features from segments, mapping them to nodes, and connecting them. However, to the best of our knowledge, no study has rigorously compared the effectiveness of the numerous potential image-to-gr...

ID: 2508.11826v1 cs.CV, cs.LG

arXiv PDF

📄 ComplicitSplat: Downstream Models are Vulnerable to Blackbox Attacks by 3D Gaussian Splat Camouflages

2025-08-19

Авторы:

Matthew Hull, Haoyang Yang, Pratham Mehta, Mansi Phute, Aeree Cho, Haorang Wang, Matthew Lau, Wenke Lee, Wilian Lunardi, Martin Andreoni, Polo Chau

## Контекст В последнее время 3D Gaussian Splatting (3DGS) получила широкое применение в безопасных задачах, таких как эффективное извлечение нового представления статичных изображений. Однако, ничто не защищает эти задачи от атак адверсарных акторов. Мы проанализировали, как могли бы злоумышленники использовать вредоносные изображения, чтобы причинить вред системам, использующим 3DGS. Это привело к разработке ComplicitSplat, первой атаки, которая использует стандартные методы освещения 3DGS для создания видозависивой камуфляжа. Это позволяет вставить визуальное содержимое в объекты, которые видны только при определенных углах обзора, позволяя внедрить злонамеренное поведение в системы, не имея доступа к модели или весам архитектуры. ## Метод ComplicitSplat основывается на изменении 3DGS-шейдинга, добавляя видозависимые камуфляжные эффекты в объекты, позволяя скрыть злонамеренное содержимое. Добавленные эффекты изменяются в зависимости от угла обзора, что делает их незаметными в постоянных изображениях. Мы использовали оптимизационные методы для поиска наиболее эффективных видозависимых эффектов. Метод атаки может работать в условиях black-box, не требуя доступа к модели или весам, что делает его особенно опасным. Мы проверили нашу модель на различных моделях обнаружения объектов, включая одноступенчатые, многоступенчатые и трансформер-модели, как на реальных, так и на синтетических данных. ## Результаты Мы провели эксперименты на нескольких популярных моделях обнаружения объектов, таких как YOLOv5, Faster R-CNN и DETR. Эти модели были атакованы в различных условиях, включая реальные съемки объектов и синтетические сцены. Наши результаты показали, что ComplicitSplat успешно внедряет видозависимую камуфляжную информацию, которая приводит к повышению ошибки детектора. Мы также проверили точность камуфляжа, тем самым показав, что он незаметен для человеческого глаза и систем визуального распознавания. Это подтверждает практическую реализацию нашего метода в сценариях, где 3DGS используется в критических задачах. ## Значимость Видозависимая камуфляжная атака ComplicitSplat широко может применяться в критических зонах, таких как автономная навигация, системы безопасности и другие приложения, использующие 3DGS. Эта атака демонстрирует новый уровень риска для таких систем, поскольку она может привести к значительной понижению точности детекторов. Мы также выявили, что текущие методы защиты не эффективны против этого типа атак, что делает ее еще более опасной. Наше исследование открывает путь к разработке новых методов защиты, таких как

Annotation:

As 3D Gaussian Splatting (3DGS) gains rapid adoption in safety-critical tasks for efficient novel-view synthesis from static images, how might an adversary tamper images to cause harm? We introduce ComplicitSplat, the first attack that exploits standard 3DGS shading methods to create viewpoint-specific camouflage - colors and textures that change with viewing angle - to embed adversarial content in scene objects that are visible only from specific viewpoints and without requiring access to model...

ID: 2508.11854v1 cs.CV, cs.LG

arXiv PDF

📄 A Sobel-Gradient MLP Baseline for Handwritten Character Recognition

2025-08-19

Авторы:

Azam Nouri

## Контекст Область исследования — распознавание письменных символов, а именно рукописных символов. Данная область имеет приложения в различных сферах, от документов процессинга до обработки и анализа данных. Одной из основных проблем является необходимость в эффективных и простых алгоритмах, которые могут обрабатывать такие данные. Существующие решения, такие как сверточные нейронные сети (CNNs), показали высокую эффективность, но они часто требуют большого объема вычислительных ресурсов и имеют непрозрачные функции. Мотивация заключается в поиске альтернативных подходов, которые могут обеспечить точность распознавания при меньшем потреблении ресурсов и большей прозрачностью. ## Метод Методология, использованная в работе, основывается на использовании классического оператора Sobel для вычисления горизонтальных и вертикальных производных изображений рукописных символов. Эти производные используются в качестве входных данных для многослойной перцептронной сети (MLP). Архитектура MLP представляет собой простой, но мощный подход, не использующий сложные сверточные слои. Это дает возможность сократить количество параметров и улучшить прозрачность решений. Размер изображений символов составляет 28x28 пикселей, что обеспечивает достаточную точность для распознавания. ## Результаты На экспериментах, проведенных на двух наборах данных — MNIST и EMNIST Letters — продемонстрирована высокая точность распознавания. Для MNIST цифр точность достигла 98%, а для EMNIST Letters — 92%. Эти результаты примерно соответствуют достигаемым результатам с использованием CNN, но с значительными преимуществами в простоте и эффективности. Модель имеет меньший размер модели и транспарентные функции, что делает ее более привлекательной для применения в реальных ситуациях. ## Значимость Результаты имеют значительное значение в области распознавания рукописных символов. Данный подход может быть применен в различных приложениях, таких как цифровая обработка документов, оптическое распознавание символов и другие задачи, требующие точного распознавания письменных символов. Одним из основных преимуществ является уменьшение потребления ресурсов и простота модели, что позволяет быстрее и эффективнее развертывать решения. Это может привести к повышению производительности и экономии ресурсов в промышленных приложениях. ## Выводы Основной достижением работы является то, что простые edge-aware MLPs могут показать высокую эффективность в задачах распознавания рукописных символов, подобно CNN. Это открывает новые возможности для создания эффективных, простых и прозрачных алгоритмов. Будущие исследования будут направлены на улучшение то

Annotation:

We revisit the classical Sobel operator to ask a simple question: Are first-order edge maps sufficient to drive an all-dense multilayer perceptron (MLP) for handwritten character recognition (HCR), as an alternative to convolutional neural networks (CNNs)? Using only horizontal and vertical Sobel derivatives as input, we train an MLP on MNIST and EMNIST Letters. Despite its extreme simplicity, the resulting network reaches 98% accuracy on MNIST digits and 92% on EMNIST letters -- approaching CNN...

ID: 2508.11902v1 cs.CV, cs.LG

arXiv PDF

📄 HistoViT: Vision Transformer for Accurate and Scalable Histopathological Cancer Diagnosis

2025-08-19

Авторы:

Faisal Ahmed

#### Контекст Одним из ключевых вызовов в современной патологии является достижение точного и масштабируемого диагноза раковых заболеваний, особенно для таких малых групп симптомов, как молочной железы, простаты, костного и шейного миома. Эти раки часто проявляются сложной историей здоровья и выраженной индивидуальностью гистологических структур. Для решения этой проблемы требуется новая методология, которая могла бы обеспечить обширную аналитическую способность и стабильность в классификации. #### Метод Мы предлагаем новую модель глубокого обучения на основе Vision Transformer (ViT), адаптированную для классификации гистологических изображений. Основная идея заключается в использовании методологии разбиения изображений на мозаичные плитки, которые потом переводятся в тензоры PyTorch и нормализуются для соответствия архитектуре ViT. Это решение позволяет уменьшить сложность традиционных методов, улучшить стабильность обучения и повысить точность классификации. #### Результаты Мы проверили модель на четырьмя различными датасетами: ICIAR2018 (молочная железа), SICAPv2 (простата), UT-Osteosarcoma (костное) и SipakMed (шейной). Наша модель демонстрирует выдающиеся результаты: 99.32% точности для молочной железы, 96.92% для простаты, 95.28% для костных раков и 96.94% для шейного миома. Результаты показывают высокую общую точность, что указывает на сильную значимость этой модели в расширении возможностей цифровой патологии. #### Значимость Модель HistoViT предлагает возможности для масштабируемого и многоклассового диагноза рака на основе гистологических изображений. Она может быть применена в различных патологических условиях для повышения точности диагностики, уменьшения риска ошибок и улучшения работы врачей. Особенно значимо её применение в области цифровой патологии, где скейлируемость и универсальность модели открывают новые перспективы в традиционных методах диагностики. #### Выводы Наша модель HistoViT демонстрирует перспективу в патологической диагностике, обеспечивая высокую точность и масштабируемость. Будущие исследования будут фокусироваться на расширении области применения, включении дополнительных датасетов и улучшении интеграции в клинический практический подход к диагностике рака.

Annotation:

Accurate and scalable cancer diagnosis remains a critical challenge in modern pathology, particularly for malignancies such as breast, prostate, bone, and cervical, which exhibit complex histological variability. In this study, we propose a transformer-based deep learning framework for multi-class tumor classification in histopathological images. Leveraging a fine-tuned Vision Transformer (ViT) architecture, our method addresses key limitations of conventional convolutional neural networks, offe...

ID: 2508.11181v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 CHARM3R: Towards Unseen Camera Height Robust Monocular 3D Detector

2025-08-19

Авторы:

Abhinav Kumar, Yuliang Guo, Zhihao Zhang, Xinyu Huang, Liu Ren, Xiaoming Liu

#### Контекст Область исследования связана с монохромными 3D-детекторами, которые применяются для определения 3D-объектов с помощью систем на основе видеокамер. Эти модели очень эффективны при работе с данными от одного высоты камеры, но сталкиваются с трудностями при обработке данных с неизвестными высотами камеры. Эта проблема остается недостаточно исследована, что приводит к ограниченной универсальности моделей и недостаточной надежности в различных условиях. Мотивация заключается в развитии метода, который повысит универсальность моделей и позволит их устойчивость к неизвестной высоте камеры. #### Метод Методология основывается на подробном анализе влияния высоты камеры на современные модели 3D-детекторов. Используется расширенный датасет CARLA, где камера размещается на разных высотах. Для анализа используется математический подход и эмпирические эксперименты, раскрывающие роль регрессионных и земных моделей глубины в условиях неизвестных высот. Решение, предложенное в работе, заключается в создании модели CHARM3R (Camera Height Robust Monocular 3D Detector), которая основывается на среднем прогнозе для глубины, полученных от регрессионной и земной моделей. Эта техника уменьшает ошибки глубины и повышает универсальность модели. #### Результаты Эксперименты проводились на расширенном датасете CARLA с различными высотами камеры. Отмечено, что модель CHARM3R показала высокую универсальность, снижая ошибку глубины в среднем на 45% по сравнению с состоянием технологии (SoTA). Это достигается благодаря уникальной стратегии анализа глубины, которая учитывает оба типа моделей глубины. Результаты подтверждают, что CHARM3R значительно повышает надежность моделей монохромных 3D-детекторов при работе с неизвестными высотами камер. #### Значимость Результаты CHARM3R имеют практическое значение для различных областей, включая автоматическое управление транспортом, системы безопасности и робототехнику. Использование этой модели позволит улучшить универсальность и надежность моделей в сложных средах с разными высотами камеры. Основные преимущества включают увеличение общей точности, обеспечение лучшего понимания среды и повышение надежности модели при работе с нестандартными условиями. #### Выводы CHARM3R достигает существенных улучшений в универсальности моделей монохромных 3D-детекторов, обеспечивая оптимальную обработку данных с различных высот камер. Дальнейшие исследования будут сфокусированы на дальнейшем повышении точности, улучшении обработки редких сцен и расширении приложений этой модели в реальных условиях.

Annotation:

Monocular 3D object detectors, while effective on data from one ego camera height, struggle with unseen or out-of-distribution camera heights. Existing methods often rely on Plucker embeddings, image transformations or data augmentation. This paper takes a step towards this understudied problem by first investigating the impact of camera height variations on state-of-the-art (SoTA) Mono3D models. With a systematic analysis on the extended CARLA dataset with multiple camera heights, we observe th...

ID: 2508.11185v1 cs.CV, cs.LG

arXiv PDF

📄 A CLIP-based Uncertainty Modal Modeling (UMM) Framework for Pedestrian Re-Identification in Autonomous Driving

2025-08-19

Авторы:

Jialin Li, Shuqi Wu, Ning Wang

## Контекст Re-Identification (ReID) является ключевым компонентом интеллектуальных систем перцепции, особенно в контексте автономного вождения. Данная технология позволяет системам автомобилей запоминать идентификацию пешеходов независимо от вида или времени наблюдения. Эта функция критична для обеспечения безопасной навигации и прогнозирования траекторий движения. Однако использование ReID сталкивается с значительными вызовами, в том числе с отсутствием или неполностью доступными входными модальностями, такими как RGB-изображения, инфракрасные снимки, эскизы или текстовые описания. Традиционные ReID-модели чувствительны к этим недостаткам, что приводит к ухудшению точности и надежности. Наша мотивация состоит в разработке эффективной, легковесной и универсальной модели ReID, которая может справиться с этими недостатками в реальном времени. ## Метод Мы предлагаем Uncertainty Modal Modeling (UMM), современную архитектуру ReID, которая объединяет несколько подходов для решения проблем неполных или отсутствующих модальностей. Основные компоненты UMM: Multimodal Token Mapper (MTM), который морфирует входные данные разных модальностей в единую структуру; Synthetic Modality Augmentation (SMA), стратегия гибридного подхода, способная воссоздавать отсутствующие модальности; Cross-Modal Cue Interactive Learner (CMIL), который обеспечивает кросс-модальный обмен сигнальной информацией. Кроме того, UMM восползуется мощью CLIP (Contrastive Language-Image Pretraining) для эффективного слияния входных модальностей без тяжеловесной подготовки модели. ## Результаты Мы проводили эксперименты на широко известных датасетах ReID, таких как VeRi и CityFlow, чтобы оценить точность и надежность UMM. Мы сравнивали результаты с традиционными методами, такими как AlignedReID и BASNet. Наши эксперименты показали, что UMM показала значительное улучшение в точности и уменьшила расхождения в результатах при отсутствии или внезапном отсутствии модальности. Мы также оценили эффективность UMM на ресурсоемких и сложных условиях вождения, показав высокую скорость обработки и низкий расход ресурсов. ## Значимость UMM имеет широкие применения в системах автономного вождения, включая сценарии управления трафиком, трекинга пешеходов и безопасности пешеходов. Основное преимущество UMM заключается в ее легковесной архитектуре, которая позволяет развернуть модель на промышленном уровне без значительных затрат на вычислительные ресурсы. Эта модель также расширяет полезность ReID в интеллектуальных системах, кроме автомобилей, таких как безопасность населенных пунктов и системы поиска людей. ## Выводы В результате, UMM достигла высокой точности и надежности при обработке не

Annotation:

Re-Identification (ReID) is a critical technology in intelligent perception systems, especially within autonomous driving, where onboard cameras must identify pedestrians across views and time in real-time to support safe navigation and trajectory prediction. However, the presence of uncertain or missing input modalities--such as RGB, infrared, sketches, or textual descriptions--poses significant challenges to conventional ReID approaches. While large-scale pre-trained models offer strong multim...

ID: 2508.11218v1 cs.CV, cs.LG

arXiv PDF

📄 Probing the Representational Power of Sparse Autoencoders in Vision Models

2025-08-19

Авторы:

Matthew Lyle Olson, Musashi Hinck, Neale Ratzlaff, Changbai Li, Phillip Howard, Vasudev Lal, Shao-Yen Tseng

## Контекст В последние годы скрытые слои глубоких нейронных сетей стали получать всё больше внимания как источники репрезентативности, которые могут объяснить, как такие модели обрабатывают входные данные. Sparse Autoencoders (SAEs), являющиеся одним из таких инструментов, используются для расширения понимания скрытых слоев. Они обучаются восстанавливать активации из сжатой блокированной сети, чтобы выявить понятные признаки в высоком размерности. Хотя SAEs особенно популярны в области языковых моделей (LLMs), их потенциал в области визуальных моделей остается нередко недооцененным. Это делает важной целью этой работы провести подробное исследование и оценить характеристики SAEs в контексте визуальных моделей. ## Метод Для оценки мощности скрытых представлений SAEs в визуальных моделях была разработана многоэтапная методология. Во-первых, мы использовали трёхмерные модели визуального понимания, включая виджет-модели, многомодальные модели типа LMMы и диффузионные модели. Во-вторых, мы проводили эксперименты на различных образцах: OOD-обнаружении, построении онтологической структуры и контролируемой генерации. Мы разработали опытную процедуру для изучения того, как SAEs могут восстанавливать онтологическую структуру в LLMs. Для диффузионных моделей, мы использовали методы манипуляции текстовых энкодеров для управления генерацией и разработали автоматизированный канал для выявления человекопонятных признаков. В последнем этапе мы проводили исследования на многомодальных моделях типа LMM, чтобы исследовать, как SAEs могут обнаруживать взаимосвязи между визуальными и языковыми моделями. ## Результаты Наши эксперименты показали, что SAE-функции имеют сильную семантическую структуру и помогают в улучшении OOD-обнаружения. В моделях визуального понимания мы обнаружили, что SAEs могут восстановить онтологическую структуру внутренних представлений модели. В работе с диффузионными моделями мы разработали автоматический канал для выявления человекопонятных признаков и улучшили контролируемую генерацию изображений. Наконец, в многомодальных моделях типа LMM мы обнаружили, что SAEs могут выявлять общие представления между визуальными и языковыми моделями. Эти результаты показывают, что SAEs имеют высокую потенциальную ценность для улучшения интерпретируемости, общезначимости и управляемости визуальных моделей. ## Значимость Результаты этого исследования открывают путь к новым возможностям в области визуальных моделей, включая vision embedding models, multi-modal LLMs и diffusion models. SAEs могут быть использованы для улучшения интерпретируемости моделей, уве

Annotation:

Sparse Autoencoders (SAEs) have emerged as a popular tool for interpreting the hidden states of large language models (LLMs). By learning to reconstruct activations from a sparse bottleneck layer, SAEs discover interpretable features from the high-dimensional internal representations of LLMs. Despite their popularity with language models, SAEs remain understudied in the visual domain. In this work, we provide an extensive evaluation the representational power of SAEs for vision models using a br...

ID: 2508.11277v1 cs.CV, cs.LG

arXiv PDF

📄 Unified Knowledge Distillation Framework: Fine-Grained Alignment and Geometric Relationship Preservation for Deep Face Recognition

2025-08-19

Авторы:

Durgesh Mishra, Rishabh Uikey

## Контекст Классификация лиц – одна из самых важных задач в области обработки изображений. На устройствах с ограниченными ресурсами, таких как мобильные телефоны или IoT-устройства, требуется оптимизация моделей для эффективного распознавания лиц. Одним из распространенных подходов является Knowledge Distillation (KD), при котором учеником (student) является модель с меньшим размером и сложностью, которая учится от преподавателя (teacher) – более сложной модели. Однако, традиционные методы KD, такие как Raw L2 Feature Distillation и Feature Consistency loss, часто не могут полностью хвататься тонких деталей индивидуальных примеров и сложных отношений между образами. Это приводит к затруднениям в достижении высокой точности на устройствах с ограниченными ресурсами. ## Метод Мы предлагаем Unified Knowledge Distillation Framework, который объединяет два новых подхода к распространенным проблемам при распределении знаний. Первый, **Instance-Level Embedding Distillation**, ориентирован на тонкую характеристику индивидуальных примеров. Он использует динамическую стратегию hard mining для выделения сложных примеров, что позволяет улучшить алгоритм обучения. Другой, **Relation-Based Pairwise Similarity Distillation**, заключается в привлечении отношений между примерами. Он использует механизм memory bank для хранения информации о парах примеров и стратегию sample mining для выделения ключевых отношений. Этот комплексный подход обеспечивает эффективное взаимодействие между отдельными примерами и их отношениями, что приводит к более точному распределению знаний и высокой точности распознавания. ## Результаты Мы проводили эксперименты на нескольких датасетах для распознавания лиц, таких как LFW, CFP-FP и AgeDB-30. Наши результаты показали, что универсальный KD-фреймворк превосходит существующие методы по метрикам точности. Особо заметны улучшения на сложных датасетах, где тонкие детали и отношения между примерами играют ключевую роль. Даже в ситуациях, когда преподаватель модель (teacher) сильнее, тогда ученик (student) может превзойти его, что демонстрирует мощь нашей модели. Эти результаты подтверждают эффективность нашего подхода в рамках распределения знаний для лица. ## Значимость Наш фреймворк может применяться в различных задачах, где необходима эффективная классификация лиц, например, в безопасности, в устройствах для личного идентификации, в системах доступа к данным. Он улучшает точность, сохраняя эффективность, что делает его привлекательным для применения в реальных устройствах. Благодаря взаимодействию между отдельными примерами и их отношениями, наш подход отличается своей глубиной и точностью, что делает его одним из лучших в своем классе. ## Выводы Мы представили новый Unified Knowledge Distillation Framework, который использ

Annotation:

Knowledge Distillation is crucial for optimizing face recognition models for deployment in computationally limited settings, such as edge devices. Traditional KD methods, such as Raw L2 Feature Distillation or Feature Consistency loss, often fail to capture both fine-grained instance-level details and complex relational structures, leading to suboptimal performance. We propose a unified approach that integrates two novel loss functions, Instance-Level Embedding Distillation and Relation-Based Pa...

ID: 2508.11376v1 cs.CV, cs.LG

arXiv PDF

📄 Model Interpretability and Rationale Extraction by Input Mask Optimization

2025-08-19

Авторы:

Marc Brinner, Sina Zarriess

## Контекст Модели на основе нейронных сетей, особенно в области естественного языка и компьютерного зрения, продвигаются с поразительной скоростью. Однако, несмотря на их высокую точность, эти модели часто остаются черными ящиками, которые не дают понятных ответов о причинах своих решений. Это приводит к потребности в разработке методов, которые могут объяснить решения моделей. Более того, нередко необходимо не только объяснить решение, но и извлечь причины, которые стали основой для этого получения. Мы предлагаем новый подход, основанный на маскировании частей входных данных, которые модель считает некритичными для целевого класса. Это достигается с помощью оптимизации градиентов и регуляризационного схемы, которая гарантирует, что маскируемые части данных не только не влияют на решение, но и достаточны для поддержки этого решения. Этот подход позволяет сочетать модельные подходы к моделированию интерпретируемости и выделению причин. ## Метод Предлагаемый подход основывается на маскировании частей входных данных с помощью градиентной оптимизации. Мы используем регуляризационную схему, которая включает в себя три основных условия: существенность, полноту и компактность. Эти условия гарантируют, что исключенные части входных данных не только не влияют на решение модели, но и достаточны для того, чтобы поддержать его. Оптимизация происходит в два этапа: в первом этапе, мы определяем части входных данных, которые не влияют на решение модели; во втором этапе, мы оптимизируем эти части, чтобы они были достаточно информативными для поддержки решения. Этот подход может быть применен как к текстовым, так и к изображениям. ## Результаты Мы проверяли наш подход на текстовых данных и изображениях. Для текстовых данных, мы показали, что наш метод может стабильно выделять конкретные фрагменты текста, которые становятся причиной решения модели. Для изображений, мы получили выделение конкретных областей на изображении, которые становятся ключевыми для корректного распознавания моделью. Мы также проверили наш подход на множестве моделей и задач, показав, что он может быть применен к различным моделям и задачам. ## Значимость Предлагаемый подход может быть применен во многих областях, где необходимо понимание решений моделей. Это могут быть приложения в области естественного языка, компьютерного зрения, медицины и даже финансов. Наш подход имеет очевидные преимущества перед другими методами. Во-первых, он не требует тренировки дополнительных моделей для получения причин, что упрощает процесс. Во-вторых, он может быть применен к различным типам входных данных, что демонстрирует его очень высокую гибкость.

Annotation:

Concurrent to the rapid progress in the development of neural-network based models in areas like natural language processing and computer vision, the need for creating explanations for the predictions of these black-box models has risen steadily. We propose a new method to generate extractive explanations for predictions made by neural networks, that is based on masking parts of the input which the model does not consider to be indicative of the respective class. The masking is done using gradie...

ID: 2508.11388v1 cs.CL, cs.CV, cs.LG

arXiv PDF

1
2
74
75
76
77
78
83
84

Показано 751 - 760 из 835 записей