ProtoN: Prototype Node Graph Neural Network for Unconstrained Multi-Impression Ear Recognition

2508.04381v1 cs.CV, cs.AI 2025-08-09
Авторы:

Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta

Резюме на русском

## КОНТЕКСТ И ПРОБЛЕМАТИКА Отпечатки ушей являются уникальным и стабильным биометрическим признаком, который может быть использован для контактного распознавания личности. Однако, несмотря на их потенциал, их эффективность ограничена несколькими факторами. Во-первых, существует недостаток аннотированных данных, что существенно ограничивает возможности обучения точных моделей распознавания. Во-вторых, высокая внутриклассовая изменчивость (intra-class variability) — это типичная проблема, которая возникает из-за того, что разные фотографии одного и того же уха могут значительно отличаться в своей форме, освещении и угле обзора. Традиционные методы распознавания ушей обычно обрабатывают каждый отпечаток уха по отдельности, что не позволяет эффективно захватывать согласованные и дискриминативные (разделяющие классы) представления. Эта проблема усугубляется в сценариях «несколько выстрелов» (англ. multi-shot), когда необходимо обработать несколько изображений одного уха для повышения точности распознавания. Другой важной проблемой является то, что существующие методы недостаточно эффективны в ситуациях, когда доступно ограниченное количество данных, что характерно для некоторых приложений, таких как распознавание личности в условиях ограниченных ресурсов. Чтобы решить эти проблемы, необходимо разработать метод, который может эффективно обрабатывать несколько изображений уха, сохраняя при этом консистентность и различимость между разными классами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод под названием ProtoN (Prototype Node Graph Neural Network) для распознавания ушей в условиях нескольких изображений (multi-impression). Основная идея заключается в использовании графовой структуры, где каждое изображение уха представлено как узел в графе, а также используется так называемый "прототипный узел" (prototype node), который представляет собой общий эмбеддинг (вложение) для всех изображений одного уха. Эти узлы обрабатываются с помощью специально разработанного слоя графовой нейронной сети, называемого Prototype Graph Neural Network (PGNN). PGNN состоит из двух путей обработки: один для обработки узлов, соответствующих изображениям ушей, и другой для обработки прототипных узлов. Этот двунаправленный механизм обмена информацией (dual-path message-passing mechanism) позволяет улучшить качество представлений как отдельных изображений, так и прототипного узла. Для повышения дискриминативности (разделяющей способности), PGNN использует стратегию выравнивания прототипов между графами (cross-graph prototype alignment). Это позволяет улучшить компактность внутриклассовых представлений и поддерживать разделение между классами. Дополнительно, в методе используется гибридная функция потерь (hybrid loss function), которая балансирует между эпизодической и глобальной классификацией, что позволяет улучшить структуру пространства эмбеддингов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода ProtoN проведены эксперименты на пяти различных бенчмарк-наборах данных ушей. Результаты показывают, что ProtoN достигает высокой точности распознавания, с максимальной Rank-1 точностью распознавания до 99.60% и низким значением Equal Error Rate (EER) всего 0.025. Эти результаты означают, что ProtoN эффективен в решении задачи распознавания ушей в условиях ограниченных данных, что является важной чертой для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ProtoN может быть применен в различных областях, где необходимо распознавание личности на основе биометрических данных, в том числе в системах безопасности, контроля доступа или в приложениях розничной торговли. Благодаря тому, что метод эффективен в условиях ограниченных данных, он может быть полезен в ситуациях, где невозможно собрать большой набор данных для обучения. Это может быть особенно полезно в сфере биометрии, где часто требуется обработка данных с высокой внутриклассовой изменчивостью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ProtoN представляет собой новый подход к распознаванию ушей, который позволяет эффективно обрабатывать несколько изображений одного уха и достигает высоких результатов в условиях ограниченных данных. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры PGNN, а также на расширение его применимости к другим биометрическим модалитетам, таким как лицо или почерк. Также может быть интересно исследовать возможность применения этого метода в реальном времени для более быстрого и точного распознавания.

Abstract

Ear biometrics offer a stable and contactless modality for identity recognition, yet their effectiveness remains limited by the scarcity of annotated data and significant intra-class variability. Existing methods typically extract identity features from individual impressions in isolation, restricting their ability to capture consistent and discriminative representations. To overcome these limitations, a few-shot learning framework, ProtoN, is proposed to jointly process multiple impressions of an identity using a graph-based approach. Each impression is represented as a node in a class-specific graph, alongside a learnable prototype node that encodes identity-level information. This graph is processed by a Prototype Graph Neural Network (PGNN) layer, specifically designed to refine both impression and prototype representations through a dual-path message-passing mechanism. To further enhance discriminative power, the PGNN incorporates a cross-graph prototype alignment strategy that improves class separability by enforcing intra-class compactness while maintaining inter-class distinction. Additionally, a hybrid loss function is employed to balance episodic and global classification objectives, thereby improving the overall structure of the embedding space. Extensive experiments on five benchmark ear datasets demonstrate that ProtoN achieves state-of-the-art performance, with Rank-1 identification accuracy of up to 99.60% and an Equal Error Rate (EER) as low as 0.025, showing the effectiveness for few-shot ear recognition under limited data conditions.

Ссылки и действия