📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TinyML Towards Industry 4.0: Resource-Efficient Process Monitoring of a Milling Machine

2025-08-26

Авторы:

Tim Langer, Matthias Widra, Volkhard Beyer

## Контекст Индустрия 4.0 представляет собой интеллектуальные производства, где интеграция цифровых технологий в производственные процессы позволяет оптимизировать и автоматизировать работу. Одной из проблем этого подхода является мониторинг производственных процессов на устаревших инженерных системах, не предназначенных для подключения к информационно-контрольным системам. Для решения этой проблемы могут быть использованы беспроводные мониторинговые системы. Их развитие значительно поддерживается парадигмой TinyML, которая допускает развертывание машинного обучения на микроконтроллерах с ограниченными ресурсами, что позволяет увеличить эффективность и снизить затраты. Таким образом, TinyML может стать ключевым инструментом для мониторинга производственных процессов в рамках промышленности 4.0. ## Метод В рамках данной работы разработана методология, охватывающая все стадии развития и реализации системы мониторинга производственных процессов. Мы создали новую выборку данных, MillingVibes, с помощью синтеза и анализа вибрационных сигналов, полученных в результате работы обработки металлов на фрезерной машине. Для обучения и тестирования сети использовалась полная циклическая схема из препроцессинга, сжатия и обучения нейронных сетей. Был разработан 8-битный конвертированный CNN-синтезированный модель, который может быть использован для реального времени. Интегрированная система предназначена для реализации в производстве инструмента для мониторинга производственных процессов, с помощью микроконтроллера ARM Cortex M4F. ## Результаты Мы проводили эксперименты, используя данные из MillingVibes, чтобы протестировать реализованную модель. В результате, наша модель подтвердила высокую точность, наблюдая 100.0% для инференса на 15.4 мс и 1.462 мДж в режиме 8-битного сжатия. Эти результаты были достигнуты на ARM Cortex M4F, необходимых для подтверждения того, что модель может быть применена в реальной среде промышленности 4.0. Результаты показали, что мы можем добиться высокого уровня точности и быстродействия в процессе мониторинга с использованием TinyML-парадигмы. ## Значимость Область применения данной работы включает мониторинг производственных процессов в промышленности 4.0, где можно использовать системы мониторинга на основе TinyML для обнаружения проблем с качеством производства. Это предоставляет экономичные преимущества, такие как уменьшение расходов на обслуживание и повышение производительности. Благодаря сжатому моделированию и низким требованиям к ресурсам, модель может быть доступна для развертывания в реальном времени на отдаленных микроконтроллерах. Это открывает перспе

Annotation:

In the context of industry 4.0, long-serving industrial machines can be retrofitted with process monitoring capabilities for future use in a smart factory. One possible approach is the deployment of wireless monitoring systems, which can benefit substantially from the TinyML paradigm. This work presents a complete TinyML flow from dataset generation, to machine learning model development, up to implementation and evaluation of a full preprocessing and classification pipeline on a microcontroller...

ID: 2508.16553v1 cs.LG, cs.CV, cs.ET, cs.SY, eess.SP, eess.SY, I.2.1; I.5.4; C.5.3; C.3

arXiv PDF

📄 Closer to Reality: Practical Semi-Supervised Federated Learning for Foundation Model Adaptation

2025-08-26

Авторы:

Guangyu Sun, Jingtao Li, Weiming Zhuang, Chen Chen, Chen Chen, Lingjuan Lyu

## Контекст Фундаментальные модели (Foundation Models, FMs) обладают выдающимися способностями к обобщению, но их применение к задачам подробного анализа часто требует их адаптации. Эта проблема возникает особенно актуальной при работе с данными, хранящимися в условиях высокой конфиденциальности, например, в сценариях обработки частной информации. Данные такого рода не могут быть переданы в облачные сервисы, что ограничивает возможности адаптации моделей. Для решения этой проблемы возник фреймворк федеративного обучения (Federated Learning, FL), который позволяет обучать модели, не передавая данные с ребровых устройств в облако. Однако, существующие FL-протоколы не учитывают ограничения ребровых устройств, такие как ограниченные вычислительные мощности и нехватка меток для данных. Мы предлагаем стратегию Practical Semi-Supervised Federated Learning (PSSFL), где ребровые устройства работают только с необученными, низкорезольвентными данными, в то время как сервер работает с менее объемными, но меточенными высокорезольвентными данными. ## Метод Мы предлагаем Federated Mixture of Experts (FedMox), новую архитектуру, которая решает проблемы с малой резолюцией и недостатком меток. FedMox использует архитектуру Mixture-of-Experts (MoE), в которой специализированные эксперты обрабатывают разные части компонентов входных данных. Мы также вводим "Spatial Router", который позволяет выравнивать признаки между разными разрешениями, и "Soft-Mixture Strategy", которая стабилизирует обучение в условиях неполного набора меток. Эти техники позволяют уменьшить нагрузку на вычислительные ресурсы ребровых устройств и обеспечить эффективную адаптацию моделей к задачам в PSSFL. ## Результаты Мы проводим эксперименты на реальных данных сцены автоматизированного вождения. Наши результаты показывают, что FedMox позволяет адаптировать фундаментальные модели к новым задачам с минимальными затратами вычислительных мощностей на ребровых устройствах. Мы сравниваем FedMox с другими подходами в сценарии PSSFL и показываем, что он обеспечивает значительное улучшение показателей, таких как точность и скорость обучения, при ограниченных ресурсах на устройствах. Эти результаты указывают на то, что FedMox является эффективным вариантом для адаптации моделей в PSSFL в реальных условиях. ## Значимость Выводы нашего исследования указывают на то, что FedMox может быть применено в сценариях, где необходима адаптация моделей в условиях высокой конфиденциальности и ограниченных вычислительных мощностей. Этот подход может быть применен в области обработки изображений, звука, и других данных, где FL является ключевым средством для соблюдения конфиденциальности. Наша работа создает новые возможности для развития приложений,

Annotation:

Foundation models (FMs) exhibit remarkable generalization but require adaptation to downstream tasks, particularly in privacy-sensitive applications. Due to data privacy regulations, cloud-based FMs cannot directly access private edge data, limiting their adaptation. Federated learning (FL) provides a privacy-aware alternative, but existing FL approaches overlook the constraints imposed by edge devices -- namely, limited computational resources and the scarcity of labeled data. To address these ...

ID: 2508.16568v1 cs.LG, cs.CV

arXiv PDF

📄 Side Effects of Erasing Concepts from Diffusion Models

2025-08-23

Авторы:

Shaswati Saha, Sourajit Saha, Manas Gaur, Tejas Gokhale

#### Контекст Одной из основных проблем в области текст-на-изображение (T2I) генерирующих моделей является сохранение приватности, авторских прав и безопасности пользователей. Эти модели часто используются для генерирования реалистичных изображений по текстовым описаниям. Однако появились требования по управлению содержимым, которые стали причиной развития технологий, позволяющих исключать определенные "нежелательные" концепции из генерируемых изображений. Такие Concept Erasure Techniques (CETs), или технологии исключения концепций, предназначены для удаления ненадлежащих пользователю концепций из моделей. Однако пользователи могут попытаться обходить эти фильтры, используя различные способы, такие как синонимичные описания или связь между признаками. В этом исследовании мы рассмотрим мотивации и риски, связанные с CETs, а также оценим их эффективность и могут ли они быть обхождены. #### Метод В этом работе мы предлагаем Side Effect Evaluation (\see) — новый автоматизированный эвристический подход, который использует данные с хиерархическими и композиционными описаниями объектов и их признаков. Эта подходящая архитектура системы позволяет осуществлять анализ воздействия CETs на три ключевых аспекта: влияние на соседние концепции, обойти фильтр по цели и проникновение атрибутов. Данная оценка проводится с использованием конкретных экспериментов, в которых мы изучаем различные способы обхода CETs. Мы также используем различные технические характеристики, такие как метрики точности и разброса, для измерения эффективности и потенциальных сбоев в CETs. #### Результаты Наши эксперименты показали, что CETs могут быть легко обхождены с использованием связанных классов или подклассов целевых концепций. Мы также обнаружили, что CETs часто имеют нежелательные последствия, такие как увеличение внимания на нежелательных концепциях или разрушение их взаимосвязей. Наша оценка показала, что при удалении концепции могут возникать нежелательные эффекты, такие как значительное снижение качества остальных концепций. Мы также выявили, что CETs могут быть подвержены атакам, связанным с искажением генерируемых изображений. #### Значимость Полученные результаты имеют большое значение в широком диапазоне приложений, включая контроль содержимого, авторские права и безопасность. CETs могут быть применены для оптимизации генерируемых изображений, исключив нежелательные концепции и придав изображениям большую точность. Также, наша методика может быть использована для изучения идентификации и устранения ошибок в генерируемых моде

Annotation:

Concerns about text-to-image (T2I) generative models infringing on privacy, copyright, and safety have led to the development of Concept Erasure Techniques (CETs). The goal of an effective CET is to prohibit the generation of undesired ``target'' concepts specified by the user, while preserving the ability to synthesize high-quality images of the remaining concepts. In this work, we demonstrate that CETs can be easily circumvented and present several side effects of concept erasure. For a ...

ID: 2508.15124v1 cs.LG, cs.CV

arXiv PDF

📄 Probability Density from Latent Diffusion Models for Out-of-Distribution Detection

2025-08-23

Авторы:

Joonas Järve, Karl Kaspar Haavel, Meelis Kull

## Контекст В последние годы машинное обучение получило широкое распространение в различных областях, однако одной из ключевых проблем, мешающих его безопасному применению, является задача выявления данных, отклоняющихся от распределения обучения (out-of-distribution, OOD). Эта задача является существенной для обеспечения безопасности и надежности систем машинного обучения. Оптимальным подходом для OOD-детекции считается использование оценки плотности вероятности (likelihood), так как этот подход теоретически оптимален в случае если данные OOD имеют равномерное распределение. Однако практические исследования показали, что данный подход часто дает неудовлетворительные результаты. В данной работе мы исследуем, собственно, является ли проблемой используемого представления значений (representation space) или отсутствием возможности эффективного выучивания плотности вероятностей. Мы подробно рассматриваем, насколько эффективен этот подход в сравнении с современными методами, а также оцениваем потенциал использования вероятностной модели Diffusion для OOD-детекции. ## Метод Для решения приведенной задачи мы применяем модель Variational Diffusion Model (VDM), которая обучена не на изображениях, как это принято для генеритивных моделей, но на представлении входных данных, полученных от предварительно обученной сети ResNet-18. Таким образом, мы можем оценить, насколько эффективно VDM может выучить плотность вероятности в пространстве характеристик, а не в пиксельном пространстве. Для сравнения результатов используются методы OOD-детекции из набора OpenOOD. Мы также проводим эксперименты с целью проверить, насколько хорошо модель способна выделять данные OOD, используя только значения плотности вероятности. Это позволяет нам оценить, насколько хорошо модель справляется с задачей OOD-детекции в рамках представления высокого уровня (high-level representation). ## Результаты Результаты экспериментов показывают, что использование VDM в пространстве высокого уровня характеристик позволяет достичь приемлемой точности OOD-детекции, при этом в некоторых случаях превосходя современные методы, работающие в пиксельном пространстве. Мы также наблюдаем, что VDM способна хорошо оценивать плотность вероятности для OOD-данных, но наблюдаются изъяны в представлении, которые могут приводить к некоторым ошибкам в детекции. Мы также сравниваем VDM с несколькими современными OOD-детекторами и показываем, что наши результаты в некоторых случаях существенно превосходят состояние технологий, что демонстрирует потенциал VDM в области OOD-детекции. ## Значимость Полученные результаты имеют важное значение для дальнейшего развития технологий OOD-детекции. Мы пока

Annotation:

Despite rapid advances in AI, safety remains the main bottleneck to deploying machine-learning systems. A critical safety component is out-of-distribution detection: given an input, decide whether it comes from the same distribution as the training data. In generative models, the most natural OOD score is the data likelihood. Actually, under the assumption of uniformly distributed OOD data, the likelihood is even the optimal OOD detector, as we show in this work. However, earlier work reported t...

ID: 2508.15737v1 cs.LG, cs.CV

arXiv PDF

📄 RISE: Enhancing VLM Image Annotation with Self-Supervised Reasoning

2025-08-22

Авторы:

Suhang Hu, Wei Hu, Yuhang Su, Fan Zhang

#################### ## Контекст #################### Визуально-языковые модели (Vision-Language Models, VLMs) сталкиваются с трудностями при решении сложных задач аннотации изображений, таких как классификация эмоций, контекстно-зависимая распознавание объектов и семантический анализ. Эти задачи требуют высокого уровня сложного рассуждения и понимания. Несмотря на прогресс в области машинного обучения, существующие подходы, такие как Standard Supervised Fine-Tuning (SFT), оптимизируются только для достижения высокого качества аннотации, не учитывая обоснования решений. Visual Reinforcement Fine-Tuning (Visual-RFT), в свою очередь, страдает от неконсистентности Chains of Thought (CoTs) из-за отсутствия хорошо проверенных CoTs в процессе пре-тренировки. Многие попытки создать прозрачные и обоснованные модели столкнулись с проблемами в масштабировании и качестве применения. Наша модель RISE (Reason-Inspire-Strengthen-Expertise) предлагает совершенно новую архитектуру, которая способна расширять возможности VLMs в выполнении сложных контекст-зависимых задач с использованием новых, высококачественных цепей рассуждений. #################### ## Метод #################### Методология RISE состоит из двух основных этапов. В первом этапе, **Reason**, используется замкнутый цикл "аннотация-рассуждение-аннотация", основанный на reinforcement learning. Здесь происходит формирование цепей рассуждений (CoTs), которые анализируют изображения, выводят логические обоснования и возвращают итоговую аннотацию. Важной особенностью является то, что предложенные CoTs проверяются на возможность восстановить оригинальные аннотации без непосредственного доступа к исходным данным. Это позволяет достичь высокого уровня корректности и логической консистентности. Во втором этапе, **Inspire and Strengthen**, выбирается наилучшая часть CoTs, прошедшая предыдущий эксперимент, и используется для подтвреждения модели в процессе supervised fine-tuning. Далее используется reinforcement fine-tuning для дальнейшего усовершенствования модели, улучшая ясность и точность в процессе рассуждений. #################### ## Результаты #################### Мы тестировали модель RISE на сложных и простых задачах аннотации изображений, используя модель Qwen2-VL-2B. Результаты показали, что RISE-trained Qwen2-VL-2B существенно превосходит SFT и Visual-RFT в точности, устойчивости и качестве вывода. Эксперименты проводились на различных датасетах, включая задачи классификации эмоций, контекстно-зависимого распознавания объектов и семантического анализа. Например, в задаче классификации эмоций RISE показал увеличение точности более чем на 10% по сравнению с базовыми моделями. Помимо этого, RISE способен формировать понятные и логически корректные обоснования, что делает модель более интерпретируемой и надежной в с

Annotation:

Vision-Language Models (VLMs) struggle with complex image annotation tasks, such as emotion classification and context-driven object detection, which demand sophisticated reasoning. Standard Supervised Fine-Tuning (SFT) focuses solely on annotation outcomes, ignoring underlying rationales, while Visual Reinforcement Fine-Tuning (Visual-RFT) produces inconsistent Chains of Thought (CoTs) due to the absence of high-quality, verified CoTs during pre-training. We introduce RISE (Reason-Inspire-Stren...

ID: 2508.13229v1 cs.LG, cs.CV

arXiv PDF

📄 Disentanglement in T-space for Faster and Distributed Training of Diffusion Models with Fewer Latent-states

2025-08-22

Авторы:

Samarth Gupta, Raghudeep Gadde, Rui Chen, Aleix M. Martinez

#### Контекст Общим горизонтом исследований является развитие методов подавления влияния шума при обучении моделей на основе размытия. Несмотря на то, что размытие является необходимым элементом в генерирующих моделях, традиционно для достижения высокого качества обучения необходимо прибегать к значительному применению шумовых слоев, что приводит к значительному росту объёма данных и времени обучения. Настоящая работа посвящена оптимизации этого процесса, с целью сократить затраты ресурсов и улучшить производительность моделей. #### Метод Методология предлагаемой работы основывается на внедрении дисегментированного подхода в T-space. Авторы выстраивают модель, в которой необходимость в многочисленных временных шагах устраняется благодаря тщательной выборке шумового распределения. Для достижения целей с использованием минимального количества шагов обучения разработан механизм полного дисегментирования в T-space. Модель построена на принципе композиции отдельно обученных моделей, каждая из которых обучается с использованием отдельного шага размытия. Это позволяет сократить затраты на ресурсы и распределить обучение в отдельных подсистемах. #### Результаты Работа представляет экспериментальные данные, подтверждающие эффективность предлагаемого подхода. Модель, построенная на принципе дисегментированного обучения, продемонстрировала 4–6 раз быстреее сходимость по сравнению с традиционными методами. Эти результаты подтверждаются для различных метрик качества и на двух различных датасетах. Таким образом, предлагаемый подход сочетает в себе качественное генерирование и принципы распределённого обучения. #### Значимость Предлагаемый подход имеет широкие области применения, в том числе в области генерирующих моделей, где требуется эффективность, высокая производительность и мгновенная реакция на изменения в данных. Основные преимущества включают сокращение времени обучения, экономию ресурсов и улучшение качества генерируемых изображений. Работа также подчеркивает возможность распространения этого подхода на различные сценарии, включая системы с активной загрузкой и распределённые модели. #### Выводы Предлагаемый подход состоятельно продвигает границы возможностей моделей размытия, доказывая возможность достичь высокого качества генерации с минимальным количеством временных шагов. Результаты экспериментов показали, что этот подход может быть применён для ускорения процесса обучения и распределения модели на несколько подсистем. Будущие исследования будут фокусироваться на оптимизации дисегментированного подхода и рассмотрении более сложных сценариев применения.

Annotation:

We challenge a fundamental assumption of diffusion models, namely, that a large number of latent-states or time-steps is required for training so that the reverse generative process is close to a Gaussian. We first show that with careful selection of a noise schedule, diffusion models trained over a small number of latent states (i.e. $T \sim 32$) match the performance of models trained over a much large number of latent states ($T \sim 1,000$). Second, we push this limit (on the minimum number ...

ID: 2508.14413v1 cs.LG, cs.CV

arXiv PDF

📄 Understanding Data Influence with Differential Approximation

2025-08-22

Авторы:

Haoru Tan, Sitong Wu, Xiuzhe Wu, Wang Wang, Bo Zhao, Zeke Xie, Gui-Song Xia, Xiaojuan Qi

## Контекст Обработка данных является ключевым фактором в развитии искусственного интеллекта. Аккуратное измерение и анализ данных необходимы для эффективного обучения моделей и повышения качества их применения. Однако существующие инструменты для анализа данных часто недостаточно точны и становятся неэффективными в некоторых сценариях. Например, многие из них исходят из некорректных предположений, таких как, что функция потерь в нейронных сетях является конвексной. Такая проблема затрудняет реализацию этих методов на практике. Мы предлагаем новую модель Diff-In для точного оценки влияния данных, которая устраняет эти ограничения и демонстрирует высокую точность и масштабируемость. ## Метод Мы предлагаем новую формулу для аппроксимации влияния данных, которая основывается на суммировании различий влияния между соседними шагами обучения нейронной сети. Этот подход, мы назвали Diff-In. На каждом шаге обучения мы формулируем влияние каждого данного примера как сумма всех изменений его влияния на модель. Чтобы повысить точность аппроксимации, мы применяем второй порядок аппроксимации, который учитывает вторичные зависимости в данных. Несмотря на то, что метод Diff-In является второго порядка, его вычислительная сложность остается примерно такой же, как у методов первого порядка, что делает его эффективным и масштабируемым. Для вычисления второго порядка мы используем недорогую аппроксимацию, основанную на разностях первых производных. ## Результаты Мы проверяли Diff-In на нескольких широко используемых наборах данных и задачах, связанных с обработкой данных. Наши теоретические исследования показали, что Diff-In оказывается более точным в сравнении с другими методами оценки влияния данных. Эксперименты показали, что Diff-In выполняет оценку влияния данных быстрее и точнее, чем существующие методы, даже при работе с очень большими наборами данных. Например, в задаче удаления данных из обучающего набора, метод Diff-In демонстрирует более точную оценку влияния данных, чем существующие подходы. Также, нами проверено, что Diff-In может масштабироваться до миллионов данных, что делает его применимым в задачах визуального и варьирующегося анализа данных. ## Значимость Метод Diff-In может быть применен в различных областях, где важно точно оценить влияние данных, например в принятии решений в области машинного обучения, в обработке данных видео и текста. Он позволяет улучшить качество и эффективность обучения моделей, а также повысить способность обработки больших наборов данных. Это может привести к значительным экономиям в ресурсах и повышению качества моделей, используемых в ре

Annotation:

Data plays a pivotal role in the groundbreaking advancements in artificial intelligence. The quantitative analysis of data significantly contributes to model training, enhancing both the efficiency and quality of data utilization. However, existing data analysis tools often lag in accuracy. For instance, many of these tools even assume that the loss function of neural networks is convex. These limitations make it challenging to implement current methods effectively. In this paper, we introduce a...

ID: 2508.14648v1 cs.LG, cs.CV

arXiv PDF

📄 Squeezed Diffusion Models

2025-08-22

Авторы:

Jyotirmai Singh, Samar Khanna, James Burgess

## Контекст Современные диффузионные модели генерируют изображения с помощью последовательной процедуры добавления шума и обратного декодирования. Однако эти модели обычно применяют изотропный гауссовский шум, не учитывая природу данных. Это может привести к потере информации и неэффективности. Например, в квантовой механике сжатые квантовые состояния (squeezed states) распределяют неопределенность вдоль определенных направлений, что увеличивает чувствительность системы к определенным величинам. Мотивированы этими принципами, авторы предложили **Squeezed Diffusion Models (SDM)**, которые структурируют шум в зависимости от природы обучающих данных, с целью повысить качество генерируемых изображений. ## Метод SDM используют ансамбль из двух модификаций диффузионных моделей. **Heisenberg diffusion model** (HDM) масштабирует шум вдоль основного направления (при помощи коэффициента сжатия $\lambda$) и применяет пропорциональный откат на пространстве ортогональном этому направлению. Другая модификация, **Standard SDM**, применяет только коэффициент сжатия $\lambda$ вдоль основного направления, не применяя откат на пространстве ортогональном. Эти модели могут использоваться в генерировании изображений, добавляя сжатый шум в каждой эпохе тренировки. Эксперименты проводились на CIFAR-10/100 и CelebA-64, сравнивая результаты с использованием метрик FID (Frechet Inception Distance) и precision-recall frontier. ## Результаты Результаты экспериментов показали, что **SDM** может повысить FID на CIFAR-10/100 и CelebA-64, сравнению с базовыми диффузионными моделями. На CIFAR-10, например, FID снизился с 3,9 до 3,4 при использовании HDM. Также выяснилось, что **antisqueezing** (увеличение дисперсии вдоль основного направления) может положительно сказаться на качестве генерируемых изображений, повысив recall без снижения precision. Полученные результаты показывают, что данные-ориентированный шум может значительно улучшить качество моделей, не требуя изменений архитектуры. ## Значимость SDM могут быть применены в различных областях, где требуется высококачественное генерирование данных, таких как: - **Визуальная генерация** (например, изображения, текста, звука). - **Медицинские изображения** (генерирование изображений с помощью медицинских данных). - **Геометрические данные** (генерирование трёхмерных моделей или сетках поверхности). - **Квантовые вычисления** (моделирование сжатых квантовых состояний). SDM предоставляют значительные преимущества в отношении качества генерируемых изображений, гибкости и простоте, что может повлиять на развитие глубокого обучения и квантовых технологий. ## Выводы В этой работе бы

Annotation:

Diffusion models typically inject isotropic Gaussian noise, disregarding structure in the data. Motivated by the way quantum squeezed states redistribute uncertainty according to the Heisenberg uncertainty principle, we introduce Squeezed Diffusion Models (SDM), which scale noise anisotropically along the principal component of the training distribution. As squeezing enhances the signal-to-noise ratio in physics, we hypothesize that scaling noise in a data-dependent manner can better assist diff...

ID: 2508.14871v1 cs.LG, cs.CV

arXiv PDF

📄 Hierarchy-Consistent Learning and Adaptive Loss Balancing for Hierarchical Multi-Label Classification

2025-08-21

Авторы:

Ruobing Jiang, Mengzhe Liu, Haobing Liu, Yanwei Yu

## Контекст Hierarchical Multi-Label Classification (HMC) является ключевым заданием в области многоклассовой классификации, где каждый объект может принадлежать нескольким классам, организованным в иерархическую структуру. Однако это задание связано с рядом сложностей. Например, сохранение семантической целостности, а также учет иерархической структуры при оптимизации модели, представляют собой вызов для традиционных подходов. Более того, Multi-Task Learning (MTL), который часто используется в HMC, сталкивается с проблемой неочевидного весового оптимизации задач. Эти проблемы мотивируют развитие эффективных методов, которые могут обеспечить иерархическую целостность и эффективное управление задачами. ## Метод Предлагаемый подход, HCAL (Hierarchical Contrastive Adaptive Loss), является интеграцией нескольких ключевых компонентов. Он включает в себя **прототипный контрастирующий аспект**, который стремится моделировать иерархическую структуру с помощью прототипов классов. Это позволяет не только связать родительские и дочерние классы, но также сделать агрегацию черт с детей к родителям. Другой ключевой аспект — **адаптивный механизм оценки задач**, который анализирует скорость сходимости каждой задачи и назначает веса в соответствии с ней, чтобы избежать "одно-сильное-много-слабого" биаса в MTL. Кроме того, **механизм погрешности прототипа** был создан, чтобы расширить границы решений, повысив модельную прочность. Наконец, была предложена метрика **Hierarchical Violation Rate (HVR)** для точного оценивания иерархической целостности и удовлетворения точности. ## Результаты Эксперименты проводились на трех различных датасетах, включая cifar-100, nus-wide и imb-lt-a. Результаты показывают, что HCAL превосходит базовые модели по классификационной точности и снижению HVR. Например, на датасете cifar-100 HCAL демонстрирует увеличение точности классификации на 3% по сравнению с основными подходами. Эти результаты подтверждают эффективность метода в обеспечении иерархической целостности и решении проблемы оптимизации задач в HMC. ## Значимость Предложенный подход имеет широкие применения в решении задач классификации, где структура классов имеет значение, таких как распознавание образов, текстовое моделирование, и даже данные в области медицины. Достоинства HCAL включают более точное обучение, высокую семантическую целостность и эффективное управление задачами. Будущие исследования могут использовать этот подход, чтобы расширить его на другие задачи, такие как регрессия или динамические системы, где иерархическая структура

Annotation:

Hierarchical Multi-Label Classification (HMC) faces critical challenges in maintaining structural consistency and balancing loss weighting in Multi-Task Learning (MTL). In order to address these issues, we propose a classifier called HCAL based on MTL integrated with prototype contrastive learning and adaptive task-weighting mechanisms. The most significant advantage of our classifier is semantic consistency including both prototype with explicitly modeling label and feature aggregation from chi...

ID: 2508.13452v1 cs.LG, cs.CV

arXiv PDF

📄 A Comprehensive Re-Evaluation of Biometric Modality Properties in the Modern Era

2025-08-21

Авторы:

Rouqaiah Al-Refai, Pankaja Priya Ramasamy, Ragini Ramesh, Patricia Arias-Cabarcos, Philipp Terhörst

## Контекст Системы аутентификации становятся все более зависимыми от биометрических методов для обеспечения быстроты и точности в проверке пользователей. Однако существует недостаток современных фреймворков для оценки соответствия биометрических модальностей конкретным задачам. Обзорная таблица, опубликованная в 1998 году, устарела и не учитывает новые технологии и угрозы. Данная работа стремится пересмотреть оценку биометрических модальностей, используя экспертные оценки и анализ данных, чтобы уточнить их соответствие современным требованиям. ## Метод Работа основывается на экспертном опросе, в котором участвовали 24 специалиста по биометрии. Они оценили биометрические модальности по свойствам, таким как точность, скорость, удобство и безопасность. Данные были собраны и проанализированы с использованием статистических методов для выявления тенденций и согласованности оценочных результатов. Также проводился сравнительный анализ этих оценок с уровнем неопределенности данных из 55 биометрических наборов. ## Результаты Эксперты пересмотрели и оценили свойства различных биометрических модальностей. Например, лицовые распознаватели получили повышенные оценки благодаря улучшениям в технологиях. Однако отпечатки пальцев получили более низкие оценки из-за возрастающих угроз и атак. Экспертное мнение показало высокую согласованность, что подтверждает надежность результатов. Общий анализ показал, что новые технологии могут повысить эффективность определенных модальностей, но также создают новые угрозы для других. ## Значимость Результаты имеют практическое значение для разработки и оценки систем аутентификации. Они включают новые рекомендации для выбора биометрических модальностей, оптимизированных под конкретные приложения. Эта работа также облегчает внедрение новых технологий и избавление от устаревших. Области применения включают государственные системы, финансовые организации и цифровые платформы. ## Выводы Основные достижения: пересмотренные оценки биометрических модальностей, выявленные тенденции и угрозы, а также разработанные рекомендации. Будущие исследования будут фокусироваться на развитии методов, учитывающих влияние новых технологий на биометрические системы, а также на создании универсальных фреймворков для оценки их свойств.

Annotation:

The rapid advancement of authentication systems and their increasing reliance on biometrics for faster and more accurate user verification experience, highlight the critical need for a reliable framework to evaluate the suitability of biometric modalities for specific applications. Currently, the most widely known evaluation framework is a comparative table from 1998, which no longer adequately captures recent technological developments or emerging vulnerabilities in biometric systems. To addres...

ID: 2508.13874v1 cs.LG, cs.CV

arXiv PDF

1
2
23
24
25
26
27
28

Показано 241 - 250 из 277 записей