📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Forward-Only Continual Learning

2025-09-05

Авторы:

Jiao Chen, Jiayi He, Fangfang Chen, Zuohong Lv, Jianhua Tang

Здесь приведено максимально подробное резюме структурированной научной статьи в формате Markdown. # Forward-Only Continual Learning ## Контекст Проблема **catastrophic forgetting** остается центральной задачей в области **continual learning (CL)**, особенно при использовании предварительно обученных моделей. Существующие подходы, такие как замороженные веса слоя фиксирования и тонкое тренирование небольшого числа параметров, все равно полагаются на **бэкпропаграцию** и **градиентное оптимизационное решение**. Это делает их ресурсоемкими и менее пригодными для реальных **ресурсозависимых приложений**, таких как **сенсорные центры обработки данных** и **мультимедийные системы**. Наша мотивация заключается в разработке **forward-only, gradient-free** метода CL для эффективного обновления модели с предварительным обучением. ## Метод Мы предлагаем **FoRo** — новый CL-подход с **forward-only** и **gradient-free** оптимизацией. Основные компоненты FoRo: 1. **Простая стратегия промптинга**, вставляющая **промотпы** во входном слое модели. Эти промотпы относительно небольшие по размеру и оптимизируются с помощью **CMA-ES** (Covariance Matrix Adaptation Evolution Strategy) — метода оптимизации ключевых значений без использования градиентов. 2. **Новая механика хранения знаний**, основанная на **nonlinear random projection** и **recursive least squares**. Эта механика позволяет избежать градиентного оптимизационного цикла, необходимого для обучения с тонкими моделями. **FoRo** не изменяет предварительно обученную модель, а хранит знания в удобных для инкрементального обновления матрицах. Это позволяет откладывать вызов больших объемов данных, уменьшая ресурсоемкость и улучшая скорость работы. ## Результаты Мы провели эксперименты на нескольких датасетах, включая **ImageNet** и **miniImageNet**. Результаты показывают, что **FoRo** по сравнению с другими CL-методами демонстрирует: - **Снижение average forgetting (забывания предыдущего знания)**. - **Повышение accuracy (точности)**. - Уменьшение **memory usage** (потребления памяти) и **run time** (времени работы модели). В нашем подходе **FoRo** выполняет forward-only propagation, что делает его эффективным для **real-time applications**, таких как **обработка изображений** и **видеоанализ**. ## Значимость **FoRo** может быть применен в **real-world multimedia applications**, таких как **сенсорные центры обработки данных**, **компьютерное зрение** и **реальном времени анализе видео**. Он обеспечивает: - **Эффективность** при малом потреблении ресурсов. - **Efficiency** в скорости работы и памяти. - **High knowledge retention**, что позволяет продолжительно использовать модель в сценариях неограниченного знания. Эти преимущества делают **FoRo** привлекательным для **real-time CL** в широких классах **мультимедийных** и **интеллектуальных приложений**. ## Выводы

Annotation:

Catastrophic forgetting remains a central challenge in continual learning (CL) with pre-trained models. While existing approaches typically freeze the backbone and fine-tune a small number of parameters to mitigate forgetting, they still rely on iterative error backpropagation and gradient-based optimization, which can be computationally intensive and less suitable for resource-constrained environments. To address this, we propose FoRo, a forward-only, gradient-free continual learning method. Fo...

ID: 2509.01533v1 cs.LG, cs.CV

arXiv PDF

📄 BM-CL: Bias Mitigation through the lens of Continual Learning

2025-09-05

Авторы:

Lucas Mansilla, Rodrigo Echeveste, Camila Gonzalez, Diego H. Milone, Enzo Ferrante

## Контекст Биазы в машинном обучении представляют собой серьезные проблемы, особенно когда модели усиливают различия, которые затрагивают неблагополучные группы. Традиционные методы биаз-митигации часто приводят к "эффекту горизонтального уровня" (leveling-down effect), когда улучшение результатов неблагополучных групп сопрягается с ухудшением производительности для благополучных групп. Эти методы часто не учитывают взаимосвязь между различными группами, что приводит к потере знаний, которые могут быть полезными для всех. Биазы сложностью усиливаются в условиях непрерывного изменения данных, где требуется моделировать различные условия справедливости во время обучения. BM-CL предлагает новый подход, который использует принципы непрерывного обучения для решения этой проблемы. ## Метод BM-CL предлагает переосмысление биаз-митигации как непрерывного обучения. Методология основывается на идее, что модель должна не только оптимизировать производительность, но и приобретать новые знания, не удаляя старые. Технически, BM-CL использует методы, такие как Learning without Forgetting и Elastic Weight Consolidation, для сохранения знаний, которые полезны для благополучных групп, при этом улучшая производительность для неблагополучных. Архитектура фреймворка включает в себя нейронные сети с несколькими задачами, где каждая задача соответствует тому условию справедливости, чтобы модель могла учиться непрерывно, увеличивая справедливость без потери знаний. ## Результаты Эксперименты проводились на синтетических и реальных объектах данных, характеризующих различные биазы. Результаты показали, что BM-CL эффективно уменьшает биазы, не приводя к ухудшению результатов для благополучных групп. Эксперименты показали, что модель может не только улучшить результаты для неблагополучных групп, но и сохранить значимые результаты для благополучных, что делает ее предпочтительнее других методов. Также было проведено сравнение с другими подходами, включая Learning without Forgetting, что продемонстрировало преимущества BM-CL в том, что она может быть эффективнее в обучении с учетом нескольких групп. ## Значимость BM-CL может быть применена во многих областях, где существуют различные биазы, таких как финансы, здравоохранение, и социальные сети. Она предлагает преимущества, такие как повышение справедливости в решениях, сохранение знаний и более эффективное моделирование непрерывных смен в данных. Этот подход может иметь значительное влияние на развитие систем, которые не только эксплуатируются без учета биаз, но и обеспечивают более справедливую работу в типичной ситуации. ## Выводы

Annotation:

Biases in machine learning pose significant challenges, particularly when models amplify disparities that affect disadvantaged groups. Traditional bias mitigation techniques often lead to a {\itshape leveling-down effect}, whereby improving outcomes of disadvantaged groups comes at the expense of reduced performance for advantaged groups. This study introduces Bias Mitigation through Continual Learning (BM-CL), a novel framework that leverages the principles of continual learning to address this...

ID: 2509.01730v1 cs.LG, cs.CV

arXiv PDF

📄 Scale, Don't Fine-tune: Guiding Multimodal LLMs for Efficient Visual Place Recognition at Test-Time

2025-09-05

Авторы:

Jintao Cheng, Weibin Li, Jiehao Luo, Xiaoyu Tang, Zhijian He, Jin Wu, Yao Zou, Wei Zhang

#### Контекст Visual Place Recognition (VPR) — это ключевая задача в области робототехники и визуального периции, нацеленная на точное определение местоположения на основе визуальных образов. Она нашла применение в различных сферах, включая локализацию и навигацию в интеллектуальных транспортных системах, видеосервисы и многое другое. Однако существующие подходы сталкиваются с рядом проблем, включая высокую сложность вычислений, ограниченную трансферируемость моделей и неэффективность в работе с переменными средами. Эти ограничения становятся критичными при работе с Vision Foundation Models (VFMs) и Multimodal Large Language Models (MLLMs), которые, несмотря на свои преимущества в семантическом понимании, не всегда справляются с этими задачами. Это приводит к необходимости разработки эффективных, гибких и стоимостно-эффективных решений. #### Метод Мы предлагаем новую методологию, основанную на Test-Time Scaling (TTS), которая использует способности MLLMs к визуально-языковому выражению. Наш подход основывается на специально спроектированных пробуждающихся управляемых процессах, которые эффективно используют пространственно-временную архитектуру. Мы используем структурированные приглашения (structured prompts), которые генерируют выходные данные в формате JSON, контролирующие длину и точность результатов. Благодаря Uncertainty-Aware Self-Consistency (UASC), наша система может адаптироваться в реальном времени, не требуя дополнительных тренировочных процессов. В результате мы достигаем высокой гибкости и эффективности, не требуя переобучения и поддерживая высокую производительность в различных условиях. #### Результаты Мы проводили ряд экспериментов, используя различные данные, включая стандартные наборы данных для VPR. Выполнено сравнение нашего подхода с имеющимися методами, включая VFMs и MLLMs, которые требуют традиционных стадий обучения и оценки. Наши результаты показали, что TTS-фреймворк с UASC обеспечивает значительные улучшения в кросс-доменной производительности, показывая до 210-кратного увеличение эффективности вычислений. Это достигается благодаря исключению дополнительных затрат на обучение и использованию тестируемых моделей напрямую в режиме онлайн. #### Значимость Наш подход имеет широкие области применения, включая видеоаналитику, локализацию и системы автоматизированного управления. Он предоставляет значительные преимущества по сравнению с традиционными методами, включая высокую стоимость, более высокую точность и значительное уменьшение вычислительных затрат. Этот подход может быть применен в различных сценариях, включая роботов-пилотов, мобильные системы и видео

Annotation:

Visual Place Recognition (VPR) has evolved from handcrafted descriptors to deep learning approaches, yet significant challenges remain. Current approaches, including Vision Foundation Models (VFMs) and Multimodal Large Language Models (MLLMs), enhance semantic understanding but suffer from high computational overhead and limited cross-domain transferability when fine-tuned. To address these limitations, we propose a novel zero-shot framework employing Test-Time Scaling (TTS) that leverages MLLMs...

ID: 2509.02129v1 cs.LG, cs.CV

arXiv PDF

📄 Activation Subspaces for Out-of-Distribution Detection

2025-09-02

Авторы:

Barış Zöngür, Robin Hesse, Stefan Roth

#### Контекст В глубоких сетях, используемых в реальных приложениях, важно уверенно различать входные данные, принадлежащие набору обучения (in-distribution, ID), от тех, которые выходят за его пределы (out-of-distribution, OOD). Несовершенство существующих OOD-методов заключается в том, что они недостаточно эффективно различают входные данные в зависимости от степени расхождения от тренировочного распределения. Это приводит к ошибкам в критических задачах, таких как диагностика, безопасность и мониторинг. Наша мотивация заключается в разработке метода, который эффективно применяется в разных режимах распределения, обеспечивая высокую точность и универсальность. #### Метод Мы предлагаем Activation Subspaces (ActSub), новый подход к OOD-детекции, основанный на разложении модели по сингулярным значениям весов классификационного слоя. Это декомпозиция активаций модели на два подпространства: "игнорируемые" (insignificant subspace) и "значимые" (decisive subspace). Игнорируемое подпространство, которое практически не влияет на классификацию, оказывается эффективным в распознавании OOD-данных, особенно при больших сдвигах распределений (Far-OOD). Значимое подпространство, в свою очередь, полезно для ситуаций с небольшими сдвигами (Near-OOD). Мы используем эти наблюдения для создания комбинированного подхода, объединяющего в себе две стратегии, что позволяет улучшить жидкость и точность OOD-детекции. #### Результаты Мы провести испытания на нескольких стандартных OOD-benchmarkах, включая CIFAR-10, CIFAR-100, ImageNet, и TinyImageNet. Метод ActSub показал лучшие результаты в сравнении с современными OOD-детекционными методами, существенно повысив точность и жидкость OOD-отделения. Мы показали, что игнорируемое подпространство значительно повышает эффективность OOD-отделения в Far-OOD, тогда как значимое подпространство демонстрирует лучшие результаты в Near-OOD. Эти результаты подтверждают гибкость ActSub и его высокую эффективность в различных сценариях. #### Значимость Метод ActSub может быть применен в различных критических приложениях, таких как мониторинг здоровья, сетевая безопасность, и анализ данных в реальном времени. Он обеспечивает улучшенную точность и универсальность в OOD-отделении, что может существенно повысить надежность и безопасность систем. Этот подход также может быть расширен для других задач, таких как гиперпараметрические анализы и поиск нежелательных признаков в данных. #### Выводы Мы предлагаем новый подход к OOD-детекции, который эффективно разделяет OOD и ID-данные в различных ситуациях распределения. Наши результаты показывают, что ActSub превосходит существующ

Annotation:

To ensure the reliability of deep models in real-world applications, out-of-distribution (OOD) detection methods aim to distinguish samples close to the training distribution (in-distribution, ID) from those farther away (OOD). In this work, we propose a novel OOD detection method that utilizes singular value decomposition of the weight matrix of the classification head to decompose the model's activations into decisive and insignificant components, which contribute maximally, respectively minim...

ID: 2508.21695v1 cs.LG, cs.CV

arXiv PDF

📄 Learning Unified Representations from Heterogeneous Data for Robust Heart Rate Modeling

2025-09-02

Авторы:

Peng Yang, Zhengdong Huang, Zicheng Xie, Wentao Tian, Jingyu Liu, Lunhong Dong

## Контекст Heart rate prediction является ключевым инструментом для персонализированного мониторинга здоровья и фитнеса. Однако, деплой этого процесса в реальном мире сталкивается с значительными вызовами, возникающими из-за **data heterogeneity**. Эта проблема может быть классифицирована на две основные категории: **source heterogeneity**, вызванная разнообразием устройств с разными функциональными характеристиками, и **user heterogeneity**, отражающей различия в физиологических характеристиках и поведении различных индивидуумов и активностей. Традиционные методы, либо не учитывают device-specific information, либо не могут совершенно учитывать user-specific differences, что приводит к ухудшению результатов в real-world сценариях. Наша цель — разработать фреймворк, который учитывает эти сложности и обеспечивает согласованную работу predicition моделей в условиях data heterogeneity. ## Метод Мы предлагаем полностью новый подход к обработке data heterogeneity, основанный на **representation learning** и **contrastive learning**. Для обеспечения robustness к source heterogeneity мы вводим **random feature dropout**, который тренирует модель на разных подмножествах признаков, улучшая ее generalization. Для управления user heterogeneity мы разработали **time-aware attention module**, который моделирует длительные физиологические тренды. Для обеспечения strong discriminative power мы применяем **contrastive learning objective**, который позволяет оптимизировать representation space. Наша модель спроектирована для работы в real-world условиях, а для этого мы создали новую benchmark dataset, **ParroTao**, которая отражает разнообразие источников и участников. ## Результаты Мы проводили эксперименты на двух датасетах: **ParroTao** и **FitRec**. Модель показала **17% и 15% высокой accuracy** в сравнении с existing baselines на этих датасетах. Более того, мы провели анализ люминальных representations, которые показали высокую discriminatory power. Мы также проверили практическую эффективность нашей модели на downstream task, подтвердив ее реальную ценность. ## Значимость Наша модель может быть применена в **personalized health monitoring**, **fitness trackers**, **telemedicine** и других областях, где accuracy heart rate prediction критически важна. Основные преимущества заключаются в: (1) **robustness к data heterogeneity**, (2) **strong discriminatory power** и (3) **practical applicability** в real-world сценариях. Будущие исследования будут направлены на улучшение модели для других physiological signals и расширение ее applicability в различных domain tasks. ## Выводы Мы предложили новый подход к обработке data heterogeneity в heart rate prediction. Наша модель показала высокую точность и robustness в real-world условиях, получив высокую accuracy на ParroTao и FitRec. Это подтверждает ценность нашего подхода для real-world applications. Дальнейшие исследования будут сфокусированы на расширении модели для других physiological signals и ее применении в различных domain tasks.

Annotation:

Heart rate prediction is vital for personalized health monitoring and fitness, while it frequently faces a critical challenge when deploying in real-world: data heterogeneity. We classify it in two key dimensions: source heterogeneity from fragmented device markets with varying feature sets, and user heterogeneity reflecting distinct physiological patterns across individuals and activities. Existing methods either discard device-specific information, or fail to model user-specific differences, l...

ID: 2508.21785v1 cs.LG, cs.CV

arXiv PDF

📄 Masked Autoencoders for Ultrasound Signals: Robust Representation Learning for Downstream Applications

2025-08-29

Авторы:

Immanuel Roßteutscher, Klaus S. Drese, Thorsten Uphues

## Контекст Маскированные аутоэнкодеры (MAE) — это модели, использующие маскирование выборки входных данных для эффективного обучения выражений. Они доказали свою эффективность в задачах анализа изображений и других областях. Однако в анализе одномерных сигналов, таких как ультразвуковые сигналы, использование MAE в самостоятельном обучении представительности (self-supervised representation learning) пока мало исследовано. Эти сигналы широко применяются в таких областях, как неразрушающий контроль (NDT) и мониторинг здоровья строительных конструкций (SHM), где данные часто необъемлемы, необработанные и относительно немногочисленны. Однако подготовка меток для таких сигналов требует больших усилий и знаний, что снижает эффективность применения супервизированных методов. Изучение возможностей MAE для обучения представительности ультразвуковых сигналов может существенно повысить производительность задач, таких как классификация источника времени перемещения (ToF). ## Метод Мы использовали модель Vision Transformer (ViT) в качестве основы для MAE, чтобы обучать представление ультразвуковых сигналов без меток. На вход подавались синтетические 1D-сигналы, полученные симулятором ультразвука. Маскирование производилось случайным образом для части сигнала, чтобы модель могла предсказать отсутствующие фрагменты. Мы изучали три ключевых параметра: размер модели, размер патча и процент маскированых данных. Для оценки эффективности выражений, полученных за счет маскирования, проводились эксперименты на задаче классификации ToF. Мы также сравнивали результаты с моделями, обучавшимися с нуля, и существующими методами на основе CNN. ## Результаты Исследования показали, что представления, полученные с помощью MAE, демонстрируют значительные выигрыши в производительности по сравнению с моделями, обученными с нуля, и CNN-основанными алгоритмами. Модели с самостоятельным обучением представления показали результаты, которые лучше конкурируют с лучшими методами, оптимизированными для задачи классификации ToF. Мы также обнаружили, что синтетические данные, использованные в обучении, позволяют модели проявлять лучшую трансфертивность при работе с реальными сигналами по сравнению с моделями, обученными исключительно на реальных данных. Эффективность модели зависит от подобранных параметров: размер модели, размер патча и процент маскированных данных. Мы обнаружили, что увеличение модели и маскированного процента улучшает качество представления в задаче классификации ToF. ## Значимость Наши результаты открывают новые возможности для обучения представления ультразвуковых сигналов в самостоятельном реж

Annotation:

We investigated the adaptation and performance of Masked Autoencoders (MAEs) with Vision Transformer (ViT) architectures for self-supervised representation learning on one-dimensional (1D) ultrasound signals. Although MAEs have demonstrated significant success in computer vision and other domains, their use for 1D signal analysis, especially for raw ultrasound data, remains largely unexplored. Ultrasound signals are vital in industrial applications such as non-destructive testing (NDT) and struc...

ID: 2508.20622v1 cs.LG, cs.CV

arXiv PDF

📄 Efficient Multi-Source Knowledge Transfer by Model Merging

2025-08-29

Авторы:

Marcin Osial, Bartosz Wójcik, Bartosz Zieliński, Sebastian Cygert

## Контекст Проблема transfer learning заключается в том, что она обычно ограничивается использованием одного источника знаний. Однако в мире AI существует множество моделей с разным опытом, которые могут быть полезны для решения новых задач. Использование знаний из нескольких источников может повысить точность и уменьшить расходы на обучение моделей. Существующие подходы к многоисточниковому transfer learning либо неэффективны, либо недостаточно точны в извлечении и объединении знаний. Это приводит к невысокому качеству решений и высоким затратам на реализацию. Наша модель предлагает решение этих проблем, обеспечивая эффективность, точность и масштабируемость в многоисточниковом transfer learning. ## Метод Мы предлагаем использовать Singular Value Decomposition (SVD) для разложения каждой модели на элементарные компоненты. Эти компоненты представляют собой самые важные свойства модели. Далее, мы проводим адаптивную фильтрацию, чтобы выбрать только самые важные элементы. Это позволяет уменьшить размер модели, не теряя в качестве. Затем мы объединяем эти выбранные компоненты из нескольких моделей в единую структуру. На последнем этапе мы применяем fine-tuning только главным составляющим этой структуры, чтобы приспособить модель к конкретной задаче. Этот подход обеспечивает эффективность и точность в transfer learning. ## Результаты Мы проверили нашу модель на нескольких задачах, используя различные источники знаний. Результаты показали, что наш подход эффективно объединяет знания из нескольких моделей, избавляясь от лишнего шума. В результате мы получили модель, которая не только эффективнее, но и более точна в решении новых задач. Мы также проверили устойчивость нашего подхода к различным формам помех и изменений в данных. Результаты показали, что наша модель не только лучше, но и более надежна в разных условиях. ## Значимость Наш подход может быть применен во многих областях, где требуется быстрое и эффективное обучение моделей. Он позволяет использовать несколько источников знаний, чтобы повысить точность и общий качество модели. Это дает большой потенциал для улучшения технологий в сферах, таких как медицина, интернет-технологии, а также для решения задач, где требуется быстрая адаптация моделей к новым задачам. Мы также отмечаем, что наш подход требует меньше ресурсов и обеспечивает более точное и быстрое решение задач. ## Выводы Мы представили эффективный подход к многоисточниковому transfer learning, который объединяет знания из нескольких моделей, обеспечивая высокую точность и эффективность. Мы продемонстрировали, что наша модель может быть применена в различных областях и является надежной в различных условиях. Буду

Annotation:

While transfer learning is an advantageous strategy, it overlooks the opportunity to leverage knowledge from numerous available models online. Addressing this multi-source transfer learning problem is a promising path to boost adaptability and cut re-training costs. However, existing approaches are inherently coarse-grained, lacking the necessary precision for granular knowledge extraction and the aggregation efficiency required to fuse knowledge from either a large number of source models or th...

ID: 2508.19353v1 cs.LG, cs.CV

arXiv PDF

📄 NM-Hebb: Coupling Local Hebbian Plasticity with Metric Learning for More Accurate and Interpretable CNNs

2025-08-29

Авторы:

Davorin Miličević, Ratko Grbić

#### Контекст Дилемма высокой точности и низкой интерпретируемости глубоких сверточных нейронных сетей (Deep Convolutional Neural Networks, CNNs) остается значимой проблемой в искусственном интеллекте. Несмотря на их великолепные результаты в задачах классификации, CNNs часто терпят от применению глобальных, градиентно-ориентированных методов обучения. Эти методы приводят к переобучению, неэффективному использованию фильтров и ухудшению интерпретируемости модели. Эти проблемы являются мотивацией для разработки новых подходов, которые объединяют локальные механизмы с дистанционно-акцентированным вниманием. #### Метод Методология NM-Hebb представляет собой двухфазный подход. **Фаза 1** базируется на стандартном супервизированном обучении, но включает дополнительные механизмы: (i) **Hebbian regulariser**, который стимулирует спатспейсные зависимости между активациями и фильтрами, и (ii) **neuromodulator**, который эластично консолидирует параметры без замораживания модели. **Фаза 2**, в свою очередь, использует **pairwise metric learning** для точечного уточнения позиционирования классов в embedding-пространстве. Такой подход объединяет локальные Hebbian-механизмы с глобальными метрическими аспектами для достижения высокой точности и интерпретируемости. #### Результаты Исследования проводились на датасетах CIFAR-10, CIFAR-100 и TinyImageNet с помощью пяти различных архитектур (ResNet-18, VGG-11, MobileNet-v2, EfficientNet-V2 и DenseNet-121). Результаты показали, что NM-Hebb опережает базовые модели и другие методы по точности (до +10.0 pp на CIFAR-10) и Normalised Mutual Information (до +0.15). Эмпирические анализы подтверждают, что модели NM-Hebb продуцируют более структурированные и интерпретируемые фильтры, что улучшает их применимость в задачах обнаружения. #### Значимость NM-Hebb предлагает практическое значение, особенно для ресурс-ограниченных и безопасности-критичных систем. Интеграция Hebbian-механизмов с метрическим обучением делает модели более эффективными в обнаружении и классификации. Эта архитектура может применяться в медицине, транспорте и прочих областях, где точность и модельная прозрачность критичны. #### Выводы NM-Hebb достигает согласованных улучшений в точности по сравнению с базовыми моделями и другими подходами. Он раскрывает перспективы для использования Hebbian-методов в сочетании с метрическим learning для улучшения точности и интерпретируемости CNNs. Будущие исследования будут направлены на расширение NM-Hebb для более крупных датасетов и дополнительных типов задач, таких как задачи регрессии и рекомендательные системы.

Annotation:

Deep Convolutional Neural Networks (CNNs) achieve high accuracy but often rely on purely global, gradient-based optimisation, which can lead to overfitting, redundant filters, and reduced interpretability. To address these limitations, we propose NM-Hebb, a two-phase training framework that integrates neuro-inspired local plasticity with distance-aware supervision. Phase 1 extends standard supervised training by jointly optimising a cross-entropy objective with two biologically inspired mechanis...

ID: 2508.19896v1 cs.LG, cs.CV, I.2.6; I.5.4

arXiv PDF

📄 Uncertainty Awareness on Unsupervised Domain Adaptation for Time Series Data

2025-08-28

Авторы:

Weide Liu, Xiaoyang Zhong, Lu Wang, Jingwen Hou, Yuemei Luo, Jiebin Yan, Yuming Fang

## Контекст Во временных рядах часто возникает ситуация, когда тренировочные и тестовые данные имеют различные распределения, что создает серьезные проблемы для методов классификации и регрессии. Эта проблема называется distribution shift и является одной из основных трудностей в области обработки временных рядов. Дополнительно, большинство существующих методов классификации временных рядов не учитывают неопределенность при оценке достоверности своих прогнозов. Это приводит к увеличению риска ошибок, особенно в критических задачах, где надежная оценка достоверности ключевой. Наша мотивация заключается в разработке метода, который бы учитывал неопределенность во временных рядах и улучшал их общую производительность в задачах независимого доступа к меткам. ## Метод Мы предлагаем структуру, которая сочетает в себе многомасштабную архитектуру с MSA и механизм неопределенности на основе очевидной логики (evidential learning). Архитектура MSA принимает смешанные входные данные, которые представляют собой сверточные признаки различного размера. Это позволяет модели лучше учитывать различные шаблоны во временных рядах. Для улучшения оценки достоверности мы вводим механизм, основанный на Dirichlet-распределении, который позволяет модели не только прогнозировать целевые значения, но также оценивать уверенность в этих прогнозах. Этот подход использует Dirichlet-приор для меток целевого класса, чтобы улучшить точность и уверенность прогнозов. ## Результаты Мы проверили наш подход на нескольких стандартных датасетах временных рядов, включая UCR/UEA-таск. Модель показала более высокую точность и уверенность в прогнозах по сравнению с традиционными методами. Например, на датасете UCR/UEA-таск, наша модель показала уменьшение ошибки на 10% по сравнению с текущими рекордными результатами. Также, наша модель имеет значительно нижую Expected Calibration Error (ECE), что указывает на то, что модель оценивает достоверность своих прогнозов более точно. Эти результаты показывают, что наш подход эффективен в обработке временных рядов с distribution shift. ## Значимость Наш подход может использоваться в различных приложениях, где временные ряды имеют различные распределения между тренировочными и тестовыми данными, такие как диагностика медицинских условий, прогнозирование продаж и мониторинг работы систем. Этот подход может сократить ошибки, увеличить достоверность прогнозов и повысить уверенность в решениях. Это привносит значительные преимущества в критических областях, таких как медицина и финансы. Будущие исследования будут направлены на улучшение многомасштабной архитектуры и расширение мех

Annotation:

Unsupervised domain adaptation methods seek to generalize effectively on unlabeled test data, especially when encountering the common challenge in time series data that distribution shifts occur between training and testing datasets. In this paper, we propose incorporating multi-scale feature extraction and uncertainty estimation to improve the model's generalization and robustness across domains. Our approach begins with a multi-scale mixed input architecture that captures features at different...

ID: 2508.18630v1 cs.LG, cs.CV

arXiv PDF

📄 Natural Image Classification via Quasi-Cyclic Graph Ensembles and Random-Bond Ising Models at the Nishimori Temperature

2025-08-28

Авторы:

V. S. Usatyuk, D. A. Sapoznikov, S. I. Egorov

## Контекст Многоклассовая классификация изображений является ключевым заданием в области зрения компьютеров и искусственного интеллекта. Однако существуют трудности в создании эффективных методов классификации, которые были бы как моделью, так и в плане вычислительного времени. Одной из проблем является необходимость создания методов, которые могут обрабатывать высокомерных данных с минимальным потреблением ресурсов. Другой проблемой является необходимость создания моделей, которые могут обеспечить высокую точность и классующую структуру в высокомерных пространствах. Эти мотивации побудили авторов разработать универсальный подход, который объединяет статистическую физику, теорию кодирования и геометрическую топологию для решения этих проблем. ## Метод Предложенный подход основан на использовании многоленточных квазициклических графов типа LDPC с категорическими спинами, которые формируют Рандом-Бонд Исинг-модель (Random-Bond Ising Model, RBIM). Эти графы используются для представления высокомерных функциональных пространств, извлеченных из сетки MobileNetV2. Графы строятся таким образом, чтобы имитировать физические свойства, такие как интеракции спинов, что позволяет использовать методы статистической физики для классификации. Алгоритм работает в условиях, когда наименьший собственный элемент матрицы Бетта-Хессиан возвращается к нулю, что максимизирует способность классификации классов. Для оптимизации, авторы предложили быстрый алгоритм для оценки условия Nishimori, который эффективно решает задачу интерполяции и использует коррекцию Ньютона. ## Результаты В ходе экспериментов были использованы данные из наборов ImageNet-10 и ImageNet-100. Авторы провели классификацию изображений, используя графы типа MET-QC-LDPC, которые были сжаты до 32 или 64-х разрядных функциональных пространств. Несмотря на огромную сжатие данных, точность классификации составляла 98,7% на ImageNet-10 и 82,7% на ImageNet-100. Это показывает, что топологические принципы, использованные в дизайне графов, позволяют поддерживать высокую точность при минимальном потреблении ресурсов. ## Значимость Разработанный подход имеет широкие применения в области зрения компьютеров и искусственного интеллекта. Он может использоваться в различных приложениях, таких как распознавание образов, видеоанализ, анализ сегментации изображений. Преимуществами этого подхода является высокая точность, высокая эффективность процесса обучения и минимальное потребление вычислительных ресурсов. Это значительно снижает время обучения и расчета, что является ключевым п

Annotation:

We present a unified framework combining statistical physics, coding theory, and algebraic topology for efficient multi-class image classification. High-dimensional feature vectors from a frozen MobileNetV2 backbone are interpreted as spins on a sparse Multi-Edge Type quasi-cyclic LDPC (MET-QC-LDPC) graph, forming a Random-Bond Ising Model (RBIM). We operate this RBIM at its Nishimori temperature, $\beta_N$, where the smallest eigenvalue of the Bethe-Hessian matrix vanishes, maximizing class sep...

ID: 2508.18717v1 cs.LG, cs.CV, cs.IT, math.AT, math.IT

arXiv PDF

1
2
21
22
23
24
25
27
28

Показано 221 - 230 из 277 записей