📚 Саммари научных статей из arXiv

Найдено 277 результатов по запросу 'cs.LG, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SWiFT: Soft-Mask Weight Fine-tuning for Bias Mitigation

2025-08-28

Авторы:

Junyu Yan, Feng Chen, Yuyang Xue, Yuning Du, Konstantinos Vilouras, Sotirios A. Tsaftaris, Steven McDonagh

#### Контекст Современные машинные обучения (ML) часто используются в этически чувствительных областях, таких как здравоохранение, но столкнулись с проблемой биаса в моделях. Биас может привести к несправедливости в результатах, ухудшению общейтичности моделей и, в итоге, к усилению социальных дискриминаций. Борьба с биасами требует эффективных и эффективных алгоритмов, которые могут уменьшить биас без существенного потери точности или требований к ресурсам. #### Метод Мы предлагаем Soft-Mask Weight Fine-Tuning (SWiFT), новую методологию для дебиасинга моделей. SWiFT определяет относительные вклады весов модели в биас и полную диагностическую точность. Это делается с помощью двух этапов: в первой стадии вычисляются вклады каждого параметра модели в биас и точность, а во второй стадии используются разные градиентные потоки для обновления весов, чтобы уменьшить биас, не сильно затрагивая диагностическую точность. SWiFT требует только небольшого внешнего датасета и нескольких эпох для оптимизации, что делает процесс дебиасинга быстрым и эффективным. #### Результаты Мы проверили SWiFT на шести различных датасетах, включая 4 датасета дерматологии и 2 датасета X-рей грудной клетки. Мы измерили уменьшение биаса по трём биас-чувствительным атрибутам: пол, тон кожи и возраст. Исследования показали, что SWiFT существенно уменьшает биас, одновременно сохраняя высокую точность диагностики и улучшая общую обусловленность модели. Эти результаты показали, что SWiFT показывает лучший баланс между биасом и точностью, чем другие существующие методы. #### Значимость SWiFT может использоваться в различных областях, где биас может иметь отрицательное влияние, таких как здравоохранение, финансы и социальные сети. Он предлагает значительные преимущества перед другими методами, такими как более эффективное использование ресурсов, меньший вызов для доступа к оригинальным данным и гибкость в уменьшении биаса без потери точности. Мы считаем, что SWiFT может стать ключевым инструментом для этически безопасного использования ML в сложных реальных ситуациях. #### Выводы Мы представили SWiFT, новую модель для дебиасинга, которая стабильно уменьшает биас модели, сохраняя высокую точность в диагностике. Будущие исследования будут ориентированы на расширение SWiFT для дополнительных биас-чувствительных атрибутов и его применение в различных секторах, включая медицину, финансы и образование.

Annotation:

Recent studies have shown that Machine Learning (ML) models can exhibit bias in real-world scenarios, posing significant challenges in ethically sensitive domains such as healthcare. Such bias can negatively affect model fairness, model generalization abilities and further risks amplifying social discrimination. There is a need to remove biases from trained models. Existing debiasing approaches often necessitate access to original training data and need extensive model retraining; they also typi...

ID: 2508.18826v1 cs.LG, cs.CV

arXiv PDF

📄 C-Flat++: Towards a More Efficient and Powerful Framework for Continual Learning

2025-08-28

Авторы:

Wei Li, Hangjie Yuan, Zixiang Zhao, Yifan Zhu, Aojun Lu, Tao Feng, Yanan Sun

## Контекст Научная область, изучаемая в рамках данной работы, относится к **Continual Learning (CL)** — методу обучения моделей, которые могут учиться постепенно, обрабатывая новые задачи без доступа к предыдущим данным. Эта область имеет практическое значение для применений в реальном мире, где данные поступают потокообразно, и необходимо сохранять знания о прошлых задачах. Основные проблемы в CL — **catastrophic forgetting** (забывание прошлых знаний) и **overfitting to new tasks** (переобучение новым задачам). Наша мотивация заключается в том, чтобы создать эффективный и универсальный подход, который бы сбалансировал эти противоречия. ## Метод Методология, предлагаемая в статье, основывается на идее **sharpness-aware minimization (SAM)**, примененной для улучшения memory retention в CL. Основной инновацией является предложение **C-Flat**, метод, который стремится к уменьшению sharpness (размытости) loss landscape, чтобы поддерживать более стабильные характеристики. Архитектура метода включает в себя: 1. **C-Flat**: Регуляризационный терм, оптимизирующий размытость loss landscape. 2. **C-Flat++**: Улучшенная версия C-Flat, оптимизированная для эффективности и уменьшения on-the-fly вычислительных затрат. C-Flat предлагается как plug-and-play решение, которое может быть легко интегрировано в существующие CL-фреймворки. ## Результаты В экспериментах использовались данные из различных CL-парадигм, включая **class-incremental**, **domain-incremental** и **task-incremental**. Мы сравнивали C-Flat и C-Flat++ с традиционными методами на основе sharpness и flatness. Результаты показали, что **C-Flat++** обеспечивает: - Значительное улучшение в memory retention. - Эффективность в вычислительном времени. - Улучшение accuracy и robustness на разных данных и задачах. Например, в **Permuted MNIST** и **Split CIFAR-100**, C-Flat++ показал значительный выигрыш в F1-score и memory preservation. ## Значимость Имеющийся подход имеет широкие **применения** в области **real-time data processing**, **edge computing** и **autonomous systems**, где необходима стабильность и эффективность обучения. **Преимущества**: - Улучшена memory retention без значительного увеличения computational cost. - Универсальная интеграция с разными CL-методами. **Потенциальное влияние**: Этот подход может расширить границы CL, сделав его более эффективным и применимым в реальных ситуациях. ## Выводы Мы предложили C-Flat, метод, который крайне эффективно решает проблему memory retention в CL. С помощью C-Flat++ мы добились дополнительных улучшений в эффективности. Наши результаты подтверждают эффективность и широкую применимость этого подхода. Будущие исследования будут сфокусированы на расширении C-Flat для более сложных CL-парадигм и его применении в практических системах.

Annotation:

Balancing sensitivity to new tasks and stability for retaining past knowledge is crucial in continual learning (CL). Recently, sharpness-aware minimization has proven effective in transfer learning and has also been adopted in continual learning (CL) to improve memory retention and learning efficiency. However, relying on zeroth-order sharpness alone may favor sharper minima over flatter ones in certain settings, leading to less robust and potentially suboptimal solutions. In this paper, we prop...

ID: 2508.18860v1 cs.LG, cs.CV

arXiv PDF

📄 UM3: Unsupervised Map to Map Matching

2025-08-27

Авторы:

Chaolong Ying, Yinan Zhang, Lei Zhang, Jiazhuang Wang, Shujun Jia, Tianshu Yu

## Контекст В настоящее время map-to-map matching является критической задачей для выравнивания пространственных данных из различных источников. Однако эта задача связана с рядом сложностей: отсутствие подтверждающих данных для связей между узлами, недостаточная количественная информация об узлах и требование высокой масштабируемости. Эти проблемы ограничивают эффективность и точность существующих методов. Целью данной работы является разработка метода, который может быть применен в условиях реальности, особенно в сценариях с большими данными, где возникают вышеперечисленные проблемы. ## Метод Метод, предлагаемый в работе, является неучитывающим тегирование (unsupervised learning). Он не требует данных для обучения, что значительно упрощает применение в сценариях с массовыми пространственными данными. Разработана новая подходящая архитектура, которая включает в себя псевдокоординаты. Эти псевдокоординаты позволяют лучше отражать пространственное распределение узлов в карте и обеспечивают устойчивость к масштабным изменениям. Для того, чтобы наладить баланс между признаковой и геометрической сходственностью, была предложена новая функция потерь с геометрическим согласованием. Особенностью метода является его устойчивость к шуму и неполноте данных, что обеспечивается модулем адаптивного балансировки. Для обработки больших данных разработана последовательность постпроцессинга, включающую сегментацию на плитки с перекрывающимися регионами и методом громадного баллования (majority voting), что обеспечивает корректность границ и эффективность. ## Результаты Проведенные эксперименты показали, что предлагаемый подход показывает значительно более высокую точность по сравнению с текущими методами в сценариях с большими данными и ситуациях с высоким шумом. Данные были протестированы на реальных пространственных задачах, и результаты показали, что метод не только превосходит существующие, но и обладает высокой масштабируемостью и устойчивостью к шуму в данных. ## Значимость Предложенный подход может быть применен в различных областях, где требуется выравнивание пространственных данных, таких как геолокационные системы, геоинформационные системы и анализ движения. Он предоставляет существенное преимущество в масштабируемости, точности и устойчивости к шуму по сравнению с другими методами. Это открывает новые возможности для решения сложных задач в пространственной аналитике и системах навигации. ## Выводы Разработанный подход UM3 представляет собой эффективное и масштабируемое решение для задачи map-to-map matching. Он успешно решает вызовы

Annotation:

Map-to-map matching is a critical task for aligning spatial data across heterogeneous sources, yet it remains challenging due to the lack of ground truth correspondences, sparse node features, and scalability demands. In this paper, we propose an unsupervised graph-based framework that addresses these challenges through three key innovations. First, our method is an unsupervised learning approach that requires no training data, which is crucial for large-scale map data where obtaining labeled tr...

ID: 2508.16874v1 cs.LG, cs.CV

arXiv PDF

📄 Disentangling Polysemantic Neurons with a Null-Calibrated Polysemanticity Index and Causal Patch Interventions

2025-08-27

Авторы:

Manan Gupta, Dhruv Kumar

## Контекст Понимание и интерпретирование работы нейронных сетей, особенно слоев и нейронов, остается значительной проблемой в машинном обучении. Несмотря на высокую точность моделей, их работа часто остается непонятной, что вводит затруднения в механистической интерпретации. Особый интерес представляют "полисемантические" нейроны, которые реагируют на разные, иногда не связанные между собой, признаки. Это ограничивает возможность определить конкретные смыслы или характеристики, которые модели ассоциируют с каждым нейроном. Эта проблема становится важной в задачах механистической интерпретации и моделирования семантических сетей. ## Метод Для адресации этой проблемы предлагается подход, основанный на метрике Polysemanticity Index (PSI), которая меряет степень полисемантичности нейрона. Метод заключается в следующем: 1. **Null-калиброванный полисемантичный индекс (PSI)** – определяет, когда топ-активации нейрона структурированы в семантически отдельные кластеры. 2. **Геометрическая кластеризация (S)** – оценивает качество кластеров, образующихся в пространстве топ-активаций. 3. **Выравнивание с меток (Q)** – говорит о принадлежности кластеров к заданным категориям. 4. **Открытый семантический индекс (D)** – вычисляет отклонение от центральных семантических моделей (CLIP), чтобы измерить отклонение от однозначного смысла. Эти компоненты объединяются в PSI, предоставляя возможность не только оценивать полисемантичность нейрона, но и применять этот индекс в широком круге задач. ## Результаты Используя ResNet-50, обученную на Tiny-ImageNet, авторы провели эксперименты для проверки PSI на определении полисемантических нейронов. Особое внимание уделено сравнению полисемантичности в разных слоях сети, что позволяет выделить тенденцию к более выраженной полисемантичности в поздних слоях. Эксперименты включили: - **Ресемплинг и смену случайных сид** для проверки стабильности PSI. - **Изменение гиперпараметров** для проверки инвариантности результатов. - **Проверка связи с задачами классификации** посредством классификационных текстовых векторов. - **Использование техники causal patch interventions**, позволяющих изучить взаимосвязь между нейронами и активностью в изображениях. На основе этих экспериментов было продемонстрировано, что PSI может успешно выделять полисемантические нейроны и устанавливать связь с их выполняемыми функциями. ## Значимость Предложенный подход имеет значимое значение для нескольких областей: 1. **Механистическая интерпретация** – позволяет лучше понять, как нейроны в нейронных сетях связаны с конкретными смыслами и задача

Annotation:

Neural networks often contain polysemantic neurons that respond to multiple, sometimes unrelated, features, complicating mechanistic interpretability. We introduce the Polysemanticity Index (PSI), a null-calibrated metric that quantifies when a neuron's top activations decompose into semantically distinct clusters. PSI multiplies three independently calibrated components: geometric cluster quality (S), alignment to labeled categories (Q), and open-vocabulary semantic distinctness via CLIP (D). O...

ID: 2508.16950v1 cs.LG, cs.CV

arXiv PDF

📄 Curvature Learning for Generalization of Hyperbolic Neural Networks

2025-08-27

Авторы:

Xiaomeng Fan, Yuwei Wu, Zhi Gao, Mehrtash Harandi, Yunde Jia

## Контекст Hyperbolic neural networks (HNNs) приобрели популярность в области машинного обучения, особенно при работе с данными, имеющими древовидную или хирархическую структуру. Эти сети эффективно используют геометрические свойства гиперболических пространств, характеризующихся отрицательными кривизнами. Однако кривизна, как главный параметр, может сильно влиять на эффективность и качество обучения HNNs. Неправильный выбор кривизны может привести к плохому формированию параметров, ухудшению показателей обучения и возможному ранее достижению стабильного решения. Несмотря на практический успех HNNs, теоретическая основа влияния кривизны на их обучение и генерализацию остается недостаточно изученной. Одной из задач, предъявляемой к HNNs, является минимизация риска ошибки при генерализации. Текущие подходы недостаточно эффективны, и есть необходимость в усовершенствовании. ## Метод Мы предлагаем метод **Curvature Learning for Generalization of Hyperbolic Neural Networks**. Наша методика основывается на разработке критерия генерализации HNNs с учетом кривизны — PAC-Bayesian статистического теоремы. Мы выводим обобщающую баузианскую оценку, подчеркивающую влияние кривизны на сглаживание ландшафта потерь. Это позволяет выявить точки высокой кривизны, которые могут приводить к тому, что сеть не будет сходиться к оптимальному решению. Далее, мы предлагаем метод **Sharpness-Aware Curvature Learning**, в котором используется **метрика scope sharpness**. Это позволяет оптимизировать кривизну и уменьшить потери в локальных минимумах. Мы используем **би-уровневый процесс оптимизации**, в котором первоначальная задача — найти критические точки кривизны. Для этих целей мы применяем **императивную дифференциацию**, что позволяет эффективно решать задачу. Также мы изучаем анализ ошибки приближения и выявляем условия, при которых метод может быть применен. ## Результаты Мы проводили эксперименты на четырёх областях применения: 1) классической классификации данных, 2) обучению с длинными хвостами (long-tailed learning), 3) обучению с неточными данными и 4) обучению с пары-shot обучением. Мы сравнивали полученные результаты с другими методами, такими как **learnable curvature** и **adaptive curvature regularization**. Наши результаты показывают, что **sharpness-aware curvature learning** позволяет повысить показатели генерализации HNNs на этих задачах. Мы также проводили анализ ошибки приближения и проверили надежность нашего метода. В результате, мы доказали, что наша методика эффективна и может быть применена в различных сферах. ## Значимость Наша работа имеет значительные практические применения в следующих областях: - **Нейросети для древовидных данных**: HNNs могут быть использованы для модели

Annotation:

Hyperbolic neural networks (HNNs) have demonstrated notable efficacy in representing real-world data with hierarchical structures via exploiting the geometric properties of hyperbolic spaces characterized by negative curvatures. Curvature plays a crucial role in optimizing HNNs. Inappropriate curvatures may cause HNNs to converge to suboptimal parameters, degrading overall performance. So far, the theoretical foundation of the effect of curvatures on HNNs has not been developed. In this paper, w...

ID: 2508.17232v2 cs.LG, cs.CV, stat.ML

arXiv PDF

📄 ShaLa: Multimodal Shared Latent Space Modelling

2025-08-27

Авторы:

Jiali Cui, Yan-Ying Chen, Yanxia Zhang, Matthew Klenk

## Контекст Область исследований, связанная с мультимодальными технологиями, находится в центре внимания в последние годы. Эти технологии используются для обработки и анализа данных, объединяющих несколько модальностей, таких как текст, изображения, аудио и видео. Несмотря на прогресс в этой области, остаются существенные проблемы. Одной из них является неэффективность в построении общих закономерностей между модальностями, что приводит к потере тонких семантических связей. Такие проблемы ограничивают потенциал мультимодальных приложений в задачах, таких как синтез, классификация и вывод. Мотивация заключается в разработке метода, который мог бы эффективно добывать общие семантические структуры, улучшая качество и точность решений в мультимодальных задачах. ## Метод ShaLa предлагает инновационную модель обучения, основанную на формировании общего многомодального пространства векторов. Методология включает несколько ключевых элементов. Во-первых, ShaLa использует вариационный автоэнкодер (VAE) для эффективного построения общего пространства закономерностей. Во-вторых, в качестве дополнительного улучшения внедрена сложная модель второго этапа, основанная на технологии распространения (diffusion). Эта модель позволяет повысить качество сгенерированных данных. Информационная архитектура построена таким образом, чтобы обеспечить высокую точность в определении общих черт мультимодальных данных, а также сгладить колебания в результатах при синтезе. ## Результаты Эксперименты проводились на различных наборах данных, включающих модальности, такие как изображения, текст и аудио. Метрики, использованные для оценки результатов, включали точность классификации, качество синтеза и сходимость модели. Результаты показали, что ShaLa превосходит современные мультимодальные VAE в ряде аспектов. Она обеспечивает более высокое качество генерируемых данных, повышает точность классификации и улучшает общую сходимость. Эти результаты достигаются благодаря тому, что ShaLa удачно объединяет возможности VAE и дополнительных моделей распространения, что включает в себя как компактность, так и высокую точность синтеза. ## Значимость ShaLa может быть применена в различных областях, включая медицину, развитие обозревателей, анализ текстов и изображений. Особую значимость имеет её возможность обнаруживать и определять общие закономерности в мультимодальных данных, что позволяет улучшить работу моделей в таких задачах, как синтез голоса, генерация текста и изображений. Также ShaLa может повысить качество работы в системах, требующих лучшего понимания мультимодальности

Annotation:

This paper presents a novel generative framework for learning shared latent representations across multimodal data. Many advanced multimodal methods focus on capturing all combinations of modality-specific details across inputs, which can inadvertently obscure the high-level semantic concepts that are shared across modalities. Notably, Multimodal VAEs with low-dimensional latent variables are designed to capture shared representations, enabling various tasks such as joint multimodal synthesis an...

ID: 2508.17376v1 cs.LG, cs.CV

arXiv PDF

📄 Learning to Detect Label Errors by Making Them: A Method for Segmentation and Object Detection Datasets

2025-08-27

Авторы:

Sarina Penquitt, Tobias Riedlinger, Timo Heller, Markus Reischl, Matthias Rottmann

#### Контекст Данные с выборками ошибочных меток (label errors) оказывают негативное влияние на обучение моделей с учителем, приводя к уменьшению качества предсказаний, смещенным результатам бенчмарков и ухудшению общей точности. Несмотря на то что число данных с выборками, используемых в супервизированных задачах, растёт, существует ограниченное количество методов, которые могут эффективно обнаруживать такие ошибки в данных. Для конкретных задач, таких как сегментация изображений или обнаружение объектов, существуют методы, но они не универсальны и не применяют алгоритмы машинного обучения. Таким образом, в данной работе мы стремимся разработать широкой области применимой универсальную модель, которая способна обнаруживать ошибки в метках для объектного детектирования, сегментации изображений и инстансной сегментации. #### Метод Мы предлагаем метод, основанный на обучении с учителем, для обнаружения ошибок в метках по исходным данным. Метод работает следующим образом: для начала мы вручную внедряем различные типы ошибок в метки в исходные данные. Затем, мы формируем оптимальный вектор входа, который содержит изображение, исходные метки и виртуальные метки, созданные на основе внедренных ошибок. Далее, мы обучаем модель с помощью архитектуры на основе подхода Mask R-CNN, чтобы определять расположение ошибок в метках, которые делались в ходе внедрения. Мы проверяем нашу модель на синтетических данных с внедренными ошибками, а также на реальных данных с ошибками в метках. #### Результаты Мы проверили наш метод на нескольких задачах, включающих сегментацию изображений, объектное детектирование и инстансную сегментацию. Мы использовали несколько баз данных, включая Cityscapes, Pascal VOC и COCO. Наши результаты показали, что наш метод превосходит существующие алгоритмы в обнаружении ошибок в метках для всех задач, а также способен обнаруживать реальные ошибки в метках Cityscapes. Мы также выпустили набор данных с 459 реальными ошибками в метках Cityscapes и предоставили бенчмарк для обнаружения реальных ошибок. #### Значимость Метод, предложенный в нашей работе, может быть применён в различных областях, включая автоматизированное вождение, роботизированные системы, обработку изображений и другие приложения супервизированного обучения. Наш метод имеет ключевые преимущества, такие как универсальность, точность и высокая скорость. Мы считаем, что наш подход может существенно повлиять на развитие методов обнаружения ошибок в метках в будущем, и мы планируем продолжить развитие нашей модели, чтобы улучшить её возможности в распознавании реальных ошибок в метках. #### Выводы Мы предлагаем универса

Annotation:

Recently, detection of label errors and improvement of label quality in datasets for supervised learning tasks has become an increasingly important goal in both research and industry. The consequences of incorrectly annotated data include reduced model performance, biased benchmark results, and lower overall accuracy. Current state-of-the-art label error detection methods often focus on a single computer vision task and, consequently, a specific type of dataset, containing, for example, either b...

ID: 2508.17930v1 cs.LG, cs.CV

arXiv PDF

📄 Generative Feature Imputing - A Technique for Error-resilient Semantic Communication

2025-08-27

Авторы:

Jianhao Huang, Qunsong Zeng, Hongyang Du, Kaibin Huang

#### Контекст Область semantic communication (SemCom) набирает важность в рамках шестого поколения (6G) сетей, позволяя эффективно использовать источниковую информацию за счёт извлечения и передачи её смысла с помощью искусственного интеллекта (AI). Однако, внедрение SemCom в цифровые системы сталкивается с проблемами устойчивости к ошибкам трансляции, которые могут исказить семантически важные данные. Эти ошибки требуют усиления усилий по разработке технологий, обеспечивающих достаточную точность и скорость в передаче данных. Наша работа адресует этот вопрос, предлагая новый подход, основанный на технике generative feature imputing. #### Метод Методология разработки состоит из трёх отдельных, но взаимосвязанных техник. Во-первых, мы предлагаем spatial error concentration packetization, метод, который фокусирует ошибки канала на определённых частях данных, упрощая следующие этапы обработки. Во-вторых, мы представляем generative feature imputing, в котором используется diffusion model для эффективного восстановления потерянных фичей. В-третьих, мы разработали semantic-aware power allocation, схему, позволяющую неравномерному защищению пакетов в зависимости от их семантического значения. Эти технологии вместе обеспечивают высокую точность и устойчивость к ошибкам в сетях SemCom. #### Результаты Мы проверили нашу технологию в экспериментах, используя различные данные и сравнив результаты с текущими стандартами, такими как Deep Joint Source-Channel Coding (DJSCC) и JPEG2000. Наши результаты показали, что новый подход обеспечивает значительно более высокую точность в определении смысла и нижу счёт Learned Perceptual Image Patch Similarity (LPIPS) по сравнению с конкурирующими методами. Эти результаты были получены в условиях блочного разрыва канала, что демонстрирует высокую устойчивость нашего подхода. #### Значимость Наша технология может быть использована в различных областях, где требуется высокая точность в передаче смысла, например, в здравоохранении, видеоконференциях, искусственном интеллекте и других AI-задачах. Особые преимущества включают улучшение точности, эффективность в условиях шума и ошибок, а также снижение сложности в трансляции. Мы считаем, что наш подход может стать ключевым элементом в развитии 6G-сетей и AI-based систем, обеспечивая повышенную точность в семантической передачи. #### Выводы Мы доказали, что наша технология generative feature imputing является эффективной и устойчивой к ошибкам в семантической передаче данных. Она предлагает новые возможности для улучшения SemCom в 6G-сетях. Будущие исследования будут нацелены на расширение этого подхода к более сложным сценариям, включая гибридные сети и нейроинформатические мо

Annotation:

Semantic communication (SemCom) has emerged as a promising paradigm for achieving unprecedented communication efficiency in sixth-generation (6G) networks by leveraging artificial intelligence (AI) to extract and transmit the underlying meanings of source data. However, deploying SemCom over digital systems presents new challenges, particularly in ensuring robustness against transmission errors that may distort semantically critical content. To address this issue, this paper proposes a novel fra...

ID: 2508.17957v2 cs.LG, cs.CV

arXiv PDF

📄 Topology Aware Neural Interpolation of Scalar Fields

2025-08-27

Авторы:

Mohamed Kissi, Keanu Sisouk, Joshua A. Levine, Julien Tierny

## Контекст В последние годы возрастает интерес к методам интерполяции временных последовательностей, особенно в архитектурах на основе нейронных сетей. Одним из направлений является интерполяция скалярных полей, которая находит применение в геометрических моделях, визуализации и других областях. Однако существуют сложности, связанные с топологическими особенностями полей, которые могут приводить к ошибкам в интерполированных данных. Наличие только некоторых ключевых кадров (keyframes) для временных последовательностей добавляет дополнительные затруднения, так как требуется выводить данные для промежуточных моментов времени. Необходимость создания метода, который бы учитывал топологические свойства полей при интерполяции, лежит в основе мотивации для данных исследований. ## Метод Метод предлагаемый в статье основывается на нейронной архитектуре, которая обучается на ключевых кадрах временных последовательностей скалярных полей. Алгоритм автоматически выводит отсутствующие данные для промежуточных моментов времени, используя не только информацию о ключевых кадрах, но также и топологические свойства полей, содержащиеся в последовательности. Архитектура имеет входную часть, обученную представлять отношение между временем и скалярным полем, и выходную часть, которая генерирует промежуточные значения. Особенностью является использование топологических потерь, которые влияют на точность интерполяции, особенно в геометрических свойствах. Этот подход позволяет обеспечить качественную интерполяцию даже в условиях неполных входных данных. ## Результаты Результаты экспериментов показывают высокую точность интерполяции скалярных полей в 2D и 3D. Метод был проверен на различных наборах данных, включая временные последовательности скалярных полей, отсутствующие в ключевых кадрах. Он показал лучшие результаты по сравнению с существующими методами в терминах топологической и геометрической точности. Эксперименты также подтвердили высокую скорость работы алгоритма, который может производить интерполяцию немедленно, благодаря единой пропускаемости данных через нейронную сеть. ## Значимость Данный подход может найти применение в таких областях, как визуализация данных, моделирование пространственных полей и динамических систем. Он позволяет повысить точность интерполяции благодаря учету топологических свойств полей. Благодаря низким требованиям к вычислительным ресурсам и моментальной отзывчивости, метод может быть применен в реальном времени, что делает его привлекательным для прикладных задач. ## Выводы Авторы успешно представили метод для топология-ориентиро

Annotation:

This paper presents a neural scheme for the topology-aware interpolation of time-varying scalar fields. Given a time-varying sequence of persistence diagrams, along with a sparse temporal sampling of the corresponding scalar fields, denoted as keyframes, our interpolation approach aims at "inverting" the non-keyframe diagrams to produce plausible estimations of the corresponding, missing data. For this, we rely on a neural architecture which learns the relation from a time value to the correspon...

ID: 2508.17995v1 cs.LG, cs.CV, cs.GR

arXiv PDF

📄 RotaTouille: Rotation Equivariant Deep Learning for Contours

2025-08-26

Авторы:

Odin Hoff Gardaa, Nello Blaser

## Контекст Обработка данных, связанных с замкнутыми плоскими кривыми (контурами), широко распространена в различных научных и практических областях. В компьютерном зрении контуры являются границами объектов, в метеорологии — изолиниями, в механике — орбитальными движениями. Одной из основных проблем при обработке таких данных является необходимость учитывать их геометрические свойства, в частности, их симметрии и последовательность точек. Исследователи стремятся разработать модели, которые бы способствовали эффективной обработке таких данных. В частности, необходимо, чтобы модели были симметричны по отношению к повороту и периодическим сдвигам. Однако, существующие подходы часто не достаточно эффективны или гибки в обработке таких специфичных задач. ## Метод Методология RotaTouille основывается на применении слоев сложных чисел с помощью круговых сверток. Это позволяет достичь эрмитовой гауссовой симметрии, что гарантирует циклическую и вращательную equivariance. Для построения моделей вводятся эквивариантные слои, включая нормализацию, коарсинг и глобальную агрегацию, которые делают модель более работоспособной. Также используется подход, основанный на порядке точек, чтобы учитывать геометрические свойства кривых. Этот подход позволяет лучше учитывать конкретные характеристики контуров, что улучшает точность моделей. ## Результаты В ходе экспериментов были проведены задачи классификации форм, реконструкции контуров и регрессии по данным контуров. Модель RotaTouille показала высокую точность и эффективность в этих задачах. Эксперименты проводились на различных датасетах, включая задачи, затрагивающие изолинии, объектные границы и другие типы контуров. Наилучшие результаты были достигнуты в сравнении с другими подходами, в частности, с подходами, не учитывающими эрмитовой симметрии. Это подтверждает эффективность нового подхода в обработке задач, требующих симметричности по отношению к повороту и периодическим движениям. ## Значимость RotaTouille может быть применена в различных областях, где требуется обработка контуров, таких как компьютерное зрение, методы землеведения, анализ навигационных данных. Основное преимущество заключается в том, что модель гарантирует эрмитовую симметрию, что делает её более гибкой и точной в обработке поворотов и сдвигов. Это позволяет улучшить качество решения задач, связанных с такими данными. Будущие исследования будут направлены на расширение модели и улучшение её производительности, а также на применение модели в новых сферах применения.

Annotation:

Contours or closed planar curves are common in many domains. For example, they appear as object boundaries in computer vision, isolines in meteorology, and the orbits of rotating machinery. In many cases when learning from contour data, planar rotations of the input will result in correspondingly rotated outputs. It is therefore desirable that deep learning models be rotationally equivariant. In addition, contours are typically represented as an ordered sequence of edge points, where the choice ...

ID: 2508.16359v1 cs.LG, cs.CV

arXiv PDF

1
2
22
23
24
25
26
27
28

Показано 231 - 240 из 277 записей