📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mattia Litrico, Mario Valerio Giuffrida, Sebastiano Battiato, Devis Tuia

#### Контекст Исследование рассматривает проблему неуправляемого доменного адаптирования (Unsupervised Domain Adaptation, UDA), когда стандартные методы испытывают трудности при сложных доменных сдвигах, таких как географические или стилистические различия. Эти сдвиги приводят к разным природам фонов и объектов в исходном и целевом домене, что существенно снижает эффективность адаптированных моделей. Учитывая, что языковая модификация показала устойчивость к таким сложным сдвигам, предлагается новый подход, использующий языковую модель для улучшения адаптации визуальных моделей. #### Метод Предлагаемый подход, **TRUST (Trustworthy Text-Guided Unsupervised Domain Adaptation)**, строится на основе использования текстовых описаний (капшенов) для обучения визуальных моделей. Метод создает псевдометки для целевых образов на основе текстовых описаний, используя модель генеративного языкового моделирования. Была разработана новая стратегия оценки неопределенности, основанная на скоррелированной нормированной схожести образов и текстов (CLIP), чтобы оценивать качество псевдометок и применять весовое корректирование для уменьшения влияния неверных меток. Для дальнейшего улучшения модели визуального распознавания введена многомодальная soft-contrastive loss, которая выравнивает пространства визуальных и текстовых признаков, используя текстовые описания для управления противоположностью визуальных представлений. #### Результаты На тренировочных данных DomainNet и GeoNet показаны результаты, показывающие превосходство над существующими методами доменного адаптирования. За счет использования текстовых описаний и многомодальной стратегии уменьшается частота ошибок в псевдометках и увеличивается устойчивость модели к сложным доменным сдвигам. Результаты на GeoNet, где происходят сильные сдвиги в фоновом и объектном виде, показывают, что TRUST превосходит предыдущие решения, устанавливая новый стандарт в тестировании UDA. #### Значимость Предложенный подход может быть применен в сценариях, где существуют сильные доменные сдвиги, такие как между синтетическими и реальными данными, между различными географическими областями или стилями. Он позволяет улучшить точность и надежность визуальных моделей в сложных со сдвигами реальности. Была доказана высокая эффективность приложений текстов в дополнение к визуальным моделям для более надежного доменного адаптирования. #### Выводы Результаты показывают, что TRUST значительно улучшает эффективность адаптации визуальных моделей при сложных доменных сдвигах. Будущие исследования будут направлены на улучшение многомодальной стратегии и расширение применений для других типов доменных сдви
Annotation:
Recent unsupervised domain adaptation (UDA) methods have shown great success in addressing classical domain shifts (e.g., synthetic-to-real), but they still suffer under complex shifts (e.g. geographical shift), where both the background and object appearances differ significantly across domains. Prior works showed that the language modality can help in the adaptation process, exhibiting more robustness to such complex shifts. In this paper, we introduce TRUST, a novel UDA approach that exploits...
ID: 2508.06452v1 cs.CV, cs.LG
Авторы:

Stanislas Ducotterd, Michael Unser

#### Контекст В области обработки изображений и реконструкции изображений существует необходимость в мощных и эффективных моделях, которые могут решать вызовы, связанные с поиском признаков, восстановлением и декодированием. Одним из ключевых задач для этих приложений является разработка эффективных моделей признаков, которые могут оптимально описывать структуру изображений. Традиционно, такие модели строятся на основе нейронных сетей, но они часто требуют больших объемов данных и ресурсов для обучения. В этой работе предлагается новый подход, Multivariate Fields of Experts, который предназначен для улучшения точности и надежности решений в обработке изображений. #### Метод Модель Multivariate Fields of Experts основывается на создании нового класса потенциальных функций, которые используют **Moreau envelopes** $\ell_\infty$-нормы. Это позволяет интегрировать многомерные зависимости в модель, что делает ее более сложной, но также более точной для представления сложных структур изображений. Метод включает в себя несколько стадий: 1. **Построение потенциальных функций**: Используется Moreau envelope, чтобы добиться более разреженных и точных представлений. 2. **Многомерное моделирование**: Новая архитектура включает в себя несколько моделей, которые работают совместно для обеспечения более глубокого и точного представления изображений. 3. **Оптимизация**: Используется адаптивная оптимизация для обучения модели, чтобы минимизировать ошибки реконструкции. Эта архитектура позволяет модели Multivariate Fields of Experts оптимально использовать все доступные сведения о изображении, улучшая эффективность и точность решений. #### Результаты Результаты экспериментов показывают, что Multivariate Fields of Experts эффективно работает на различных задачах: - **Image Denoising**: Модель достигла лучшей точности по сравнению с базовыми подходами, удаляя шум более точно и сохраняя достоверность деталей. - **Image Deblurring**: Модель восстановила разрешенное изображение, избавившись от размытия, при этом сохранив размеры и формы объектов. - **Compressed-Sensing MRI и CT**: В области магнитной резонансной зондки и вычислительной томографии метод показал высокую точность в восстановлении изображений, сократив время расчетов и требуя меньше ресурсов. По сравнению с другими методами, в том числе действительно нейронными моделями, Multivariate Fields of Experts показала скорость работы и эффективность, особенно при малом количестве данных для обучения. #### Значимость Модель Multivariate Fields of Experts обладает широкими областями применения: - **Медицинская импровизация**: Улучшение точности восстановления изображений в медицинских сканерах. - **Реконструкция изображений**: Улучшение качества изображений в ситуациях, где данные ограничен
Annotation:
We introduce the multivariate fields of experts, a new framework for the learning of image priors. Our model generalizes existing fields of experts methods by incorporating multivariate potential functions constructed via Moreau envelopes of the $\ell_\infty$-norm. We demonstrate the effectiveness of our proposal across a range of inverse problems that include image denoising, deblurring, compressed-sensing magnetic-resonance imaging, and computed tomography. The proposed approach outperforms co...
ID: 2508.06490v1 eess.IV, cs.CV, cs.LG, eess.SP
Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Область исследования, связанная с визуальным распознаванием и искусственным интеллектом, находится в центре внимания в последние годы из-за появления мощных моделей семантического визуального понимания. Однако, несмотря на развитие этих моделей, повышение качества взаимодействия с объектами в симуляционных средах остается вызовом. Обычно, агенты в таких средах сталкиваются с трудностями в распознавании и корректном взаимодействии с объектами из-за ограниченности их представления объектов. Мотивацией для данного исследования является повышение эффективности взаимодействия агента с объектами в симуляционной среде, чтобы позволить им выполнять более сложные задачи. ## Метод Разработанная методология включает в себя интеграцию двух ключевых компонентов: **Segment Anything Model (SAM)** и **YOLOv5** в качестве моделей визуального представления, а также **Proximal Policy Optimization (PPO)** в качестве агента для принятия решений. SAM и YOLOv5 используются для точного распознавания и сегментации объектов в симуляционной среде AI2-THOR. PPO, в свою очередь, оптимизирует поведение агента во время обучения с подкреплением. Основной архитектурой является комбинация этих моделей в одной среде, что позволяет агенту не только распознавать объекты, но и принимать решения о действиях на основе визуальных сигналов. ## Результаты На основе предложенной модели проведены эксперименты в четырех различных индорных кухонных средах. Результаты показали существенные улучшения по сравнению с базовым агентом, не использующим расширенное визуальное представление. Агент, использующий предложенную модель, показал 68% выше средней накопленной награды, 52,5% повышение успешности взаимодействия с объектами и 33% увеличение эффективности навигации. Эти показатели указывают на то, что интеграция визуальных моделей с RL может значительно повысить качество взаимодействия с объектами в симуляционных средах. ## Значимость Предложенный подход имеет широкие применения в сфере робототехники и симуляционных сред, где необходимо точное взаимодействие с объектами. Одним из преимуществ является улучшенная точность распознавания объектов и увеличение эффективности действий в среде. Это может привести к высокой точности и надежности в автоматизированных системах, например, в системах для сервисных роботов, которые должны решать задачи в различных условиях. Будущие исследования могут быть направлены на улучшение моделей визуального понимания и их интеграцию с другими методами задач RL. ## Выводы Предложенный подход, интегрирующий визуальные модели с RL, достиг зна
Annotation:
This paper presents a novel approach that integrates vision foundation models with reinforcement learning to enhance object interaction capabilities in simulated environments. By combining the Segment Anything Model (SAM) and YOLOv5 with a Proximal Policy Optimization (PPO) agent operating in the AI2-THOR simulation environment, we enable the agent to perceive and interact with objects more effectively. Our comprehensive experiments, conducted across four diverse indoor kitchen settings, demonst...
ID: 2508.05838v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY, 68T07, 68T40, 90C40, 93E35, I.2.6; I.2.9; I.2.10
Авторы:

Zhiqing Xiao, Haobo Wang, Xu Lu, Wentao Ye, Gang Chen, Junbo Zhao

## Контекст Domain Adaptation (DA) — это область искусственного интеллекта, сфокусированная на передаче знаний из хорошо отмеченного исходного домена в неотмеченный или слабо отмеченный целевой домен. Эта задача становится все актуальнее в условиях постоянных доменных сдвигов, когда данные могут различаться по структуре и распределению. Однако многие существующие подходы ориентированы на решение проблемы передачи взаимозависимостей между доменами, но часто игнорируют богатые внутридоменные структуры, что ведет к ухудшению дискриминативности. SPA++ — это расширенный фреймворк, который адресует этот проблемный момент, предлагая новую модель активного альнинга графов с помощью графов спектральных соответствий. ## Метод SPA++ предлагает новую архитектуру, которая трансформирует задачу DA в пространство графов и применяет методы спектрального анализа для aligning domain graphs в едином евклидовом пространстве. Основная инновация SPA++ заключается в использовании двух уровней альнинга: (1) **грубый** — для ориентированного подключения графов, (2) **тонкий** — для улучшения детализации внутридоменных связей. Метод также использует данные с аугментированным графом и консистентность регуляризации, чтобы стать более устойчивым к различным сценариям дискретизации. Теоретические анализы SPA++ подтверждают, что графовые методы не только достаточно устойчивы, но и эффективны в условиях высокой сложности распределения. ## Результаты В экспериментах на известных датасетах (например, VisDA и Office-Home), SPA++ показал стабильно лучшие результаты по сравнению с современными подходами. Он демонстрирует высокую дискриминативность и высокую устойчивость к различным сдвигам доменов. Например, в сценариях с значительными доменными различиями, таких как изменение стиля изображений, SPA++ показал значительные улучшения сравнительно с другими методами. Эти результаты подтвердили высокую точность и гибкость SPA++ в различных сценариях. ## Значимость Сфера применения SPA++ — это широкий спектр задач domain adaptation, включая обработку изображений, сигналов и текстов. SPA++ предоставляет надежные решения для ситуаций, когда сдвиги доменов значительны. Его преимущества включают в себя: улучшенную дискриминативность, устойчивость к доменным различиям и гибкость при работе в сложных сценариях. Будущие исследования могут рассматривать расширение SPA++ к многомодальным данным, а также использование графов в других областях, таких как моделирование социальных сетей и генетические структуры. ## Выводы SPA++ расширяет текущие модели DA, предлагая новую модель, которая эффективно alings domain graphs
Annotation:
Domain Adaptation (DA) aims to transfer knowledge from a labeled source domain to an unlabeled or sparsely labeled target domain under domain shifts. Most prior works focus on capturing the inter-domain transferability but largely overlook rich intra-domain structures, which empirically results in even worse discriminability. To tackle this tradeoff, we propose a generalized graph SPectral Alignment framework, SPA++. Its core is briefly condensed as follows: (1)-by casting the DA problem to grap...
ID: 2508.05182v2 cs.CV, cs.LG
Авторы:

Paul Zaha, Lars Böcking, Simeon Allmendinger, Leopold Müller, Niklas Kühl

Медицинское изображение является ключевым инструментом для диагностики и планирования лечения, но порой требует больших вычислительных ресурсов и больших выборок данных для обучения моделей. Эксперименты показали, что использование предобученных моделей, адаптированных к конкретным разделам медицины, может повысить качество сегментации. Однако мало известно о том, как препроцессинг изображений влияет на поведение таких моделей в различных медицинских областях. Наше исследование фокусируется на роли краевых деталей (edge features) в предобучении моделей. Мы исследовали два варианта предобучения: на оригинальных изображениях и на изображениях, подвергнутых edge-enhancement (усилению краев). Затем эти модели были дообучены на конкретных изображениях, относящихся к различным медицинским областям. Мы обнаружили, что edge-enhancement может обеим способами — улучшить или повредить — точность сегментации в зависимости от области. Для выбора оптимального варианта предобучения, мы предложили мета-стратегию на основе стандартного отклонения и энтропии изображений. Наши результаты показали, что интеграция этой мета-стратегии позволила повысить качество сегментации на 16.42% по сравнению с моделями, обученными только на edge-enhanced изображениях и на 19.30% по сравнению с моделями, обученными только на оригинальных изображениях.
Annotation:
Medical image segmentation is crucial for disease diagnosis and treatment planning, yet developing robust segmentation models often requires substantial computational resources and large datasets. Existing research shows that pre-trained and finetuned foundation models can boost segmentation performance. However, questions remain about how particular image preprocessing steps may influence segmentation performance across different medical imaging modalities. In particular, edges-abrupt transitio...
ID: 2508.02281v1 cs.CV, cs.LG, H.0
Авторы:

Muhammad Aqeel, Shakiba Sharifi, Marco Cristani, Francesco Setti

Одним из основных трудностей неортодоксального обучения (научные термины) является необходимость тщательного фильтрации данных, что может привести к выпадению значительных частей данных и, как следствие, к предрассудкам и ограниченной адаптивности моделей. **Заголовок** предлагает **Confident Meta-learning (CoMet)** — новую стратегию обучения, позволяющую моделям нейронных сетей учиться на неотфильтрованных данных, где присутствуют как нормальные, так и аномальные экземпляры. Эта стратегия основывается на объединении **Soft Confident Learning** (уменьшение веса низкоконфидентных примеров) и **Meta-Learning** (регулирование обновлений градиентов с помощью ковариации потерь). Эта стратегия значительно улучшает устойчивость моделей к шумам в данных и предотвращает переобучение. Тестирование CoMet на стандартных датасетах MVTec-AD, VIADUCT и KSDD2 показало его превосходство над базовыми методами, закрепляя новый статус лидера в области неортодоксального обучения.
Annotation:
So-called unsupervised anomaly detection is better described as semi-supervised, as it assumes all training data are nominal. This assumption simplifies training but requires manual data curation, introducing bias and limiting adaptability. We propose Confident Meta-learning (CoMet), a novel training strategy that enables deep anomaly detection models to learn from uncurated datasets where nominal and anomalous samples coexist, eliminating the need for explicit filtering. Our approach integrates...
ID: 2508.02293v1 cs.CV, cs.LG
Авторы:

Dmitrii Seletkov, Sophie Starck, Ayhan Can Erdur, Yundi Zhang, Daniel Rueckert, Rickmer Braren

Устойчивый предварительный оценочный риск заболеваний является ключевым элементом перехода от реактивного лечения к прогностическому подходу в общественной медицине. Однако текущие имплементации оценки риска, основанные на изображениях, часто анализируют одно заболевание в рамках работы и полагаются на ручно сконструированные признаки, полученные через сегментационные средства. Мы предлагаем метод самостоятельного обучения всего тела для предварительной оценки риска заболеваний, использующий моделирование соревновательных рисков. Метод превосходит ряд существующих методов, включая whole-body radiomics, в оценке риска заболеваний, таких как сердечно-сосудистые заболевания, тип 2 диабет, хроническая обструктивная болезнь легких и хроническая болезнь почек. Особенно эффективен этот подход при симуляции предварительного скрининга, в сочетании с кардиологическими MRI, при уточнении предсказаний для подгрупп ишемических заболеваний сердца, гипертензивных заболеваний и инсульта. Это указывает на значительный потенциал таких всеобъемлющих представлений тела для использования как обособленная модель скрининга, так и в рамках многомодальных рамков в клинических работах для персонализированной оценки риска в ранних стадиях. Исходный код доступен по адресу: https://github.com/yayapa/WBRLforCR/.
Annotation:
Reliable preclinical disease risk assessment is essential to move public healthcare from reactive treatment to proactive identification and prevention. However, image-based risk prediction algorithms often consider one condition at a time and depend on hand-crafted features obtained through segmentation tools. We propose a whole-body self-supervised representation learning method for the preclinical disease risk assessment under a competing risk modeling. This approach outperforms whole-body rad...
ID: 2508.02307v1 cs.CV, cs.LG
Авторы:

Tatwadarshi P. Nagarhalli, Shruti S. Pawar, Soham A. Dahanukar, Uday Aswalekar, Ashwini M. Save, Sanket D. Patil

В научной статье проводится исследование влияния увеличения разрешения изображений на точность классификации белков крови с использованием глубоких нейронных сетей. Низкое разрешение микроскопических изображений часто мешает точному распознаванию, поэтому исследователи применяют технологию суперразрешения для улучшения качества изображений. Для экспериментов используется модель классификации, обученная на стандартных и улучшенных данных. Результаты показывают, что применение суперразрешения повышает точность классификации, позволяя модели обнаруживать тонкие морфологические отличия в клеточных структурах. Исследование продемонстрировало, что увеличение разрешения не только повышает точность, но и улучшает обучение модели, обеспечивая более точное распознавание в медицинских приложениях. Основным выводом является, что суперразрешение может стать ключевым инструментом для повышения точности классификации белков крови в контексте медицинского диагностического анализа.
Annotation:
Accurately classifying white blood cells from microscopic images is essential to identify several illnesses and conditions in medical diagnostics. Many deep learning technologies are being employed to quickly and automatically classify images. However, most of the time, the resolution of these microscopic pictures is quite low, which might make it difficult to classify them correctly. Some picture improvement techniques, such as image super-resolution, are being utilized to improve the resolutio...
ID: 2508.03759v1 eess.IV, cs.CV, cs.LG, q-bio.QM
Авторы:

Zongyou Yang, Jonathan Loo

**Резюме** Современные подходы к 3D-обнаружению человеческого позы сталкиваются с ограничениями в точности и скорости обработки, особенно при использовании CNN-архитектур. В статье предлагается новая архитектура PyCAT4, основанная на трансформерных моделях, для решения этих проблем. Основной инновацией является внедрение слоя самоп paйбаябабаяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяяя
Annotation:
Recently, a significant improvement in the accuracy of 3D human pose estimation has been achieved by combining convolutional neural networks (CNNs) with pyramid grid alignment feedback loops. Additionally, innovative breakthroughs have been made in the field of computer vision through the adoption of Transformer-based temporal analysis architectures. Given these advancements, this study aims to deeply optimize and improve the existing Pymaf network architecture. The main innovations of this pape...
ID: 2508.02806v1 cs.CV, cs.LG, I.2.10; I.4.8; I.5.4
Авторы:

Chuanzhi Xu, Haoxian Zhou, Langyi Chen, Yuk Ying Chung, Qiang Qu

Улучшение разрешения изображений в реальном времени для эвент-камер является ключевой проблемой в использовании этих устройств для тонкой перцепции. Мы предлагаем **Ultralight Polarity-Split Neuromorphic SNN**, метод обучения спикенгических нейронных сетей (SNN) для решения этой задачи. Наш подход основан на двух основных инновациях: **Dual-Forward Polarity-Split Event Encoding**, разделяющий положительные и отрицательные события на отдельные пути свертки, и **Learnable Spatio-temporal Polarity-aware Loss (LearnSTPLoss)**, который адаптивно сбалансированно учитывает временные, пространственные и поляритетные свойства изображений. Этот подход удачно объединяет низкую модельную сложность и высокую точность суперрезолюции. Наши результаты показывают, что сеть демонстрирует эффективность на различных датасетах, при этом значительно сокращая размер модели и время выполнения. Эта работа открывает путь к эффективному использованию эвент-камер в реальном времени.
Annotation:
Event cameras offer unparalleled advantages such as high temporal resolution, low latency, and high dynamic range. However, their limited spatial resolution poses challenges for fine-grained perception tasks. In this work, we propose an ultra-lightweight, stream-based event-to-event super-resolution method based on Spiking Neural Networks (SNNs), designed for real-time deployment on resource-constrained devices. To further reduce model size, we introduce a novel Dual-Forward Polarity-Split Event...
ID: 2508.03244v1 cs.CV, cs.LG
Показано 801 - 810 из 835 записей