📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Digital Elevation Model Estimation from RGB Satellite Imagery using Generative Deep Learning

2025-12-01

Авторы:

Alif Ilham Madani, Riska A. Kuswati, Alex M. Lechner, Muhamad Risqi U. Saputra

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Digital Elevation Models (DEMs) are vital datasets for geospatial applications such as hydrological modeling and environmental monitoring. However, conventional methods to generate DEM, such as using LiDAR and photogrammetry, require specific types of data that are often inaccessible in resource-constrained settings. To alleviate this problem, this study proposes an approach to generate DEM from freely available RGB satellite imagery using generative deep learning, particularly based on a condit...

ID: 2511.21985v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 HyMAD: A Hybrid Multi-Activity Detection Approach for Border Surveillance and Monitoring

2025-11-20

Авторы:

Sriram Srinivasan, Srinivasan Aruchamy, Siva Ram Krisha Vadali

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Seismic sensing has emerged as a promising solution for border surveillance and monitoring; the seismic sensors that are often buried underground are small and cannot be noticed easily, making them difficult for intruders to detect, avoid, or vandalize. This significantly enhances their effectiveness compared to highly visible cameras or fences. However, accurately detecting and distinguishing between overlapping activities that are happening simultaneously, such as human intrusions, animal move...

ID: 2511.14698v1 cs.CV, cs.LG, eess.SP

arXiv PDF

📄 Contrastive Diffusion Guidance for Spatial Inverse Problems

2025-10-02

Авторы:

Sattwik Basu, Chaitanya Amballa, Zhongweiyang Xu, Jorge Vančo Sampedro, Srihari Nelakuditi, Romit Roy Choudhury

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We consider the inverse problem of reconstructing the spatial layout of a place, a home floorplan for example, from a user`s movements inside that layout. Direct inversion is ill-posed since many floorplans can explain the same movement trajectories. We adopt a diffusion-based posterior sampler to generate layouts consistent with the measurements. While active research is in progress on generative inverse solvers, we find that the forward operator in our problem poses new challenges. The path-pl...

ID: 2509.26489v1 cs.CV, cs.LG, eess.SP

arXiv PDF

📄 S$^3$F-Net: A Multi-Modal Approach to Medical Image Classification via Spatial-Spectral Summarizer Fusion Network

2025-10-01

Авторы:

Md. Saiful Bari Siddiqui, Mohammed Imamul Hassan Bhuiyan

#### Контекст Классификация медицинских изображений является ключевым заданием в области медицинского искусственного интеллекта, так как она позволяет выявлять ранние признаки патологий, улучшая тем самым прогностические и лечебные возможности. Однако существующие подходы, основанные на Convolutional Neural Networks (CNNs), часто ограничиваются пространственными функциями и неэффективны в сфере глобальных изображений. Значительная часть информации в изображениях находится в частотном домене, однако эти факторы недостаточно учитываются в существующих методах. Это влечет за собой нужду в развитии подходов, которые могут эффективно объединить пространственные и частотные функции для повышения точности и обобщаемости. #### Метод Мы предлагаем **S$^3$F-Net** — двухветвный фреймворк, который способен одновременно извлекать пространственные и частотные признаки. Основным компонентом является **SpectraNet**, легковесная сеть, которая применяет **SpectralFilter**, основанный на теореме Фурье. Он преобразует изображение в частотный домен с помощью фильтров, сгенерированных с помощью обучения. Эти фильтры быстро охватывают всю область входного изображения, позволяя SpectraNet эффективно извлекать частотные признаки. Далее, **Bilinear Fusion** или **Concatenation Fusion** объединяют пространственные и частотные данные, улучшая понимание взаимосвязей между ними. Эта архитектура позволяет S$^3$F-Net эффективно работать на разных медицинских изображениях. #### Результаты Мы проверили S$^3$F-Net на четырёх наборах данных медицинских изображений, включая типовые модальности, такие как рентгеновские снимки и маркерные изображения. Наш фреймворк показал существенные улучшения в точности классификации по сравнению с лучшими существующими моделями. На BRISC2025-dataset S$^3$F-Net достиг 98.76%, став соревновательным по результатам с новыми достижениями в сфере. На Chest X-Ray Pneumonia данная модель показала 93.11%, превосходя другие модели. Дополнительные анализы показали, что S$^3$F-Net динамически регулирует свой подход в зависимости от характера патологии, что демонстрирует высокую обобщаемость и осмысленность. #### Значимость Этот подход может использоваться в различных медицинских применениях, включая раннее выявление заболеваний, оценку течения терапии и создание инструментов для помощи врачам. Основные преимущества S$^3$F-Net заключаются в его мощности и обобщаемости, способности эффективно объединять глобальные частотные и пространственные признаки. Это может привести к значительным улучшениям в сфере диагностики и помочь в развитии новых ме

Annotation:

Convolutional Neural Networks have become a cornerstone of medical image analysis due to their proficiency in learning hierarchical spatial features. However, this focus on a single domain is inefficient at capturing global, holistic patterns and fails to explicitly model an image's frequency-domain characteristics. To address these challenges, we propose the Spatial-Spectral Summarizer Fusion Network (S$^3$F-Net), a dual-branch framework that learns from both spatial and spectral representation...

ID: 2509.23442v1 eess.IV, cs.AI, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 Inferring the Graph Structure of Images for Graph Neural Networks

2025-09-09

Авторы:

Mayur S Gowda, John Shi, Augusto Santos, José M. F. Moura

#### Контекст Графовые нейронные сети (GNN) представляют собой мощный инструмент для обработки и анализа графовых данных. Одним из ключевых приложений GNN является классификация изображений, где изображения представляются в виде графов. Обычно изображения преобразуются в графы, где узлы соответствуют пикселям, а ребра — связям между соседними пикселями по вертикали и горизонтали. Несмотря на эффективность такого представления, оно может не совсем отражать структурные отношения в изображении. Это приводит к потере информации и уменьшению точности GNN в классификации. В данной работе рассматривается поиск альтернативных структур графов для представления изображений, чтобы улучшить точность GNN в задачах классификации. #### Метод Мы предлагаем новую методологию для построения графов, которая использует корреляционные отношения между пикселями в изображении. Для каждого изображения из датасета MNIST и Fashion-MNIST проводится расчет корреляции по строкам, столбцам и произведению этих корреляций. Это позволяет построить альтернативные графы, где узлы соответствуют пикселям, а ребра — связями, отражающими корреляционные отношения. Эти графы представляются в виде входных данных для GNN. Мы также сравниваем результаты с классическим подходом, где изображения представляются в виде грид-графов или методами суперпикселей. #### Результаты Использование альтернативных графов, построенных на основе корреляционных отношений, позволило улучшить точность классификации GNN в задачах, основанных на MNIST и Fashion-MNIST. Эксперименты показали, что графы, построенные на основе продуктных корреляций, дают наибольшую дополнительную информацию и приводят к повышению точности классификации по сравнению с традиционными методами. Эти результаты указывают на важность использования более точных представлений графов для улучшения GNN. #### Значимость Наш подход может быть применен в различных областях, где изображения представляются в виде графов, таких как анализ изображений в медицине, автомобилестроении и робототехнике. Альтернативные представления графов обеспечивают более точное отражение структурных отношений в изображении, что приводит к улучшению точности классификации и общей эффективности GNN. Это делает нашу работу важной для развития графовых методов в обработке изображений. #### Выводы Мы установили, что альтернативные графовые представления, основанные на корреляционных отношениях, могут значительно повысить эффективность GNN в задачах классификации изображений. Будущие исследования будут сконцентрированы на расширении этого под

Annotation:

Image datasets such as MNIST are a key benchmark for testing Graph Neural Network (GNN) architectures. The images are traditionally represented as a grid graph with each node representing a pixel and edges connecting neighboring pixels (vertically and horizontally). The graph signal is the values (intensities) of each pixel in the image. The graphs are commonly used as input to graph neural networks (e.g., Graph Convolutional Neural Networks (Graph CNNs) [1, 2], Graph Attention Networks (GAT) [3...

ID: 2509.04677v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF

📄 On the Importance of Behavioral Nuances: Amplifying Non-Obvious Motor Noise Under True Empirical Considerations May Lead to Briefer Assays and Faster Classification Processes

2025-08-20

Авторы:

Theodoros Bermperidis, Joe Vero, Elizabeth B Torres

## Контекст Поведенческие особенности человека являются ключевыми факторами, определяющими интерпретацию его эмоционального состояния и поведения. Однако существуют проблемы с традиционными подходами, которые часто требуют длительных наблюдений или больших данных для достижения статистической мощности. Эти ограничения могут привести к упущению важных нюансов в поведении. Мы исследуем возможность использования кратких данных, зарегистрированных с помощью новых методов оценки лица, для повышения точности и эффективности анализа эмоций и диагностики. ## Метод Для решения этой проблемы была разработана подходящая методология. Мы использовали новую структуру данных, полученную из микро-пиков во временных рядах, зарегистрированных с помощью видео с лицами (5 секунд). Эти микро-пики включают подробные детали, такие как микро-выражения и динамика поведения. Анализ проводился с помощью геометрических и нелинейных динамических методов, относящихся к векторизации лица. Таким образом, мы могли зафиксировать все микро-пики, включая нюансы микро-выражений, которые часто упускаются в стандартных подходах. Это позволило нам разработать метод, который эффективно сочетает индивидуальные статистические мощности с краткими данными. ## Результаты Мы провели эксперименты с видео-данными лиц, зарегистрированными в различных контекстах. Новый подход позволяет зарегистрировать нюансы, которые обычно отсутствуют в традиционных методах. Мы сравнили наши результаты с традиционными методами и обнаружили, что новый метод позволяет обнаруживать значительные нюансы в поведении, которые могут быть игнорированы стандартными подходами. Это делает нашу стратегию более точной и эффективной для классификации эмоций и диагностики. ## Значимость Разработанный подход имеет значительное значение в области искусственного интеллекта, эмоционального анализа и диагностики. Он может быть применен в сферах, где требуется быстрая и точная классификация поведения, таких как медицина, психология и социальные исследовании. Этот подход позволяет снизить время, необходимое для получения статистически мощных данных, и увеличивает точность диагностики. Это может иметь потенциал для улучшения здоровья и качества жизни, особенно для лиц с аутизмом и другими расстройствами, эффективной диагностики которых требует быстрого реагирования. ## Выводы Мы показали, что применение новых методов для анализа микро-пиков во временных рядах лиц может привести к более эффективной классификации и улучшению анализа эмоционального состояния. На

Annotation:

There is a tradeoff between attaining statistical power with large, difficult to gather data sets, and producing highly scalable assays that register brief data samples. Often, as grand-averaging techniques a priori assume normally-distributed parameters and linear, stationary processes in biorhythmic, time series data, important information is lost, averaged out as gross data. We developed an affective computing platform that enables taking brief data samples while maintaining personalized stat...

ID: 2508.12742v1 q-bio.QM, cs.CV, cs.LG, eess.SP, nlin.CD

arXiv PDF

📄 Multivariate Fields of Experts

2025-08-12

Авторы:

Stanislas Ducotterd, Michael Unser

#### Контекст В области обработки изображений и реконструкции изображений существует необходимость в мощных и эффективных моделях, которые могут решать вызовы, связанные с поиском признаков, восстановлением и декодированием. Одним из ключевых задач для этих приложений является разработка эффективных моделей признаков, которые могут оптимально описывать структуру изображений. Традиционно, такие модели строятся на основе нейронных сетей, но они часто требуют больших объемов данных и ресурсов для обучения. В этой работе предлагается новый подход, Multivariate Fields of Experts, который предназначен для улучшения точности и надежности решений в обработке изображений. #### Метод Модель Multivariate Fields of Experts основывается на создании нового класса потенциальных функций, которые используют **Moreau envelopes** $\ell_\infty$-нормы. Это позволяет интегрировать многомерные зависимости в модель, что делает ее более сложной, но также более точной для представления сложных структур изображений. Метод включает в себя несколько стадий: 1. **Построение потенциальных функций**: Используется Moreau envelope, чтобы добиться более разреженных и точных представлений. 2. **Многомерное моделирование**: Новая архитектура включает в себя несколько моделей, которые работают совместно для обеспечения более глубокого и точного представления изображений. 3. **Оптимизация**: Используется адаптивная оптимизация для обучения модели, чтобы минимизировать ошибки реконструкции. Эта архитектура позволяет модели Multivariate Fields of Experts оптимально использовать все доступные сведения о изображении, улучшая эффективность и точность решений. #### Результаты Результаты экспериментов показывают, что Multivariate Fields of Experts эффективно работает на различных задачах: - **Image Denoising**: Модель достигла лучшей точности по сравнению с базовыми подходами, удаляя шум более точно и сохраняя достоверность деталей. - **Image Deblurring**: Модель восстановила разрешенное изображение, избавившись от размытия, при этом сохранив размеры и формы объектов. - **Compressed-Sensing MRI и CT**: В области магнитной резонансной зондки и вычислительной томографии метод показал высокую точность в восстановлении изображений, сократив время расчетов и требуя меньше ресурсов. По сравнению с другими методами, в том числе действительно нейронными моделями, Multivariate Fields of Experts показала скорость работы и эффективность, особенно при малом количестве данных для обучения. #### Значимость Модель Multivariate Fields of Experts обладает широкими областями применения: - **Медицинская импровизация**: Улучшение точности восстановления изображений в медицинских сканерах. - **Реконструкция изображений**: Улучшение качества изображений в ситуациях, где данные ограничен

Annotation:

We introduce the multivariate fields of experts, a new framework for the learning of image priors. Our model generalizes existing fields of experts methods by incorporating multivariate potential functions constructed via Moreau envelopes of the $\ell_\infty$-norm. We demonstrate the effectiveness of our proposal across a range of inverse problems that include image denoising, deblurring, compressed-sensing magnetic-resonance imaging, and computed tomography. The proposed approach outperforms co...

ID: 2508.06490v1 eess.IV, cs.CV, cs.LG, eess.SP

arXiv PDF