📚 Саммари научных статей из arXiv

Найдено 835 результатов по запросу 'cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Building a General SimCLR Self-Supervised Foundation Model Across Neurological Diseases to Advance 3D Brain MRI Diagnoses

2025-09-17

Авторы:

Emily Kaczmarek, Justin Szeto, Brennan Nichyporuk, Tal Arbel

## Контекст Научные исследования в области 3D-структурных МРИ мозга становятся все более важными для обнаружения и мониторинга различных неврологических заболеваний, включая нейродегенеративные заболевания и инсульт. Технологии глубокого обучения уже показали их эффективность в анализе 3D-МРИ, но большинство моделей являются специфичными для конкретных задач и не могут обрабатывать различные задачи или пациентские популяции. Это ограничение приводит к трудностям в общей обработке МРИ и к необходимости в разработке универсальных моделей, которые могут использоваться для различных задач и групп клинических данных. В этом контексте возникает ценность разработки моделей, которые не только обладают высокой точностью, но и могут подстраиваться под различные клинические условия. ## Метод Разработанная модель основывается на SimCLR, одной из самых популярных архитектур для самостоятельного сапервой обучения (SSL). Для обучения использовались данные из 11 публичных баз данных, содержащих МРИ-сканы в высоком разрешении, полученных от 18 759 пациентов с различными неврологическими заболеваниями. Методика SimCLR заключается в использовании собственных меток данных для определения структурных особенностей МРИ. Модель обучена на 44 958 сканов, что дает ей уникальную возможность охватывать широкий спектр клинических ситуаций. Затем модель была применена к четырьму различным клиническим задачам, включая прогнозирование заболевания Альцгеймера, чтобы оценить ее точность и универсальность. ## Результаты Эксперименты показали, что модель SimCLR превосходит другие модели, включая Masked Autoencoders (MAE) и супервизированные сети, в четырьмя задачами клинического прогнозирования. Наиболее заметным улучшением было замечено при прогнозировании заболевания Альцгеймера: SimCLR показала значительное превосходство даже при использовании только 20% от обучающих данных. Это указывает на высокую универсальность модели и ее устойчивость к различным клиническим сценариям. Такие результаты свидетельствуют о том, что модель может быть применена во многих клинических задачах, даже при небольших объемах меток данных. ## Значимость Модель SimCLR может быть применена во многих клинических областях, включая мониторинг и прогнозирование неврологических заболеваний. Ее широкий диапазон применения, высокая точность и универсальность делают ее инструментом, необходимым для широкой клинической практики. В отличие от многих других моделей, она обладает высоким разрешением и доступностью, что упрощает ее использование в практических клинических задачах. Это мо

Annotation:

3D structural Magnetic Resonance Imaging (MRI) brain scans are commonly acquired in clinical settings to monitor a wide range of neurological conditions, including neurodegenerative disorders and stroke. While deep learning models have shown promising results analyzing 3D MRI across a number of brain imaging tasks, most are highly tailored for specific tasks with limited labeled data, and are not able to generalize across tasks and/or populations. The development of self-supervised learning (SSL...

ID: 2509.10620v1 cs.CV, cs.LG

arXiv PDF

📄 Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder for Earth Observation

2025-09-17

Авторы:

Mohanad Albughdadi

#### Контекст Earth Observation (EO) становится все более важной для мониторинга и анализа земного шара. Однако современные large-scale foundation models, несмотря на свою мощь, являются ресурсоемкими и сложно развертываются вне централизованных инфраструктур. Это ограничивает доступность и переиспользование этих моделей для разнообразных прикладных задач. Наша мотивация заключается в развитии эффективных архитектур, которые могут обеспечить баланс между производительностью и удобством использования. #### Метод Мы предлагаем Lightweight Metadata-Aware Mixture-of-Experts Masked Autoencoder (MoE-MAE). Данная модель имеет только 2,5 миллионов параметров, чтобы обеспечить низкую вычислительную сложность. Основной инновацией является интеграция geo-temporal conditioning, которая включает в себя информацию о географических координатах и сезонности. Модель также использует sparse expert routing, который эффективно эксплуатирует ресурсы. MoE-MAE был обучен на BigEarthNet-Landsat dataset, чтобы эффективно интегрировать метаданные. #### Результаты Мы проводили эксперименты с помощью linear probes на BigEarthNet-Landsat и EuroSAT-Landsat datasets. Несмотря на компактность, MoE-MAE показал выдающуюся производительность, сравнимую с более крупными моделями, использующими сотни миллионов параметров. Мы также оценили generalization на данных EuroSAT-Landsat, отсутствующих метаданных, и установили, что модель по-прежнему сохраняет высокую эффективность. Эти результаты свидетельствуют о том, что метаданные-aware pretraining улучшает transfer и label efficiency. #### Значимость Мы обнаружили, что MoE-MAE эффективно применяется в различных задачах EO, включая классификацию изображений, обнаружение объектов и распознавание ландшафтов. Наша модель предлагает существенное сокращение требований к ресурсам, что делает ее более доступной для разработчиков и специалистов. Этот подход может стать основой для моделей будущего, которые будут обладать высокой гибкостью и эффективностью. #### Выводы Мы доказали, что модель MoE-MAE является компактной, эффективной и гибкой альтернативой более крупным моделям EO. Наша работа открывает путь к будущим исследованиям в области компактных foundation models для Earth Observation. Мы планируем продолжить работу над улучшением geo-temporal conditioning и исследовать альтернативные техники для обработки метаданных.

Annotation:

Recent advances in Earth Observation have focused on large-scale foundation models. However, these models are computationally expensive, limiting their accessibility and reuse for downstream tasks. In this work, we investigate compact architectures as a practical pathway toward smaller general-purpose EO models. We propose a Metadata-aware Mixture-of-Experts Masked Autoencoder (MoE-MAE) with only 2.5M parameters. The model combines sparse expert routing with geo-temporal conditioning, incorporat...

ID: 2509.10919v1 cs.CV, cs.LG

arXiv PDF

📄 SH-SAS: An Implicit Neural Representation for Complex Spherical-Harmonic Scattering Fields for 3D Synthetic Aperture Sonar

2025-09-17

Авторы:

Omkar Shailendra Vengurlekar, Adithya Pediredla, Suren Jayasuriya

## Контекст Синтезированная щитовая система сиона (SAS) широко используется в области судовых и подводных изысканий для выявления и разрешения подводных объектов. Однако существующие алгоритмы по трёхмерной реконструкции в SAS сталкиваются с ограничениями в моделировании локальной дирекции отражения акустических звуковых волн от объектов. Эти трудности могут привести к неточности и снижению качества реконструкции. Одна из основных причин такого недостатка заключается в том, что ранние способы реконструкции использовали либо временно-доменные методы, либо геометрические модели, которые не учитывали дирекцию отражения. Нейронные сети, применяемые в этой области, также сталкиваются с проблемами, такими как переобучение и невозможность обработки сложных дирекционных скачков. Мотивация заключается в создании модели, которая бы моделировала дирекцию отражения более точно, улучшала качество трёхмерной реконструкции и обеспечивала более эффективную обработку данных. ## Метод Мы предлагаем **SH-SAS**, модель, которая представляет характеристики дирекционного отражения с помощью сферических гармоник (SH). Модель использует подход к неявному представлению данных, в котором каждая точка в пространстве представлена несколькими гармоническими компонентами. Мы используем хеш-кодирование многорезольвенчного типа для построения эффективной репрезентации входных данных. Это позволяет сократить количество параметров, необходимых для моделирования сложных дирекционных отражений. Модель обучается на 1D сигналах времени полета, чтобы избежать необходимости использовать более сложные супервайз-методы, такие как бимбимпинг. В ходе обучения, модель строит трёхмерную модель с помощью SH-компонент, которые могут нормально представлять дирекцию отражения. Мы также используем несколько уровней резолюции для улучшения точности и эффективности модели. ## Результаты Мы провели эксперименты сравнения существующих методов с нашей моделью на синтетических данных, а также на реальных данных, как в воздухе, так и в воде. Наши результаты показывают, что **SH-SAS** превосходит предыдущие методы по метрикам качества реконструкции и геометрическим показателям. Мы также проводили анализ того, как модель справляется с различными объёмами данных, и продемонстрировали, что она показывает значительные улучшения при обработке сложных датасетов. Кроме того, мы провели эксперименты с тем, как модель отвечает на различные уровни детализации в шаровых гармониках и показали, что она эффективно моделирует объёмные структуры с точностью. ## Значимость **SH-SAS** имеет значительно

Annotation:

Synthetic aperture sonar (SAS) reconstruction requires recovering both the spatial distribution of acoustic scatterers and their direction-dependent response. Time-domain backprojection is the most common 3D SAS reconstruction algorithm, but it does not model directionality and can suffer from sampling limitations, aliasing, and occlusion. Prior neural volumetric methods applied to synthetic aperture sonar treat each voxel as an isotropic scattering density, not modeling anisotropic returns. We ...

ID: 2509.11087v1 cs.GR, cs.CV, cs.LG

arXiv PDF

📄 WildSmoke: Ready-to-Use Dynamic 3D Smoke Assets from a Single Video in the Wild

2025-09-17

Авторы:

Yuqiu Liu, Jialin Song, Manolis Savva, Wuyang Chen

#### Контекст Графика с высоким уровнем детализации (high-quality graphics) становится все более востребованой в области видеоигр, анимации и виртуальной реальности. Одним из самых сложных аспектов этой области является хорошо реализованная динамическая трёхмерная текстура, такая как дым. Несмотря на успехи в сфере 3D-визуализации, создание динамического дыма в реальном видео остается задачей, требующей значительных усилий. Основная проблема заключается в том, что создание дыма в реальных условиях требует тщательного планирования и контроля, в то время как съемки в "дикой природе" часто подвергаются другим техническим и художественным ограничениям. Мы предлагаем WildSmoke, мощную и гибкую систему, которая может извлекать, воссоздавать и редактировать динамический 3D-дым из одного видео, захваченного в "дикой природе". #### Метод Мы предлагаем новую рабочую программу, которая включает в себя несколько специальных методов для решения проблем, связанных с выделением дыма из видео, инициализацией частиц дыма и позиционированием камеры. В нашем подходе мы используем нейронные сети для определения и очистки фона в видео, чтобы получить только дымовые эффекты. Затем мы инициализируем частицы дыма и позицию камеры, используя методы, основанные на глубоком обучении. Наконец, мы воссоздаем 4D-дымовые активы, используя многовидные видео, чтобы добиться реалистичности и точности. Этот подход позволяет создавать дымовые эффекты, которые могут быть редактированы интерактивно, что даёт возможность пользователям подстраивать их под свои потребности. #### Результаты Мы проверили нашу систему на широком спектре видео, захваченных в "дикой природе", и сравнили результаты с похожими системами. Наши результаты показали существенное улучшение в качестве воспроизведения дыма (+2.22 PSNR в среднем для видео из "дикой природы"). Мы также провели тесты на редактировании дыма, в которых пользователи могли изменять динамику дыма в реальном времени. Оценки, полученные от экспертов в области CGI (Computer-Generated Imagery), подтвердили, что наши результаты выдаются качественно более высокими по сравнению с другими методами. #### Значимость Наш подход открывает новые возможности для создания дыма в динамичных 3D-сценах, которые могут использоваться в различных отраслях, включая видеоигры, анимацию, виртуальную реальность и даже в области обучения и безопасности. Наша система не только создает высококачественные дымовые эффекты, но и предоставляет возможности для интерактивного редактирования, что может упростить процесс разработки контента. Мы предоставили нашу с

Annotation:

We propose a pipeline to extract and reconstruct dynamic 3D smoke assets from a single in-the-wild video, and further integrate interactive simulation for smoke design and editing. Recent developments in 3D vision have significantly improved reconstructing and rendering fluid dynamics, supporting realistic and temporally consistent view synthesis. However, current fluid reconstructions rely heavily on carefully controlled clean lab environments, whereas real-world videos captured in the wild are...

ID: 2509.11114v1 cs.CV, cs.LG

arXiv PDF

📄 Beyond Instance Consistency: Investigating View Diversity in Self-supervised Learning

2025-09-17

Авторы:

Huaiyuan Qin, Muli Yang, Siyuan Hu, Peng Hu, Yu Zhang, Chen Gong, Hongyuan Zhu

## Контекст Self-supervised learning (SSL) — это метод обучения, который позволяет автоматически формировать представления объектов изображений без явного маркирования. Основное предположение SSL — что разные виды одного изображения могут рассматриваться как положительные пары. Это предположение действует в случаях, когда виды изображения содержат похожую информацию. Однако на практике это не всегда возможно, особенно для нейтральных изображений, где разные виды могут представлять разные объекты или сущности. Это создает проблему для SSL, так как принципы, которые работают для стандартных задач, могут быть неэффективными для нейтральных данных. В настоящей работе мы исследуем эффективность SSL в таких ситуациях и исследуем, насколько разнообразие видов может повлиять на обучение. ## Метод Для исследования SSL без гарантии строгого согласования видов мы использовали несколько экспериментов. На первом этапе вводилась ситуация, когда разные виды изображений не имели строгого согласования по смыслу. Далее, мы изменяли размер ключевых объектов, использовали различные ключевые размеры и изображения с меньшими размерами. Также мы проводили анализ уровня диапазона разнообразия видов и сравнивали разные метрики, такие как Earth Mover's Distance (EMD), для оценки взаимосвязи между видами. Для получения результатов мы использовали стандартные данные, такие как CIFAR-10 и ImageNet, а также проводили анализ по сетям, таким как MoCo и SimCLR. ## Результаты Мы провели ряд экспериментов для оценки эффективности SSL без строгого согласования видов. Наши результаты показали, что SSL может продолжать работать даже при отсутствии согласования видов. Мы также обнаружили, что увеличение разнообразия видов может улучшить производительность SSL на задачах классификации и детектирования. Однако при слишком большом разнообразии видов также могут возникнуть проблемы, так как это может привести к некорректному семантическому представлению. Мы использовали метрику Earth Mover's Distance (EMD) для измерения взаимосвязи между видами и обнаружили, что оптимальный диапазон разнообразия может привести к лучшей производительности. ## Значимость Наша работа имеет высокую значимость для развития SSL в ситуациях, когда строгого согласования видов недоступно. Мы продемонстрировали, что SSL может быть эффективен даже в сложных сценариях. Благодаря нашему подходу можно избежать ситуаций, когда разные виды изображений не имеют значимости. Это может быть полезно для разных применений, таких как здоровье, распознавание образов и обработка изображений. Наша работа также открывает новые возможности для разви

Annotation:

Self-supervised learning (SSL) conventionally relies on the instance consistency paradigm, assuming that different views of the same image can be treated as positive pairs. However, this assumption breaks down for non-iconic data, where different views may contain distinct objects or semantic information. In this paper, we investigate the effectiveness of SSL when instance consistency is not guaranteed. Through extensive ablation studies, we demonstrate that SSL can still learn meaningful repres...

ID: 2509.11344v1 cs.CV, cs.LG

arXiv PDF

📄 Disentanglement of Biological and Technical Factors via Latent Space Rotation in Clinical Imaging Improves Disease Pattern Discovery

2025-09-17

Авторы:

Jeanny Pan, Philipp Seeböck, Christoph Fürböck, Svitlana Pochepnia, Jennifer Straub, Lucian Beer, Helmut Prosch, Georg Langs

## Контекст Идентификация новых заболеваний-связанных паттернов в медицинских изображениях с помощью машинного обучения расширяет лексикон распознаваемых особенностей. Это повышает качество диагностики и прогностики. Однако изображения, помимо биологических отличий, отличаются техническими факторами, такими как параметры сканирования, производители аппаратуры и алгоритмы реконструкции. Эти технические факторы вызывают доменные разрывы, способствующие неустойчивости в обучении сетей и препятствующие выявлению биологически значимых кластеров. Для решения этой проблемы предлагается подход, основанный на активном обучении доменного отклонения посредством пост-хок-ротации пространства латентных переменных, что позволяет разделить биологические и технические факторы. ## Метод Предлагаемая методология основывается на пост-хок-ротации пространства латентных переменных. Метод включает в себя несколько ключевых этапов. Вначале обучается модель для извлечения латентного пространства из медицинских изображений. Затем, в пространстве латентных переменных применяется ротационное преобразование, направленное на отделение биологических и технических факторов. Это преобразование достигается с помощью оптимизации, нацеленной на максимизацию значимости биологических переменных, в то же время, минимизации технических. Результатом является улучшенная устойчивость кластеров, представляющих тканевые типы, независимо от параметров сканирования. ## Результаты На источниках реальных клинических данных проводились эксперименты для оценки полученных результатов. Были сравнены влияния подхода с локальными и глобальными методами гармонизации. Результаты показали, что ротационный подход улучшил кластерную консистентность на +19.01% (ARI), +16.85% (NMI) и +12.39% (Dice) по сравнению с энтанглированной моделью. Также проведены исследования на пациентах с идиопатической пульмонией фиброзом. Легенды, построенные на кластерах, улучшили предсказания по признакам Cox на +15% в сравнении с базовыми методами. ## Значимость Предложенный подход может быть применен в различных областях клинического исследования, в том числе для выявления новых маркеров заболеваний. Одним из ключевых преимуществ является улучшение устойчивости кластеров в условиях технических различий, что позволяет выявлять биологически значимые шаблоны. Благодаря этому подходу можно повысить качество анализа данных в многоцентровых исследованиях и улучшить диагностические возможности. ## Выводы Результаты экспериментов показывают, что ротационный подход в про

Annotation:

Identifying new disease-related patterns in medical imaging data with the help of machine learning enlarges the vocabulary of recognizable findings. This supports diagnostic and prognostic assessment. However, image appearance varies not only due to biological differences, but also due to imaging technology linked to vendors, scanning- or re- construction parameters. The resulting domain shifts impedes data representation learning strategies and the discovery of biologically meaningful cluster a...

ID: 2509.11436v1 cs.CV, cs.LG

arXiv PDF

📄 Modality-Aware Infrared and Visible Image Fusion with Target-Aware Supervision

2025-09-17

Авторы:

Tianyao Sun, Dawei Xiang, Tianqi Ding, Xiang Fang, Yijiashun Qi, Zunduo Zhao

#### Контекст Область исследования рассматривает Infrared and Visible Image Fusion (IVIF), которая является основным заданием в рамках многомодального восприятия. Задача IVIF заключается в интеграции комплементарных структурных и текстурных признаков из разных диапазонов спектрального диапазона. Недостаток существующих подходов заключается в ограниченных возможностях моделирования взаимодействия между модальностями и недостаточной чёткости результатов по отношению к задачам семантического понимания изображений. Эта проблема мотивирует разработку методов, которые учитывают содержательную семантику в области интереса и имеют более чёткий графический результат. #### Метод Предлагается FusionNet — новая модель с полностью единой структурой, которая состоит из нескольких модулей. Основным модулем является Modality-Aware Attention Mechanism (MAAM), который анализирует и производит динамическое изменение вклада от каждой модальности в зависимости от степени их дискриминативности. Для того, чтобы добиться точного и интерпретируемого результата, включён Pixel-wise Alpha Blending Module (PABM), который учится определять специфичные для каждого пикселя веса смешения в адаптивном и содержательно-ориентированном порядке. Для сохранения семантической согласованности в области интереса включен Target-Aware Loss. Этот подход использует упрощённую супервайзинг-зону для обеспечения точности семантической консистентности вокруг объектов (например, пешеходов, транспортных средств). #### Результаты Использованы данные из публичного M3FD-датасета для экспериментов сравнения. Результаты показывают, что FusionNet выдаёт изображения, имеющие более высокую чёткость и понятность, в сравнении с современными подходами. Особо выделяется повышение в семантической сохранности, а также улучшение показателей качества восприятия изображений. Обеспечены эксперименты с различными сценами, включая сложные условия видимости, что подтверждает универсальность и надежность предложенного подхода. #### Значимость Предложенный подход имеет широкое применение в области многомодального восприятия, включая области систем безопасности, транспорта и персональных устройств. Основные преимущества включают улучшенную чёткость изображений, повышение точности задач обнаружения объектов и сценарного понимания. Функциональность FusionNet демонстрирует потенциал для расширения в будущих исследованиях, например, в сфере мобильного зрения и интеллектуальных систем. #### Выводы Основным достижением является разработка FusionNet — мощного и эффективного фреймворка для semantic-aware multi-modal image fusion. Этот подход показывает значительные преимущества в сравнении с предшествующи

Annotation:

Infrared and visible image fusion (IVIF) is a fundamental task in multi-modal perception that aims to integrate complementary structural and textural cues from different spectral domains. In this paper, we propose FusionNet, a novel end-to-end fusion framework that explicitly models inter-modality interaction and enhances task-critical regions. FusionNet introduces a modality-aware attention mechanism that dynamically adjusts the contribution of infrared and visible features based on their discr...

ID: 2509.11476v1 cs.CV, cs.LG

arXiv PDF

📄 Disentangling Content from Style to Overcome Shortcut Learning: A Hybrid Generative-Discriminative Learning Framework

2025-09-17

Авторы:

Siming Fu, Sijun Dong, Xiaoliang Meng

#### Контекст Самоорганизующее обучение (Self-Supervised Learning, SSL) является одной из самых перспективных областей машинного обучения, позволяя получить высококачественные представления данных без полностью отмеченных данных. Однако, несмотря на свои достижения, SSL сталкивается с систематической проблемой, известной как **Shortcut Learning** (суперфициальное обучение). Модели SSL часто выучивают нерелевантные или локальные признаки, такие как текстура изображения, вместо глобальной структуры, что приводит к уязвимости моделей к нарушениям во время оценки, особенно на неизвестных доменах. Эта проблема видна как в генеративных подходах (например, в Masked Autoencoders, MAE), так и в дискриминативных. Мы проанализировали этот аспект и показали, что существующие подходы, направленные на выравнивание или разделение признаков, не устраняют проблему глубинной зависимости моделей от суперфициальных признаков. Наша цель — разработать фреймворк, который устранит возникновение суперфициальных признаков уже на этапе обучения, обеспечив надёжные и универсально применяемые представления. #### Метод Мы предлагаем **Hybrid Generative-Discriminative Learning (HyGDL)** — рамочный подход, который решает проблему Shortcut Learning путём явного разделения контента от стиля в представлениях. Центральным идеей является **Invariance Pre-training Principle**, при котором модель обучается находить неизменный элемент (контент), независимо от изменения стилевых признаков (например, цвета или текстура). Мы аналитически определяем стиль как компонент представления, которая находится вне контентной основы, используя векторное проецирование. Фреймворк HyGDL состоит из трёх основных компонентов: 1. **Self-Distillation Objective**: это задача воспроизведения, направленная на установление стильно-независимого контентного направления. 2. **Analytical Projection**: в этой стадии мы аналитически разделяем представление модели на контент и стиль, используя векторное проецирование. 3. **Style-Conditioned Reconstruction Objective**: эта задача восстанавливает исходное изображение, используя разделённые контент и стиль, что обеспечивает полную гиперсупервизорную связь. В отличие от предыдущих методов, HyGDL не опирается на неявные гипотезы или настройки — его дискриминативно-генеративная структура гарантирует явное исключение суперфициальных признаков. #### Результаты Мы проверили HyGDL на специально сконструированных наборах данных, ориентированных на обнаружение суперфициальных признаков. Модель показала значительное превосходство по сравнению с традиционными подходами. Например, HyGDL показал улучшение точности в 15% в задачах, где модели SSL обычно страдают от влияния суперфициальных признаков. Также мы проверили наши представления на реальных данных и замет

Annotation:

Despite the remarkable success of Self-Supervised Learning (SSL), its generalization is fundamentally hindered by Shortcut Learning, where models exploit superficial features like texture instead of intrinsic structure. We experimentally verify this flaw within the generative paradigm (e.g., MAE) and argue it is a systemic issue also affecting discriminative methods, identifying it as the root cause of their failure on unseen domains. While existing methods often tackle this at a surface level b...

ID: 2509.11598v2 cs.CV, cs.LG

arXiv PDF

📄 A Controllable 3D Deepfake Generation Framework with Gaussian Splatting

2025-09-17

Авторы:

Wending Liu, Siyun Liang, Huy H. Nguyen, Isao Echizen

## Контекст Проблема глубокого подделывания лиц (deepfake) в 3D-сценах остается относительно неизученной, несмотря на распространенность 2D-техник. Основные проблемы включают геометрические непоследовательности, ограниченную общеприменимость к новым видам и недостаток управляемости. Эти недостатки становятся заметными при работе с мультиплексом новых видов, выразительной контролируемостью и сохранением реализму. Недавние развития технологии 3D Gaussian Splatting предлагают новый подход к решению этих проблем, объединяя технологии 3D-моделирования и синтеза deepfake. Наша мотивация заключается в создании контролируемой 3D-системы deepfake, которая обеспечивает реалистичную идентификацию, выразительную контролируемость и согласованность многоплоскостного просмотра. ## Метод Мы предлагаем исследовательский подход, основанный на 3D Gaussian Splatting, для решения проблем глубокого поддела лиц в 3D-сценах. Метод состоит из нескольких ключевых модулей: 1. **Параметрическая модель головы**, которая обеспечивает точное управление выражениями и позы. 2. **Динамические Gaussians**, которые позволяют контролировать многовидный просмотр и сохранять консистентность. 3. **Модуль ремонта**, который улучшает визуальную консистентность при выразительных и экстремальных позах. 4. **Оптимизация 2D-гидов**, чтобы повысить качество рендеринга в 2D-проекциях. 5. **Модуль предварительного обучения**, который помогает настраивать глубокую нейронную сеть для лучшего распознавания. Метод использует комбинацию 3D-моделирования и 2D-оптимизации для обеспечения реализма, выразительной контролируемости и многоплоскостного рендеринга в 3D-сценах. ## Результаты Мы проводим эксперименты на двух наборах данных: NeRSemble и дополнительных видео-оценках. Наши результаты показывают, что наш подход сравнимо эффективен по идентификации и позной консистентности с лучшими 2D-методами. Однако он превосходит их в многоплоскостном рендеринге и сохранении 3D-консистентности. Мы также проводим сравнение с текущими 3D-методами, демонстрируя значительные улучшения в рендеринге, выразительности и задний фон. Эти результаты подтверждают эффективность нашего подхода в создании реалистичных, многовидных и контролируемых deepfake в 3D-сценах. ## Значимость Наш подход открывает новые возможности для сценарного, контролируемого и иммерсивного визуального подделывания в 3D-сценах. Он может использоваться в различных областях, включая VR/AR, игры, анимацию и 3D-контент, где требуется высокий уровень реализма и контроля

Annotation:

We propose a novel 3D deepfake generation framework based on 3D Gaussian Splatting that enables realistic, identity-preserving face swapping and reenactment in a fully controllable 3D space. Compared to conventional 2D deepfake approaches that suffer from geometric inconsistencies and limited generalization to novel view, our method combines a parametric head model with dynamic Gaussian representations to support multi-view consistent rendering, precise expression control, and seamless backgroun...

ID: 2509.11624v1 cs.CV, cs.LG

arXiv PDF

📄 Branched Broomrape Detection in Tomato Farms Using Satellite Imagery and Time-Series Analysis

2025-09-17

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Parastoo Farajpoor, Hamid Jafarbiglu, Mohsen Mesgaran

## Контекст Branched broomrape (Phelipanche ramosa (L.) Pomel) является клорофилл-дефицитным паразитическим растением, которое наносит существенный ущерб томатным урожаям, выводя из хоста необходимые для роста вещества. Это вредительное растение создает угрозу по высокой продуктивности семян (более 200,000 семян на одно растение, жизнеспособные до 20 лет) и скрытому циклу жизни, который трудно обнаружить в ранних стадиях. Это сильно сказывается на экономических показателях сельского хозяйства, с отчисленными убытками до 80 процентов. Требуется разработать алгоритмы, позволяющие выявлять рассеянные заражения в начальных стадиях развития, чтобы земледельцы могли предпринять меры по борьбе с паразитическим растением вовремя. ## Метод Данная работа предлагает комплексный подход к выявлению рассеянных заражений branched broomrape в туманных зонах теплиц томатных ферм в Калифорнии. Для сбора исходных данных были использованы спутниковые снимки Sentinel-2, отфильтрованные на основе облачности (менее 10%) и временного режима. Далее, проводилась работа с 12 спектральными бандами и геометрией солнца-спутник, численное моделирование 20 вегетационных индексов (например, NDVI, NDMI) с помощью нейронной сети. Для получения траектории развития растения был рассчитан граница периода пересадки-комменulations, а также включены градуирующиеся степени дней. Обучение LSTM-сети проводилось на 18,874 векторах данных по временным рядам 48-х GDD, чтобы выявить тренды в Canopy Chlorophyll Content (CCC). Итоговая модель достигла высокой точности и предсказаний, что демонстрирует возможность спутниковых данных для расширения масштаба обнаружения. ## Результаты В ходе экспериментов разработана система, которая обрабатывала 12 спектральных банд, настраивалась на важные для томатовых ферм вегетационные индексы. Обучение LSTM-сети производилось на 18,874 векторах данных по временным рядам 48-х GDD. Модель достигла 88% точности на обучающем наборе и 87% на тестовом, с предсказанием F1-меры 0.89. Разрешающая способность информативных индексов (например, NDMI, CCC, FAPAR, chlorophyll red-edge index) была проверена на различиях в физиологических условиях в зараженных и нет зараженных полях. Это подтвердило работу системы на основе спутниковых данных для обнаружения паразитических видов в полевых условиях. ## Значимость Разработанная модель представляет собой надежное решение для повышения эффективности борьбы с branched broomrape в тепличных условиях. Она может быть применена в других сельскохозяйственных производствах, где вредители создают угрозу урожаям. Инновационный подхо

Annotation:

Branched broomrape (Phelipanche ramosa (L.) Pomel) is a chlorophyll-deficient parasitic plant that threatens tomato production by extracting nutrients from the host, with reported yield losses up to 80 percent. Its mostly subterranean life cycle and prolific seed production (more than 200,000 seeds per plant, viable for up to 20 years) make early detection essential. We present an end-to-end pipeline that uses Sentinel-2 imagery and time-series analysis to identify broomrape-infested tomato fiel...

ID: 2509.10804v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

1
2
57
58
59
60
61
83
84

Показано 581 - 590 из 835 записей