📚 Саммари научных статей из arXiv

Найдено 12073 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation

2025-08-14

Авторы:

Chenruo Liu, Hongjun Liu, Zeyu Lai, Yiqiu Shen, Chen Zhao, Qi Lei

#### Контекст В многообразии приложений искусственного интеллекта, таких как обнаружение объектов, классификация изображений и сегментация изображений, необходимо обеспечить высокую степень общей робастности моделей. Одним из ключевых забота с повышением робастности является спурические связи, которые возникают когда модель зависит от неустойчивых признаков, которые могут меняться в разных доменах. Несмотря на развитие методов, спурические связи остаются трудностью в многих задачах. Недостаточностью существующих решений является то, что они часто требуют дополнительных аннотаций, таких как групповые или признаки спурических связей, что непрактично в реальном мире. Наша исследовательская группа нацелена на развитие метода, который бы устранил эти ограничения и обеспечил робастность к спурическим связям без дополнительных аннотаций. #### Метод Мы предлагаем метод, который использует семантическую структуру классов на уровне суперклассов для уменьшения зависимости от спурических признаков. Наше решение основывается на градиентно-ориентированной аттенции, которая руководствуется предварительно обученным зрения-языковым моделем. Мы разделяем признаки на два класса: суперклассовые и не суперклассовые. Для этого мы используем семантическую информацию, полученную из предварительно обученной модели зрения-языка. Модель основывается на градиентной оптимизации, чтобы выделить признаки, связанные с суперклассом, и уменьшить влияние непроверенных признаков. Таким образом, наш метод обеспечивает устойчивость к спурическим связям без необходимости дополнительных аннотаций. #### Результаты Мы провели эксперименты на нескольких датасетах, включая CIFAR-10-C, Waterbirds и CelebA. Мы сравнили наш метод с несколькими базовыми моделями, такими как GroupDRO, IRM и DRO. Мы обнаружили, что наш метод значительно превосходит базовые модели по метрикам групповой робастности и общей точности. В частности, наш метод показал существенное улучшение в тестах спурических связей, выполняя лучше на 10-15% по сравнению с базовыми моделями. Мы также провели визуальные эксперименты, чтобы показать, что модель направляется на суперклассы и выбирает признаки, связанные с ними. #### Значимость Наш метод может быть применен в различных задачах, таких как здравоохранение, транспорт, искусственный интеллект в реальном времени. Он предоставляет значительные преимущества по сравнению с другими подходами, такими как уменьшение необходимости в дополнительных аннотациях и повышение устойчивости к спурическим связям в различных доменах. Это может привест

Annotation:

To enhance group robustness to spurious correlations, prior work often relies on auxiliary annotations for groups or spurious features and assumes identical sets of groups across source and target domains. These two requirements are both unnatural and impractical in real-world settings. To overcome these limitations, we propose a method that leverages the semantic structure inherent in class labels--specifically, superclass information--to naturally reduce reliance on spurious features. Our mode...

ID: 2508.08570v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Yan: Foundational Interactive Video Generation

2025-08-14

Авторы:

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun

## Контекст Область исследования включает в себя развитие интерактивных технологий видеогенерации, которые могут адаптироваться в реальном времени к пользовательским входным данным. Текущие проблемы в этой области заключаются в отсутствии глубокой интеграции высшего уровня анимации и синтеза видео, а также в неэффективности существующих подходов в обеспечении реального времени и гибкой редактироваемости видео. Мотивацией для разработки Yan явилась необходимость в новом фундаментальном подходе, объединяющем в себе всю интерактивную цепочку генерации видео от моделирования до редактирования. ## Метод Yan представляет собой интегрированную систему, состоящую из трех основных модулей. 1) **AAA-уровневая симуляция** основывается на 3D-VAE с кэшем на основе ключевых слов (KV-cache) и процессом разбиения окна для уменьшения шума. Это позволяет достичь реального времени 1080p/60fps в интерактивных ситуациях. 2) **Многомодальная генерация** использует лесковскую авторегрессию, внедряющую знания об играх в рамки модели различных типов мультимедиа. Это позволяет генерировать видео, которое реагирует на текстовые и визуальные стимулы, а также может быть контролируемо по отдельным кадрам. 3) **Многоуровневое редактирование** разделяет механику интерактивности от визуального отображения, что обеспечивает тонкую редактироваемость видео в реальном времени с помощью текста. ## Результаты Исследования проводились на огромном корпусе данных, включавших видео с различными стилями и механиками. Тестирование показало, что система Yan достигает высокой точности и реального времени при симуляции и генерации видео. Многомодальная генерация продемонстрировала мощь модели в создании продолжений видео, при этом сохраняя стиль и механику кросс-доменных объектов. Также было показано, что многоуровневое редактирование дает пользователю тонкую контрольную силу над содержимым видео. ## Значимость Yan открывает путь к новым возможностям в игровой индустрии, животворной индустрии, создания новых типов кинематографического контента и даже динамических визуальных интерфейсов. Его гибкость и реальность делают его полезным в приложениях, требующих интерактивности и реактивности с пользователем. ## Выводы Yan представляет собой новую модель интерактивной генерации видео, объединяющую высокую реальность, многомодальность и редактирование. Будущие исследования будут фокусироваться на улучшении вычислительной эффективности, расширении данных входа и развитии новых методов редактирова

Annotation:

We present Yan, a foundational framework for interactive video generation, covering the entire pipeline from simulation and generation to editing. Specifically, Yan comprises three core modules. AAA-level Simulation: We design a highly-compressed, low-latency 3D-VAE coupled with a KV-cache-based shift-window denoising inference process, achieving real-time 1080P/60FPS interactive simulation. Multi-Modal Generation: We introduce a hierarchical autoregressive caption method that injects game-speci...

ID: 2508.08601v2 cs.CV, cs.AI

arXiv PDF

📄 Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization

2025-08-14

Авторы:

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

## Контекст Vision-Language Models (VLMs), способные обрабатывать слои текста и изображений, стали важной частью анализа и визуального распознавания. Несмотря на их великолепные возможности, прирост в размере моделей приводит к высоким затратам на их тренировку и адаптацию. Это вынуждает разработчиков искать эффективные методы для переиспользования существующих моделей. Однако существующие методы трансфера адаптации часто слишком зависимы от конкретной модели, что ограничивает их общую пригодность. Наша мотивация заключается в разработке метода, который не только эффективен в переиспользовании знаний, но и универсален для различных моделей. ## Метод Мы предлагаем **Transferable Model-Agnostic Adapter (TransMiter)** — легковесный адаптер, который не требует обратного распространения (backpropagation). TransMiter захватывает разницу между силами моделей (предварительно обученными и тщательно адаптированными) в нейросетевом пространстве с помощью непосредственного обучения. Это позволяет ему быть переносимым по всему спектру моделей. Благодаря использованию простых слоев, TransMiter добавляет минимальные издержки на инференс. Кроме того, добавление небольшого количества меток может улучшить результаты в некоторых случаях, даже превзойдя преимущества косвенных тренировок модели. ## Результаты Мы проводили эксперименты на нескольких популярных базах данных, включая MS-COCO и Visual Genome. Мы сравнивали TransMiter с другими адаптационными методами, используя модели разных размеров (с малым, средним и большим числом параметров). Наш адаптер показал значительно более высокую выгоду в передаче знаний между моделями, при этом сохраняя высокие результаты в общей обработке визуальных данных. Фактически, на некоторых задачах TransMiter даже превысил модели, тщательно адаптированные с помощью традиционных методов. ## Значимость Мы видим применение TransMiter в сценариях, где модели должны быть эффективными, переносимыми и не требующими дорогостоящих тренировок на многочисленных данных. Например, данный метод применим в робототехнике, медицинском изображении и анализе видео. Одним из преимуществ является значительное сокращение ресурсов, необходимых для обучения, и уменьшение влияния на системы, где память и пропускная способность ограничены. ## Выводы Мы доказали, что TransMiter позволяет эффективно переносить знания между моделями разных размеров и архитектур. Этот подход не только улучшает гибкость адаптации, но и снижает стоимость тренировок. Наша работа открывает путь к будущим исследованиям в области универсальных методов для трансфера визуально-языковых моделей.

Annotation:

Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this,...

ID: 2508.08604v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MMIF-AMIN: Adaptive Loss-Driven Multi-Scale Invertible Dense Network for Multimodal Medical Image Fusion

2025-08-14

Авторы:

Tao Luo, Weihua Xu

## Контекст Multimodal medical image fusion (MMIF) является важной областью исследований в медицинской информатике, нацеленной на объединение изображений разных модальностей для получения подробной и точной информации о органах, тканях и метаболических процессах. Эта технология играет ключевую роль в улучшении результатов диагностики и лечения. Однако сложностью MMIF является трудностью эффективного извлечения уникальных и комплиментарных информационных сигналов из разных модальностей. Недостаточное извлечение такой информации может привести к неточностям в диагностике. Для решения этой проблемы, новые методы, оптимизированные для извлечения такой комплиментарной информации, являются критически важными. ## Метод MMIF-AMIN представляет собой новую архитектуру, основанную на Invertible Dense Network (IDN), которая обеспечивает lossless извлечение фич из отдельных модальностей. Для извлечения комплиментарной информации между модальностями, авторы предлагают Multi-scale Complementary Feature Extraction Module (MCFEM), который включает в себя hybrid attention mechanism, convolutional layers с разными размерами, и Transformers. Этот модуль позволяет эффективно извлекать информацию, которая может быть упущена в простых моделях. Для оптимизации обучения модели, предлагается adaptive loss function, которая является более гибкой и эффективной, чем традиционные manually-designed loss functions. ## Результаты Для оценки эффективности MMIF-AMIN, авторы провели широкий набор экспериментов, используя разные данные, включая CT и MRI изображения. Результаты показали, что MMIF-AMIN превосходит 9 состояний-арты в MMIF, при этом показывая значительные улучшения в качестве изображений и точности диагностики. Эти результаты были подтверждены как в quantitative, так и в qualitative анализах. Отдельные ablation experiments показали, что каждый компонент модели, включая IDN, MCFEM и adaptive loss function, значительно способствуют общему качеству изображений. ## Значимость MMIF-AMIN может быть применена в различных областях медицины, в том числе в диагностике рака, исследованиях нервной системы, и других областях, где важно получить полное и точное представление о здоровье пациента. Одним из ключевых преимуществ является то, что MMIF-AMIN может быть использована для других задач image fusion, показывая промышленную ценность и широкий спектр применений. В будущем, модель может быть расширена для обработки более сложных изображений и многомодальных данных. ## Выводы MMIF-AMIN продемонстрировала превосходство над другими методами в области MMIF, показав возможность эффективно извлекать и объединять уникальные и комплиментарные информационные сигналы из разных модальностей. Основные достижения модели включают innovative architecture и adaptive loss function, которые значительно повышают точность

Annotation:

Multimodal medical image fusion (MMIF) aims to integrate images from different modalities to produce a comprehensive image that enhances medical diagnosis by accurately depicting organ structures, tissue textures, and metabolic information. Capturing both the unique and complementary information across multiple modalities simultaneously is a key research challenge in MMIF. To address this challenge, this paper proposes a novel image fusion method, MMIF-AMIN, which features a new architecture tha...

ID: 2508.08679v1 cs.CV, cs.AI

arXiv PDF

📄 STELAR-VISION: Self-Topology-Aware Efficient Learning for Aligned Reasoning in Vision

2025-08-14

Авторы:

Chen Li, Han Zhang, Zhantao Yang, Fangyi Chen, Zihan Wang, Anudeepsekhar Bolimera, Marios Savvides

################################# ## Контекст ################################# На сегодняшний день, vision-language models (VLMs) стали важной частью искусственного интеллекта, позволяющими обрабатывать и анализировать multimodal data. Однако они часто сталкиваются с проблемами при обработке сложных задач, включающих в себя несколько видов данных. Эти модели часто генерируют длинные и менее эффективные ответы, что снижает их эффективность. Также, VLMs часто ограничиваются chain-of-thought (CoT) рассуждением, несмотря на то, что такие задачи могут выгоднее быть решены с использованием других структур, таких как tree или graph-based topologies. Эти ограничения могут приводить к неэффективности и неточности во время выполнения задач. STELAR-Vision, новая модель, предлагает решение для этих проблем за счет внедрения topology-aware reasoning, которое расширяет возможности VLMs и делает их более эффективными в работе с complex multimodal tasks. ################################# ## Метод ################################# STELAR-Vision представляет собой новую систему с поддержкой topology-aware reasoning, которая включает в себя две основные компоненты. Во-первых, TopoAug, синтетическая датасет-пипелайн, которая добавляет разнообразные топологические структуры в процесс обучения. Во-вторых, методы пост-обучения, включая supervised fine-tuning и reinforcement learning, которые улучшают точность и эффективность Qwen2VL-модели. Более того, модель также включает Frugal Learning, стратегию, которая уменьшает длину выходных данных, сохраняя высокую точность. Эти компоненты совместно стремятся к более точному и эффективному рассуждению в multimodal tasks. ################################# ## Результаты ################################# На MATH-V и VLM-S2H, STELAR-Vision показывает увеличение точности на 9.7% по сравнению с базовой моделью. Она также выступает лучше Qwen2VL-72B-Instruct на 7.3%. На пяти OOD-benchmarks, STELAR-Vision показывает сразу значительный выигрыш, превышая Phi-4-Multimodal-Instruct на 28.4% и LLaMA-3.2-11B-Vision-Instruct на 13.2%. Эти результаты показывают, что STELAR-Vision не только улучшает точность на in-distribution datasets, но и демонстрирует сильную generalization на out-of-distribution tasks. Особенно стоит отметить, что в сравнении с Chain-Only training, STELAR-Vision показывает 4.3% выигрыша в общей точности, что демонстрирует ее преимущество в обеспечении более эффективного и точного рассуждения. ################################# ## Значимость ################################# STELAR-Vision может быть применена в различных областях, включая computer vision, natural language processing и multimodal reasoning. Она предлагает значительные преимущества, такие как улучшенная точность, эффективность и generalization на разных datasets. Также, возможность использовать разные топологии в рассуждении делает модель более гибкой и удобной для различных задач. Эти достижения могут вести к повышению эффективности во время обработки multimodal data в различных приложениях, таких как image captioning, visual question answering и multimodal search. ################################# ## Выводы ################################

Annotation:

Vision-language models (VLMs) have made significant strides in reasoning, yet they often struggle with complex multimodal tasks and tend to generate overly verbose outputs. A key limitation is their reliance on chain-of-thought (CoT) reasoning, despite many tasks benefiting from alternative topologies like trees or graphs. To address this, we introduce STELAR-Vision, a training framework for topology-aware reasoning. At its core is TopoAug, a synthetic data pipeline that enriches training with d...

ID: 2508.08688v1 cs.AI, cs.CV

arXiv PDF

📄 SafeFix: Targeted Model Repair via Controlled Image Generation

2025-08-14

Авторы:

Ouyang Xu, Baoming Zhang, Ruiyu Mao, Yunhui Guo

#### Контекст Deep learning модели для визуального распознавания часто содержат систематические ошибки из-за недостаточного представления семантических подпулов данных. Эти ошибки могут быть выявлены с помощью существующих фреймворков для отладки, которые позволяют определить ключевые недостатки. Однако их эффективное исправление остается значительной проблемой. Традиционные решения часто основываются на ручном создании провоцирующих запросов для генерации синтетических изображений, что приводит к риску сдвига распределения и нарушению семантики. Для решения этих проблем мы предлагаем SafeFix, модуль для исправления моделей, который использует интерпретируемую аттрибуцию недостатков для генерации уточненных изображений. Мы используем тексто-к пикс-модель, которая генерирует семантически достоверные изображения, а виджон-лангуаж модель (LVLM) выполняет фильтрацию, обеспечивая качество и соответствие оригинальному распределению. #### Метод SafeFix основывается на интерпретируемом подходе к аттрибуции недостатков. Мы использвали текстовый генератор, адаптированный для работы в контексте визуального распознавания. Весь процесс генерирования изображений регулируется LVLM, который обеспечивает высокое качество и соответствие распределению. Мы адаптировали модель для сгенерированных изображений, чтобы улучшить результаты на сложных сценариях. Этот подход позволил нам генерировать семантически достоверные изображения, которые адекватно отражают ключевые недостатки. Данные генерируются в зависимости от спецификации ошибки, что допускает целенаправленный ремонт. #### Результаты Мы проверили SafeFix на нескольких задачах визуального распознавания. Наши эксперименты показали, что модель успешно исправляет систематические ошибки, связанные с недостатком представления семантических подпулов. Мы сравнили результаты с традиционными методами и показали, что SafeFix не только улучшил точность, но и уменьшил частоту новых ошибок. Наш алгоритм позволил достичь повышения производительности на 15% в сравнении с базовой моделью. Данные эксперименты были проведены на различных датасетах, включая CIFAR-10 и ImageNet. #### Значимость SafeFix открывает новые возможности для эффективного исправления моделей визуального распознавания. Он может быть применен в различных областях, включая медицину, системы безопасности и автоматизированные системы. Мы видим потенциал в расширении SafeFix на другие типы моделей и задач. Этот подход позволяет улучшить надежность моделей, сократить число ошибок и внести вклад в безопасность использования AI. #### Выводы Мы представили SafeFix, модуль для

Annotation:

Deep learning models for visual recognition often exhibit systematic errors due to underrepresented semantic subpopulations. Although existing debugging frameworks can pinpoint these failures by identifying key failure attributes, repairing the model effectively remains difficult. Current solutions often rely on manually designed prompts to generate synthetic training images -- an approach prone to distribution shift and semantic errors. To overcome these challenges, we introduce a model repair ...

ID: 2508.08701v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Bridging the Gap: A Framework for Real-World Video Deepfake Detection via Social Network Compression Emulation

2025-08-14

Авторы:

Andrea Montibeller, Dasara Shullani, Daniele Baracchi, Alessandro Piva, Giulia Boato

## Контекст В последние годы рост применения глубокого обучения привел к появлению новых форм синтезированного видео, таких как глубокие подделки (deepfakes). Эти технологии находят применение в различных сферах, от развлечений до мошенничества. Особенно актуальной стала проблема глубоких подделок на социальных сетях, где пользователи подвергаются угрозе дезинформации и мошенничества. Существующие методы обнаружения глубоких подделок часто разрабатываются и тестируются в управляемых условиях, но не могут надёжно работать в реальных условиях, где видео подвергаются агрессивной сжатию и преобразованиям. Это сделано для экономии ресурсов и повышения скорости раздачи контента. Мы предлагаем первый подход, который эмулирует социальные сети, используя компрессию и перераспределение параметров, полученных из небольшого набора видео, чтобы создать локальный эмулятор для видео-соцсетей. ## Метод Мы предлагаем фреймворк, который эмулирует процессы компрессии видео на социальных платформах, основываясь на маленьких наборах видео, загруженных на данные платформы. Для этого мы используем алгоритм, оценивающий параметры компрессии и размещения из загруженных данных. Эти параметры используются для создания локального эмулятора, который может воспроизвести специфические артефакты, внедренные в видео, после сжатия и перераспределения. Это достигается без необходимости применения API социальных сетей, что делает наше решение эффективным и практичным. ## Результаты Мы проводили эксперименты с видео, загруженными на FaceForensics++, которые после этого были распространены через социальные сети. Наши эмуляционные данные были сравнены с реальными данными, и мы установили, что они имеют похожие характеристики и артефакты. Мы также сравнили работу различных сетей глубокого обучения, которые были тренированы на этих эмулированных данных и реальных данных. Результаты показали, что детекторы, обученные на наших эмулированных данных, смогли достичь почти той же точности, что и детекторы, обученные на реальных данных. Это подтверждает эффективность нашего подхода. ## Значимость Наш фреймворк может иметь большое значение в области обнаружения глубоких подделок, так как он предлагает решение для ситуации, когда существующие методы работают ненадежно на сжатых видео, которые распространяются через социальные сети. Это позволяет увеличить эффективность и надежность детекторов глубоких подделок, сделав их более пригодными для использования в реальных условиях. Мы также открываем путь для дальнейших исследований в области эмуляции социальных сетей для

Annotation:

The growing presence of AI-generated videos on social networks poses new challenges for deepfake detection, as detectors trained under controlled conditions often fail to generalize to real-world scenarios. A key factor behind this gap is the aggressive, proprietary compression applied by platforms like YouTube and Facebook, which launder low-level forensic cues. However, replicating these transformations at scale is difficult due to API limitations and data-sharing constraints. For these reason...

ID: 2508.08765v1 cs.CV, cs.AI

arXiv PDF

📄 Silicon Minds versus Human Hearts: The Wisdom of Crowds Beats the Wisdom of AI in Emotion Recognition

2025-08-14

Авторы:

Mustafa Akben, Vinayaka Gude, Haya Ajjan

## Контекст Современные искусственные интеллекты (AI) adquires все более значительную роль в области взаимодействия между людьми и машинами. Одним из ключевых аспектов этого взаимодействия является возможность AI распознавать и реагировать на эмоции человека. Несмотря на развитие AI в этой сфере, неясно, могут ли такие системы достичь или превзойти уровень эмоционального распознавания, который обладают люди, особенно эксперты в этой области. Это особенно актуально для multimodal large language models (MLLMs), которые обладают многомодальностью в обработке информации. В настоящем исследовании проводится сравнение эмоционального распознавания MLLMs с результатами человеческих участников, основываясь на таких тестах, как Reading the Mind in the Eyes Test (RMET) и его многонациональная версия (MRMET). ## Метод Для оценки эмоционального распознавания MLLMs были использованы две версии теста Reading the Mind in the Eyes Test (RMET): оригинальная и многонациональная. Эти тесты предназначены для определения возможности распознавать эмоции, основываясь на изображениях глаз людей. Многонациональная версия (MRMET) включает изображения людей разных рас, чтобы учесть различия в реакциях на эмоции в разных культурах. Для обеспечения сравнения AI с человеческими участниками, результаты MLLMs были сравнены с результатами отдельных людей, а также с результатами коллективного распознавания, когда решения нескольких людей объединялись в одно. ## Результаты Исследование показало, что MLLMs превосходят человеческих участников в эмоциональном распознавании в обоих тестах RMET и MRMET. В среднем, MLLMs показали более высокую точность в распознавании эмоций по отношению к отдельным людям. Этот тренд сохранялся во всех группах по уровню производительности, включая низкие, средние и экспертные. Однако, когда решения отдельных людей объединялись в коллективные решения, группы человеческих участников показали значительно более высокую точность, чем работа в MLLMs. Тем не менее, когда MLLMs и человеческие решения объединялись в коллективную стратегию, это приводило к еще большей точности, чем работа MLLMs или человеческих участников отдельно. ## Значимость Результаты этих исследований имеют важное значение для развития эмоционально умных AI-систем. Они показывают, что MLLMs могут использоваться для эффективного распознавания эмоций на индивидуальном уровне, но, при этом, коллективная мудрость человеческих групп превосходит их. Это открытие подтверждает потенциал augmented intelligence — систем, в которых объединяются возможности AI и людей для повышения точности. Такие решения могут быть применены в различных областях, включая психологию, обра

Annotation:

The ability to discern subtle emotional cues is fundamental to human social intelligence. As artificial intelligence (AI) becomes increasingly common, AI's ability to recognize and respond to human emotions is crucial for effective human-AI interactions. In particular, whether such systems can match or surpass human experts remains to be seen. However, the emotional intelligence of AI, particularly multimodal large language models (MLLMs), remains largely unexplored. This study evaluates the emo...

ID: 2508.08830v1 cs.AI, cs.CV, cs.CY

arXiv PDF

📄 Shape Completion and Real-Time Visualization in Robotic Ultrasound Spine Acquisitions

2025-08-14

Авторы:

Miruna-Alexandra Gafencu, Reem Shaban, Yordanka Velikova, Mohammad Farid Azampour, Nassir Navab

## Контекст Ультразвуковое исследование (US) становится все более популярным при проведении процедур при позвоночнике, благодаря его реальному времени отображению и отсутствию излучений. Однако, его эффективность существенно ограничивается феноменом затемнения (shadowing artifacts), который затрудняет видимость глубинных тканей. Традиционные методы, такие как регистрация CT-to-US, используют анатомическую информацию из предварительных CT-сканов для улучшения визуализации, но они страдают от сложности регистрации, различий в кривизне позвоночника и необходимости иметь актуальные CT-сканы. Недавние методы комплексного описания формы могут предложить альтернативу, восстанавливая анатомические структуры в данных US, при этом используя предварительно обученные модели на огромных объемах публичных данных CT. Несмотря на это, эти подходы типично являются оффлайнными и имеют ограниченную воспроизводимость. Мы предлагаем новую, интегрированную систему, объединяющую роботизированный ультразвук и реальное время комплексного описания, для повышения визуализации позвоночника в ультразвуковых процедурах. ## Метод Наша система автоматически выполняет ультразвуковые сканы нижнего позвоночника с помощью роботизированного ультразвукового сканера, извлекает поверхности позвоночника из ультразвука и восстанавливает полную анатомию с помощью глубокого нейронного сетевого сетевого метода комплексного описания. Мы разрабатываем алгоритмы для точного восстановления анатомических структур и интегрируем их с роботизированной платформой для реального времени. Метод протестирован на макете и на данных волонтера, используя качественные и количественные подходы для оценки точности восстановления и визуализации. ## Результаты Мы проверяем нашу систему на макете и волонтерских данных. На макете, наши эксперименты показывают, что модель демонстрирует высокую точность восстановления глубинных анатомических структур, а также производит реальному времени визуализацию. На данных волонтера, система продемонстрировала возможность автоматического повторения сканов и интерактивной визуализации, что помогает повысить точность и понимание анатомии. Результаты показывают, что наш подход может сделать процедуры более последовательными и надежными. ## Значимость Наш подход может быть применен в различных областях медицины, включая хирургию позвоночника и другие сложные процедуры, где визуализация ключева. Он предоставляет преимущества, такие как улучшение точности, последовательности и понимания анатомии. Будущие исследования будут фоку

Annotation:

Ultrasound (US) imaging is increasingly used in spinal procedures due to its real-time, radiation-free capabilities; however, its effectiveness is hindered by shadowing artifacts that obscure deeper tissue structures. Traditional approaches, such as CT-to-US registration, incorporate anatomical information from preoperative CT scans to guide interventions, but they are limited by complex registration requirements, differences in spine curvature, and the need for recent CT imaging. Recent shape c...

ID: 2508.08923v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 When Deepfakes Look Real: Detecting AI-Generated Faces with Unlabeled Data due to Annotation Challenges

2025-08-14

Авторы:

Zhiqiang Yang, Renshuai Tao, Xiaolong Zheng, Guodong Yang, Chunjie Zhang

#### Контекст Область исследования связана с распознаванием г DEEPFAKES, технологий, которые автоматически генерируют лица, выглядящие как настоящие. Эти технологии имеют широкое применение в разных сферах, но также представляют угрозу для безопасности информации и честности коммуникации. Известно, что существующие методы распознавания DEEPFAKES требуют большого количества точечного меток (labeled), для обучения моделей. Однако, на сегодняшний день, генерируемые с помощью ИИ лица становятся все более реалистичными, и даже человеком процесс различения между генерируемыми и настоящими лицами становится сложнее. Это приводит к увеличению времени и сложности процесса меток, а также к ухудшению точности распознавания. Кроме того, требуется развитие подходов, которые могут эффективно использовать большие массивы непомеченных данных, таких как лица, полученные из социальных сетей. Эти данные обычно имеют динамические качества и трудно классифицировать стандартными методами, обученными на меточных данных. В данном исследовании рассматривается задача распознавания главных особенностей г DEEPFAKES, применяя алгоритмы, которые могут эффективно работать с непомеченными данными. #### Метод Основной метод, предлагаемый в работе, называется Dual-Path Guidance Network (DPGNet). Он представляет собой совместное использование двух путей информации: текстового и визуального. Данный подход оптимизируется для решения двух ключевых проблем: (1) уменьшения различий между генерируемыми лицами различных моделей, и (2) использования непомеченных данных для обучения. - **Text-guided Cross-domain Alignment**: Этот модуль позволяет связать визуальные и текстовые признаки, используя универсальность текста для объединения разных доменов (генерируемые и настоящие лица). Используя "learnable prompts" (обучаемые подсказки), DPGNet способен привести визуальные и текстовые данные к общему, независимому от домена, функциональному пространству. - **Curriculum-driven Pseudo Label Generation**: Данный модуль раскрывает потенциал непомеченных данных, постепенно расширяя обучающую выборку с помощью динамической генерации псевдо-меток. Это позволяет модели учитывать более качественные семплы из непомеченных данных. - **Cross-domain Knowledge Distillation**: Чтобы обойти проблему "catastrophic forgetting" (забывание достигнутых навыков при изменении обучающих наборов), DPGNet использует методы кросс-доменного знания, чтобы лучше связать взаимосвязанные компоненты из разных доменов. #### Результаты В ходе экспериментов DPGNet был проверен на 11 популярных датасетах, где показал высокую точность в распознавании г DEEPFAKES. Метод демонстрирует зна

Annotation:

Existing deepfake detection methods heavily depend on labeled training data. However, as AI-generated content becomes increasingly realistic, even \textbf{human annotators struggle to distinguish} between deepfakes and authentic images. This makes the labeling process both time-consuming and less reliable. Specifically, there is a growing demand for approaches that can effectively utilize large-scale unlabeled data from online social networks. Unlike typical unsupervised learning tasks, where ca...

ID: 2508.09022v2 cs.CV, cs.AI

arXiv PDF

1
2
1123
1124
1125
1126
1127
1207
1208

Показано 11241 - 11250 из 12073 записей