📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Neural Tangent Knowledge Distillation for Optical Convolutional Networks

2025-08-14

Авторы:

Jinlin Xiang, Minho Choi, Yubo Zhang, Zhihao Zhou, Arka Majumdar, Eli Shlizerman

## Контекст Оптические нейронные сети (Optical Neural Networks, ONN) представляют собой системы, объединяющие оптический фронтенд и цифровой бэкэнд. Они являются энергоэффективным аналогом полностью цифровых нейронных сетей для реального времени и систем с ограниченным питанием. Однако их распространение сталкивается с двумя основными проблемами. Во-первых, их производительность во время обучения часто ниже, чем у больших цифровых сетей. Во-вторых, существуют различия между симуляционными моделями и фактическими фабрикациями, что также снижает точность. Несмотря на предыдущие исследования, сфокусированные на конкретных датасетах (например, MNIST) и оптических системах, эти подходы часто не подходят для широкого применения в различных задачах и аппаратных конфигурациях. Наша цель заключается в разработке общедоступного и применяемого в различных ситуациях подхода для улучшения ONN. ## Метод Мы предлагаем общедоступную пайплайн, которая поддерживает обучение и оценку ONN для нескольких задач, включая классификацию и сегментацию изображений. Для оценки того, что может быть достигнуто до обучения, мы предложили модель для прогнозирования достижимой точности на основе физических ограничений системы и характеристик датасета. Для улучшения точности во время обучения мы предложили Neural Tangent Knowledge Distillation (NTKD). NTKD использует электронную "учительскую" сеть для точного расчета на отдельных образцах, предоставляя указания для оптической сети. Это позволяет существенно уменьшить точностный диапазон между цифровыми и оптическими сетями. После фабрикации мы используем NTKD для тонкой настройки цифрового бэкэнда, которая компенсирует ошибки в фабрикации. ## Результаты Мы проверили нашу методику на нескольких датасетах, включая MNIST, CIFAR и Carvana Masking. Мы использовали различные оптические системы для экспериментов. Наши эксперименты показали, что NTKD существенно повышает точность обученных оптических сетей, даже при ограничениях в физическом размере или других конфигурациях. Мы также показали, что наш подход эффективен как для симуляционной работы, так и для физических измерений, что демонстрирует гибкость и реальную применимость нашей системы. ## Значимость Разработанная пайплайн имеет широкие потенциальные применения в области оптических нейронных сетей. Она может помочь в создании более точных оптических систем, улучшить процессы оценки моделей до их фабрикации и обеспечить эффективный цифровой бэкэнд для тонкой настройки после изготовления. Этот подход может существенно снизить трудности связанные с ограничениями пи

Annotation:

Hybrid Optical Neural Networks (ONNs, typically consisting of an optical frontend and a digital backend) offer an energy-efficient alternative to fully digital deep networks for real-time, power-constrained systems. However, their adoption is limited by two main challenges: the accuracy gap compared to large-scale networks during training, and discrepancies between simulated and fabricated systems that further degrade accuracy. While previous work has proposed end-to-end optimizations for specif...

ID: 2508.08421v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

2025-08-14

Авторы:

Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu

#### Контекст Создание выразительных и информативных видео с говорящими персонажами и глубокой интеграцией сценария представляет собой трудную задачу, которая часто ограничивается техническими и творческими возможностями существующих фреймворков. Они сталкиваются с проблемами, такими как слабая помощь пользователям, низкое качество визуальных эффектов и ограниченность выразительности. Например, развивающиеся фреймворки для рассказа историй через видео часто сталкиваются с трудностями в создании сценариев, которые требуют глубокого понимания художественного контекста и выразительных возможностей. Наша мотивация заключается в развитии расширенного комплексного подхода, который мог бы улучшить качество генерируемых видео, увеличить выразительность и сделать их более помогающими для пользователей. #### Метод MAViS (Multi-Agent Video Storytelling) представляет собой современный фреймворк, в котором работают специализированные агенты в разных стадиях процесса рассказа историй с помощью видео. Фреймворк состоит из шести модулей: сценарийная работа, разработка выступления, моделирование персонажей, генерация ключевых кадров, анимация видео и генерация аудио. Каждый модуль придерживается 3E-принципа — Explore (изучение возможностей), Examine (оценка результатов) и Enhance (улучшение результатов). Для улучшения совместимости с набором существующих генерирующих моделей, мы предлагаем Script Writing Guidelines. Эти рекомендации оптимизируют создание сценариев, которые лучше доступны и эффективны для работы с генеративными моделями. Наш подход решает проблемы слабой помощи и несоответствия между пользовательскими вводом и итоговым выходом. #### Результаты Мы проверили MAViS на различных данных, включая тестовые видео, произведенные вручную и пользовательские пробы. Наши эксперименты показали, что MAViS превосходит другие фреймворки в трех основных аспектах: помощь пользователю, качество визуальных эффектов и выразительность видео. Например, тесты показали, что MAViS значительно улучшает структуруки сценариев, повышает качество генерируемых кадров и увеличивает уровень выразительности финального видео. Эти результаты подтверждают эффективность нашего подхода в создании высококачественных и интересных видео для рассказа историй. #### Значимость MAViS может быть применен в различных областях, таких как творческое производство, образовательные видео, реклама и видеоигры. Он предоставляет пользователям возможность легко создавать высококачественные видео с глубоким сценарием, которые требуют меньше времени и усилий. Одним из осно

Annotation:

Despite recent advances, long-sequence video generation frameworks still suffer from significant limitations: poor assistive capability, suboptimal visual quality, and limited expressiveness. To mitigate these limitations, we propose MAViS, an end-to-end multi-agent collaborative framework for long-sequence video storytelling. MAViS orchestrates specialized agents across multiple stages, including script writing, shot designing, character modeling, keyframe generation, video animation, and audio...

ID: 2508.08487v1 cs.CV, cs.AI, cs.MA

arXiv PDF

📄 VISOR: Visual Input-based Steering for Output Redirection in Vision-Language Models

2025-08-14

Авторы:

Mansi Phute, Ravikumar Balakrishnan

## Контекст Область визуально-языковых моделей (Vision-Language Models, VLMs) находится в стремительном развитии и применяется во многих сферах, от обработки естественного языка до тонкой коррекции поведения моделей. Однако вопросы безопасности и контроля поведения в VLMs остаются актуальными. Традиционные методы, такие как system prompting, легко обнаруживаются и часто оказываются неэффективными. Другие подходы, например, активационные векторы управления, требуют длительного доступа к модели во время выполнения, что не применимо для API-сервисов и закрытого использования моделей. Необходима методика, обеспечивающая эффективное управление моделями через простую и незаметную модификацию входных данных. ## Метод Мы предлагаем VISOR (Visual Input-based Steering for Output Redirection) — метод, который использует оптимизированные визуальные входные данные для достижения сложной коррекции поведения VLMs. VISOR создает "универсальные генераторы частот" — изображения, которые вызывают конкретные активации в модели. Эти изображения могут быть добавлены к входным изображениям, не вызывая заметных изменений в их визуальном виде. VISOR позволяет выполнять управление моделями во всех модах работы (статические изображения, видео, генерируемые моделями) без необходимости изменять код модели или иметь доступ к ее внутренней структуре. ## Результаты Мы проверили VISOR на модели LLaVA-1.5-7B, протестировав ее на трех критичных задачах: отказ от выполнения задачи, симпатия и инстинкт выживания. Эксперименты показали, что VISOR достигает значительного управления поведением модели с помощью относительно небольших визуальных изображений (например, 150KB). Например, для позитивной коррекции поведения VISOR превышает работу системных приметов в 4-5 раз, и для отрицательной — в 30 раз. VISOR поддерживает работу на 99,9% уровне на 14,000 независимых задач из MMLU-сборки. ## Значимость VISOR представляет собой новую точку зрения на контроль моделей визуально-языковых моделей. Он может применяться в различных областях, включая видеоредактирование, мультимедиа-фильтрацию и безопасность ИИ. Главное преимущество VISOR заключается в своей незаметности и эффективности, что открывает широкие возможности для интеллектуальных систем. ## Выводы VISOR демонстрирует возможность корректировки поведения моделей с помощью визуальных стимулов, не требуя доступа к модели во время выполнения. Это открывает новые возможности в области контроля VLMs, но также поднимает вопросы о системах защиты моделей от таких атак. В дальнейшем будет интересно исследовать возможности VISOR в различных сферах, а также развить методы защиты от таких ви

Annotation:

Vision Language Models (VLMs) are increasingly being used in a broad range of applications, bringing their security and behavioral control to the forefront. While existing approaches for behavioral control or output redirection, like system prompting in VLMs, are easily detectable and often ineffective, activation-based steering vectors require invasive runtime access to model internals--incompatible with API-based services and closed-source deployments. We introduce VISOR (Visual Input-based St...

ID: 2508.08521v1 cs.CV, cs.AI

arXiv PDF

📄 Superclass-Guided Representation Disentanglement for Spurious Correlation Mitigation

2025-08-14

Авторы:

Chenruo Liu, Hongjun Liu, Zeyu Lai, Yiqiu Shen, Chen Zhao, Qi Lei

#### Контекст В многообразии приложений искусственного интеллекта, таких как обнаружение объектов, классификация изображений и сегментация изображений, необходимо обеспечить высокую степень общей робастности моделей. Одним из ключевых забота с повышением робастности является спурические связи, которые возникают когда модель зависит от неустойчивых признаков, которые могут меняться в разных доменах. Несмотря на развитие методов, спурические связи остаются трудностью в многих задачах. Недостаточностью существующих решений является то, что они часто требуют дополнительных аннотаций, таких как групповые или признаки спурических связей, что непрактично в реальном мире. Наша исследовательская группа нацелена на развитие метода, который бы устранил эти ограничения и обеспечил робастность к спурическим связям без дополнительных аннотаций. #### Метод Мы предлагаем метод, который использует семантическую структуру классов на уровне суперклассов для уменьшения зависимости от спурических признаков. Наше решение основывается на градиентно-ориентированной аттенции, которая руководствуется предварительно обученным зрения-языковым моделем. Мы разделяем признаки на два класса: суперклассовые и не суперклассовые. Для этого мы используем семантическую информацию, полученную из предварительно обученной модели зрения-языка. Модель основывается на градиентной оптимизации, чтобы выделить признаки, связанные с суперклассом, и уменьшить влияние непроверенных признаков. Таким образом, наш метод обеспечивает устойчивость к спурическим связям без необходимости дополнительных аннотаций. #### Результаты Мы провели эксперименты на нескольких датасетах, включая CIFAR-10-C, Waterbirds и CelebA. Мы сравнили наш метод с несколькими базовыми моделями, такими как GroupDRO, IRM и DRO. Мы обнаружили, что наш метод значительно превосходит базовые модели по метрикам групповой робастности и общей точности. В частности, наш метод показал существенное улучшение в тестах спурических связей, выполняя лучше на 10-15% по сравнению с базовыми моделями. Мы также провели визуальные эксперименты, чтобы показать, что модель направляется на суперклассы и выбирает признаки, связанные с ними. #### Значимость Наш метод может быть применен в различных задачах, таких как здравоохранение, транспорт, искусственный интеллект в реальном времени. Он предоставляет значительные преимущества по сравнению с другими подходами, такими как уменьшение необходимости в дополнительных аннотациях и повышение устойчивости к спурическим связям в различных доменах. Это может привест

Annotation:

To enhance group robustness to spurious correlations, prior work often relies on auxiliary annotations for groups or spurious features and assumes identical sets of groups across source and target domains. These two requirements are both unnatural and impractical in real-world settings. To overcome these limitations, we propose a method that leverages the semantic structure inherent in class labels--specifically, superclass information--to naturally reduce reliance on spurious features. Our mode...

ID: 2508.08570v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Yan: Foundational Interactive Video Generation

2025-08-14

Авторы:

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun

## Контекст Область исследования включает в себя развитие интерактивных технологий видеогенерации, которые могут адаптироваться в реальном времени к пользовательским входным данным. Текущие проблемы в этой области заключаются в отсутствии глубокой интеграции высшего уровня анимации и синтеза видео, а также в неэффективности существующих подходов в обеспечении реального времени и гибкой редактироваемости видео. Мотивацией для разработки Yan явилась необходимость в новом фундаментальном подходе, объединяющем в себе всю интерактивную цепочку генерации видео от моделирования до редактирования. ## Метод Yan представляет собой интегрированную систему, состоящую из трех основных модулей. 1) **AAA-уровневая симуляция** основывается на 3D-VAE с кэшем на основе ключевых слов (KV-cache) и процессом разбиения окна для уменьшения шума. Это позволяет достичь реального времени 1080p/60fps в интерактивных ситуациях. 2) **Многомодальная генерация** использует лесковскую авторегрессию, внедряющую знания об играх в рамки модели различных типов мультимедиа. Это позволяет генерировать видео, которое реагирует на текстовые и визуальные стимулы, а также может быть контролируемо по отдельным кадрам. 3) **Многоуровневое редактирование** разделяет механику интерактивности от визуального отображения, что обеспечивает тонкую редактироваемость видео в реальном времени с помощью текста. ## Результаты Исследования проводились на огромном корпусе данных, включавших видео с различными стилями и механиками. Тестирование показало, что система Yan достигает высокой точности и реального времени при симуляции и генерации видео. Многомодальная генерация продемонстрировала мощь модели в создании продолжений видео, при этом сохраняя стиль и механику кросс-доменных объектов. Также было показано, что многоуровневое редактирование дает пользователю тонкую контрольную силу над содержимым видео. ## Значимость Yan открывает путь к новым возможностям в игровой индустрии, животворной индустрии, создания новых типов кинематографического контента и даже динамических визуальных интерфейсов. Его гибкость и реальность делают его полезным в приложениях, требующих интерактивности и реактивности с пользователем. ## Выводы Yan представляет собой новую модель интерактивной генерации видео, объединяющую высокую реальность, многомодальность и редактирование. Будущие исследования будут фокусироваться на улучшении вычислительной эффективности, расширении данных входа и развитии новых методов редактирова

Annotation:

We present Yan, a foundational framework for interactive video generation, covering the entire pipeline from simulation and generation to editing. Specifically, Yan comprises three core modules. AAA-level Simulation: We design a highly-compressed, low-latency 3D-VAE coupled with a KV-cache-based shift-window denoising inference process, achieving real-time 1080P/60FPS interactive simulation. Multi-Modal Generation: We introduce a hierarchical autoregressive caption method that injects game-speci...

ID: 2508.08601v2 cs.CV, cs.AI

arXiv PDF

📄 Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization

2025-08-14

Авторы:

Jihwan Park, Taehoon song, Sanghyeok Lee, Miso Choi, Hyunwoo J. Kim

## Контекст Vision-Language Models (VLMs), способные обрабатывать слои текста и изображений, стали важной частью анализа и визуального распознавания. Несмотря на их великолепные возможности, прирост в размере моделей приводит к высоким затратам на их тренировку и адаптацию. Это вынуждает разработчиков искать эффективные методы для переиспользования существующих моделей. Однако существующие методы трансфера адаптации часто слишком зависимы от конкретной модели, что ограничивает их общую пригодность. Наша мотивация заключается в разработке метода, который не только эффективен в переиспользовании знаний, но и универсален для различных моделей. ## Метод Мы предлагаем **Transferable Model-Agnostic Adapter (TransMiter)** — легковесный адаптер, который не требует обратного распространения (backpropagation). TransMiter захватывает разницу между силами моделей (предварительно обученными и тщательно адаптированными) в нейросетевом пространстве с помощью непосредственного обучения. Это позволяет ему быть переносимым по всему спектру моделей. Благодаря использованию простых слоев, TransMiter добавляет минимальные издержки на инференс. Кроме того, добавление небольшого количества меток может улучшить результаты в некоторых случаях, даже превзойдя преимущества косвенных тренировок модели. ## Результаты Мы проводили эксперименты на нескольких популярных базах данных, включая MS-COCO и Visual Genome. Мы сравнивали TransMiter с другими адаптационными методами, используя модели разных размеров (с малым, средним и большим числом параметров). Наш адаптер показал значительно более высокую выгоду в передаче знаний между моделями, при этом сохраняя высокие результаты в общей обработке визуальных данных. Фактически, на некоторых задачах TransMiter даже превысил модели, тщательно адаптированные с помощью традиционных методов. ## Значимость Мы видим применение TransMiter в сценариях, где модели должны быть эффективными, переносимыми и не требующими дорогостоящих тренировок на многочисленных данных. Например, данный метод применим в робототехнике, медицинском изображении и анализе видео. Одним из преимуществ является значительное сокращение ресурсов, необходимых для обучения, и уменьшение влияния на системы, где память и пропускная способность ограничены. ## Выводы Мы доказали, что TransMiter позволяет эффективно переносить знания между моделями разных размеров и архитектур. Этот подход не только улучшает гибкость адаптации, но и снижает стоимость тренировок. Наша работа открывает путь к будущим исследованиям в области универсальных методов для трансфера визуально-языковых моделей.

Annotation:

Vision-Language Models (VLMs) have been widely used in various visual recognition tasks due to their remarkable generalization capabilities. As these models grow in size and complexity, fine-tuning becomes costly, emphasizing the need to reuse adaptation knowledge from 'weaker' models to efficiently enhance 'stronger' ones. However, existing adaptation transfer methods exhibit limited transferability across models due to their model-specific design and high computational demands. To tackle this,...

ID: 2508.08604v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 MMIF-AMIN: Adaptive Loss-Driven Multi-Scale Invertible Dense Network for Multimodal Medical Image Fusion

2025-08-14

Авторы:

Tao Luo, Weihua Xu

## Контекст Multimodal medical image fusion (MMIF) является важной областью исследований в медицинской информатике, нацеленной на объединение изображений разных модальностей для получения подробной и точной информации о органах, тканях и метаболических процессах. Эта технология играет ключевую роль в улучшении результатов диагностики и лечения. Однако сложностью MMIF является трудностью эффективного извлечения уникальных и комплиментарных информационных сигналов из разных модальностей. Недостаточное извлечение такой информации может привести к неточностям в диагностике. Для решения этой проблемы, новые методы, оптимизированные для извлечения такой комплиментарной информации, являются критически важными. ## Метод MMIF-AMIN представляет собой новую архитектуру, основанную на Invertible Dense Network (IDN), которая обеспечивает lossless извлечение фич из отдельных модальностей. Для извлечения комплиментарной информации между модальностями, авторы предлагают Multi-scale Complementary Feature Extraction Module (MCFEM), который включает в себя hybrid attention mechanism, convolutional layers с разными размерами, и Transformers. Этот модуль позволяет эффективно извлекать информацию, которая может быть упущена в простых моделях. Для оптимизации обучения модели, предлагается adaptive loss function, которая является более гибкой и эффективной, чем традиционные manually-designed loss functions. ## Результаты Для оценки эффективности MMIF-AMIN, авторы провели широкий набор экспериментов, используя разные данные, включая CT и MRI изображения. Результаты показали, что MMIF-AMIN превосходит 9 состояний-арты в MMIF, при этом показывая значительные улучшения в качестве изображений и точности диагностики. Эти результаты были подтверждены как в quantitative, так и в qualitative анализах. Отдельные ablation experiments показали, что каждый компонент модели, включая IDN, MCFEM и adaptive loss function, значительно способствуют общему качеству изображений. ## Значимость MMIF-AMIN может быть применена в различных областях медицины, в том числе в диагностике рака, исследованиях нервной системы, и других областях, где важно получить полное и точное представление о здоровье пациента. Одним из ключевых преимуществ является то, что MMIF-AMIN может быть использована для других задач image fusion, показывая промышленную ценность и широкий спектр применений. В будущем, модель может быть расширена для обработки более сложных изображений и многомодальных данных. ## Выводы MMIF-AMIN продемонстрировала превосходство над другими методами в области MMIF, показав возможность эффективно извлекать и объединять уникальные и комплиментарные информационные сигналы из разных модальностей. Основные достижения модели включают innovative architecture и adaptive loss function, которые значительно повышают точность

Annotation:

Multimodal medical image fusion (MMIF) aims to integrate images from different modalities to produce a comprehensive image that enhances medical diagnosis by accurately depicting organ structures, tissue textures, and metabolic information. Capturing both the unique and complementary information across multiple modalities simultaneously is a key research challenge in MMIF. To address this challenge, this paper proposes a novel image fusion method, MMIF-AMIN, which features a new architecture tha...

ID: 2508.08679v1 cs.CV, cs.AI

arXiv PDF

📄 SafeFix: Targeted Model Repair via Controlled Image Generation

2025-08-14

Авторы:

Ouyang Xu, Baoming Zhang, Ruiyu Mao, Yunhui Guo

#### Контекст Deep learning модели для визуального распознавания часто содержат систематические ошибки из-за недостаточного представления семантических подпулов данных. Эти ошибки могут быть выявлены с помощью существующих фреймворков для отладки, которые позволяют определить ключевые недостатки. Однако их эффективное исправление остается значительной проблемой. Традиционные решения часто основываются на ручном создании провоцирующих запросов для генерации синтетических изображений, что приводит к риску сдвига распределения и нарушению семантики. Для решения этих проблем мы предлагаем SafeFix, модуль для исправления моделей, который использует интерпретируемую аттрибуцию недостатков для генерации уточненных изображений. Мы используем тексто-к пикс-модель, которая генерирует семантически достоверные изображения, а виджон-лангуаж модель (LVLM) выполняет фильтрацию, обеспечивая качество и соответствие оригинальному распределению. #### Метод SafeFix основывается на интерпретируемом подходе к аттрибуции недостатков. Мы использвали текстовый генератор, адаптированный для работы в контексте визуального распознавания. Весь процесс генерирования изображений регулируется LVLM, который обеспечивает высокое качество и соответствие распределению. Мы адаптировали модель для сгенерированных изображений, чтобы улучшить результаты на сложных сценариях. Этот подход позволил нам генерировать семантически достоверные изображения, которые адекватно отражают ключевые недостатки. Данные генерируются в зависимости от спецификации ошибки, что допускает целенаправленный ремонт. #### Результаты Мы проверили SafeFix на нескольких задачах визуального распознавания. Наши эксперименты показали, что модель успешно исправляет систематические ошибки, связанные с недостатком представления семантических подпулов. Мы сравнили результаты с традиционными методами и показали, что SafeFix не только улучшил точность, но и уменьшил частоту новых ошибок. Наш алгоритм позволил достичь повышения производительности на 15% в сравнении с базовой моделью. Данные эксперименты были проведены на различных датасетах, включая CIFAR-10 и ImageNet. #### Значимость SafeFix открывает новые возможности для эффективного исправления моделей визуального распознавания. Он может быть применен в различных областях, включая медицину, системы безопасности и автоматизированные системы. Мы видим потенциал в расширении SafeFix на другие типы моделей и задач. Этот подход позволяет улучшить надежность моделей, сократить число ошибок и внести вклад в безопасность использования AI. #### Выводы Мы представили SafeFix, модуль для

Annotation:

Deep learning models for visual recognition often exhibit systematic errors due to underrepresented semantic subpopulations. Although existing debugging frameworks can pinpoint these failures by identifying key failure attributes, repairing the model effectively remains difficult. Current solutions often rely on manually designed prompts to generate synthetic training images -- an approach prone to distribution shift and semantic errors. To overcome these challenges, we introduce a model repair ...

ID: 2508.08701v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Bridging the Gap: A Framework for Real-World Video Deepfake Detection via Social Network Compression Emulation

2025-08-14

Авторы:

Andrea Montibeller, Dasara Shullani, Daniele Baracchi, Alessandro Piva, Giulia Boato

## Контекст В последние годы рост применения глубокого обучения привел к появлению новых форм синтезированного видео, таких как глубокие подделки (deepfakes). Эти технологии находят применение в различных сферах, от развлечений до мошенничества. Особенно актуальной стала проблема глубоких подделок на социальных сетях, где пользователи подвергаются угрозе дезинформации и мошенничества. Существующие методы обнаружения глубоких подделок часто разрабатываются и тестируются в управляемых условиях, но не могут надёжно работать в реальных условиях, где видео подвергаются агрессивной сжатию и преобразованиям. Это сделано для экономии ресурсов и повышения скорости раздачи контента. Мы предлагаем первый подход, который эмулирует социальные сети, используя компрессию и перераспределение параметров, полученных из небольшого набора видео, чтобы создать локальный эмулятор для видео-соцсетей. ## Метод Мы предлагаем фреймворк, который эмулирует процессы компрессии видео на социальных платформах, основываясь на маленьких наборах видео, загруженных на данные платформы. Для этого мы используем алгоритм, оценивающий параметры компрессии и размещения из загруженных данных. Эти параметры используются для создания локального эмулятора, который может воспроизвести специфические артефакты, внедренные в видео, после сжатия и перераспределения. Это достигается без необходимости применения API социальных сетей, что делает наше решение эффективным и практичным. ## Результаты Мы проводили эксперименты с видео, загруженными на FaceForensics++, которые после этого были распространены через социальные сети. Наши эмуляционные данные были сравнены с реальными данными, и мы установили, что они имеют похожие характеристики и артефакты. Мы также сравнили работу различных сетей глубокого обучения, которые были тренированы на этих эмулированных данных и реальных данных. Результаты показали, что детекторы, обученные на наших эмулированных данных, смогли достичь почти той же точности, что и детекторы, обученные на реальных данных. Это подтверждает эффективность нашего подхода. ## Значимость Наш фреймворк может иметь большое значение в области обнаружения глубоких подделок, так как он предлагает решение для ситуации, когда существующие методы работают ненадежно на сжатых видео, которые распространяются через социальные сети. Это позволяет увеличить эффективность и надежность детекторов глубоких подделок, сделав их более пригодными для использования в реальных условиях. Мы также открываем путь для дальнейших исследований в области эмуляции социальных сетей для

Annotation:

The growing presence of AI-generated videos on social networks poses new challenges for deepfake detection, as detectors trained under controlled conditions often fail to generalize to real-world scenarios. A key factor behind this gap is the aggressive, proprietary compression applied by platforms like YouTube and Facebook, which launder low-level forensic cues. However, replicating these transformations at scale is difficult due to API limitations and data-sharing constraints. For these reason...

ID: 2508.08765v1 cs.CV, cs.AI

arXiv PDF

📄 Shape Completion and Real-Time Visualization in Robotic Ultrasound Spine Acquisitions

2025-08-14

Авторы:

Miruna-Alexandra Gafencu, Reem Shaban, Yordanka Velikova, Mohammad Farid Azampour, Nassir Navab

## Контекст Ультразвуковое исследование (US) становится все более популярным при проведении процедур при позвоночнике, благодаря его реальному времени отображению и отсутствию излучений. Однако, его эффективность существенно ограничивается феноменом затемнения (shadowing artifacts), который затрудняет видимость глубинных тканей. Традиционные методы, такие как регистрация CT-to-US, используют анатомическую информацию из предварительных CT-сканов для улучшения визуализации, но они страдают от сложности регистрации, различий в кривизне позвоночника и необходимости иметь актуальные CT-сканы. Недавние методы комплексного описания формы могут предложить альтернативу, восстанавливая анатомические структуры в данных US, при этом используя предварительно обученные модели на огромных объемах публичных данных CT. Несмотря на это, эти подходы типично являются оффлайнными и имеют ограниченную воспроизводимость. Мы предлагаем новую, интегрированную систему, объединяющую роботизированный ультразвук и реальное время комплексного описания, для повышения визуализации позвоночника в ультразвуковых процедурах. ## Метод Наша система автоматически выполняет ультразвуковые сканы нижнего позвоночника с помощью роботизированного ультразвукового сканера, извлекает поверхности позвоночника из ультразвука и восстанавливает полную анатомию с помощью глубокого нейронного сетевого сетевого метода комплексного описания. Мы разрабатываем алгоритмы для точного восстановления анатомических структур и интегрируем их с роботизированной платформой для реального времени. Метод протестирован на макете и на данных волонтера, используя качественные и количественные подходы для оценки точности восстановления и визуализации. ## Результаты Мы проверяем нашу систему на макете и волонтерских данных. На макете, наши эксперименты показывают, что модель демонстрирует высокую точность восстановления глубинных анатомических структур, а также производит реальному времени визуализацию. На данных волонтера, система продемонстрировала возможность автоматического повторения сканов и интерактивной визуализации, что помогает повысить точность и понимание анатомии. Результаты показывают, что наш подход может сделать процедуры более последовательными и надежными. ## Значимость Наш подход может быть применен в различных областях медицины, включая хирургию позвоночника и другие сложные процедуры, где визуализация ключева. Он предоставляет преимущества, такие как улучшение точности, последовательности и понимания анатомии. Будущие исследования будут фоку

Annotation:

Ultrasound (US) imaging is increasingly used in spinal procedures due to its real-time, radiation-free capabilities; however, its effectiveness is hindered by shadowing artifacts that obscure deeper tissue structures. Traditional approaches, such as CT-to-US registration, incorporate anatomical information from preoperative CT scans to guide interventions, but they are limited by complex registration requirements, differences in spine curvature, and the need for recent CT imaging. Recent shape c...

ID: 2508.08923v1 cs.CV, cs.AI, cs.RO

arXiv PDF

1
2
212
213
214
215
216
227
228

Показано 2131 - 2140 из 2274 записей