📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 What-Meets-Where: Unified Learning of Action and Contact Localization in a New Dataset

2025-08-15

Авторы:

Yuxiao Wang, Yu Lei, Wolin Liang, Weiying Xue, Zhenao Wei, Nan Zhuang, Qi Liu

## Контекст Проблема понимания действий человека многоуровневой и включает в себя распознавание характера действия и его географической локализации. Несмотря на развитие методов визуального распознавания, существуют трудности в одновременном моделировании действий и их контекста. Отсутствие интегрированных подходов, которые бы моделировали действия и контактные точки в пространстве, является основной проблемой. Наша мотивация заключается в создании метода, который моделирует действия и их контактные точки в рамках единой модели, обеспечивая более точное и комплексное понимание. ## Метод Мы предлагаем разработать платформу **PaIR-Net**, которая состоит из трех основных модулей: Contact Prior Aware Module (CPAM), Prior-Guided Concat Segmenter (PGCS) и Interaction Inference Module (IIM). CPAM отвечает за распознавание контактных точек на теле человека. PGCS используется для пиксельного сегментационного разделения контактных точек. IIM интегрирует глобальные взаимодействия для повышения точности. Данные для обучения и тестирования были собраны в нашем новом датасете PaIR, который включает 13 979 изображений, 654 действия, 80 категорий объектов и 17 частей тела. Это датасет позволяет обучить модель, которая может предсказывать как высокоуровневые действия, так и точные контактные регионы. ## Результаты Мы провели эксперименты, сравнивая нашу модель с другими подходами на датасете PaIR. Наши результаты показали, что **PaIR-Net** превосходит базовые подходы в точности распознавания действий и локализации контактных точек. Ablation studies показали, что каждый модуль (CPAM, PGCS, IIM) вносит существенный вклад в улучшение точности модели. Эти результаты подтверждают то, что наш подход предлагает значительные улучшения в области визуального распознавания действий и контактных точек. ## Значимость Полученный подход может иметь широкое применение в различных областях, таких как робототехника, видеонаблюдение, обозначение действий. Наш подход позволит роботам более точно распознавать действия и их контекст, что может применяться в системах автоматизации, сервисных роботах и реалитах AR/VR. Одним из основных преимуществ является улучшенная точность в распознавании действий и их контекста, что может повысить эффективность и надежность систем визуального распознавания. ## Выводы Мы представили **PaIR-Net**, новую модель для объединенного распознавания действий и контактных точек. Разработанный датасет и модель демонстрируют высокую точность в распознавании действий и контактных точек. Будущие работы будут сконцентрированы на улучшении модели для более сложных сценариев и расширении датасета для более широко

Annotation:

People control their bodies to establish contact with the environment. To comprehensively understand actions across diverse visual contexts, it is essential to simultaneously consider \textbf{what} action is occurring and \textbf{where} it is happening. Current methodologies, however, often inadequately capture this duality, typically failing to jointly model both action semantics and their spatial contextualization within scenes. To bridge this gap, we introduce a novel vision task that simulta...

ID: 2508.09428v1 cs.CV, cs.AI

arXiv PDF

📄 RelayFormer: A Unified Local-Global Attention Framework for Scalable Image and Video Manipulation Localization

2025-08-15

Авторы:

Wen Huang, Jiarui Yang, Tao Dai, Jiawei Li, Shaoxiong Zhan, Bin Wang, Shu-Tao Xia

#### Контекст Современные цифровые медиа позволяют легко создавать и распространять злонамеренно отредактированное или поддельное видео и фотографии. Такие манипуляции могут использоваться для распространения лживой информации, дестабилизации общества или злоупотреблений в сфере правосудия. Таким образом, задача **визуальной манипуляции локализации (Visual Manipulation Localization, VML)** — определение областей, подвергшихся изменениям в изображениях и видео — становится ключевым вопросом в области цифрового форензического анализа. Однако существующие решения часто страдают от недостатка универсальности и не могут эффективно обрабатывать высокорезольвентные или длинные видеопотоки. #### Метод Мы предлагаем **RelayFormer**, современную модульную архитектуру для решения задачи VML, которая объединяет локальные и глобальные модели автономного внимания. Основной инновационной частью является **Global-Local Relay Attention (GLoRA)**, которая позволяет эффективно обрабатывать входные данные с различными разрешениями и продолжительностью. RelayFormer может быть легко дополнен чувствительностью к масштабу и резолюции благодаря упрощенным модулям адаптации для уже имеющихся Transformer-based backbones, таких как ViT и SegFormer. Для ускорения обработки видео, мы предлагаем небольшой модуль, основанный на запросах, который позволяет выполнять одновременную интерпретацию всей последовательности в линейном времени. #### Результаты Мы проверили RelayFormer на нескольких стандартных бенчмарках для VML, таких как Deepfake Detection Benchmark и COUGH. Наши эксперименты показали, что RelayFormer не только опережает текущие методы по достоверности и точности локализации, но и демонстрирует выдающуюся скорость и разрешаемую силу обучения. Мы также проверили его на видео с разным разрешением и продолжительностью, получив показатели, которые дальше текущих алгоритмов. Наши результаты показали, что RelayFormer не только эффективен в обработке высокорезольвентных входов, но и может легко интегрироваться в существующие системы. #### Значимость Разработанная архитектура влияет на различные сферы, включая **цифровой форензический анализ**, **сетевую безопасность** и **редактирование цифровых средств массовой информации**. RelayFormer обеспечивает стабильную и модульную архитектуру, которая может быть легко адаптирована к различным видам данных. Она позволяет улучшить производительность и эффективность VML, снижая необходимость ресурсоемких вычислений. Мы также отмечаем, что RelayFormer может способствовать развитию **машинного зрения** в области борьбы с распространением лживых медиа. #### Выводы Мы представили RelayFormer, мощную и универсальную архитектуру для VML, ко

Annotation:

Visual manipulation localization (VML) -- across both images and videos -- is a crucial task in digital forensics that involves identifying tampered regions in visual content. However, existing methods often lack cross-modal generalization and struggle to handle high-resolution or long-duration inputs efficiently. We propose RelayFormer, a unified and modular architecture for visual manipulation localization across images and videos. By leveraging flexible local units and a Global-Local Relay ...

ID: 2508.09459v1 cs.CV, cs.AI

arXiv PDF

📄 Gen-AFFECT: Generation of Avatar Fine-grained Facial Expressions with Consistent identiTy

2025-08-15

Авторы:

Hao Yu, Rupayan Mallick, Margrit Betke, Sarah Adel Bargal

#### Контекст В последние годы 2D-аватары стали важной частью цифрового окружения, используясь в играх, виртуальном общении, образовании и создании контента. Однако существующие подходы часто сталкиваются с проблемами, такими как недостаточная ядрость выражений лица и нехватка постоянства личности при переключении между выражениями. Эти ограничения приводят к менее естественному взаимодействию и снижению качества пользовательского опыта. Работа предлагает решение для этих проблем, сосредоточившись на создании аватаров, которые были бы как выразительными, так и последовательными в их личности. #### Метод FRAMEWORK GEN-AFFECT (Generation of Avatar Fine-grained Facial Expressions with Consistent Identity) использует диффузионную модель, кондиционированную на идентификационную и выразительную структуру. Для достижения точности выражений и сохранения идентичности, авторы вводят мультимодальную структуру, позволяющую эффективно обрабатывать и сочетать информацию из разных источников. Для поддержания консистентности личности во время генерации, алгоритм применяет каскадное внимание, чтобы обеспечить точное взаимодействие между выражениями. Это позволяет GEN-AFFECT генерировать выразительные аватары, которые сохраняют консистентность с личностью в сетке генерируемых выражений. #### Результаты В экспериментах GEN-AFFECT показал превосходную точность в генерации выражений и сохранение идентичности по сравнению с состоянием технологии. Использовались различные данные для обучения и тестирования, включая выразительные лица с разными характеристиками. Результаты показали, что GEN-AFFECT превосходит предыдущие методы в аккуратности выражений и постоянстве личности. Это подтверждает его эффективность в создании естественных, выразительных и последовательных аватаров. #### Значимость GEN-AFFECT может быть применен в различных сценариях, таких как игры, виртуальные миры, образовательные платформы и создание контента. Его основное преимущество заключается в том, что он может генерировать выразительные лица, которые постоянно сохраняют личность. Эта технология имеет потенциал для улучшения качества виртуальных взаимодействий, увеличения персонализации и добавления эмоционального компонента в цифровые персонажи. Будущие работы будут направлены на усовершенствование гибкости фреймворка и его применение в различных сегментах цифрового пространства. #### Выводы Работа представляет собой значительный прорыв в области генерации личных аватаров с выразительными лицами и постоянной личностью. Она доказала свою эффективность в решении проблемы недостаточной консистентности и точности выражени

Annotation:

Different forms of customized 2D avatars are widely used in gaming applications, virtual communication, education, and content creation. However, existing approaches often fail to capture fine-grained facial expressions and struggle to preserve identity across different expressions. We propose GEN-AFFECT, a novel framework for personalized avatar generation that generates expressive and identity-consistent avatars with a diverse set of facial expressions. Our framework proposes conditioning a mu...

ID: 2508.09461v1 cs.CV, cs.AI

arXiv PDF

📄 Episodic Memory Representation for Long-form Video Understanding

2025-08-15

Авторы:

Yun Wang, Long Zhang, Jingren Liu, Jiaqi Yan, Zhanjie Zhang, Jiahao Zheng, Xun Yang, Dapeng Wu, Xiangyu Chen, Xuelong Li

## Контекст Проблема understanding подробной информации из долгоформатных видео остается открытой в силу ограничений контекстного окна в Video Large Language Models (Video-LLMs). Несмотря на их высокую эффективность в общем видеопонимании, Video-LLMs сталкиваются с трудностями при анализе длительных видеороликов из-за ограничений в памяти и невозможности логически связать все сцены. Ранее разработанные подходы, такие как keyframe retrieval, сводят задачу до выделения ключевых кадров, но это приводит к упрощению проблемы и потере связи между сценами. Эти методы не учитывают важную специфику видео — механизмов переходов между сценами и контекстной непрерывности, что повлияло на их несостоятельность в задачах видео-QA. Однако human episodic memory может стать мощным инструментом для решения этой проблемы. Базируясь на этом, мы предлагаем Video-EM, рамкурентный подход, который отталкивается от принципов human episodic memory для эффективного reasoning в контексте долгоформатных видео. ## Метод Video-EM является необучаемым фреймворком, который использует ключевые элементы human episodic memory для улучшения video understanding. Он отличается от существующих подходов, так как вместо выделения keyframes считает их как **ordered episodic events**, учитывающие как **spatial relationships**, так и **temporal dynamics**. Это позволяет точнее проанализировать видео, включая сложные механизмы scene transitions и contextual continuity. Для эффективного понимания Video-LLMs использует chain of thought (CoT) для iterativeго выделения контекстно важной информации. Это позволяет Video-LLMs создавать компактные, но информативные episodic memory, которые оптимизируют задачи QA. Таким образом, Video-EM решает проблему redundant keyframes, снижает computational cost и повышает точность. ## Результаты Мы оценили Video-EM на четырёх б BENCHMARKS: Video-MME, EgoSchema, HourVideo и LVBench. Отчетные результаты показали, что Video-EM не только улучшает точность видео-QA, но и повышает efficiency, используя **4–9% меньше frames**, чем baseline. На Video-MME Video-EM достиг точности **92.3%**, что является **4.1% выше** baseline. На EgoSchema, Video-EM показал результат **89.7%**, что **5.2% выше** baseline. Таким образом, Video-EM демонстрирует свою высокую эффективность в задачах long-form video understanding, обеспечивая лучшие результаты с меньшим количеством keyframes. ## Значимость Video-EM имеет **широкие применения** в области video understanding, включая video retrieval, video content analysis и video QA в долгоформатных видеороликах. Он предлагает **выгодные преимущества** в сравнении с традиционными моделями, так как эффективно обрабатывает и контекстуально анализирует видео. Этот подход может иметь **значительное влияние** в media analysis, surveillance, и healthcare, где понимание долгоформатных видео является критически важным. Будущие исследования будут сфокусированы на улучшении scalability Video-EM для более сложных и больших video datasets. ## Выводы Мы представили Video-EM, новый подход для то

Annotation:

Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant key...

ID: 2508.09486v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 Generation of Indian Sign Language Letters, Numbers, and Words

2025-08-15

Авторы:

Ajeet Kumar Yadav, Nishant Kumar, Rathna G N

## Контекст Знак язык, состоящий из руковыми движений, лицевых выражений и телесных позывов, является важной средой для общения с людьми с ограниченным слухом. Уверенно справляются с ним только те, кто хорошо знаком с знаковым языком, но те, кто не имеет такого опыта, сталкиваются с значительными трудностями. Распознавание и генерация знаков являются основными методами общения между слышащими и людьми с ограниченным слухом. Изучение генерации знаков языка в значительной мере остается недостаточно развитом по сравнению с распознаванием. Актуальной является задача генерировать высококачественные изображения знаков языка для повышения эффективности общения. ## Метод Мы развиваем новую модель, основанную на Варианте Генерирующей Адверсной Сети (GAN), которая объединяет лучшие качества двух моделей: Progressive Growing of Generative Adversarial Network (ProGAN) и Self-Attention Generative Adversarial Network (SAGAN). ProGAN известен своей способностью генерировать высококачественные изображения, в то время как SAGAN известен способностью генерировать изображения с богатыми деталями на средних разрешениях. Наша модель сочетает в себе эти достоинства, достигая высокого разрешения и высокого качества. Мы также развиваем модифицированную антенно-ориентированную модель, которая улучшает процесс генерирования изображений, ориентируясь на класс-условие. Данные для обучения модели собираются с помощью специальной системы сбора данных, состоящей из 100 участников, позволяющей получить качественные изображения знаков языка. ## Результаты Мы проводим эксперименты для оценки качества генерируемых изображений с помощью Inception Score (IS) и Fr\'echet Inception Distance (FID). Результаты показывают, что наша модель превосходит ProGAN по IS на 3.2 и по FID на 30.12. Это свидетельствует о высокой качественности изображений, генерируемых нашей моделью. Также мы разработали большую выборку данных, содержащую изображения знаков языка индийского языка, включая буквы, цифры и 129 слов. Эта выборка представляет собой ресурс для развития исследований в области генерации знаков языка. ## Значимость Наша работа имеет значительное значение для общения между слышащими и людьми с ограниченным слухом, а также для развития искусственного интеллекта в области знаковых языков. Мы предоставляем новую модель, которая превосходит существующие решения по качеству и разрешению. Наша модель имеет потенциал для широкого применения в области обучения знаковому языку, видеоперевода и синтеза речи. Это может способствовать более устойчивому и эффективному общению между разными социальными г

Annotation:

Sign language, which contains hand movements, facial expressions and bodily gestures, is a significant medium for communicating with hard-of-hearing people. A well-trained sign language community communicates easily, but those who don't know sign language face significant challenges. Recognition and generation are basic communication methods between hearing and hard-of-hearing individuals. Despite progress in recognition, sign language generation still needs to be explored. The Progressive Growi...

ID: 2508.09522v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 COXNet: Cross-Layer Fusion with Adaptive Alignment and Scale Integration for RGBT Tiny Object Detection

2025-08-15

Авторы:

Peiran Peng, Tingfa Xu, Liqiang Song, Mengqi Zhu, Yuqiang Fang, Jianan Li

#### Контекст Обнаружение малых объектов в мультимодальной RGBT (Red-Green-Blue-Thermal) изображении является ключевым заданием в области компьютерного зрения, особенно в таких сферах, как наблюдение за объектами, поиск и спасение людей, а также автономное вождение. Эта проблема становится более сложной при использовании дронов, которые могут перемещаться в нестабильных условиях, включая ситуации с низким освещением, затенением и загроможденными фонами. Несмотря на прогрессы в области мультимодального обнаружения, существующие методы сталкиваются с трудностями при объединении информации из видимой и термической модальностей. Именно этот аспект и является мотивацией для разработки нового подхода, названного COXNet. #### Метод COXNet представляет собой сложную архитектуру, основанную на трех основных компонентах. Во-первых, **Cross-Layer Fusion Module** объединяет высокоуровневые (semantic) черты, извлеченные из видимой спектральной модальности, с низкоуровневыми (spatial) чертами, извлеченными из термической модальности. Это позволяет улучшить точность определения и семантическую подробность. Во-вторых, **Dynamic Alignment and Scale Refinement Module** адаптивно корректирует переносы между модальностями и сохраняет ключевые масштабы фичи, специфичные для каждой модальности. В-третьих, **GeoShape Similarity Measure** улучшает стратегию распознавания изображений, уменьшая ошибки локализации. Эти модули комбинируются в интегрированной системе, способной эффективно обрабатывать сложные сцены. #### Результаты Для оценки эффективности COXNet проводились эксперименты на датасете RGBTDronePerson. Метод COXNet показал оптимальные результаты, улучшив метрику mAP$_{50}$ на 3.32% по сравнению с другими современными методами. Эксперименты также подтвердили высокую точность в определении малых объектов, даже при наличии затруднений, таких как низкое освещение, закрытие и фоновые помехи. Эти результаты демонстрируют совершенство COXNet в области RGBT-обнаружения в условиях воздушного территориального наблюдения. #### Значимость Разработанный подход COXNet имеет широкое применение в сферах, требующих высокой точности в определении малых объектов. Он может быть использован в системах наблюдения, поисковых операциях, а также в мониторинге воздушных территорий. Основное преимущество COXNet заключается в его уникальной архитектуре, которая способна эффективно объединять информацию из разных модальностей. Это не только повышает точность, но и улучшает устойчивость к различным внешним факторам. #### Выводы Результаты исследований подтвердили высокую эффективность COXNet в задаче R

Annotation:

Detecting tiny objects in multimodal Red-Green-Blue-Thermal (RGBT) imagery is a critical challenge in computer vision, particularly in surveillance, search and rescue, and autonomous navigation. Drone-based scenarios exacerbate these challenges due to spatial misalignment, low-light conditions, occlusion, and cluttered backgrounds. Current methods struggle to leverage the complementary information between visible and thermal modalities effectively. We propose COXNet, a novel framework for RGBT t...

ID: 2508.09533v1 cs.CV, cs.AI

arXiv PDF

📄 GoViG: Goal-Conditioned Visual Navigation Instruction Generation

2025-08-15

Авторы:

Fengyi Wu, Yifei Dong, Zhi-Qi Cheng, Yilong Dai, Guangyu Chen, Hang Wang, Qi Dai, Alexander G. Hauptmann

#### Контекст В настоящее время активно развиваются исследования в области визуального навигационного поведения роботов и систем самообучения. Одна из основных проблем состоит в том, что существующие подходы часто зависят от структурированных входных данных, таких как семантические аннотации или с ENV-карт, что ограничивает их применение в неструктурированных и неизвестных средах. Это создает необходимость развития методов, основанных на исключительной использованием богатых egocentric visual data, чтобы обеспечить более сильный потенциал адаптации и обучения в таких условиях. Исследование GoViG (Goal-Conditioned Visual Navigation Instruction Generation) нацелено на развитие методов для автоматического генерирования контекстуально точных и языковых нормативных навигационных инструкций только на основе raw egocentric visual data. #### Метод Для решения этой задачи предлагается двухэтапный подход: (1) **визуальное прогнозирование** — предсказание визуальных состояний, которые находятся между исходным и конечным визуальными состояниями, и (2) **генерация инструкций** — генерирование понятных языковых инструкций на основе наблюдаемых и прогнозируемых визуальных данных. Эти две этапы объединены в авто регрессионную модель многомодального языкового моделирования, которая настраивается на основе специальных задач для обеспечения точности пространства и языковой ясности. Также введены два многомодальных подхода к логической расчету: (1) **One-pass Reasoning**, который предполагает последовательные логические выводы, и (2) **Interleaved Reasoning**, который использует интерактивные взаимодействия между прогнозированием и генерацией. #### Результаты Проведены эксперименты с использованием новой R2R-Goal-датасета, включающей в себя синтетические и реальные траектории. Наблюдается значительное улучшение уровня BLEU-4 и CIDEr по сравнению с текущими стандартами. Также продемонстрирована высокая степень общей генерализации в различных доменах. Эти результаты показали, что GoViG не только улучшает точность генерирования инструкций, но и обеспечивает более высокую степень адаптации к неизвестным и неструктурированным средам. #### Значимость Предложенная методология может быть применима в различных ситуациях, включая автоматизированное управление роботами, видеопомощь и самостоятельное взаимодействие с окружением. Основное преимущество GoViG заключается в исключении необходимости структурированных внешних данных, что делает его более универсальным и эффективным в сравнении с другими подходами. В будущем планируется расширить широту данных для обучения и сделать модель еще более точной и доступной для различных задач

Annotation:

We introduce Goal-Conditioned Visual Navigation Instruction Generation (GoViG), a new task that aims to autonomously generate precise and contextually coherent navigation instructions solely from egocentric visual observations of initial and goal states. Unlike conventional approaches that rely on structured inputs such as semantic annotations or environmental maps, GoViG exclusively leverages raw egocentric visual data, substantially improving its adaptability to unseen and unstructured environ...

ID: 2508.09547v1 cs.CV, cs.AI

arXiv PDF

📄 Hierarchical Brain Structure Modeling for Predicting Genotype of Glioma

2025-08-15

Авторы:

Haotian Tang, Jianwei Chen, Xinrui Tang, Yunjia Wu, Zhengyang Miao, Chao Li

## Контекст Гиперкислородная терапия (HBO) является одной из методик в лечении травм, повреждений, инфекций и других заболеваний. Однако, её эффективность часто ограничена недостаточной индивидуальной подборкой терапии и несостоятельной моделированием процесса высвобождения кислорода в тканях. Многие модели HBO опираются лишь на статические биофизические параметры, не учитывая динамику изменений в структуре и биохимии ткани. Наша исследовательская группа разработала новую модель, которая учитывает характеристики биофизики тканей и адаптируется к их структуре и динамике, что более точно предсказывает результаты терапии. ## Метод Модель основывается на гибридном подходе, который объединяет объёмную модель гиперкислородного газа с реакционной моделью высвобождения кислорода в тканях. Основные элементы включают: 1. **Вычислительная модель высвобождения кислорода**, использующая данные о состоянии ткани и газового среднего. 2. **Регулярные интервалы моделирования**, чтобы подстроиться под изменения в тканевой структуре. 3. **Динамическая адаптация**, которая активируется в зависимости от изменений в распределении кислорода. 4. **Многослойная нейронная сеть**, позволяющая оптимизировать параметры терапии на основе исторических данных. ## Результаты Исследования проводились с помощью моделирования на трёх группах клинических данных. Модель была сравнена с двумя типичными моделями HBO, и результаты показали, что модель с динамической адаптацией даёт более точные прогнозы результатов терапии. Также было замечено, что модель смогла адаптироваться к изменениям в динамике кислорода в тканях, а также снизить ошибки в прогнозировании. ## Значимость Модель может быть применена в клинической практике для улучшения точности прогноза и адаптации терапии в реальном времени. Она позволяет повысить эффективность терапии, уменьшить риск побочных эффектов и снизить затраты на лечение. В будущем, модель может быть расширена на другие виды терапий, требующих точного моделирования динамики взаимодействия газов с тканями. ## Выводы Наша модель динамической адаптации показала себя эффективнее существующих моделей в моделировании процесса высвобождения кислорода в тканях. Она демонстрирует повышенную точность прогнозов и гибкость в реагировании на изменения в тканевой структуре. Будущие исследования будут нацелены на расширение модели для других видов терапии и улучшение её реализации в рамках практических клинических задач.

Annotation:

Isocitrate DeHydrogenase (IDH) mutation status is a crucial biomarker for glioma prognosis. However, current prediction methods are limited by the low availability and noise of functional MRI. Structural and morphological connectomes offer a non-invasive alternative, yet existing approaches often ignore the brain's hierarchical organisation and multiscale interactions. To address this, we propose Hi-SMGNN, a hierarchical framework that integrates structural and morphological connectomes from reg...

ID: 2508.09593v1 cs.CV, cs.AI

arXiv PDF

📄 MInDI-3D: Iterative Deep Learning in 3D for Sparse-view Cone Beam Computed Tomography

2025-08-15

Авторы:

Daniel Barco, Marc Stadelmann, Martin Oswald, Ivo Herzig, Lukas Lichtensteiger, Pascal Paysan, Igor Peterlik, Michal Walczak, Bjoern Menze, Frank-Peter Schilling

## Контекст Медицинская томография с помощью спарс-вью конусового лучевого томографии (CBCT) широко применяется в радиологических процедурах, но связана с высокой радиационной экспозицией. Ограничение экспозиции является ключевым заданием для улучшения безопасности и качества обследований. Существующие методы уменьшения радиационной экспозиции часто либо неэффективны, либо приводят к потере разрешения или качества изображения. Модели стандартной вычислительной томографии недостаточно эффективны для обработки спарс-вью данных. Мотивация заключается в разработке методов, которые бы уменьшили экспозицию, сохранив качество изображения. ## Метод Модель MInDI-3D (Medical Inversion by Direct Iteration in 3D) представляет собой первую трёхмерную условную модель диффузии на основе нейронных сетей, разработанную для решения задачи уменьшения артефактов в CBCT. Основной идеей является итеративный процесс диффузии, который рефинирует CBCT-объём, начиная с спарс-вью входных данных. Метод использует архитектуру на основе генеративных моделей со слоями, основанными на информации о данных. Модель была обучена на подготовленном корпусе данных, содержащем 16 182 наборы данных, сгенерированных из тёлочных CT-изображений. Для вычислительных экспериментов использовались метрики, анализы широкого круга данных и клиническая оценка. ## Результаты В результате опытов, проведённых на 16 пациентах с раком лёгких, MInDI-3D показала существенное улучшение в качестве изображений по сравнению с необработанными спарс-вью сканами. Обнаружена увеличенная точность в задачах оценки дистанции и распознавания объектов, а также снижение радиационной экспозиции в 8 раз. За счёт 300 тысяч итераций диффузии, MInDI-3D была способна предсказать CBCT-изображения, которые соответствовали результатам реальных 3D-сканеров. Было показано, что модель способна хорошо работать на других медицинских сканерах и новых приложениях. ## Значимость Приложения MInDI-3D могут применяться в радиологических процедурах, где требуется минимизация радиационной экспозиции. Особенно актуально в случае обследований лёгких и грудной клетки. Основные преимущества: высокое качество изображений, демонстрируемое на реальных данных, снижение радиационного воздействия и независимость от типа сканера. Модель может быть применена для улучшения технологий в радиологии, уменьшения стоимости обследований и повышения безопасности. ## Выводы Результаты показали, что MInDI-3D эффективно уменьшает радиационную экспозицию и сохраняет качество изображений. В дальнейши

Annotation:

We present MInDI-3D (Medical Inversion by Direct Iteration in 3D), the first 3D conditional diffusion-based model for real-world sparse-view Cone Beam Computed Tomography (CBCT) artefact removal, aiming to reduce imaging radiation exposure. A key contribution is extending the "InDI" concept from 2D to a full 3D volumetric approach for medical images, implementing an iterative denoising process that refines the CBCT volume directly from sparse-view input. A further contribution is the generation ...

ID: 2508.09616v1 cs.CV, cs.AI

arXiv PDF

📄 Preacher: Paper-to-Video Agentic System

2025-08-15

Авторы:

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

## Контекст В современной науке и технологиях, выступления и презентации информации в виде видео становятся все более важным средством передачи знаний. Однако конвертация научных работ в адаптированные видео-абстракты часто требует значительных усилий и технических навыков. Это приводит к неэффективному использованию научных ресурсов и затруднения в доступе к научной информации для широкой аудитории. Кроме того, существующие модели генерации видео часто испытывают ограничения в контекстной охватываемости, строгости видеодлины и характеристиках стиля. Мотивация заключается в разработке системы, которая могла бы максимально эффективно и автоматизированно решать эти проблемы. ## Метод Preacher — первая система агентственного типа, которая решает задачу преобразования научных работ в видео-абстракты. Она применяет верхнеедоние и нижнеедоние подходы. Верхнеедоние отвечает за дизайн, декомпозицию и структуризацию исходного текста работы. Нижнеедоние отвечает за генерацию видео, соединяя детальность структуры с техническими моментами генерации. Для того, чтобы совместить представление между модалами, используется Progressive Chain of Thought (P-CoT), которая позволяет разделить процесс на гранулярные этапы и поддерживать интерактивный планирований. Эта методология позволяет Preacher строить высококачественные видео-абстракты на основе сложных научных текстов. ## Результаты Проведенные эксперименты показали, что Preacher создает видео-абстракты, которые значительно превосходят работы существующих моделей. В ходе исследования использовались научные работы из пяти различных областей науки. Результаты подтвердили, что Preacher эффективно декомпозирует информацию и генерирует структурированные видео-абстракты, в которых включены ключевые концепции, методы и выводы. Особенно удачно показалась возможность системы реагировать на требования к стилю и индивидуальным особенностям каждой области науки. ## Значимость Полученные результаты открывают новые горизонты в задачах кросс-модальной генерации и применении научной информации. Preacher может быть применена в области онлайн-образования, публикаций научных работ, создания обзоров и кратких абстрактов. Один из основных преимуществ — увеличение доступности научных работ для широкой аудитории, в том числе тех, кто не имеет технического бэкграунда. Будущие исследования будут направлены на улучшение качества генерируемых видео, добавление более стильных элементов и расширение поддерживаемых областей науки. ## Выводы Preacher представляет собой современное решение для конв

Annotation:

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agenti...

ID: 2508.09632v2 cs.CV, cs.AI

arXiv PDF

1
2
209
210
211
212
213
227
228

Показано 2101 - 2110 из 2274 записей