📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition

2025-08-09

Авторы:

Pulkit Kumar, Shuaiyi Huang, Matthew Walmer, Sai Saketh Rambhatla, Abhinav Shrivastava

Решение проблемы недостаточно эффективного моделирования движения и визуальной информации в контексте нескольких примеров изучения действий (few-shot action recognition) предлагается в статье "Trokens: Semantic-Aware Relational Trajectory Tokens for Few-Shot Action Recognition" авторов Pulkit Kumar и соавторов. Авторы предлагают Trokens — совершенно новый подход, который преобразовывает точки движения (trajectory points) в семантически осведомленные относительные токены для распознавания действий. Решение включает два ключевых элемента: семантически ориентированную стратегию выбора точек для отслеживания, которая учитывает объектную масштабируемость и семантическую значимость, и фреймворк для моделирования движения, основанный на интра- и интер-траекторийных динамических характеристиках (например, Histogram of Oriented Displacements, HoD). Это сочетание позволяет эффективно объединять семантические и двигательные признаки для повышения точности распознавания действий. Trokens демонстрирует значительные улучшения на шести различных бенчмарках few-shot action recognition, показывая свою эффективность и глубину в моделировании движения и визуальных семантических признаков.

Annotation:

Video understanding requires effective modeling of both motion and appearance information, particularly for few-shot action recognition. While recent advances in point tracking have been shown to improve few-shot action recognition, two fundamental challenges persist: selecting informative points to track and effectively modeling their motion patterns. We present Trokens, a novel approach that transforms trajectory points into semantic-aware relational tokens for action recognition. First, we in...

ID: 2508.03695v1 cs.CV

arXiv PDF

📄 Point-Based Shape Representation Generation with a Correspondence-Preserving Diffusion Model

2025-08-09

Авторы:

Shen Zhu, Yinzhu Jin, Ifrah Zawar, P. Thomas Fletcher

Мы предлагаем диффузионный модель, предназначенный для генерации точечных представлений объектов с сохранением корреляций. Традиционные статистические модели формировались вокруг точечных корреляций, но современные глубокие нейросетевые модели этот аспект не учитывают, ориентируясь только на неупорядоченные точечные облака. Настоящая работа формулирует модель диффузии, которая успешно генерирует реалистичные точечные представления объектов с сохранением точечных корреляций, присутствующих в обучающих данных. Мы продемонстрировали эффективность нашей модели на данных Open Access Series of Imaging Studies 3 (OASIS-3), где она сформировала точечные представления гиппокампа, являющиеся крайне реалистичными по сравнению с другими подходами. Мы также применили нашу модель к задачам подготовки данных для локальных задач, таких как генерация подконтрольных и AD-пациентов, а также предсказания морфологических изменений, связанных с прогрессированием заболевания с помощью относительного генерирования.

Annotation:

We propose a diffusion model designed to generate point-based shape representations with correspondences. Traditional statistical shape models have considered point correspondences extensively, but current deep learning methods do not take them into account, focusing on unordered point clouds instead. Current deep generative models for point clouds do not address generating shapes with point correspondences between generated shapes. This work aims to formulate a diffusion model that is capable o...

ID: 2508.03925v1 cs.CV, cs.LG

arXiv PDF

📄 Scaling Up Audio-Synchronized Visual Animation: An Efficient Training Paradigm

2025-08-09

Авторы:

Lin Zhang, Zefan Cai, Yufan Zhou, Shentong Mo, Jinhong Lin, Cheng-En Wu, Yibing Wei, Yijing Zhang, Ruiyi Zhang, Wen Xiao, Tong Sun, Junjie Hu, Pedro Morgado

Определение аудио-синхронизированной визуальной анимации, которая позволяет управлять видеоконтентом с помощью аудио, сталкивается с проблемой дорогостоящей и ручной подготовки высококачественных классо-специфичных тренировочных видео. Для решения этой проблемы предложено двухэтапное обучение: в первой стадии извлекаются большие объемы заранее неподготовленных видео для предобучения, чтобы модель научилась осуществлять грубую аудио-визуальную синхронизацию. На второй стадии выполняется тюнинг на выборке высококачественных данных, но на малых объемах, что существенно сокращает потребность в ручной работе. Для повышения точности синхронизации используется многофункциональное условие аудио и окна внимания, что обеспечивает более точное подстройку. Используя предобученные текстовые-видео-генераторы и аудио-энкодеры, новый подход добавляет всего 1.9% дополнительных параметров для обучения. Эксперименты с бенчмарком AVSync48, представляющим 48 классов, показали, что данный подход снижает зависимость от ручной подготовки в 10 раз и способен хорошо обобщаться на различные классы в открытом мире.

Annotation:

Recent advances in audio-synchronized visual animation enable control of video content using audios from specific classes. However, existing methods rely heavily on expensive manual curation of high-quality, class-specific training videos, posing challenges to scaling up to diverse audio-video classes in the open world. In this work, we propose an efficient two-stage training paradigm to scale up audio-synchronized visual animation using abundant but noisy videos. In stage one, we automatically ...

ID: 2508.03955v1 cs.CV

arXiv PDF

📄 Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

2025-08-09

Авторы:

Hidenori Takeshima

Исследование предлагает новый подход к симуляции магнитной резонансной спектроскопии (МРС), который ускоряет вычисления, основываясь на групповой обработке isochromats. Традиционные методы симуляции считают, что каждый isochromat должен быть обработан независимо, что приводит к высоким вычислительным затратам. Предложенный подход группирует isochromats с одинаковыми характеристиками (например, значениями T1, T2, положения на осях и полярностью магнитного поля), что позволяет использовать общие части расчетов. Это ускоряет симуляцию в 3–72 раз по сравнению с традиционными методами. На примере FAST SPIN ECHO (FSE) и ECHO-PLANAR IMAGING (EPI) показано, что в случае 27,5 миллионов isochromats вычислительное время сокращается с 208,4 до 38,1 секунд для FSE и с 66,4 до 7,1 секунд для EPI при использовании SIMD и многопоточности. Результаты демонстрируют эффективность нового подхода в решении высокозначимостных задач в области МРС.

Annotation:

This work aims to overcome an assumption of conventional MR simulators: Individual isochromats should be simulated individually. To reduce the computational times of MR simulation, a new simulation method using grouped isochromats is proposed. When multiple isochromats are grouped before simulations, some parts of the simulation can be shared in each group. For a certain gradient type, the isochromats in the group can be easily chosen for ensuring that they behave the same. For example, the grou...

ID: 2508.03960v1 physics.med-ph, cs.CV, eess.IV

arXiv PDF

📄 RAVID: Retrieval-Augmented Visual Detection: A Knowledge-Driven Approach for AI-Generated Image Identification

2025-08-09

Авторы:

Mamadou Keita, Wassim Hamidouche, Hessen Bougueffa Eutamene, Abdelmalik Taleb-Ahmed, Abdenour Hadid

Мы предлагаем RAVID, первый фреймворк для распознавания AI-генерированных изображений, основанный на визуальном генерировании с возможностью поиска (retrieval-augmented generation, RAG). Хотя RAG эффективно лечит неточности в текстовых данных, его применение в визуальной области остается недостаточно изученным. Существующие методы распознавания AI-генерированных изображений часто опираются на низкоуровневые артефакты и модель-специфичные признаки, что снижает их универсальность и устойчивость. RAVID улучшает обнаружение с помощью динамического восстановления информативных изображений. Мы используем оптимизированный изображения encoder CLIP (RAVID CLIP) с категориальными prompts для улучшения представления. Извлеченные изображения объединяются с запросом с помощью технологии vision-language (VLM), что позволяет улучшить точность. На бенчмарке UniversalFakeDetect, покрывающем 19 моделей генерации, RAVID достиг средней точности 93,85%. Он также превосходит традиционные методы в устойчивости, сохраняя высокоуровневую точность (80,27%) при искажениях изображения, таких как гауссовский размытие и JPEG-компрессия, что демонстрирует существенную улучшение по сравнению с соревнующими моделями.

Annotation:

In this paper, we introduce RAVID, the first framework for AI-generated image detection that leverages visual retrieval-augmented generation (RAG). While RAG methods have shown promise in mitigating factual inaccuracies in foundation models, they have primarily focused on text, leaving visual knowledge underexplored. Meanwhile, existing detection methods, which struggle with generalization and robustness, often rely on low-level artifacts and model-specific features, limiting their adaptability....

ID: 2508.03967v1 cs.CV, cs.CR, cs.IR

arXiv PDF

📄 UNISELF: A Unified Network with Instance Normalization and Self-Ensembled Lesion Fusion for Multiple Sclerosis Lesion Segmentation

2025-08-09

Авторы:

Jinwei Zhang, Lianrui Zuo, Blake E. Dewey, Samuel W. Remedios, Yihao Liu, Savannah P. Hays, Dzung L. Pham, Ellen M. Mowry, Scott D. Newsome, Peter A. Calabresi, Aaron Carass, Jerry L. Prince

**Резюме** Segmentation неопределенных зон в неврологических MR-изображениях — важная задача, требующая точности и репродуцируемости. Несмотря на прогресс в deep learning (DL), многие методы сталкиваются с проблемой недостаточной общей обобщающей способности при обучении на ограниченных данных. Мы предлагаем метод UNISELF, который комбинирует инновационную тестовую самоensemble-функцию для мозаичной обработки и новую тестовую нормализацию слоев (TTIN) для устранения ограничений в доступных входных контрастов. Эта архитектура позволяет UNISELF достичь высокой точности в задаче сегментации неопределенных зон неврологических MR-изображений, обеспечивая значительное улучшение качества сравнения с текущими методами. Для подтверждения его эффективности, UNISELF показал оптимальные результаты на ISBI 2015 и других соревновательных тестовых наборах, включая MICCAI 2016 и UMCL. Наш код доступен на GitHub по адресу https://github.com/uponacceptance.

Annotation:

Automated segmentation of multiple sclerosis (MS) lesions using multicontrast magnetic resonance (MR) images improves efficiency and reproducibility compared to manual delineation, with deep learning (DL) methods achieving state-of-the-art performance. However, these DL-based methods have yet to simultaneously optimize in-domain accuracy and out-of-domain generalization when trained on a single source with limited data, or their performance has been unsatisfactory. To fill this gap, we propose a...

ID: 2508.03982v1 eess.IV, cs.CV

arXiv PDF

📄 Investigating the Impact of Large-Scale Pre-training on Nutritional Content Estimation from 2D Images

2025-08-09

Авторы:

Michele Andrade, Guilherme A. L. Silva, Valéria Santos, Gladston Moreira, Eduardo Luz

Оценка состава пищи по изображениям 2D представляет собой важную задачу с значительными последствиями для мониторинга диет и здоровья. Тем не менее, ее выполнение сложно из-за разнообразия в формате представления пищи, изменений освещения и трудности оценки объема и массы без глубины. Доступность данных для предварительного обучения (pre-training) также ограничивает реплицируемость современных методов. В данной работе мы исследуем влияние объема и свойств данных для pre-training на модели Vision Transformer (ViT), применяемые к задаче оценки состава пищи из 2D-изображений. Мы обучаем и экспериментируем с моделями ViT, pre-trained на ImageNet, COYO и JFT-300M, сравнивая их с CNN-моделями и современным методом на JFT-300M. На Nutrition5k датасете показатели Mean Absolute Error (MAE) и Mean Absolute Percentage Error (MAE%) показали, что модели pre-trained на JFT-300M оказались эффективнее. Интересно, что COYO, несмотря на большой размер, дал худшие результаты в контексте этой задачи. Наши результаты подтверждают важность качества и доменной релевантности данных для pre-training в задачах подобного рода.

Annotation:

Estimating the nutritional content of food from images is a critical task with significant implications for health and dietary monitoring. This is challenging, especially when relying solely on 2D images, due to the variability in food presentation, lighting, and the inherent difficulty in inferring volume and mass without depth information. Furthermore, reproducibility in this domain is hampered by the reliance of state-of-the-art methods on proprietary datasets for large-scale pre-training. In...

ID: 2508.03996v1 cs.CV

arXiv PDF

📄 JanusNet: Hierarchical Slice-Block Shuffle and Displacement for Semi-Supervised 3D Multi-Organ Segmentation

2025-08-09

Авторы:

Zheng Zhang, Tianzhuzi Tan, Guanchun Yin, Bo Zhang, Xiuzhuang Zhou

**Резюме** С WEAKLY SUPERVISED MEDICAL IMAGE SEGMENTATION сталкивается с трудностями из-за недостатка тренировочных данных и аннотаций. Обычно для увеличения диверсии используется дата аугментация, включающая случайное перемешивание трехмерных блоков. Однако этот подход нарушает анатомическую непрерывность в областях с тесной связью, что приводит к сокращению точности, особенно в сложных регионах, например, мелких органах. Мы предлагаем **JanusNet**, новую архитектуру, которая сохраняет анатомическую непрерывность в трехмерных изображениях. Она включает два этапа: **Slice-Block Shuffle** (алгоритм, сохраняющий контекст за пределами разъединенных блоков) и **Confidence-Guided Displacement** (замена блоков на основе достоверности предсказаний). Эти технологии работают вместе для улучшения обучения в сложных областях. На Synapse и AMOS демонстрируется превосходство JanusNet над состоянием технологии, где достигнут прирост DSC на 4% при использовании лишь 20% отмеченных данных. Это решение гарантирует более точное и анатомически согласованное обучение в медицинской сегментации.

Annotation:

Limited by the scarcity of training samples and annotations, weakly supervised medical image segmentation often employs data augmentation to increase data diversity, while randomly mixing volumetric blocks has demonstrated strong performance. However, this approach disrupts the inherent anatomical continuity of 3D medical images along orthogonal axes, leading to severe structural inconsistencies and insufficient training in challenging regions, such as small-sized organs, etc. To better comply w...

ID: 2508.03997v1 cs.CV

arXiv PDF

📄 CAD-Judge: Toward Efficient Morphological Grading and Verification for Text-to-CAD Generation

2025-08-09

Авторы:

Zheyuan Zhou, Jiayi Han, Liang Du, Naiyu Fang, Lemiao Qiu, Shuyou Zhang

Авторы предлагают CAD-Judge — инновационную систему для эффективной морфологической оценки и верификации CAD-моделей, создаваемых в системах Text-to-CAD. Несмотря на преимущества Text-to-CAD, такие системы сталкиваются с проблемами медлительного рендеринга CAD-моделей и дорогостоящим развертыванием видеомашинного обучения для их оценки. Эти проблемы могут привести к деградации качества системы, снижению эффективности и возникновению reward hacking. CAD-Judge решает эти задачи с помощью Compiler-as-a-Judge Module (CJM), который быстро и точно оценивает модели, и Compiler-as-a-Review Module (CRM), обеспечивающий эффективную верификацию CAD-моделей. Авторы также применяют простую, но эффективную методику agentic CAD generation, что улучшает систему на выходе. Исследования показали, что CAD-Judge достигает стандарта лидерства в области Text-to-CAD с точки зрения точности и эффективности, становясь новым эталоном для решения данной задачи.

Annotation:

Computer-Aided Design (CAD) models are widely used across industrial design, simulation, and manufacturing processes. Text-to-CAD systems aim to generate editable, general-purpose CAD models from textual descriptions, significantly reducing the complexity and entry barrier associated with traditional CAD workflows. However, rendering CAD models can be slow, and deploying VLMs to review CAD models can be expensive and may introduce reward hacking that degrades the systems. To address these challe...

ID: 2508.04002v1 cs.CV

arXiv PDF

📄 S$^2$Q-VDiT: Accurate Quantized Video Diffusion Transformer with Salient Data and Sparse Token Distillation

2025-08-09

Авторы:

Weilun Feng, Haotong Qin, Chuanguang Yang, Xiangqi Li, Han Yang, Yuqi Li, Zhulin An, Libo Huang, Michele Magno, Yongjun Xu

Данные видео диффузионных моделей (V-DMs) обладают высоким размером и высокой разностью калибровочных данных, что создает трудности для пост-тренировочной квантования. Мы предлагаем S$^2$Q-VDiT, подход к квантованию V-DMs, который использует набор высококачественных данных для калибровки, выбранных с учетом особенностей диффузионной и квантовой моделей. Мы также разработали метод сжатия токенов, ориентированный на анализ спарсинговых схем V-DMs, чтобы повысить точность модели. Наши исследования показали, что S$^2$Q-VDiT обеспечивает $3.9\times$ сжатие модели и $1.3\times$ ускорение процесса инференса с защитой высокой точности. Этот подход демонстрирует эффективность в области квантования диффузионных моделей видео, сочетая высокую точность с экономией ресурсов.

Annotation:

Diffusion transformers have emerged as the mainstream paradigm for video generation models. However, the use of up to billions of parameters incurs significant computational costs. Quantization offers a promising solution by reducing memory usage and accelerating inference. Nonetheless, we observe that the joint modeling of spatial and temporal information in video diffusion models (V-DMs) leads to extremely long token sequences, which introduces high calibration variance and learning challenges...

ID: 2508.04016v2 cs.CV

arXiv PDF

1
2
1130
1131
1132
1133
1134
1161
1162

Показано 11311 - 11320 из 11614 записей