📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Test-Time Adaptation for Video Highlight Detection Using Meta-Auxiliary Learning and Cross-Modality Hallucinations

2025-08-09

Авторы:

Zahidul Islam, Sujoy Paul, Mrigank Rochan

Видео-хайлайт-детекция — задача, требующая высокой точности и устойчивости в работе с различными тестовыми видео. Несмотря на развитие существующих методов, они часто сталкиваются с проблемой неустойчивости на незнакомых видео-контентах. Чтобы решить эту проблему, авторы предлагают Highlight-TTA — рамформу тестовой адаптации, которая использует meta-auxiliary learning и cross-modality hallucinations. Эта фреймворк dynamicаlly аdapts the model during testing, aligning его with unique characteristics of each video. Основной задачей остается highlight detection, но зато auxiliary task помогает улучшить generalization. Тесты на трех бенчмарковых датасетах и трех существующих моделях показали, что Highlight-TTA существенно повышает производительность этих моделей, демонстрируя значительный выигрыш в точности и устойчивости в детекции хайлайтов.

Annotation:

Existing video highlight detection methods, although advanced, struggle to generalize well to all test videos. These methods typically employ a generic highlight detection model for each test video, which is suboptimal as it fails to account for the unique characteristics and variations of individual test videos. Such fixed models do not adapt to the diverse content, styles, or audio and visual qualities present in new, unseen test videos, leading to reduced highlight detection performance. In t...

ID: 2508.04924v1 cs.CV

arXiv PDF

📄 CryoGS: Gaussian Splatting for Cryo-EM Homogeneous Reconstruction

2025-08-09

Авторы:

Suyi Chen, Haibin Ling

Определение 3D-структуры белка с помощью крио-эмиссионной микроскопии (cryo-EM) является ключевым заданием в структурной биологии. Однако этот процесс часто сталкивается с проблемами, такими как необходимость внешних инициализационных моделей. Мы предлагаем CryoGS, метод, объединяющий принципы Gaussian Splatting с физикой изображений cryo-EM. Наш подход включает в себя orthogonal projection-aware Gaussian splatting с учетом адаптивных нормализационных терминов и FFT-системы координат. Это позволяет проводить гомогенную реконструкцию 3D-модели белка напрямую из неотфильтрованных данных cryo-EM с эффективным интерпретационным представлением. Мы проверили CryoGS на реальных данных, показав его высокую устойчивость и эффективность по сравнению с традиционными методами. Наше решение обеспечивает продвинутый подход к self-contained cryo-EM реконструкции, облегчая и улучшая этот важный аспект структурной биологии.

Annotation:

As a critical modality for structural biology, cryogenic electron microscopy (cryo-EM) facilitates the determination of macromolecular structures at near-atomic resolution. The core computational task in single-particle cryo-EM is to reconstruct the 3D electrostatic potential of a molecule from a large collection of noisy 2D projections acquired at unknown orientations. Gaussian mixture models (GMMs) provide a continuous, compact, and physically interpretable representation for molecular density...

ID: 2508.04929v1 eess.IV, cs.CV

arXiv PDF

📄 ALScope: A Unified Toolkit for Deep Active Learning

2025-08-09

Авторы:

Chenkai Wu, Yuanyuan Qi, Xiaohao Yang, Jueqing Lu, Gang Liu, Wray Buntine, Lan Du

Набор сложностей, связанных с распределением обучающих выборок, влияет на эффективность алгоритмов глубокого активного обучения (Deep Active Learning, DAL). Однако существующие решения не позволяют сравнить различные DAL-методы в условиях различных сложностей, таких как дисбаланс данных и распространение за пределы распределения (OOD). Для решения этой проблемы представлена платформа ALScope, которая объединяет 10 датасетов из областей CV и NLP и 21 DAL-алгоритмов, включая классические и алгоритмы, специально разработанные для решения вышеупомянутых проблем. Расширенные эксперименты подтвердили, что эффективность DAL-методов зависит от конкретной области и настройки задачи, что некоторые алгоритмы показывают хороший результат, но требуют длительного выбора данных. Таким образом, ALScope обеспечивает цельность и систематичность в оценке DAL-алгоритмов, указывая на необходимость дальнейшего исследования для решения вызовов, связанных с дисбалансом и OOD.

Annotation:

Deep Active Learning (DAL) reduces annotation costs by selecting the most informative unlabeled samples during training. As real-world applications become more complex, challenges stemming from distribution shifts (e.g., open-set recognition) and data imbalance have gained increasing attention, prompting the development of numerous DAL algorithms. However, the lack of a unified platform has hindered fair and systematic evaluation under diverse conditions. Therefore, we present a new DAL platform...

ID: 2508.04937v1 cs.LG, cs.CV

arXiv PDF

📄 Toward Errorless Training ImageNet-1k

2025-08-09

Авторы:

Bo Deng, Levi Heath

В статье **"Toward Errorless Training ImageNet-1k"** авторы предлагают новый подход к обучению искусственных нейронных сетей с помощью метода, достигшего высокой точности 98,3% с приемлемым значением Top-1 (99,69%) на датасете ImageNet-1k. Основоположником нового подхода является устранение искажений в данных, что позволило свести к минимуму ошибки сети в ходе обучения. Однако авторы отмечают, что достижение 100% точности недостижимо из-за дублирования изображений с разными меток в наборе данных. Экспериментальные результаты показали, что модель с 322 миллионов параметров способна правильно классифицировать 285.9 меток в среднем за 10 партиций данных. Основной вывод — что ограничения в качестве данных остаются ключевым фактором, скорее всего, ограничивающим достижение идеальной точности.

Annotation:

In this paper, we describe a feedforward artificial neural network trained on the ImageNet 2012 contest dataset [7] with the new method of [5] to an accuracy rate of 98.3% with a 99.69 Top-1 rate, and an average of 285.9 labels that are perfectly classified over the 10 batch partitions of the dataset. The best performing model uses 322,430,160 parameters, with 4 decimal places precision. We conjecture that the reason our model does not achieve a 100% accuracy rate is due to a double-labeling pro...

ID: 2508.04941v1 cs.CV, cs.LG, 68T07

arXiv PDF

📄 Accelerating Conditional Prompt Learning via Masked Image Modeling for Vision-Language Models

2025-08-09

Авторы:

Phuoc-Nguyen Bui, Khanh-Binh Nguyen, Hyunseung Choo

**Резюме** В данной работе предлагается ProMIM — новый подход для ускорения обучения условных моделей стимулов (prompt learning) в области vision-language models (VLMs), таких как CLIP. Основная проблема заключается в том, что эффективные методы промптов, такие как CoOp и CoCoOp, часто приводят к overfitting, ограничивая generalization на невиденные классы. ProMIM решает эту проблему, интегрируя masked image modeling (MIM) в существующие VLM-пайплайны. Он использует простую, но эффективную маскировочную стратегию для генерации условных промптов, которые лучше адаптируются к новым задачам и уменьшают overfitting. Выгоды ProMIM заключаются в повышении общей робастности функций и улучшении generalization на невиденные классы, при этом добавляя минимальный дополнительный расход ресурсов. Эксперименты показали, что ProMIM повышает производительность в zero-shot и few-shot классификации, делая его привлекательным для реального применения в VLMs.

Annotation:

Vision-language models (VLMs) like CLIP excel in zero-shot learning but often require resource-intensive training to adapt to new tasks. Prompt learning techniques, such as CoOp and CoCoOp, offer efficient adaptation but tend to overfit to known classes, limiting generalization to unseen categories. We introduce ProMIM, a plug-and-play framework that enhances conditional prompt learning by integrating masked image modeling (MIM) into existing VLM pipelines. ProMIM leverages a simple yet effectiv...

ID: 2508.04942v1 cs.CV

arXiv PDF

📄 Open-world Point Cloud Semantic Segmentation: A Human-in-the-loop Framework

2025-08-09

Авторы:

Peng Zhang, Songru Yang, Jinsheng Sun, Weiqing Li, Zhiyong Su

Open-world point cloud semantic segmentation (OW-Seg) — задача предсказания меток точек для как базовых, так и новых классов в реальных условиях. Однако существующие методы требуют ресурсоёмких операций ввода-вывода или сложных схем обучения с плотной аннотацией данных, что ограничивает их применимость. Мы предлагаем HOW-Seg, первый фреймворк с использованием человека в цикле обучения для OW-Seg. Метод строит классные прототипы непосредственно на входных данных, избегая проблемы изменения распределений внутри классов между поддерживающими и запросимыми данными. Мы используем минимальные человеко-замечания для гибкого рефининга прототипов и добавляем графу Условного Рандовского Фильта (CRF) для расширения контекстной осмысленности. Это позволяет HOW-Seg последовательно улучшаться с помощью итеративных отзывов и достигать высокого качества сегментации, даже при ограниченных обучающих данных. Наши эксперименты показывают, что HOW-Seg сравнял или превзошел значительно состояние технологий GFS-Seg в режиме 5-shot, и при дополнительных вычислительных ресурсах достиг 85.27% mIoU на S3DIS и 66.37% на ScanNetv2, превосходя все альтернативы.

Annotation:

Open-world point cloud semantic segmentation (OW-Seg) aims to predict point labels of both base and novel classes in real-world scenarios. However, existing methods rely on resource-intensive offline incremental learning or densely annotated support data, limiting their practicality. To address these limitations, we propose HOW-Seg, the first human-in-the-loop framework for OW-Seg. Specifically, we construct class prototypes, the fundamental segmentation units, directly on the query data, avoidi...

ID: 2508.04962v1 cs.CV, cs.GR

arXiv PDF

📄 Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting

2025-08-09

Авторы:

Zijian Wang, Beizhen Zhao, Hao Wang

Заголовок: Perceive-Sample-Compress: Towards Real-Time 3D Gaussian Splatting В последние годы 3D Gaussian Splatting (3DGS) проявила свою мощь в реализации реального времени и фотореалистичной синтеза представления из новых точек зрения. Однако существующие подходы часто сталкиваются с проблемами управления большими сценами и эффективным хранением данных, особенно при работе с комплексными средами или ограниченными вычислительными ресурсами. В данной работе мы предлагаем Perceive-Sample-Compress — новый подход к решению этих проблем. Мы вводим метод компенсации видимости, который структурирует параметры Гауссовых оболочек на разных уровнях, обеспечивая при этом высокую четкость в ключевых областях и эффективное использование ресурсов. Для управления несколькими уровнями мы предлагаем пирамидальную структуру для Гауссовых примитивов. Наконец, мы предлагаем алгоритм сжатия Generalized Gaussian Mixed Model, позволяющий существенно уменьшить размер представления без потери качества. Наши эксперименты показали, что этот подход эффективно улучшает памятьное использование, повышает качество и поддерживает реального времени синтез.

Annotation:

Recent advances in 3D Gaussian Splatting (3DGS) have demonstrated remarkable capabilities in real-time and photorealistic novel view synthesis. However, traditional 3DGS representations often struggle with large-scale scene management and efficient storage, particularly when dealing with complex environments or limited computational resources. To address these limitations, we introduce a novel perceive-sample-compress framework for 3D Gaussian Splatting. Specifically, we propose a scene percepti...

ID: 2508.04965v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 Laplacian Analysis Meets Dynamics Modelling: Gaussian Splatting for 4D Reconstruction

2025-08-09

Авторы:

Yifan Zhou, Beizhen Zhao, Pengcheng Wu, Hao Wang

Метод Лапласа, применяемый к динамическим сценам, предлагает решение проблем, связанных с низким разрешением и коллизиями при динамической моделировании в 3D-сплаттинге. Основная проблема заключается в том, что традиционные методы используют либо низкочастотные модели, которые приводят к затуханию деталей, либо высокочастотные модели, приводящие к коллизиям при движении. Разработанный метод решает эту проблему с помощью гибридной модели, объединяющей в себе эксплицитные и имплицитные функции. Он включает в себя архитектуру спектрального контроля, использующую хэш-кодирование и модуль Лапласа для гибкого управления частотой движения, а также дополнительные атрибуты динамики, устраняющие фотометрические расхождения. Также введена эффективная стратегия оптимизации, основанная на KDTree, для эффективного решения проблемы динамического зрения. Проведенные эксперименты показали, что предлагаемый подход демонстрирует лучшую точность восстановления динамических сцен по сравнению с предыдущими методами.

Annotation:

While 3D Gaussian Splatting (3DGS) excels in static scene modeling, its extension to dynamic scenes introduces significant challenges. Existing dynamic 3DGS methods suffer from either over-smoothing due to low-rank decomposition or feature collision from high-dimensional grid sampling. This is because of the inherent spectral conflicts between preserving motion details and maintaining deformation consistency at different frequency. To address these challenges, we propose a novel dynamic 3DGS fra...

ID: 2508.04966v1 cs.GR, cs.CV, cs.MM

arXiv PDF

📄 CSRAP: Enhanced Canvas Attention Scheduling for Real-Time Mission Critical Perception

2025-08-09

Авторы:

Md Iftekharul Islam Sakib, Yigong Hu, Tarek Abdelzaher

В статье предлагается усовершенствованный подход к управлению вниманием в реальном времени для визуальной прецензии на ресурсораспределенных платформах. Большие высокорезолюционные кадры, необходимые для точного распознавания объектов, представляют серьезную проблему в ситуациях, требующих строгих ограничений по задержке и ресурсам. Ранее предложенный подход к консолидации интересующих зон в упрощенном кадре (канвас-фрейм), допускающий выполнение моделей в режиме реального времени, здесь расширен. Новый подход позволяет использовать кадры разного размера и с другими частотами кадров, увеличивая гибкость и эффективность. Исследования проводились с использованием модели YOLOv11 на платформе NVIDIA Jetson Orin Nano с данными из Waymo Open Dataset. Оценка показала, что дополнительная степень свободы в настройке канвас-фреймов приводит к улучшению точности и достоверности, превзойдя состояние техники в отрасли.

Annotation:

Real-time perception on edge platforms faces a core challenge: executing high-resolution object detection under stringent latency constraints on limited computing resources. Canvas-based attention scheduling was proposed in earlier work as a mechanism to reduce the resource demands of perception subsystems. It consolidates areas of interest in an input data frame onto a smaller area, called a canvas frame, that can be processed at the requisite frame rate. This paper extends prior canvas-based a...

ID: 2508.04976v1 cs.CV

arXiv PDF

📄 Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression

2025-08-09

Авторы:

Zheng Chen, Mingde Zhou, Jinpei Guo, Jiale Yuan, Yifei Ji, Yulun Zhang

**Резюме** В статье предлагается SODEC — новая модель для изображений с одношаговым процессом диффузии, которая решает ключевые проблемы существующих систем диффузионной компрессии. Традиционные многошаговые модели страдают от высокой задержки при декодировании и сниженной точности, вызванной сильным зависимостью от априорных знаний. SODEC решает эти задачи за счет того, что использует весьма информативные латентные представления, полученные с помощью предварительно обученной модели VAE. На основе этих представлений реализуется система одношагового декодирования, которая ускоряет обработку, а также добавляется механизм фидабэка для повышения точности результата. Кроме того, разработана стратегия пошагового уменьшения скорости размытия (rate annealing), позволяющая модель эффективно работать даже при очень низких битрейтах. Эксперименты показывают, что SODEC значительно превосходит существующие модели по размеру и скорости декодирования, а также улучшает качество изображений за счет более точного подхода к реализации информации. Данный подход может стать прорывом в области эффективной изображенческой компрессии.

Annotation:

Diffusion-based image compression has demonstrated impressive perceptual performance. However, it suffers from two critical drawbacks: (1) excessive decoding latency due to multi-step sampling, and (2) poor fidelity resulting from over-reliance on generative priors. To address these issues, we propose SODEC, a novel single-step diffusion image compression model. We argue that in image compression, a sufficiently informative latent renders multi-step refinement unnecessary. Based on this insight,...

ID: 2508.04979v1 cs.CV

arXiv PDF

1
2
3351
3352
3353
3354
3355
3412
3413

Показано 33521 - 33530 из 34123 записей