📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Sihan Yang, Runsen Xu, Chenhang Cui, Tai Wang, Dahua Lin, Jiangmiao Pang

Large Multimodal Models (LMMs) обеспечивают высокую эффективность в визуально-языковых задачах, но их работа с тысячами визуальных токенов приводит к высоким вычислительным затратам. Описанная работа предлагает VFlowOpt — новую систему оптимизации визуальных токенов, основанную на методе прогрессивного усечения с механизмом повторного использования токенов. Для каждого токена вычисляется импортность, основываясь на контекстной актуальности и информационной энтропии. При удалении токенов гарантируется минимальное потери информации. Для минимизации различий между поведением LMM при использовании и без использования токенов вводится метод, ориентирующийся на последний токен, символизирующий взаимодействие текста и визуальной информации. Эксперименты показали, что VFlowOpt позволяет усекать до 90% токенов с сохранением высокой точности, при этом сокращая использование памяти KV-Cache в 89% и увеличивая скорость вычислений в 3,8 раза.
Annotation:
Large Multimodal Models (LMMs) excel in visual-language tasks by leveraging numerous visual tokens for fine-grained visual information, but this token redundancy results in significant computational costs. Previous research aimed at reducing visual tokens during inference typically leverages importance maps derived from attention scores among vision-only tokens or vision-language tokens to prune tokens across one or multiple pruning stages. Despite this progress, pruning frameworks and strategie...
ID: 2508.05211v1 cs.CV
Авторы:

Jianming Liu, Wenlong Qiu, Haitao Wei

Резюме: Научная статья рассматривает проблему деградации качества сегментации в задачах Few-Shot Segmentation (FSS) при существенных различиях между доменами тренировки и развертывания. Для решения этой проблемы предложена методика Source-Free Cross-Domain Few-Shot Segmentation (CD-FSS), которая использует оба типа объектных признаков — текстовые и визуальные — для эффективной адаптации модели к новому домену без доступа к данным исходного домена. В ходе работы разработаны Task-Specific Attention Adapters (TSAA), которые применяются для адаптации выводимых бэкбона фичи к новой задаче. Для уточнения адаптированных признаков используются Visual-Visual Embedding Alignment (VVEA) для выравнивания визуальных признаков и Text-Visual Embedding Alignment (TVEA) для использования текстовых признаков. Объединение этих модулей позволяет повысить точность сегментации на 2.18% при 1-shot и на 4.11% при 5-shot на 4 кросс-доменных датасетах, значительно превосходя конкурентные методы. Исходный код доступен по ссылке.
Annotation:
Few-Shot Segmentation(FSS) aims to efficient segmentation of new objects with few labeled samples. However, its performance significantly degrades when domain discrepancies exist between training and deployment. Cross-Domain Few-Shot Segmentation(CD-FSS) is proposed to mitigate such performance degradation. Current CD-FSS methods primarily sought to develop segmentation models on a source domain capable of cross-domain generalization. However, driven by escalating concerns over data privacy and ...
ID: 2508.05213v1 cs.CV, I.2.10
Авторы:

Mirko Konstantin, Anirban Mukhopadhyay

**Резюме** В статье предлагается новая модель для федеративного обучения (FL), которая переводит его из централизованной структуры на децентрализованную, основанную на peer-to-peer (P2P) топологии. Традиционные системы FL основываются на "звенелой" архитектуре с центральным сервером, которая дает много проблем, включая уязвимость к сбоям, ограниченную персонализацию и низкую устойчивость к дистрибутивным изменениям. Предложенный подход, **LIGHTYEAR**, развивает P2P-архитектуру, позволяя каждому клиенту выбирать и агрегировать наиболее подходящие и надежные обновления с учетом локальных данных. Основной механизм — **метрика доверия на основе валидационных наборов**, которая оценивает семантическое соответствие новых обновлений к основной модели клиента. Это позволяет каждому клиенту делать подбор обновлений, учитывая свои уникальные особенности данных. На основе экспериментов на двух датасетах, LIGHTYEAR показал лучший результат в сравнении с централизованными и другими P2P-методами, особенно в условиях адверсарных и неоднородных сред. Таким образом, новый подход улучшает устойчивость и персонализацию FL в распределенных средах.
Annotation:
Federated learning (FL) enables collaborative model training across distributed clients while preserving data privacy by keeping data local. Traditional FL approaches rely on a centralized, star-shaped topology, where a central server aggregates model updates from clients. However, this architecture introduces several limitations, including a single point of failure, limited personalization, and poor robustness to distribution shifts or vulnerability to malfunctioning clients. Moreover, update s...
ID: 2508.05224v1 cs.LG, cs.CV
Авторы:

Semanur Küçük, Cosimo Della Santina, Angeliki Laskari

**Резюме** Segmentirovanie gazovykh пузырей в многофазных потоках является критическим, но еще не достигнутым заданием во многих промышленных сферах, включая металлургию и сокращение трения в мореходстве. Традиционные методы и многие алгоритмы машинного обучения предполагают близко к сферическим формам, что ограничивает их эффективность в случаях деформации, коаленсии и разрушения пузырей. Это особенно важно в системах воздушной лосктуризации, где коаленция сформирована поверхностно неоднородными и нечетко определенными патчами. В данной работе мы применяем современные визуальные модели на основе фонд-моделей для решения этой проблемы. Мы предлагаем использовать SAM v2.1, которая была приведена к задаче трансферного обучения и показала великолепные результаты в сегментации даже самых сложных, неоднородных бубновых структур. Эта модель достигает высокой точности, даже при использовании всего 100 аннотированных изображений. Наши результаты откровенно показывают возможность SAM v2.1 в решении неоднородных задач сегментации двухфазных потоков.
Annotation:
Segmenting gas bubbles in multiphase flows is a critical yet unsolved challenge in numerous industrial settings, from metallurgical processing to maritime drag reduction. Traditional approaches-and most recent learning-based methods-assume near-spherical shapes, limiting their effectiveness in regimes where bubbles undergo deformation, coalescence, or breakup. This complexity is particularly evident in air lubrication systems, where coalesced bubbles form amorphous and topologically diverse patc...
ID: 2508.05227v1 cs.CV, 68T45, 94A08, I.2.10
Авторы:

Yatong Lan, Jingfeng Chen, Yiru Wang, Lei He

**Резюме** В статье предлагается ArbiViewGen — первый фреймворк, реализующий контролируемую генерацию изображений с произвольных точек зрения для сцен проекции из автомобиля. Это решение адресует сложность генерирования данных для невиджутых видов с различными углами проекции, которые необходимы для продвижения в области автономного вождения. Новаторским вариантом является использование цепочки технологий: Feature-Aware Adaptive View Stitching (FAVS) для выравнивания изображений с разных камер и Cross-View Consistency Self-Supervised Learning (CVC-SSL) для сохранения точности изображений при синтезе. Использование только изображений из многокамерных систем и их поз, без развитных дополнительных сенсоров или глубинных карт, делает этот подход эффективным и практичным. Таким образом, ArbiViewGen открывает новый путь к точной генерации произвольных видов, значительно повышая возможности для автономных систем.
Annotation:
Arbitrary viewpoint image generation holds significant potential for autonomous driving, yet remains a challenging task due to the lack of ground-truth data for extrapolated views, which hampers the training of high-fidelity generative models. In this work, we propose Arbiviewgen, a novel diffusion-based framework for the generation of controllable camera images from arbitrary points of view. To address the absence of ground-truth data in unseen views, we introduce two key components: Feature-Aw...
ID: 2508.05236v1 cs.CV
Авторы:

Changho Choi, Youngwoo Shin, Gyojin Han, Dong-Jae Lee, Junmo Kim

4D LiDAR позволяет тщательно описывать динамические внешние среды, но до сих пор недостаточно использовался в контексте мультимодальных больших языковых моделей (MLLM) из-за отсутствия качественных аннотаций и соответствующих архитектур. Мы предлагаем B4DL — прототипный бенчмарк для обучения и оценки MLLM в области 4D LiDAR. Бенчмарк включает в себя высококачественные 4D LiDAR-данные, сгенерированные с помощью нашей простой и эффективной пайплайн-архитектуры. Мы также предлагаем новую модель MLLM, которая способна непосредственно обрабатывать 4D LiDAR, объединяя пространственно-временную рассуждения с языковым пониманием. Наши результаты показывают, что B4DL и наша модель предлагают решение для рассуждений в динамичных средах, объединяя силу 4D LiDAR и мощи MLLM.
Annotation:
Understanding dynamic outdoor environments requires capturing complex object interactions and their evolution over time. LiDAR-based 4D point clouds provide precise spatial geometry and rich temporal cues, making them ideal for representing real-world scenes. However, despite their potential, 4D LiDAR remains underexplored in the context of Multimodal Large Language Models (MLLMs) due to the absence of high-quality, modality-specific annotations and the lack of MLLM architectures capable of proc...
ID: 2508.05269v1 cs.CV
Авторы:

Xiaoyang Zhang, Guodong Fan, Guang-Yong Chen, Zhen Hua, Jinjiang Li, Min Gan, C. L. Philip Chen

Детекция изменений в ремонтной имиджировании играет ключевую роль в таких приложениях, как мониторинг стихийных бедствий, слежение за урбанизацией и управление инфраструктурой. Несмотря на успехы глубокого обучения в этой области, многие методы по-прежнему опираются на моделирование в пространственном домене, что ограничивает моделирование тонких изменений. В нашей работе мы выделяем, что моделирование частотных компонент, особенно волноводным преобразованием, позволяет подчеркнуть тонкие изменения в фине-гранях, которые недоступны в пространственном домене. Мы предлагаем метод Wavelet-Guided Dual-Frequency Encoding (WGDF), который использует Discrete Wavelet Transform (DWT) для разбора изображений на низкие и высокие частотные компоненты. В высокочастотной ветке мы разработали модуль Dual-Frequency Feature Enhancement (DFFE) для усиления репрезентации деталей краёв, а в низкочастотной — ввели Progressive Contextual Difference Module (PCDM) для точной характеризации изменений. Итог: WGDF эффективно устраняет погрешности в определении краёв и показывает высокую точность и устойчивость по сравнению с современными методами.
Annotation:
Change detection in remote sensing imagery plays a vital role in various engineering applications, such as natural disaster monitoring, urban expansion tracking, and infrastructure management. Despite the remarkable progress of deep learning in recent years, most existing methods still rely on spatial-domain modeling, where the limited diversity of feature representations hinders the detection of subtle change regions. We observe that frequency-domain feature modeling particularly in the wavelet...
ID: 2508.05271v1 cs.CV
Авторы:

Xuyang Wang, Lingjuan Miao, Zhiqiang Zhou

**Резюме** В статье предлагается CoCAViT — новая архитектура визуального корпуса, ориентированная на обеспечение надежной реализации в реальном времени с улучшенной универсальностью и общей устойчивостью к выходу за пределы домена. Авторы выявили ограничения в имеющихся моделях эффективного видения, связанные с ухудшением генерализуемости на нарушенных наборах данных. Решением этой проблемы является введение механизма CoCA (Coordinator-patch Cross Attention), который вводит динамические, доменно-адаптивные глобальные токены. Эти токены взаимодействуют с локальными окнами, улучшая моделирование между локальными и глобальными признаками и повышая устойчивость к ограничениям набора данных. Результаты экспериментов показали, что CoCAViT-28M достигает 84.0% топ-1 точности на ImageNet-1K, существенно превосходя существующие модели по оценкам на OOD-выборках. Модель также показала высокую эффективность в задачах обнаружения объектов (52.2 mAP) и сегментации сцен (51.3 mIOU), сохранив низкую задержку.
Annotation:
In recent years, large-scale visual backbones have demonstrated remarkable capabilities in learning general-purpose features from images via extensive pre-training. Concurrently, many efficient architectures have emerged that have performance comparable to that of larger models on in-domain benchmarks. However, we observe that for smaller models, the performance drop on out-of-distribution (OOD) data is disproportionately larger, indicating a deficiency in the generalization performance of exist...
ID: 2508.05307v1 cs.CV
Авторы:

Yue Duan, Taicai Chen, Lei Qi, Yinghuan Shi

Semi-supervised continual learning (SSCL) сталкивается с тремя основными проблемами: эффективное использование неотмеченных данных, сохранение стабильности предыдущих знаний и обеспечение гибкости обучения для последующих классов. Работа предлагает USP, новый алгоритм, который разделяет эти задачи на отдельные модули и решает их синергетически. Для улучшения гибкости используется Feature Space Reservation (FSR), построение зарезервированных фичевых пространств для будущих классов. Divide-and-Conquer Pseudo-labeling (DCP) повышает качество неотмеченных данных, а Class-mean-anchored Unlabeled Distillation (CUD) сохраняет стабильность предыдущих классов, используя DCP для привязки новых классов к устойчивым классам. Оценка на нескольких задачах показала, что USP улучшает последнюю точность на 5.94% по сравнению с предыдущими методами, демонстрируя сильную эффективность. Авторы предоставили код на GitHub.
Annotation:
Semi-supervised continual learning (SSCL) seeks to leverage both labeled and unlabeled data in a sequential learning setup, aiming to reduce annotation costs while managing continual data arrival. SSCL introduces complex challenges, including ensuring effective unlabeled learning (UL), while balancing memory stability (MS) and learning plasticity (LP). Previous SSCL efforts have typically focused on isolated aspects of the three, while this work presents USP, a divide-and-conquer framework desig...
ID: 2508.05316v1 cs.LG, cs.CV
Авторы:

Frank Ruis, Gertjan Burghouts, Hugo Kuijf

**Резюме** Последние достижения в области визуальных моделей с многомодальным обучением позволяют осуществлять задачи обнаружения объектов с помощью небольшого числа примеров, однако для достижения оптимального результата требуется оптимизация модели с потерей ее возможности работы с естественным языком и нулевыми примерами. Метод Textual Inversion (TI), использованный в текстово-изображенияльных моделях, предлагается для решения этой проблемы в сфере обнаружения объектов. TI используется для расширения словаря VLM, научив его определять новые или улучшив для точного определения существующих объектов. Это достигается с помощью обучения токена, который взаимодействует с оригинальными весами модели, не изменяя их, и сохраняя широкие возможности модели, включая нулевое обучение на новых доменах. Эффективность TI подтверждена экспериментами, показавшими выигрыш в качестве и снижение потерь во время обучения. Таким образом, TI предлагается как эффективный метод для обучения моделей к новым задачам, сохраняя их оригинальные способности.
Annotation:
Recent progress in large pre-trained vision language models (VLMs) has reached state-of-the-art performance on several object detection benchmarks and boasts strong zero-shot capabilities, but for optimal performance on specific targets some form of finetuning is still necessary. While the initial VLM weights allow for great few-shot transfer learning, this usually involves the loss of the original natural language querying and zero-shot capabilities. Inspired by the success of Textual Inversion...
ID: 2508.05323v1 cs.CV
Показано 11471 - 11480 из 11614 записей