📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 VFlowOpt: A Token Pruning Framework for LMMs with Visual Information Flow-Guided Optimization
2025-08-09Авторы:
Sihan Yang, Runsen Xu, Chenhang Cui, Tai Wang, Dahua Lin, Jiangmiao Pang
Large Multimodal Models (LMMs) обеспечивают высокую эффективность в визуально-языковых задачах, но их работа с тысячами визуальных токенов приводит к высоким вычислительным затратам. Описанная работа предлагает VFlowOpt — новую систему оптимизации визуальных токенов, основанную на методе прогрессивного усечения с механизмом повторного использования токенов. Для каждого токена вычисляется импортность, основываясь на контекстной актуальности и информационной энтропии. При удалении токенов гарантируется минимальное потери информации. Для минимизации различий между поведением LMM при использовании и без использования токенов вводится метод, ориентирующийся на последний токен, символизирующий взаимодействие текста и визуальной информации. Эксперименты показали, что VFlowOpt позволяет усекать до 90% токенов с сохранением высокой точности, при этом сокращая использование памяти KV-Cache в 89% и увеличивая скорость вычислений в 3,8 раза.
Annotation:
Large Multimodal Models (LMMs) excel in visual-language tasks by leveraging
numerous visual tokens for fine-grained visual information, but this token
redundancy results in significant computational costs. Previous research aimed
at reducing visual tokens during inference typically leverages importance maps
derived from attention scores among vision-only tokens or vision-language
tokens to prune tokens across one or multiple pruning stages. Despite this
progress, pruning frameworks and strategie...
📄 Textual and Visual Guided Task Adaptation for Source-Free Cross-Domain Few-Shot Segmentation
2025-08-09Авторы:
Jianming Liu, Wenlong Qiu, Haitao Wei
Резюме: Научная статья рассматривает проблему деградации качества сегментации в задачах Few-Shot Segmentation (FSS) при существенных различиях между доменами тренировки и развертывания. Для решения этой проблемы предложена методика Source-Free Cross-Domain Few-Shot Segmentation (CD-FSS), которая использует оба типа объектных признаков — текстовые и визуальные — для эффективной адаптации модели к новому домену без доступа к данным исходного домена. В ходе работы разработаны Task-Specific Attention Adapters (TSAA), которые применяются для адаптации выводимых бэкбона фичи к новой задаче. Для уточнения адаптированных признаков используются Visual-Visual Embedding Alignment (VVEA) для выравнивания визуальных признаков и Text-Visual Embedding Alignment (TVEA) для использования текстовых признаков. Объединение этих модулей позволяет повысить точность сегментации на 2.18% при 1-shot и на 4.11% при 5-shot на 4 кросс-доменных датасетах, значительно превосходя конкурентные методы. Исходный код доступен по ссылке.
Annotation:
Few-Shot Segmentation(FSS) aims to efficient segmentation of new objects with
few labeled samples. However, its performance significantly degrades when
domain discrepancies exist between training and deployment. Cross-Domain
Few-Shot Segmentation(CD-FSS) is proposed to mitigate such performance
degradation. Current CD-FSS methods primarily sought to develop segmentation
models on a source domain capable of cross-domain generalization. However,
driven by escalating concerns over data privacy and ...
Авторы:
Mirko Konstantin, Anirban Mukhopadhyay
**Резюме**
В статье предлагается новая модель для федеративного обучения (FL), которая переводит его из централизованной структуры на децентрализованную, основанную на peer-to-peer (P2P) топологии. Традиционные системы FL основываются на "звенелой" архитектуре с центральным сервером, которая дает много проблем, включая уязвимость к сбоям, ограниченную персонализацию и низкую устойчивость к дистрибутивным изменениям. Предложенный подход, **LIGHTYEAR**, развивает P2P-архитектуру, позволяя каждому клиенту выбирать и агрегировать наиболее подходящие и надежные обновления с учетом локальных данных. Основной механизм — **метрика доверия на основе валидационных наборов**, которая оценивает семантическое соответствие новых обновлений к основной модели клиента. Это позволяет каждому клиенту делать подбор обновлений, учитывая свои уникальные особенности данных. На основе экспериментов на двух датасетах, LIGHTYEAR показал лучший результат в сравнении с централизованными и другими P2P-методами, особенно в условиях адверсарных и неоднородных сред. Таким образом, новый подход улучшает устойчивость и персонализацию FL в распределенных средах.
Annotation:
Federated learning (FL) enables collaborative model training across
distributed clients while preserving data privacy by keeping data local.
Traditional FL approaches rely on a centralized, star-shaped topology, where a
central server aggregates model updates from clients. However, this
architecture introduces several limitations, including a single point of
failure, limited personalization, and poor robustness to distribution shifts or
vulnerability to malfunctioning clients. Moreover, update s...
📄 Segmenting the Complex and Irregular in Two-Phase Flows: A Real-World Empirical Study with SAM2
2025-08-09Авторы:
Semanur Küçük, Cosimo Della Santina, Angeliki Laskari
**Резюме**
Segmentirovanie gazovykh пузырей в многофазных потоках является критическим, но еще не достигнутым заданием во многих промышленных сферах, включая металлургию и сокращение трения в мореходстве. Традиционные методы и многие алгоритмы машинного обучения предполагают близко к сферическим формам, что ограничивает их эффективность в случаях деформации, коаленсии и разрушения пузырей. Это особенно важно в системах воздушной лосктуризации, где коаленция сформирована поверхностно неоднородными и нечетко определенными патчами.
В данной работе мы применяем современные визуальные модели на основе фонд-моделей для решения этой проблемы. Мы предлагаем использовать SAM v2.1, которая была приведена к задаче трансферного обучения и показала великолепные результаты в сегментации даже самых сложных, неоднородных бубновых структур. Эта модель достигает высокой точности, даже при использовании всего 100 аннотированных изображений. Наши результаты откровенно показывают возможность SAM v2.1 в решении неоднородных задач сегментации двухфазных потоков.
Annotation:
Segmenting gas bubbles in multiphase flows is a critical yet unsolved
challenge in numerous industrial settings, from metallurgical processing to
maritime drag reduction. Traditional approaches-and most recent learning-based
methods-assume near-spherical shapes, limiting their effectiveness in regimes
where bubbles undergo deformation, coalescence, or breakup. This complexity is
particularly evident in air lubrication systems, where coalesced bubbles form
amorphous and topologically diverse patc...
Авторы:
Yatong Lan, Jingfeng Chen, Yiru Wang, Lei He
**Резюме**
В статье предлагается ArbiViewGen — первый фреймворк, реализующий контролируемую генерацию изображений с произвольных точек зрения для сцен проекции из автомобиля. Это решение адресует сложность генерирования данных для невиджутых видов с различными углами проекции, которые необходимы для продвижения в области автономного вождения. Новаторским вариантом является использование цепочки технологий: Feature-Aware Adaptive View Stitching (FAVS) для выравнивания изображений с разных камер и Cross-View Consistency Self-Supervised Learning (CVC-SSL) для сохранения точности изображений при синтезе. Использование только изображений из многокамерных систем и их поз, без развитных дополнительных сенсоров или глубинных карт, делает этот подход эффективным и практичным. Таким образом, ArbiViewGen открывает новый путь к точной генерации произвольных видов, значительно повышая возможности для автономных систем.
Annotation:
Arbitrary viewpoint image generation holds significant potential for
autonomous driving, yet remains a challenging task due to the lack of
ground-truth data for extrapolated views, which hampers the training of
high-fidelity generative models. In this work, we propose Arbiviewgen, a novel
diffusion-based framework for the generation of controllable camera images from
arbitrary points of view. To address the absence of ground-truth data in unseen
views, we introduce two key components: Feature-Aw...
Авторы:
Changho Choi, Youngwoo Shin, Gyojin Han, Dong-Jae Lee, Junmo Kim
4D LiDAR позволяет тщательно описывать динамические внешние среды, но до сих пор недостаточно использовался в контексте мультимодальных больших языковых моделей (MLLM) из-за отсутствия качественных аннотаций и соответствующих архитектур. Мы предлагаем B4DL — прототипный бенчмарк для обучения и оценки MLLM в области 4D LiDAR. Бенчмарк включает в себя высококачественные 4D LiDAR-данные, сгенерированные с помощью нашей простой и эффективной пайплайн-архитектуры. Мы также предлагаем новую модель MLLM, которая способна непосредственно обрабатывать 4D LiDAR, объединяя пространственно-временную рассуждения с языковым пониманием. Наши результаты показывают, что B4DL и наша модель предлагают решение для рассуждений в динамичных средах, объединяя силу 4D LiDAR и мощи MLLM.
Annotation:
Understanding dynamic outdoor environments requires capturing complex object
interactions and their evolution over time. LiDAR-based 4D point clouds provide
precise spatial geometry and rich temporal cues, making them ideal for
representing real-world scenes. However, despite their potential, 4D LiDAR
remains underexplored in the context of Multimodal Large Language Models
(MLLMs) due to the absence of high-quality, modality-specific annotations and
the lack of MLLM architectures capable of proc...
Авторы:
Xiaoyang Zhang, Guodong Fan, Guang-Yong Chen, Zhen Hua, Jinjiang Li, Min Gan, C. L. Philip Chen
Детекция изменений в ремонтной имиджировании играет ключевую роль в таких приложениях, как мониторинг стихийных бедствий, слежение за урбанизацией и управление инфраструктурой. Несмотря на успехы глубокого обучения в этой области, многие методы по-прежнему опираются на моделирование в пространственном домене, что ограничивает моделирование тонких изменений. В нашей работе мы выделяем, что моделирование частотных компонент, особенно волноводным преобразованием, позволяет подчеркнуть тонкие изменения в фине-гранях, которые недоступны в пространственном домене. Мы предлагаем метод Wavelet-Guided Dual-Frequency Encoding (WGDF), который использует Discrete Wavelet Transform (DWT) для разбора изображений на низкие и высокие частотные компоненты. В высокочастотной ветке мы разработали модуль Dual-Frequency Feature Enhancement (DFFE) для усиления репрезентации деталей краёв, а в низкочастотной — ввели Progressive Contextual Difference Module (PCDM) для точной характеризации изменений. Итог: WGDF эффективно устраняет погрешности в определении краёв и показывает высокую точность и устойчивость по сравнению с современными методами.
Annotation:
Change detection in remote sensing imagery plays a vital role in various
engineering applications, such as natural disaster monitoring, urban expansion
tracking, and infrastructure management. Despite the remarkable progress of
deep learning in recent years, most existing methods still rely on
spatial-domain modeling, where the limited diversity of feature representations
hinders the detection of subtle change regions. We observe that
frequency-domain feature modeling particularly in the wavelet...
Авторы:
Xuyang Wang, Lingjuan Miao, Zhiqiang Zhou
**Резюме**
В статье предлагается CoCAViT — новая архитектура визуального корпуса, ориентированная на обеспечение надежной реализации в реальном времени с улучшенной универсальностью и общей устойчивостью к выходу за пределы домена. Авторы выявили ограничения в имеющихся моделях эффективного видения, связанные с ухудшением генерализуемости на нарушенных наборах данных. Решением этой проблемы является введение механизма CoCA (Coordinator-patch Cross Attention), который вводит динамические, доменно-адаптивные глобальные токены. Эти токены взаимодействуют с локальными окнами, улучшая моделирование между локальными и глобальными признаками и повышая устойчивость к ограничениям набора данных. Результаты экспериментов показали, что CoCAViT-28M достигает 84.0% топ-1 точности на ImageNet-1K, существенно превосходя существующие модели по оценкам на OOD-выборках. Модель также показала высокую эффективность в задачах обнаружения объектов (52.2 mAP) и сегментации сцен (51.3 mIOU), сохранив низкую задержку.
Annotation:
In recent years, large-scale visual backbones have demonstrated remarkable
capabilities in learning general-purpose features from images via extensive
pre-training. Concurrently, many efficient architectures have emerged that have
performance comparable to that of larger models on in-domain benchmarks.
However, we observe that for smaller models, the performance drop on
out-of-distribution (OOD) data is disproportionately larger, indicating a
deficiency in the generalization performance of exist...
Авторы:
Yue Duan, Taicai Chen, Lei Qi, Yinghuan Shi
Semi-supervised continual learning (SSCL) сталкивается с тремя основными проблемами: эффективное использование неотмеченных данных, сохранение стабильности предыдущих знаний и обеспечение гибкости обучения для последующих классов. Работа предлагает USP, новый алгоритм, который разделяет эти задачи на отдельные модули и решает их синергетически. Для улучшения гибкости используется Feature Space Reservation (FSR), построение зарезервированных фичевых пространств для будущих классов. Divide-and-Conquer Pseudo-labeling (DCP) повышает качество неотмеченных данных, а Class-mean-anchored Unlabeled Distillation (CUD) сохраняет стабильность предыдущих классов, используя DCP для привязки новых классов к устойчивым классам. Оценка на нескольких задачах показала, что USP улучшает последнюю точность на 5.94% по сравнению с предыдущими методами, демонстрируя сильную эффективность. Авторы предоставили код на GitHub.
Annotation:
Semi-supervised continual learning (SSCL) seeks to leverage both labeled and
unlabeled data in a sequential learning setup, aiming to reduce annotation
costs while managing continual data arrival. SSCL introduces complex
challenges, including ensuring effective unlabeled learning (UL), while
balancing memory stability (MS) and learning plasticity (LP). Previous SSCL
efforts have typically focused on isolated aspects of the three, while this
work presents USP, a divide-and-conquer framework desig...
📄 Textual Inversion for Efficient Adaptation of Open-Vocabulary Object Detectors Without Forgetting
2025-08-09Авторы:
Frank Ruis, Gertjan Burghouts, Hugo Kuijf
**Резюме**
Последние достижения в области визуальных моделей с многомодальным обучением позволяют осуществлять задачи обнаружения объектов с помощью небольшого числа примеров, однако для достижения оптимального результата требуется оптимизация модели с потерей ее возможности работы с естественным языком и нулевыми примерами. Метод Textual Inversion (TI), использованный в текстово-изображенияльных моделях, предлагается для решения этой проблемы в сфере обнаружения объектов. TI используется для расширения словаря VLM, научив его определять новые или улучшив для точного определения существующих объектов. Это достигается с помощью обучения токена, который взаимодействует с оригинальными весами модели, не изменяя их, и сохраняя широкие возможности модели, включая нулевое обучение на новых доменах. Эффективность TI подтверждена экспериментами, показавшими выигрыш в качестве и снижение потерь во время обучения. Таким образом, TI предлагается как эффективный метод для обучения моделей к новым задачам, сохраняя их оригинальные способности.
Annotation:
Recent progress in large pre-trained vision language models (VLMs) has
reached state-of-the-art performance on several object detection benchmarks and
boasts strong zero-shot capabilities, but for optimal performance on specific
targets some form of finetuning is still necessary. While the initial VLM
weights allow for great few-shot transfer learning, this usually involves the
loss of the original natural language querying and zero-shot capabilities.
Inspired by the success of Textual Inversion...
Показано 11471 -
11480
из 11614 записей