📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Kun Gui, Hongliang Ren, Shang Shi, Jin Lu, Changqiu Yu, Quanjun Cao, Guomin Gu, Qi Xuan

Данная работа предлагает фундаментальный подход к распознаванию сигналов DAS (Distributed Acoustic Sensing) с использованием масок реконструкции и метода Visual Prompt Tuning (VPT) для подготовки модели к работе на downstream-задачах. Авторы предлагают модель MAEPD (Masked Autoencoder for DAS Signal Recognition), которая относится к классу моделей Masked Autoencoder и тренируется на большом датасете (635,860 примеров), включающим различные типы DAS-сигналов: гаями, 2D GASF и 2D time-frequency изображениями, а также данными открытых наборов, такими как сигналы системы контроля газа и аналогичные. Модель предназначена для выделения семантических признаков DAS-сигналов в самостоятельном обучении. Для распознавания в downstream-задачах используется VPT: модель замораживается во время тренировки, а только визуальные векторы проникают в Transformer-слои. Мы доказали, что этот подход эффективен в распознавании гая (96,94% точность), при этом требующий всего 0,322% параметров для тренировки, что значительно сокращает время тренировки. Этот расчет показал, что модель широко применяется в распознавании гая, а также в других задачах, таких как обнаружение повреждений в трубопроводах.
Annotation:
Distributed Acoustic Sensing (DAS) technology finds growing applications across various domains. However, data distribution disparities due to heterogeneous sensing environments pose challenges for data-driven artificial intelligence (AI) models, limiting cross-domain generalization and facing a shortage of labeled training data. To address these issues, this study proposes a foundational model for DAS signal recognition based on a Masked Autoencoder, named MAEPD. The MAEPD model is pretrained o...
ID: 2508.04316v1 cs.CV, eess.SP
Авторы:

Xiaoxuan He, Siming Fu, Yuke Zhao, Wanli Li, Jian Yang, Dacheng Yin, Fengyun Rao, Bo Zhang

**Резюме** Повышение качества текстово-красочных моделей возможно благодаря reinforcement learning (RL), но его интеграция с подходами, основанными на градиентных течениях (Flow), сталкивается с оптимизационными проблемами. Основная причина — временная неразличимость решений в процессе генерации, что приводит к неэффективному использованию стохастических шагов и снижению качества. В статье предлагается TempFlow-GRPO — новая структура RL-фреймворка для градиентных течений, которая учитывает временную структуру генерации. Ее основные инновации: (i) механизм подразбиения траекторий, который распределяет кредит принятым решениям в ключевых моментах генерации, и (ii) весовая схема, адаптирующая оптимизацию политики в зависимости от возможности исследования в каждом такте. Эти изменения обеспечивают более точное настройка политики, учитывая влияние каждого такта на результирующую картинку. В результате TempFlow-GRPO превосходит современные модели по human preference alignment и результатам на текстово-красочных бенчмарках.
Annotation:
Recent flow matching models for text-to-image generation have achieved remarkable quality, yet their integration with reinforcement learning for human preference alignment remains suboptimal, hindering fine-grained reward-based optimization. We observe that the key impediment to effective GRPO training of flow models is the temporal uniformity assumption in existing approaches: sparse terminal rewards with uniform credit assignment fail to capture the varying criticality of decisions across gene...
ID: 2508.04324v1 cs.CV
Авторы:

Yanyan Li, Ze Yang, Keisuke Tateno, Federico Tombari Liang Zhao, Gim Hee Lee

**Резюме** Позиционирование камеры и структурное картирование требуют точной минимальной параметризации трехмерных линий. Существующие представления линий в робототехнике и компьютерном зрении фокусируются на индивидуальных линиях, не учитывая их структурные регулярности, такие как параллельность, которая широко распространена в современных средах. В статье предлагается **RiemanLine** — минимальное представление трехмерных линий на основе римановых многообразий, которое эффективно объединяет в себе параллельные линии и их индивидуальные представители. Основная идея заключается в разделении каждой линии на глобальную и локальную компоненты: вращающийся направление, оптимизируемое на единичном сферическом многообразии $\mathcal{S}^2$, и нормальные векторы, задаваемые ортогональными подпространствами. Этот подход существенно сокращает количество параметров для $n$ параллельных линий (с $4n$ до $2n+2$), естественным образом учитывая параллельность без дополнительных ограничений. Интеграция этого представления в оптимизационный фреймворк на базе факторной графики позволяет одновременно выравнивать глобальные направления и оптимизировать репроекционные ошибки в рамках холла многомерного параметрического приближения. Эксперименты на ICL-NUIM, TartanAir и синтетических данных показали, что RiemanLine обеспечивает более точное определение положения и реконструкцию линий, при этом уменьшая размерность параметров и улучшая стабильность затрейсинга.
Annotation:
Minimal parametrization of 3D lines plays a critical role in camera localization and structural mapping. Existing representations in robotics and computer vision predominantly handle independent lines, overlooking structural regularities such as sets of parallel lines that are pervasive in man-made environments. This paper introduces \textbf{RiemanLine}, a unified minimal representation for 3D lines formulated on Riemannian manifolds that jointly accommodates both individual lines and parallel-l...
ID: 2508.04335v1 cs.CV, cs.RO
Авторы:

Songyun Yang, Yufei Han, Jilong Zhang, Kongming Liang, Peng Yu, Zhaowei Qu, Heng Guo

Multiview photometric stereo (MVPS) сталкивается с трудностями при оценке глубоких характеристик поверхности и иллюминации в природных условиях. Большинство существующих подходов требуют контролируемых условий или игнорируют восстановление свойств отражения и иллюминации, ограничивая применимость методов в естественных сценариях и задачах обратного рендеринга. В этой работе предлагается RotatedMVPS — метод, который восстанавливает форму и отражение под вращающимся натуральным освещением, доступным с помощью практического вращающегося стандарта. Он уменьшает неизвестные вопросы, связанные с сложным окружающим освещением, структурируя параметры света. Также мы интегрируем данные о приоритетах из одновременных методов однов perspective photometric stereo, улучшая точность восстановления формы и отражения. Эксперименты на синтетических и реальных данных показали, что RotatedMVPS эффективно восстанавливает поверхности в естественных условиях, делая этот подход привлекательным для обратного рендеринга.
Annotation:
Multiview photometric stereo (MVPS) seeks to recover high-fidelity surface shapes and reflectances from images captured under varying views and illuminations. However, existing MVPS methods often require controlled darkroom settings for varying illuminations or overlook the recovery of reflectances and illuminations properties, limiting their applicability in natural illumination scenarios and downstream inverse rendering tasks. In this paper, we propose RotatedMVPS to solve shape and reflectanc...
ID: 2508.04366v1 cs.CV
Авторы:

Zahra Ebrahimi, Raheleh Salehi, Nassir Navab, Carsten Marr, Ario Sadafi

Целевая проблема заключается в неэффективности существующих методов непрерывного обучения (continual learning) при применении к задачам несупервизированного многоинстанционного обучения (multiple instance learning, MIL), которое широко используется в диагностике болезней крови, например, в определении лейкозей. Наша работа предлагает первый метод непрерывного обучения, оптимизированный специфически для MIL. Метод основывается на репетиции выборок (rehearsal), при которой выбираются отдельные инстанции из различных «мешков» (bags) на основе инстанций-аутентификаторов (instance attention scores) и их расстояний от среднего вектора класса и «мешка». Это позволяет эффективно сохранить разнообразие данных в памяти. Мы проверили эффективность на реальных данных лейкомии за один месяц, сравнив с трех известных методами непрерывного обучения. Наши результаты показали, что предложенный подход значительно превосходит их в производительности, устанавливая новую стандартную практику для непрерывного обучения в MIL.
Annotation:
The dynamic environment of laboratories and clinics, with streams of data arriving on a daily basis, requires regular updates of trained machine learning models for consistent performance. Continual learning is supposed to help train models without catastrophic forgetting. However, state-of-the-art methods are ineffective for multiple instance learning (MIL), which is often used in single-cell-based hematologic disease diagnosis (e.g., leukemia detection). Here, we propose the first continual le...
ID: 2508.04368v1 cs.LG, cs.CV, eess.IV, q-bio.QM
Авторы:

Canhui Tang, Zifan Han, Hongbo Sun, Sanping Zhou, Xuchong Zhang, Xin Wei, Ye Yuan, Jinglin Xu, Hao Sun

Многомодальные большие языковые модели (MLLMs) показали сильный потенциал в задачах видео-языкового понимания, но столкнулись с ограничениями при обработке длинных видео. Это обусловлено ограниченным контекстом моделей и высокими затратами на обучение, которые требуют процедур спарсинга кадров до их ввода в модели. Текущие подходы к спарсингу, такие как прерывистый ключевой кадр или несвязанное добавление кадров, часто пропускают критичные моменты или ограничиваются возможностями предобученных моделей. В статье предлагается Temporal Sampling Policy Optimization (TSPO) — метод оптимизации спарсинга с помощью reinforcement learning. TSPO включает в себя тренируемый event-aware agent, который выбирает кадры с учетом корреляции событий. TSPO оптимизирует процесс выбора и генерации языка в единой структуре, используя эффективные механизмы награды. Также разработана конструкция данных для обучения с помощью выбора ключевых моментов в длинных видео. Эксперименты показали, что TSPO улучшает показатели по нескольким бенчмаркам в задаче длинноформа видео-понимания и доказывает трансферную способность работы с различными Video-MLLMs. Результаты доступны на GitHub.
Annotation:
Multimodal Large Language Models (MLLMs) have demonstrated significant progress in vision-language tasks, yet they still face challenges when processing long-duration video inputs. The limitation arises from MLLMs' context limit and training costs, necessitating sparse frame sampling before feeding videos into MLLMs. Existing video MLLMs adopt training-free uniform sampling or keyframe search, which may miss critical events or be constrained by the pre-trained models' event understanding capabil...
ID: 2508.04369v2 cs.CV
Авторы:

Lefei Shen, Mouxiang Chen, Xu Liu, Han Fu, Xiaoxue Ren, Jianling Sun, Zhuo Li, Chenghao Liu

**Резюме** В данном исследовании предлагается VisionTS++ — кросс-модальная фундаментальная модель для временных рядов, основанная на визуальных моделях. Несмотря на то, что визуальные модели, предварительно обученные на изображениях, показали способность решать задачи прогнозирования временных рядов, передача кросс-модальной информации возникают трудности из-за трех ключевых различий: (1) различия между структурированными изображениями и неструктурированными временными рядами; (2) различия между моделями визуальных данных трех-канального RGB-формата и необходимостью моделировать временные ряды с произвольным числом признаков; (3) различия между детерминированным выводом визуальных моделей и необходимостью прогнозировать распределения с обоснованным уровнем неопределенности. Для решения этих проблем, VisionTS++ предлагает тройной подход: (1) визуальный механизм фильтрации для выявления высококачественных временных рядов, (2) метод преобразования временных рядов в RGB-изображения с несколькими подкартинками для представления зависимостей между признаками, (3) многоквантильный прогнозный подход, использующий множество реконструкционных задач для гибкого прогнозирования различных квантилей. Тесты на различных задачах прогнозирования показали, что VisionTS++ превосходит специализированные модели на 6%–44% по метрике MSE и занимает первое место в 9 из 12 сценариев прогнозирования. Это работа устанавливает новый парадигму для кросс-модальных передачи знаний, двигая вперед развитие универсальных моделей для прогнозирования временных рядов.
Annotation:
Recent studies have revealed that vision models pre-trained on images can perform well in time series forecasting by reformulating forecasting as an image reconstruction task, suggesting their potential as universal time series foundation models. However, effective cross-modal transfer from vision to time series remains challenging due to three key discrepancies: (1) data-modality gap between structured, bounded image data and unbounded, heterogeneous time series; (2) multivariate-forecasting ga...
ID: 2508.04379v1 cs.CV, cs.LG
Авторы:

Haoji Zhang, Xin Gu, Jiawen Li, Chixiang Ma, Sule Bai, Chubin Zhang, Bowen Zhang, Zhichao Zhou, Dongliang He, Yansong Tang

Задача видео-разумания, включающая вопрос-ответ и темпоральное определение, является ключевой для многих приложений, но сталкивается с проблемами, такими как ограниченные межмодальные взаимодействия и увеличение риска халлуцинаций при работе с длинными видео. Для решения этих задач предлагается **VITAL (Video Intelligence via Tool-Augmented Learning)** — система, основанная на agentic video reasoning. Она включает в себя визуальную ноутбук для точного выбора фреймов и мультимодальный chain-of-thought (CoT) для точного выполнения рассуждений. Для оптимизации модели были созданы два высококачественных мультизадачных датасета MTVR-CoT-72k и MTVR-RL-110k, а также разработан алгоритм DGRPO, который устраняет неравномерность сложности в мультизадачном reinforcement learning. Эксперименты показали, что VITAL превосходит существующие методы в задачах видео-разумания, особенно при работе с длинными видео. Результаты будут доступны всем.
Annotation:
The video reasoning ability of multimodal large language models (MLLMs) is crucial for downstream tasks like video question answering and temporal grounding. While recent approaches have explored text-based chain-of-thought (CoT) reasoning for MLLMs, these methods often suffer from limited cross-modal interaction and increased hallucination, especially with longer videos or reasoning chains. To address these challenges, we propose Video Intelligence via Tool-Augmented Learning (VITAL), a novel e...
ID: 2508.04416v1 cs.CV
Авторы:

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

**Резюме** В статье предлагается новый подход к задаче Referring Audio-Visual Segmentation (Ref-AVS), направленный на решение проблем привычных методов, опирающихся на кроп-инвариантные выборки. Традиционные подходы, основанные на представлениях в памяти, часто недостаточно точны и не интерпретируемы. Более того, они затруднены в использовании в случае не всех типов данных. Рассмотренный авторами подход позволяет выделить объект в видео в ответ на запрос в текстовом виде, используя модель Ref-Thinker, которая обрабатывает текст, изображение и звук. Далее используется Grounding-DINO для координатной гранулярности, и SAM2 для точного сегментирования. Новый Ref-AVSBench позволяет тренировать модели с более высокой целесообразностью и повышенной универсальностью. На тесте, который включает в себя более сложную семантику и новые данные, алгоритм показал себя лучше, чем предыдущие модели. Этот подход может стать основой для улучшения семантического понимания в аудио-визуальных системах.
Annotation:
Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects in audible videos based on given reference expressions. Prior works typically rely on learning latent embeddings via multimodal fusion to prompt a tunable SAM/SAM2 decoder for segmentation, which requires strong pixel-level supervision and lacks interpretability. From a novel perspective of explicit reference understanding, we propose TGS-Agent, which decomposes the task into a Think-Ground-Segment process, mimicking th...
ID: 2508.04418v1 cs.MM, cs.CV, cs.MA, cs.SD, eess.AS
Авторы:

Christian Bohn, Thomas Kurbiel, Klaus Friedrichs, Hasan Tercan, Tobias Meisen

В статье предлагается новый подход для эффективного обработки задач в multitask transformer моделях. Основная проблема заключается в высоких вычислительных затратах на мультихедное внимание (Multi-Head-Attention) при обработке множества задач, которые растут экспоненциально с повышением количества задач. Это приводит к ограничениям в практической реализации на ограниченном оборудовании. Разработанное решение — Deformable Inter-Task Self-Attention — позволяет эффективно агрегировать информацию между задачами, существенно сокращая число операций и латентность вывода. На данных NYUD-v2 и PASCAL-Context была показана снижение FLOPs и латентности в несколько раз, при этом улучшив качество предсказаний на отдельных задачах до 7.4%.
Annotation:
In both Computer Vision and the wider Deep Learning field, the Transformer architecture is well-established as state-of-the-art for many applications. For Multitask Learning, however, where there may be many more queries necessary compared to single-task models, its Multi-Head-Attention often approaches the limits of what is computationally feasible considering practical hardware limitations. This is due to the fact that the size of the attention matrix scales quadratically with the number of ta...
ID: 2508.04422v1 cs.CV
Показано 33461 - 33470 из 34123 записей