📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня
Авторы:

Jun Luo, Zijing Zhao, Yang Liu

Задача семантической разметки изображений в условиях нулевого доступа к данным целевого домена остается вызовом для существующих моделей. Данная работа предлагает метод **SDGPA (Synthetic Data Generation and Progressive Adaptation)**, который способен выполнять zero-shot domain adaptive semantic segmentation только на основе текстового описания целевого стиля. Для устранения шума в сгенерированных с помощью диффузионной модели синтетических изображений, авторы предлагают новую стратегию редактирования изображений: разбиение исходных изображений на патчи, их отдельное редактирование и дальнейшее объединение. Это позволяет сохранить логическую структуру изображений и повысить точность разметки. Для устойчивого обучения в условиях большого доменного разрыва, SDGPA создает промежуточный домен для постепенной адаптации модели. Эксперименты показали, что SDGPA достигает лидирующих результатов в задаче zero-shot semantic segmentation, демонстрируя продвинутую способность к обучению в условиях недоступности целевых данных.
Annotation:
Deep learning-based semantic segmentation models achieve impressive results yet remain limited in handling distribution shifts between training and test data. In this paper, we present SDGPA (Synthetic Data Generation and Progressive Adaptation), a novel method that tackles zero-shot domain adaptive semantic segmentation, in which no target images are available, but only a text description of the target domain's style is provided. To compensate for the lack of target domain training data, we uti...
ID: 2508.03300v1 cs.CV
Авторы:

Mahdi Golizadeh, Nassibeh Golizadeh, Mohammad Ali Keyvanrad, Hossein Shirazi

Объектный выявление (object detection) — важная задача в области глубокого обучения, которая сталкивается с проблемой высокого вычислительного воздействия. Работа "Architectural Insights into Knowledge Distillation for Object Detection: A Comprehensive Review" рассматривает эффективное решение — Knowledge Distillation (KD), которое позволяет уменьшить размер модели без существенного потери точности. Однако применение KD в области объектного выявления сложно осуществить из-за нескольких особенностей данной задачи: классификация и локализация, несбалансированность между foreground и background, а также многомерность представления признаков. Авторы предлагают архитектурно-центрическую таксономию KD-методов, разделив их на категории для CNN- и Transformer-based detectors. Методы были оценены на MS COCO и PASCAL VOC с метрикой [email protected]. Результаты показывают, что KD может эффективно уменьшить модели, при этом сохраняя их качество.
Annotation:
Object detection has achieved remarkable accuracy through deep learning, yet these improvements often come with increased computational cost, limiting deployment on resource-constrained devices. Knowledge Distillation (KD) provides an effective solution by enabling compact student models to learn from larger teacher models. However, adapting KD to object detection poses unique challenges due to its dual objectives-classification and localization-as well as foreground-background imbalance and mul...
ID: 2508.03317v1 cs.CV, 68T07, I.4.8
Авторы:

Peiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

**Резюме** В статье представлена модель Skywork UniPic — многомодальная система, объединяющая синтез изображений, текст-в-изображение и редактирование изображений в единой архитектуре, без дополнительных модулей или адаптеров. Это решение решает проблему неэффективности использования ресурсов при реализации взаимодействия между модальностями. Модель имеет 1,5 миллиарда параметров и достигает высокого производительности на коммерческом оборудовании. Она показала результаты, побьющие многие существующие модели, такие как GenEval (0.86), DPG-Bench (85.5), GEditBench-EN (5.83) и ImgEdit-Bench (3.49). Модель также эффективно генерирует изображения разрешения 1024x1024 с использованием менее 15 Гб GPU-памяти (например, RTX 4090). Основные инновации включают в себя разделенный синтез и понимания, прогрессивную тренировку с динамическим размолотком параметров и специализированные наборы данных с расширенной обратной связью. Результаты показывают, что создание высокофидбельной модели для мультимодальной задачи не требует затрат сверхувых ресурсов, что делает Skywork UniPic практическим и эффективным подходом к интегрированному AI.
Annotation:
We introduce Skywork UniPic, a 1.5 billion-parameter autoregressive model that unifies image understanding, text-to-image generation, and image editing within a single architecture-eliminating the need for task-specific adapters or inter-module connectors-and demonstrate that compact multimodal systems can achieve state-of-the-art performance on commodity hardware. Skywork UniPic achieves a GenEval score of 0.86, surpassing most existing unified models; sets a new DPG-Bench complex-generation re...
ID: 2508.03320v1 cs.CV
Авторы:

Satyapreet Singh Yadav, Akash K S, Chandra Sekhar Seelamantula, Chetan Singh Thakur

Мы предлагаем нейроморфный радарный фреймворк для реального времени и батарейного эффективного распознавания жестов. Основной идеей является использование ассинхронного сигма-дильта-кодирования для преобразования интерференционных сигналов в спарсенные репрезентации, основанные на импульсах. Это позволяет избежать синтеза спектрограмм и обеспечивает низкую задержку и высокую эффективность. Радарный сенсор 24 ГГц, запущенный на микроконтроллере Cortex-M0, работает только при обнаружении действительных движений, что значительно снижает потребление питания и вычислительные затраты. На нашем датасете жестов, собранных у 7 различных пользователей, архитектура показала высокую точность распознавания (>85%) в реальном времени. Это первый рабочий пример нейроморфной модели с биоинспирированным сигма-дильта-кодированием, который успешно решает задачу радарного распознавания жестов, улучшая производительность и энергоэффективность.
Annotation:
We present a neuromorphic radar framework for real-time, low-power hand gesture recognition (HGR) using an event-driven architecture inspired by biological sensing. Our system comprises a 24 GHz Doppler radar front-end and a custom neuromorphic sampler that converts intermediate-frequency (IF) signals into sparse spike-based representations via asynchronous sigma-delta encoding. These events are directly processed by a lightweight neural network deployed on a Cortex-M0 microcontroller, enabling ...
ID: 2508.03324v2 cs.CV, cs.ET, cs.NE, cs.SY, eess.SY
Авторы:

Amirreza Rouhi, Sneh Patel, Noah McCarthy, Siddiqa Khan, Hadi Khorsand, Kaleb Lefkowitz, David K. Han

Активное развитие Управляемых Летательных Аппаратов (УЛА) создает новые вызовы для обеспечения безопасности, особенно в условиях плотного городского населения. Наша работа посвящена усовершенствованию систем детектирования УЛА на большие расстояния, чтобы обеспечить безопасность и эффективность их эксплуатации. Мы представляем Long Range Drone Detection Dataset v2 (LRDDv2), который включает 39,516 аннотированных изображений, расширенный в предыдущую версию LRDD. Особенностью LRDDv2 является добавление информации о дальности (range) для более чем 8,000 изображений, что позволяет развивать алгоритмы для оценки дистанции до объектов. Изображения в LRDDv2 характеризуются низким разрешением (до 50 пикселей в 1080p), что репрезентативно для реальных условий дальнего детектирования. Эта работа демонстрирует возможности датасета для развития инновационных решений в области дальнего поиска и детектирования УЛА.
Annotation:
The exponential growth in Unmanned Aerial Vehicles (UAVs) usage underscores the critical need of detecting them at extended distances to ensure safe operations, especially in densely populated areas. Despite the tremendous advances made in computer vision through deep learning, the detection of these small airborne objects remains a formidable challenge. While several datasets have been developed specifically for drone detection, the need for a more extensive and diverse collection of drone imag...
ID: 2508.03331v1 cs.CV, cs.RO
Авторы:

Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li

**Резюме** Авторы предлагают метод Macro-from-Micro Planning (MMPL) для решения проблемы ограниченности диффузионных моделей авторегрессии в генерации длинных видео. Эта проблема возникает из-за ошибки аккумуляции при авторегрессионном моделировании, что снижает качество и параллелизм при генерации длинных видео. Разработанная модель разделяет задачу на два этапа: Micro Planning и Macro Planning. Micro Planning определяет начальные ключевые кадры для каждого небольшого видео-сегмента, обеспечивая высокое качество и стабильность. Macro Planning расширяет эти планы на всю длину видео, обеспечивая долгосрочную консистентность. Для ускорения и эффективного использования GPU, авторы предлагают Adaptive Workload Scheduling для параллельной генерации кадров. Эксперименты показали, что MMPL превосходит существующие модели по качеству и стабильности генерируемых видео. Результаты и примеры генерируемых видео доступны на проектной странице.
Annotation:
Current autoregressive diffusion models excel at video generation but are generally limited to short temporal durations. Our theoretical analysis indicates that the autoregressive modeling typically suffers from temporal drift caused by error accumulation and hinders parallelization in long video synthesis. To address these limitations, we propose a novel planning-then-populating framework centered on Macro-from-Micro Planning (MMPL) for long video generation. MMPL sketches a global storyline fo...
ID: 2508.03334v2 cs.CV
Авторы:

Tongshun Zhang, Pingping Liu, Zixuan Zhong, Zijian Zhang, Qiuzhan Zhou

Одной из основных проблем в обработке изображений является восстановление мелких деталей в изображениях с высоким уровнем затемнения. Традиционные методы часто неэффективны в таких условиях, так как не могут восстановить тонкости текстур и краткосрочных границ, что снижает качество в задачах, таких как распознавание текста или контуров. В данной работе предлагается двухэтапный подход, ориентированный на восстановление тонкой текстуры в подвисших изображениях. Первый этап включает модуль Residual Fourier-Guided (RFGM), который восстанавливает глобальную яркость в частотном домене, поддерживая зависимости между стадиями и каналами. Второй этап использует Mamba-модули: Patch Mamba для тонкой моделирования чанков и Grad Mamba для реконструкции границ и градиентов. Эксперименты показали, что предложенный метод значительно повышает качество восстановления деталей, сохраняя высокую эффективность. Весь код доступен по ссылке: https://github.com/bywlzts/RFGM.
Annotation:
Recovering fine-grained details in extremely dark images remains challenging due to severe structural information loss and noise corruption. Existing enhancement methods often fail to preserve intricate details and sharp edges, limiting their effectiveness in downstream applications like text and edge detection. To address these deficiencies, we propose an efficient dual-stage approach centered on detail recovery for dark images. In the first stage, we introduce a Residual Fourier-Guided Module ...
ID: 2508.03336v1 cs.CV
Авторы:

Shaoguang Wang, Jianxiang He, Yijie Xu, Ziyang Chen, Weiyu Guo, Hui Xiong

В статье предлагается метод Less is More для эффективного решения задачи Video Question Answering (Video-QA) с помощью Multimodal Large Language Models (MLLMs). Затруднение применения MLLMs в Video-QA заключается в высокой стоимости токенов при обработке большого количества кадров видео. Обнаружено, что прирост числа используемых кадров не всегда приводит к улучшению результатов из-за утонения контекста, тогда как современные методы выбора ключевых кадров оставляют временную неоднородность («визуальные эхои»). Разработан метод Adaptive Frame-Pruning (AFP), который использует адаптивный кластеринг для объединения этих эхов и сокращения размера выборки кадров. Для компенсации потерь информации вводится легкий граф семантики на основе текста. Эксперименты показали, что AFP снижает количество используемых кадров и токенов ввода до 86,9% и 83,2% соответственно, при этом обеспечивая лучшую точность или эквивалентную по сравнению с базовыми методами, работающими с более крупными выборками.
Annotation:
The practical application of Multimodal Large Language Models (MLLMs) to Video Question Answering (Video-QA) is severely hindered by the high token cost of processing numerous video frames. While increasing the number of sampled frames is a common strategy, we observe a "less is more" phenomenon where excessive frames can paradoxically degrade performance due to context dilution. Concurrently, state-of-the-art keyframe selection methods, while effective, still yield significant temporal redundan...
ID: 2508.03337v2 cs.CV
Авторы:

Tongshun Zhang, Pingping Liu, Zhe Zhang, Qiuzhan Zhou

Ночной снимок часто сбивают с толку низкое освещение и сильная шумовая помеха, что затрудняет восприятие подробностей. Научные работы в области улучшения низкого освещения (LLIE) столкнулись с проблемой: данных-дривенные сети неоднозначны и зависят от нестабильных предварительных гипотез, теряются при очень темных условиях, тогда как физические модели ограничены своими упрощениями и неэффективны в сложных реальных сценариях. Мы предлагаем CIVQLLIE — новую модель, использующую векторный квантор (VQ) для токенизации изображений с помощью обучения на больших данных высокого качества. Недостатком VQ учитывается дисперсия между искаженными входными данными и обучающимся кодеком. Для этого мы предложили многоуровневый подход казуального вмешательства: Pixel-level Causal Intervention (PCI) выравнивает низкоуровневые признаки, Feature-aware Causal Intervention (FCI) с LSAG-модулем улучшает каналы, повлиявшие на иллюминацию, а High-frequency Detail Reconstruction Module (HDRM) восстанавливает детали с помощью deformable convolution. Эта модель обеспечивает точное улучшение изображений, сохраняя эффективность и универсальность.
Annotation:
Images captured in nighttime scenes suffer from severely reduced visibility, hindering effective content perception. Current low-light image enhancement (LLIE) methods face significant challenges: data-driven end-to-end mapping networks lack interpretability or rely on unreliable prior guidance, struggling under extremely dark conditions, while physics-based methods depend on simplified assumptions that often fail in complex real-world scenarios. To address these limitations, we propose CIVQLLIE...
ID: 2508.03338v1 cs.CV
Авторы:

Haoran Lin, Wenrui Chen, Xianchi Chen, Fan Yang, Qiang Diao, Wenxin Xie, Sijie Wu, Kailun Yang, Maojun Li, Yaonan Wang

Данные по декстерой граспировки являются ключевыми для развития интеллектуальных систем, однако подавляющее большинство таких датасетов фокусируются на стабильности граспировки, пренебрегая функциональными граспами, необходимыми для выполнения конкретных задач, например, открытия бутылочных крышек или держания ручек чашки. Большинство таких датасетов также ограничены в использовании дорогостоящих и сложно управляемых ручных систем с большим числом степеней свободы. Работающий на основе биомиметизма, UniFucGrasp предлагает новую стратегию аннотации функциональных граспировок, которая позволяет адаптировать движения человеческой руки к различным типам робототехнических рук. Используя метод геометрического клапанового замыкания, данная модель обеспечивает функциональную и устойчивую граспировку, аналогичную человеческим движениям. Также был создан первый многоручный датасет функциональных граспировок. Эксперименты показали, что UniFucGrasp улучшает точность манипуляций, увеличивает устойчивость граспировок и обеспечивает эффективное общеупотребительность на различных робототехнических руках, решая проблемы стоимости аннотации и проблему общеупотребительности в декстерой граспировке.
Annotation:
Dexterous grasp datasets are vital for embodied intelligence, but mostly emphasize grasp stability, ignoring functional grasps needed for tasks like opening bottle caps or holding cup handles. Most rely on bulky, costly, and hard-to-control high-DOF Shadow Hands. Inspired by the human hand's underactuated mechanism, we establish UniFucGrasp, a universal functional grasp annotation strategy and dataset for multiple dexterous hand types. Based on biomimicry, it maps natural human motions to divers...
ID: 2508.03339v1 cs.RO, cs.CV, eess.IV
Показано 11271 - 11280 из 11631 записей