📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Forecasting When to Forecast: Accelerating Diffusion Models with Confidence-Gated Taylor

2025-08-09

Авторы:

Xiaoliu Guan, Lielin Jiang, Hanqi Chen, Xu Zhang, Jiaxing Yan, Guanzhong Wang, Yi Liu, Zetao Zhang, Yu Wu

Авторы рассматривают проблему низкой скорости инференса Diffusion Transformers (DiTs), которая ограничивает их применение в приложениях с ограниченными ресурсами. Основной причиной является высокая стоимость инференса по отдельным модулям (например, внимательным или питаторным блокам) и неэффективное использование кэширования представлений. Ранее предложенный подход TaylorSeer уменьшал число кэшируемых представлений, но использовал модульный подход к предсказанию и не учитывал разного рода надежность предсказаний. В новой работе предлагается продвинутый подход, который снижает накладные расходы на кэширование, акцентируя его на последнем блоке, а также вводит динамический механизм управления закэшированными представлениями. Механизм основывается на сравнении выхода предсказания Taylor-модели с реальным выходом первого блока и позволяет использовать предсказание только при достаточной точности. Эксперименты показали, что предложенный подход позволяет значительно ускорить инференс (до 3.17x на FLUX, 2.36x на DiT и 4.14x на Wan Video), сохранив высокую качественную результативность.

Annotation:

Diffusion Transformers (DiTs) have demonstrated remarkable performance in visual generation tasks. However, their low inference speed limits their deployment in low-resource applications. Recent training-free approaches exploit the redundancy of features across timesteps by caching and reusing past representations to accelerate inference. Building on this idea, TaylorSeer instead uses cached features to predict future ones via Taylor expansion. However, its module-level prediction across all tra...

ID: 2508.02240v2 cs.CV, cs.AI

arXiv PDF

📄 mmWave Radar-Based Non-Line-of-Sight Pedestrian Localization at T-Junctions Utilizing Road Layout Extraction via Camera

2025-08-09

Авторы:

Byeonggyu Park, Hee-Yeun Kim, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seong-Woo Kim

Детектирование пешеходов в условиях Non-Line-of-Sight (NLoS) — ключевая проблема для систем автоматизированного вождения, особенно в сложных транспортных ситуациях, таких как T-пересечения. Несмотря на то что мм-волновые радары оказываются эффективными для обнаружения объектов в таких ситуациях, их 2D-пространственная модель (PCD) часто подвержена деформациям из-за многопутных отражений, что снижает точность расположения объектов. Другой подход, основанный на использовании камер, может обеспечить высококачественные изображения, но их недостаток в глубинном видении затрудняет определение геометрии среды. Мы предлагаем новую систему, которая объединяет 2D-данные радара с интерпретацией 3D-сцены, полученной из изображений камеры. Эта система позволяет восстановить пространственную модель для точного расположения пешеходов в NLoS-регионах. Эксперименты на реальном транспортном средстве показали, что предложенный подход достаточно эффективен для решения данной задачи в реальных условиях.

Annotation:

Pedestrians Localization in Non-Line-of-Sight (NLoS) regions within urban environments poses a significant challenge for autonomous driving systems. While mmWave radar has demonstrated potential for detecting objects in such scenarios, the 2D radar point cloud (PCD) data is susceptible to distortions caused by multipath reflections, making accurate spatial inference difficult. Additionally, although camera images provide high-resolution visual information, they lack depth perception and cannot d...

ID: 2508.02348v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering

2025-08-09

Авторы:

Xu Wang, Shengeng Tang, Fei Wang, Lechao Cheng, Dan Guo, Feng Xue, Richang Hong

**Резюме** Генерация убедительных и визуально точных говорящих лиц остается вызовом в AI, особенно при ограниченном доступе к высококачественным аудио-видео параметрам. Авторы предлагают Text2Lip — рамфрейм для генерации говорящих лиц, основанный на понятной лексико-грамматической модели. Вместо непосредственного распознавания аудиосигнала, авторы предлагают промежуточный визейм-подобный подход, визуализирующий текстовый ввод в структуру ударений. Это позволяет модели прогрессивно учиться от реальных аудиосигналов к генерируемым, используя курскулярное обучение. Результат — производительная, устойчивая к помехам модель для говорящих лиц, демонстрирующая высокую точность в синхронизации губ и когнитивную емкость в обработке текста. Тесты показали, что Text2Lip превосходит конкурентные модели по семантической точности, визуальной качеству и устойчивости к разным модальностям, устанавливая новый стандарт в говорящих лицах.

Annotation:

Generating semantically coherent and visually accurate talking faces requires bridging the gap between linguistic meaning and facial articulation. Although audio-driven methods remain prevalent, their reliance on high-quality paired audio visual data and the inherent ambiguity in mapping acoustics to lip motion pose significant challenges in terms of scalability and robustness. To address these issues, we propose Text2Lip, a viseme-centric framework that constructs an interpretable phonetic-visu...

ID: 2508.02362v1 cs.CV, cs.AI

arXiv PDF

📄 Hydra: Accurate Multi-Modal Leaf Wetness Sensing with mm-Wave and Camera Fusion

2025-08-09

Авторы:

Yimeng Liu, Maolin Gan, Huaili Zeng, Li Liu, Younsuk Dong, Zhichao Cao

Остаточная влажность листьев (Leaf Wetness Duration, LWD) является ключевым фактором в развитии различных растительных болезней. Существующие методы измерения LWD страдают от несогласованных методов измерения и незначительной поглощающей способностью приспособиться к различным условиям окружающей среды, что снижает точность и надежность результатов. В статье предлагается расширенный подход, объединяющий использование радиоволн в диапазоне миллиметровых (mm-Wave) с использованием технологии камеры, для точного измерения LWD. Авторы предложили метод, основанный на нейронных сетях, который объединяет данные с миллиметрового рендеринга и изображений видимого света для построения многофункциональной модели. Модель использует преобразователь (transformer) для поиска связей между данными, а затем выполняет классификацию для определения LWD. Эксперименты проводились на разных растениях и в различных условиях, включая дождь и темные ночи. Модель показала высокую точность до 96% в условиях стандартного окружения и 90% в условиях реального сельскохозяйственного производства. Этот подход представляет собой прорыв в точности и универсальности измерения LWD в реальных сельскохозяйственных условиях.

Annotation:

Leaf Wetness Duration (LWD), the time that water remains on leaf surfaces, is crucial in the development of plant diseases. Existing LWD detection lacks standardized measurement techniques, and variations across different plant characteristics limit its effectiveness. Prior research proposes diverse approaches, but they fail to measure real natural leaves directly and lack resilience in various environmental conditions. This reduces the precision and robustness, revealing a notable practical app...

ID: 2508.02409v1 cs.CV, cs.AI

arXiv PDF

📄 HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

2025-08-09

Авторы:

Xiao Wang, Hao Si, Fan Zhang, Xiaoya Zhou, Dengdi Sun, Wanli Lyu, Qingquan Yang, Jin Tang

Анализ многомерных временных рядов — относительно сложная задача в AI, в связи с высокой размерностью, динамичностью и сложными взаимосвязями в данных. Для решения этой проблемы предлагается HGTS-Former, новая архитектура на основе гиперграфов и трансформеров, которая эффективно моделирует взаимосвязи между переменными в временных рядах. Алгоритм включает эмбеддинг каждого патча в токены, многоголосую самоповторяющуюся аттенцию для усиления временных паттернов и иерархические гиперграфы для агрегирования локальных характеристик и выявления зависимостей между переменными. Особенностью архитектуры является модуль EdgeToNode, который превращает гиперребра в вершины, улучшая выходные признаки. Эксперименты на двух задачах и восьми датасетах подтвердили высокую эффективность HGTS-Former в анализе многомерных временных рядов, демонстрируя его применимость и релевантность в этой области.

Annotation:

Multivariate time series analysis has long been one of the key research topics in the field of artificial intelligence. However, analyzing complex time series data remains a challenging and unresolved problem due to its high dimensionality, dynamic nature, and complex interactions among variables. Inspired by the strong structural modeling capability of hypergraphs, this paper proposes a novel hypergraph-based time series transformer backbone network, termed HGTS-Former, to address the multivari...

ID: 2508.02411v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets

2025-08-09

Авторы:

J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis

Мы исследовали производительность трансформеров и современных сверточных сетей (DCNN) на современных данных ремутного зрения (remote sensing). Несмотря на то, что DCNNs стали стандартом в обработке изображений, в том числе ремутного зрения, появление трансформеров позволило наблюдать второй скачок в развитии компьютерного зрения. Однако их производительность на больших данных ремутного зрения еще не до конца изучена. Мы сравнили 11 моделей детектирования объектов, включая 5 трансформеров и 6 DCNNs, на трех больших датасетах ремутного зрения. Наши результаты показали, что трансформеры показывают статус-кво в задаче детектирования объектов на сложных данных ремутного зрения, превосходя DCNNs в разных аспектах. Этот результат подкрепляет роль трансформеров в новых технологиях для обработки изображений.

Annotation:

In 2012, AlexNet established deep convolutional neural networks (DCNNs) as the state-of-the-art in CV, as these networks soon led in visual tasks for many domains, including remote sensing. With the publication of Visual Transformers, we are witnessing the second modern leap in computational vision, and as such, it is imperative to understand how various transformer-based neural networks perform on satellite imagery. While transformers have shown high levels of performance in natural language pr...

ID: 2508.02871v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

2025-08-09

Авторы:

Vebjørn Haug Kåsene, Pierre Lison

**Резюме** В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.

Annotation:

Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atom...

ID: 2508.02917v1 cs.CV, cs.AI, cs.CL, cs.RO

arXiv PDF

📄 Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment

2025-08-09

Авторы:

Ziheng Jia, Jiaying Qian, Zicheng Zhang, Zijian Chen, Xiongkuo Min

**Резюме** В статье предлагается Refine-IQA, многоступенчатый подход к рефине-тюнингу для имитации человеческого восприятия качества изображений (IQA). Основная проблема заключается в том, что существующие RFT-методы в IQA обучаются прямо на задаче оценки качества, не уделяя достаточного внимания улучшению собственной визуальной перцепции модели. Это приводит к ограниченной эффективности. Refine-IQA решает эту проблему в двух этапах: в первом этапе создаётся набор данных Refine-Perception-20K с 12 основными дефектами и многозадачными функциями награды для улучшения перцепции; во втором этапе добавляется стратегия управления "think"-процессом с использованием ре wards на основе правдоподобия. Это приводит к значительному повышению качества оценки и восприятия качества изображений. Основные результаты показывают, что предложенное решение достигает значительных улучшений в обоих задачах и активирует сильный «процесс мышления», который оказывается эффективен в задачах интерпретации качества.

Annotation:

Reinforcement fine-tuning (RFT) is a proliferating paradigm for LMM training. Analogous to high-level reasoning tasks, RFT is similarly applicable to low-level vision domains, including image quality assessment (IQA). Existing RFT-based IQA methods typically use rule-based output rewards to verify the model's rollouts but provide no reward supervision for the "think" process, leaving its correctness and efficacy uncontrolled. Furthermore, these methods typically fine-tune directly on downstream ...

ID: 2508.03763v1 cs.CV, cs.AI

arXiv PDF

📄 Enhancing Long Video Question Answering with Scene-Localized Frame Grouping

2025-08-09

Авторы:

Xuyi Yang, Wenhao Zhang, Hongbo Jin, Lin Liu, Hongbo Xu, Yongwei Nie, Fei Yu, Fei Ma

Научная статья Enhancing Long Video Question Answering with Scene-Localized Frame Grouping рассматривает проблему неэффективного понимания долгосрочных видео с помощью Multimodal Large Language Models (MLLMs) из-за ограничений ресурсов, приводящих к неэффективной обработке всех кадров. Авторы предлагают новую сценарию SceneQA, которая фокусируется на сцене в целом, а не на отдельных кадрах, и разрабатывают датасет LVSQA для более честного оценивания способности MLLMs к сцене-ориентированному пониманию. Методом Scene-Localized Frame Grouping (SLFG) авторы предложили объединять отдельные кадры в семантически согласованные группы сцен, применяя методы локализации сцен и динамическую перестройку кадров. SLFG не требует изменений в архитектуре MLLMs и продемонстрировал высокую эффективность на нескольких тестах в длинном видеобенчмарке. Этот подход обеспечивает значительное улучшение понимания видео и легко интегрируется с существующими моделями.

Annotation:

Current Multimodal Large Language Models (MLLMs) often perform poorly in long video understanding, primarily due to resource limitations that prevent them from processing all video frames and their associated information. Efficiently extracting relevant information becomes a challenging task. Existing frameworks and evaluation tasks focus on identifying specific frames containing core objects from a large number of irrelevant frames, which does not align with the practical needs of real-world ap...

ID: 2508.03009v1 cs.CV, cs.AI

arXiv PDF

📄 Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation

2025-08-09

Авторы:

Hyebin Cho, Jaehyup Lee

**Резюме** Современные видеофильтры для создания модных эффектов, таких как стилизация или лицевая замена, часто сталкиваются с проблемами в области обнаружения и сегментации лица в условиях наличия окклюзий, когда части лица (например, волосы, руки или аксессуары) бьются за счет удаления или повреждения изображения. Для решения этой проблемы представлена работа Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation. Авторы предлагают новое понятие — окклюзионно-осознанную маттирование лица — и предлагают FaceMat, бесшабашный фреймворк, который использует прогнозирование неопределенности для более точной разделки лица от окклюзий. Используя двухэтапную стратегию обучения, в том числе гидравлическую передачу знаний с гибкой локальной интерпретацией, FaceMat обеспечивает высокое качество разделки, даже в сложных условиях. Работа предлагает новую синтетическую базу данных CelebAMat, выполненную на основе CelebA, и показывает, что сравнительно лучшее качество использования квантования лица в реальном времени, что может существенно повысить качество эффектов в современных приложениях на основе AI.

Annotation:

Face filters have become a key element of short-form video content, enabling a wide array of visual effects such as stylization and face swapping. However, their performance often degrades in the presence of occlusions, where objects like hands, hair, or accessories obscure the face. To address this limitation, we introduce the novel task of face matting, which estimates fine-grained alpha mattes to separate occluding elements from facial regions. We further present FaceMat, a trimap-free, uncer...

ID: 2508.03055v1 cs.CV, cs.AI, I.4.8

arXiv PDF

Показано 2201 - 2210 из 2274 записей