📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Text2Lip: Progressive Lip-Synced Talking Face Generation from Text via Viseme-Guided Rendering

2025-08-09

Авторы:

Xu Wang, Shengeng Tang, Fei Wang, Lechao Cheng, Dan Guo, Feng Xue, Richang Hong

**Резюме** Генерация убедительных и визуально точных говорящих лиц остается вызовом в AI, особенно при ограниченном доступе к высококачественным аудио-видео параметрам. Авторы предлагают Text2Lip — рамфрейм для генерации говорящих лиц, основанный на понятной лексико-грамматической модели. Вместо непосредственного распознавания аудиосигнала, авторы предлагают промежуточный визейм-подобный подход, визуализирующий текстовый ввод в структуру ударений. Это позволяет модели прогрессивно учиться от реальных аудиосигналов к генерируемым, используя курскулярное обучение. Результат — производительная, устойчивая к помехам модель для говорящих лиц, демонстрирующая высокую точность в синхронизации губ и когнитивную емкость в обработке текста. Тесты показали, что Text2Lip превосходит конкурентные модели по семантической точности, визуальной качеству и устойчивости к разным модальностям, устанавливая новый стандарт в говорящих лицах.

Annotation:

Generating semantically coherent and visually accurate talking faces requires bridging the gap between linguistic meaning and facial articulation. Although audio-driven methods remain prevalent, their reliance on high-quality paired audio visual data and the inherent ambiguity in mapping acoustics to lip motion pose significant challenges in terms of scalability and robustness. To address these issues, we propose Text2Lip, a viseme-centric framework that constructs an interpretable phonetic-visu...

ID: 2508.02362v1 cs.CV, cs.AI

arXiv PDF

📄 Hydra: Accurate Multi-Modal Leaf Wetness Sensing with mm-Wave and Camera Fusion

2025-08-09

Авторы:

Yimeng Liu, Maolin Gan, Huaili Zeng, Li Liu, Younsuk Dong, Zhichao Cao

Остаточная влажность листьев (Leaf Wetness Duration, LWD) является ключевым фактором в развитии различных растительных болезней. Существующие методы измерения LWD страдают от несогласованных методов измерения и незначительной поглощающей способностью приспособиться к различным условиям окружающей среды, что снижает точность и надежность результатов. В статье предлагается расширенный подход, объединяющий использование радиоволн в диапазоне миллиметровых (mm-Wave) с использованием технологии камеры, для точного измерения LWD. Авторы предложили метод, основанный на нейронных сетях, который объединяет данные с миллиметрового рендеринга и изображений видимого света для построения многофункциональной модели. Модель использует преобразователь (transformer) для поиска связей между данными, а затем выполняет классификацию для определения LWD. Эксперименты проводились на разных растениях и в различных условиях, включая дождь и темные ночи. Модель показала высокую точность до 96% в условиях стандартного окружения и 90% в условиях реального сельскохозяйственного производства. Этот подход представляет собой прорыв в точности и универсальности измерения LWD в реальных сельскохозяйственных условиях.

Annotation:

Leaf Wetness Duration (LWD), the time that water remains on leaf surfaces, is crucial in the development of plant diseases. Existing LWD detection lacks standardized measurement techniques, and variations across different plant characteristics limit its effectiveness. Prior research proposes diverse approaches, but they fail to measure real natural leaves directly and lack resilience in various environmental conditions. This reduces the precision and robustness, revealing a notable practical app...

ID: 2508.02409v1 cs.CV, cs.AI

arXiv PDF

📄 HGTS-Former: Hierarchical HyperGraph Transformer for Multivariate Time Series Analysis

2025-08-09

Авторы:

Xiao Wang, Hao Si, Fan Zhang, Xiaoya Zhou, Dengdi Sun, Wanli Lyu, Qingquan Yang, Jin Tang

Анализ многомерных временных рядов — относительно сложная задача в AI, в связи с высокой размерностью, динамичностью и сложными взаимосвязями в данных. Для решения этой проблемы предлагается HGTS-Former, новая архитектура на основе гиперграфов и трансформеров, которая эффективно моделирует взаимосвязи между переменными в временных рядах. Алгоритм включает эмбеддинг каждого патча в токены, многоголосую самоповторяющуюся аттенцию для усиления временных паттернов и иерархические гиперграфы для агрегирования локальных характеристик и выявления зависимостей между переменными. Особенностью архитектуры является модуль EdgeToNode, который превращает гиперребра в вершины, улучшая выходные признаки. Эксперименты на двух задачах и восьми датасетах подтвердили высокую эффективность HGTS-Former в анализе многомерных временных рядов, демонстрируя его применимость и релевантность в этой области.

Annotation:

Multivariate time series analysis has long been one of the key research topics in the field of artificial intelligence. However, analyzing complex time series data remains a challenging and unresolved problem due to its high dimensionality, dynamic nature, and complex interactions among variables. Inspired by the strong structural modeling capability of hypergraphs, this paper proposes a novel hypergraph-based time series transformer backbone network, termed HGTS-Former, to address the multivari...

ID: 2508.02411v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Evaluation and Analysis of Deep Neural Transformers and Convolutional Neural Networks on Modern Remote Sensing Datasets

2025-08-09

Авторы:

J. Alex Hurt, Trevor M. Bajkowski, Grant J. Scott, Curt H. Davis

Мы исследовали производительность трансформеров и современных сверточных сетей (DCNN) на современных данных ремутного зрения (remote sensing). Несмотря на то, что DCNNs стали стандартом в обработке изображений, в том числе ремутного зрения, появление трансформеров позволило наблюдать второй скачок в развитии компьютерного зрения. Однако их производительность на больших данных ремутного зрения еще не до конца изучена. Мы сравнили 11 моделей детектирования объектов, включая 5 трансформеров и 6 DCNNs, на трех больших датасетах ремутного зрения. Наши результаты показали, что трансформеры показывают статус-кво в задаче детектирования объектов на сложных данных ремутного зрения, превосходя DCNNs в разных аспектах. Этот результат подкрепляет роль трансформеров в новых технологиях для обработки изображений.

Annotation:

In 2012, AlexNet established deep convolutional neural networks (DCNNs) as the state-of-the-art in CV, as these networks soon led in visual tasks for many domains, including remote sensing. With the publication of Visual Transformers, we are witnessing the second modern leap in computational vision, and as such, it is imperative to understand how various transformer-based neural networks perform on satellite imagery. While transformers have shown high levels of performance in natural language pr...

ID: 2508.02871v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

2025-08-09

Авторы:

Vebjørn Haug Kåsene, Pierre Lison

**Резюме** В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.

Annotation:

Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atom...

ID: 2508.02917v1 cs.CV, cs.AI, cs.CL, cs.RO

arXiv PDF

📄 Refine-IQA: Multi-Stage Reinforcement Finetuning for Perceptual Image Quality Assessment

2025-08-09

Авторы:

Ziheng Jia, Jiaying Qian, Zicheng Zhang, Zijian Chen, Xiongkuo Min

**Резюме** В статье предлагается Refine-IQA, многоступенчатый подход к рефине-тюнингу для имитации человеческого восприятия качества изображений (IQA). Основная проблема заключается в том, что существующие RFT-методы в IQA обучаются прямо на задаче оценки качества, не уделяя достаточного внимания улучшению собственной визуальной перцепции модели. Это приводит к ограниченной эффективности. Refine-IQA решает эту проблему в двух этапах: в первом этапе создаётся набор данных Refine-Perception-20K с 12 основными дефектами и многозадачными функциями награды для улучшения перцепции; во втором этапе добавляется стратегия управления "think"-процессом с использованием ре wards на основе правдоподобия. Это приводит к значительному повышению качества оценки и восприятия качества изображений. Основные результаты показывают, что предложенное решение достигает значительных улучшений в обоих задачах и активирует сильный «процесс мышления», который оказывается эффективен в задачах интерпретации качества.

Annotation:

Reinforcement fine-tuning (RFT) is a proliferating paradigm for LMM training. Analogous to high-level reasoning tasks, RFT is similarly applicable to low-level vision domains, including image quality assessment (IQA). Existing RFT-based IQA methods typically use rule-based output rewards to verify the model's rollouts but provide no reward supervision for the "think" process, leaving its correctness and efficacy uncontrolled. Furthermore, these methods typically fine-tune directly on downstream ...

ID: 2508.03763v1 cs.CV, cs.AI

arXiv PDF

📄 VCNet: Recreating High-Level Visual Cortex Principles for Robust Artificial Vision

2025-08-09

Авторы:

Brennen A. Hill, Zhang Xinyu, Timothy Putra Prasetio

Модели сверточных нейронных сетей (CNN), хотя и достигают высокой точности в задачах классификации изображений, обладают серьезными ограничениями: низкая эффективность использования данных, слабая обществойность за пределами обучающего набора и чувствительность к адверсарным направленным помехам. Работа основывается на том, что приматская визуальная система достигает эффективности и высокой устойчивости благодаря своей сложной структуре. В этой работе предлагается VCNet — модель, которая эмулирует биологические принципы работы визуального коры, включая горизонтальное и вертикальное процессинг, двойной поток информации и возвратные прогностические сигналы. Модель протестирована на двух специализированных датасетах: Spots-10 и задаче распознавания изображений в лучах. Результаты показали, что VCNet демонстрирует высокую точность классификации (92.1% на Spots-10 и 74.4% на лучах), превосходя сравнимые модели. Это доказывает, что интеграция природных принципов может привести к более эффективным и устойчивым моделям для решения проблем в машинном обучении.

Annotation:

Despite their success in image classification, modern convolutional neural networks (CNNs) exhibit fundamental limitations, including data inefficiency, poor out-of-distribution generalization, and vulnerability to adversarial perturbations. The primate visual system, in contrast, demonstrates superior efficiency and robustness, suggesting that its architectural principles may offer a blueprint for more capable artificial vision systems. This paper introduces Visual Cortex Network (VCNet), a nov...

ID: 2508.02995v1 cs.NE, cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.2.6; I.4.8; I.2.10; I.5.1

arXiv PDF

📄 ClinicalFMamba: Advancing Clinical Assessment using Mamba-based Multimodal Neuroimaging Fusion

2025-08-09

Авторы:

Meng Zhou, Farzad Khalvati

**Резюме** В статье предлагается ClinicalFMamba — новая CNN-Mamba гибридная архитектура для эффективной фуссии медицинских изображений. Она синергетически объединяет моделирование локальных и глобальных признаков для 2D и 3D случаев. Для обработки 3D-данных разработана стратегия сканирования с помощью tri-plane. Вы most likely показаны высококачественные результаты фуссии на трех датасетах, с выдачей лучших метрик и реального времени обработки. Кроме того, модель показала свою клиническую эффективность на задачах классификации локализации геморрагов и туморов мозга, превзойдя стандарты методов. Это предлагаемое решение ставит новый парадигму для реального времени фуссии медицинских изображений.

Annotation:

Multimodal medical image fusion integrates complementary information from different imaging modalities to enhance diagnostic accuracy and treatment planning. While deep learning methods have advanced performance, existing approaches face critical limitations: Convolutional Neural Networks (CNNs) excel at local feature extraction but struggle to model global context effectively, while Transformers achieve superior long-range modeling at the cost of quadratic computational complexity, limiting cli...

ID: 2508.03008v1 eess.IV, cs.AI, cs.CV

arXiv PDF

📄 Enhancing Long Video Question Answering with Scene-Localized Frame Grouping

2025-08-09

Авторы:

Xuyi Yang, Wenhao Zhang, Hongbo Jin, Lin Liu, Hongbo Xu, Yongwei Nie, Fei Yu, Fei Ma

Научная статья Enhancing Long Video Question Answering with Scene-Localized Frame Grouping рассматривает проблему неэффективного понимания долгосрочных видео с помощью Multimodal Large Language Models (MLLMs) из-за ограничений ресурсов, приводящих к неэффективной обработке всех кадров. Авторы предлагают новую сценарию SceneQA, которая фокусируется на сцене в целом, а не на отдельных кадрах, и разрабатывают датасет LVSQA для более честного оценивания способности MLLMs к сцене-ориентированному пониманию. Методом Scene-Localized Frame Grouping (SLFG) авторы предложили объединять отдельные кадры в семантически согласованные группы сцен, применяя методы локализации сцен и динамическую перестройку кадров. SLFG не требует изменений в архитектуре MLLMs и продемонстрировал высокую эффективность на нескольких тестах в длинном видеобенчмарке. Этот подход обеспечивает значительное улучшение понимания видео и легко интегрируется с существующими моделями.

Annotation:

Current Multimodal Large Language Models (MLLMs) often perform poorly in long video understanding, primarily due to resource limitations that prevent them from processing all video frames and their associated information. Efficiently extracting relevant information becomes a challenging task. Existing frameworks and evaluation tasks focus on identifying specific frames containing core objects from a large number of irrelevant frames, which does not align with the practical needs of real-world ap...

ID: 2508.03009v1 cs.CV, cs.AI

arXiv PDF

📄 Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation

2025-08-09

Авторы:

Hyebin Cho, Jaehyup Lee

**Резюме** Современные видеофильтры для создания модных эффектов, таких как стилизация или лицевая замена, часто сталкиваются с проблемами в области обнаружения и сегментации лица в условиях наличия окклюзий, когда части лица (например, волосы, руки или аксессуары) бьются за счет удаления или повреждения изображения. Для решения этой проблемы представлена работа Uncertainty-Guided Face Matting for Occlusion-Aware Face Transformation. Авторы предлагают новое понятие — окклюзионно-осознанную маттирование лица — и предлагают FaceMat, бесшабашный фреймворк, который использует прогнозирование неопределенности для более точной разделки лица от окклюзий. Используя двухэтапную стратегию обучения, в том числе гидравлическую передачу знаний с гибкой локальной интерпретацией, FaceMat обеспечивает высокое качество разделки, даже в сложных условиях. Работа предлагает новую синтетическую базу данных CelebAMat, выполненную на основе CelebA, и показывает, что сравнительно лучшее качество использования квантования лица в реальном времени, что может существенно повысить качество эффектов в современных приложениях на основе AI.

Annotation:

Face filters have become a key element of short-form video content, enabling a wide array of visual effects such as stylization and face swapping. However, their performance often degrades in the presence of occlusions, where objects like hands, hair, or accessories obscure the face. To address this limitation, we introduce the novel task of face matting, which estimates fine-grained alpha mattes to separate occluding elements from facial regions. We further present FaceMat, a trimap-free, uncer...

ID: 2508.03055v1 cs.CV, cs.AI, I.4.8

arXiv PDF

1
2
1151
1152
1153
1154
1155
1161
1162

Показано 11521 - 11530 из 11614 записей