📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Jeremy Andrew Irvin, Jiaqi Han, Zikui Wang, Abdulaziz Alharbi, Yufei Zhao, Nomin-Erdene Bayarsaikhan, Daniele Visioni, Andrew Y. Ng, Duncan Watson-Parris

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Generative models have the potential to transform the way we emulate Earth's changing climate. Previous generative approaches rely on weather-scale autoregression for climate emulation, but this is inherently slow for long climate horizons and has yet to demonstrate stable rollouts under nonstationary forcings. Here, we introduce Spatiotemporal Pyramid Flows (SPF), a new class of flow matching approaches that model data hierarchically across spatial and temporal scales. Inspired by cascaded vide...
ID: 2512.02268v1 cs.CV, cs.AI, cs.LG, eess.IV, stat.ML
Авторы:

Mohamed Abdallah Salem, Nourhan Zein Diab

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Accurate material recognition is critical for safe and effective laser cutting, as misidentification can lead to poor cut quality, machine damage, or the release of hazardous fumes. Laser speckle sensing has recently emerged as a low-cost and non-destructive modality for material classification; however, prior work has either relied on computationally expensive backbone networks or addressed only limited subsets of materials. In this study, A lightweight convolutional neural network (CNN) tailor...
ID: 2512.00179v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Nisarg K. Trivedi, Vinayak A. Belludi, Li-Yun Wang, Pardis Taghavi, Dante Lok

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reliable depth estimation under real optical conditions remains a core challenge for camera vision in systems such as autonomous robotics and augmented reality. Despite recent progress in depth estimation and depth-of-field rendering, research remains constrained by the lack of large-scale, high-fidelity, real stereo DSLR datasets, limiting real-world generalization and evaluation of models trained on synthetic data as shown extensively in literature. We present the first high-resolution (5472$\...
ID: 2511.20853v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Muhao Guo, Yang Weng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid expansion of distributed photovoltaic (PV) systems poses challenges for power grid management, as many installations remain undocumented. While satellite imagery provides global coverage, traditional computer vision (CV) models such as CNNs and U-Nets require extensive labeled data and fail to generalize across regions. This study investigates the cross-domain generalization of a multimodal large language model (LLM) for global PV assessment. By leveraging structured prompts and fine-t...
ID: 2511.19537v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Harshini Suresha, Kavitha SH

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The red palm mite infestation has become a serious concern, particularly in regions with extensive palm cultivation, leading to reduced productivity and economic losses. Accurate and early identification of mite-infested plants is critical for effective management. The current study focuses on evaluating and comparing the ML model for classifying the affected plants and detecting the infestation. TriggerNet is a novel interpretable AI framework that integrates Grad-CAM, RISE, FullGrad, and TCAV ...
ID: 2510.18038v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Mohammad Mohaiminul Islam, Rishabh Anand, David R. Wessels, Friso de Kruiff, Thijs P. Kuipers, Rex Ying, Clara I. Sánchez, Sharvaree Vadgama, Georg Bökman, Erik J. Bekkers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
While widespread, Transformers lack inductive biases for geometric symmetries common in science and computer vision. Existing equivariant methods often sacrifice the efficiency and flexibility that make Transformers so effective through complex, computationally intensive designs. We introduce the Platonic Transformer to resolve this trade-off. By defining attention relative to reference frames from the Platonic solid symmetry groups, our method induces a principled weight-sharing scheme. This en...
ID: 2510.03511v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Baber Jan, Saeed Anwar, Aiman H. El-Maleh, Abdul Jabbar Siddiqui, Abdul Bais

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Camouflaged object detection segments objects with intrinsic similarity and edge disruption. Current detection methods rely on accumulated complex components. Each approach adds components such as boundary modules, attention mechanisms, and multi-scale processors independently. This accumulation creates a computational burden without proportional gains. To manage this complexity, they process at reduced resolutions, eliminating fine details essential for camouflage. We present SPEGNet, addressin...
ID: 2510.04472v1 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Paul Gavrikov, Wei Lin, M. Jehanzeb Mirza, Soumya Jahagirdar, Muhammad Huzaifa, Sivan Doveh, Serena Yeung-Levy, James Glass, Hilde Kuehne

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Is basic visual understanding really solved in state-of-the-art VLMs? We present VisualOverload, a slightly different visual question answering (VQA) benchmark comprising 2,720 question-answer pairs, with privately held ground-truth responses. Unlike prior VQA datasets that typically focus on near global image understanding, VisualOverload challenges models to perform simple, knowledge-free vision tasks in densely populated (or, overloaded) scenes. Our dataset consists of high-resolution scans o...
ID: 2509.25339v2 cs.CV, cs.AI, cs.LG, eess.IV
Авторы:

Po-Heng Chou, Chun-Chi Wang, Wei-Lung Mao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In this paper, we propose a YOLO-based deep learning (DL) model for automatic defect detection to solve the time-consuming and labor-intensive tasks in industrial manufacturing. In our experiments, the images of metal sheets are used as the dataset for training the YOLO model to detect the defects on the surfaces and in the holes of metal sheets. However, the lack of metal sheet images significantly degrades the performance of detection accuracy. To address this issue, the ConSinGAN is used to g...
ID: 2509.25659v1 cs.CV, cs.AI, cs.LG, eess.IV, eess.SP, 68T45, 68T07, I.2.10; I.4.7; I.5.4
Авторы:

Shubhang Bhatnagar, Andy Xu, Kar-Han Tan, Narendra Ahuja

#### Контекст Large Language Models (LLMs) с возможностями визуально-языковых задач (Vision-Language Tasks) превратились в ключевые средства для широкого круга приложений, включая визуальный ответ на вопросы (Visual Question Answering, VQA) и генерацию образов по текстовым подсказкам. Однако их масштабирование и развертывание часто сталкиваются с ограничениями в памяти и вычислительных ресурсах. Хотя методы постобучения кодирования (post-training quantization, PTQ) способны значительно сжать модели с 32-битной до 1-битной точности, сохраняя при этом почти те же показатели качества, для multimodal LLMs (MLLMs) эффективность таких методов остается мало изученной. Наша мотивация заключается в изучении эффективных методов кодирования для MLLMs, что позволит уменьшить их размер без значительного ухудшения качества. #### Метод Мы предлагаем новую методологию, названную **LUQ (Layerwise Ultra-Low Bit Quantization)**, которая лексически кодирует слои модели в зависимости от их устойчивости к ultra-low bit quantization. Для этого проводятся подробные анализы динамики и распределения промежуточных слоев модели, определяя те слои, которые могут лучше переносить низкобитное кодирование. Мы также используем смешанные входы (image-text) для повышения точности PTQ в ultra-low bit режиме. Наша архитектура LUQ выбирает слои, которые могут использовать ultra-low bit quantization, при этом применяя более высокую точность к более чувствительным слоям. #### Результаты Мы проводим эксперименты с LUQ на моделях LLaVA-1.5 и Qwen-2.5-VL на 9 VQA-benchmarks. Результаты показывают, что LUQ уменьшает память, используемую моделью, на 40% для LLaVA-1.5 и на 31% для Qwen-2.5-VL, сохраняя производительность на уровне менее 10% от оригинала на MME benchmark. Эти результаты демонстрируют эффективность LUQ в сокращении размера MLLMs без значительного потери качества. #### Значимость LUQ может быть применено в различных сценариях, где необходимо снизить ресурсоемкость работы моделей, такие как мобильные приложения, облачные сервисы и реальном времени задачи. Наш метод предоставляет значительные преимущества, такие как меньшее потребление ресурсов и сохранение высокого качества результатов. Мы уверены, что LUQ открывает новые перспективы для развития MLLMs, особенно в области визуально-языковых задач. #### Выводы Мы представили LUQ, первую стратегию layerwise ultra-low bit quantization для multimodal LLMs. Наши результаты показывают, что LUQ эффективно уменьшает размер моделей, которые используются в VQA, с минимальным ущербом качества. Мы планируем провести дополнительные исследования для расширения LUQ на другие модели и задачи, а также для улучшения ее устойчивости к различным входным данным.
Annotation:
Large Language Models (LLMs) with multimodal capabilities have revolutionized vision-language tasks, but their deployment often requires huge memory and computational resources. While post-training quantization (PTQ) has successfully compressed language models to as low as 1-bit precision without significant performance loss, its effectiveness for multimodal LLMs (MLLMs) remains relatively unexplored. In this paper, we present the first study on ultra-low bit (<4-bit) quantization for multimodal...
ID: 2509.23729v1 cs.CV, cs.AI, cs.LG, eess.IV
Показано 1 - 10 из 14 записей