📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 H$_{2}$OT: Hierarchical Hourglass Tokenizer for Efficient Video Pose Transformers

2025-09-10

Авторы:

Wenhao Li, Mengyuan Liu, Hong Liu, Pichao Wang, Shijian Lu, Nicu Sebe

#### Контекст Видео-позиционирование тела человека в 3D является важной задачей в области компьютерного зрения, которая находит применение в различных приложениях, таких как AR/VR, безопасность и анализ поведения. Несмотря на то что трансформеры (Transformers) успешно применяются в этой области, они характеризуются высокими вычислительными затратами, что ограничивает их применение на ресурс-контрястрирующих устройствах. Это приводит к необходимости разработки эффективных алгоритмов, которые могут поддерживать высокую точность оценки позы при минимизации расходов на вычисления. #### Метод "Hierarchical Hourglass Tokenizer" (H$_{2}$OT) предлагает инновационную архитектуру, основанную на принципах динамического подбора и восстановления токенов. Она начинает с уменьшения количества токенов в кадрах, отфильтровывая ненужные, и заканчивает восстановлением полного порядка токенов, чтобы поддерживать высокую точность. Метод работает на двух модулях: **Token Pruning Module (TPM)**, который снимает излишние токены, и **Token Recovering Module (TRM)**, который восстанавливает детали по времени и пространству. Это гибкое решение, которое может интегрироваться в различные трансформерные модели, сочетая только необходимые токены с высокой производительностью. #### Результаты На трёх основных датасетах, включая Human3.6M и MPI-INF-3DHP, H$_{2}$OT продемонстрировала существенную экономию вычислительных ресурсов без потери точности. Она уменьшила количество токенов на 50-70%, при этом сохранив или даже улучшив точность в сравнении с оригинальными моделями. Эксперименты показали, что метод эффективен для различных трансформерных архитектур, включая seq2seq и seq2frame, и может адаптироваться к различным сценариям применения. #### Значимость Этот подход может применяться в приложениях, требующих высокой производительности, таких как реального времени слежение за движением, видеоанализ и AR/VR. Он обеспечивает более высокую производительность и энергоэффективность, что делает его привлекательным для использования на мобильных и устройствах с ограниченным вычислительным мощностью. Также, этот метод открывает пути для дальнейшего исследования в области эффективных архитектур трансформеров для видео-позиционирования тела. #### Выводы H$_{2}$OT показывает, что требуется не полное временное покрытие, а только представительные токены для эффективного и точного видео-позиционирования. Будущие исследования будут сконцентрированы на расширении этой модели для работы с более сложными данными, такими как сенсорные видео, и на оптимизации её взаимодействия с другими трансформерными моделями.

Annotation:

Transformers have been successfully applied in the field of video-based 3D human pose estimation. However, the high computational costs of these video pose transformers (VPTs) make them impractical on resource-constrained devices. In this paper, we present a hierarchical plug-and-play pruning-and-recovering framework, called Hierarchical Hourglass Tokenizer (H$_{2}$OT), for efficient transformer-based 3D human pose estimation from videos. H$_{2}$OT begins with progressively pruning pose tokens o...

ID: 2509.06956v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 VCMamba: Bridging Convolutions with Multi-Directional Mamba for Efficient Visual Representation

2025-09-09

Авторы:

Mustafa Munir, Alex Zhang, Radu Marculescu

#### Контекст В последние годы видение искусственного интеллекта получило значительный толчок благодаря развитию новых моделей, таких как Vision Transformers (ViTs) и State Space Models (SSMs). Эти модели эффективно решают задачи классификации изображений, семантической сегментации и других, предлагая новые подходы к обработке изображений. Однако, несмотря на свои достижения, они имеют свои ограничения. ViTs очень хорошо справляются с глобальным контекстом, но не так эффективны в работе с локальными деталями. SSMs, такие как Mamba, эффективны для долгих последовательностей, но также страдают от недостатка в подробном локальном анализе. Одновременно, Convolutional Neural Networks (CNNs) все еще имеют выдающиеся характеристики в локальном анализе изображений, но они ограничены в создании глобального видения. Таким образом, существует потребность в создании модели, которая могла бы объединить в себе преимущества этих подходов, обеспечив более гибкую и эффективную обработку визуальных данных. #### Метод Мы предлагаем **VCMamba** — новый визуальный баккенд, который комбинирует сильные стороны CNNs и multi-directional Mamba SSMs. Модель начинается с конволюционного корня (stem), способного эффективно извлекать локальные детали. Далее, в ранних стадиях используются блоки CNN для детального изучения изображений. В поздних стадиях VCMamba использует multi-directional Mamba blocks, которые могут эффективно работать с длинными диапазонами в задачах машинного зрения. Эта двухступенчатая архитектура позволяет модели не только извлекать локальные детали, но и построить глобальное понимание изображений. Благодаря этому, VCMamba может поддерживать линейную сложность в зависимости от разрешения изображения, что является одним из ключевых преимуществ. #### Результаты Мы проверили эффективность VCMamba на двух ключевых задачах: ImageNet-1K и ADE20K. Модель VCMamba-B показала 82.6% топ-1 точность на ImageNet-1K, превосходя PlainMamba-L3 на 0.3% с 37% меньшим числом параметров. Также, VCMamba-B опередила Vision GNN-B на 0.3% с 64% меньшим числом параметров. На задаче семантической сегментации ADE20K, VCMamba-B достигла 47.1 mIoU, превысив EfficientFormer-L7 на 2.0 mIoU с 62% меньшим числом параметров. Эти результаты показывают, что VCMamba не только эффективна в локальном анализе, но и может эффективно обрабатывать глобальные зависимости в изображениях. #### Значимость VCMamba может быть применена в различных областях, где требуется высокая точность в обработке визуальных данных, таких как распознавание объектов, семантическая сегментация, и анализ видео. Она предлагает выигрыш в производи

Annotation:

Recent advances in Vision Transformers (ViTs) and State Space Models (SSMs) have challenged the dominance of Convolutional Neural Networks (CNNs) in computer vision. ViTs excel at capturing global context, and SSMs like Mamba offer linear complexity for long sequences, yet they do not capture fine-grained local features as effectively as CNNs. Conversely, CNNs possess strong inductive biases for local features but lack the global reasoning capabilities of transformers and Mamba. To bridge this g...

ID: 2509.04669v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet

2025-09-09

Авторы:

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari

Обработка 3D-точечных множеств — важный вопрос для приложений в сферах автоматизированного вождения, робототехники и аugmented reality. Однако, основной датасет ModelNet40 имеет ряд ограничений: непоследовательные метки, 2D-данные, несоответствие размеров данных, недостаточное различие классов. Эти недостатки сильно влияют на качество моделей. Мы предлагаем ModelNet-R — улучшенную версию ModelNet40 с исправленными этими проблемами. Также мы предлагаем Point-SkipNet — легковесную графовую нейронную сеть, основывающуюся на эффективном выборе точек, группировке соседей и skip-подключениях. Она значительно сокращает количество параметров, повышая точность классификации. Эксперименты показали, что Point-SkipNet достигает state-of-the-art на ModelNet-R с меньшим количеством параметров по сравнению с современными моделями. Это показывает, что высокое качество данных ключевое для эффективного обучения моделей в 3D-классификации.

Annotation:

The classification of 3D point clouds is crucial for applications such as autonomous driving, robotics, and augmented reality. However, the commonly used ModelNet40 dataset suffers from limitations such as inconsistent labeling, 2D data, size mismatches, and inadequate class differentiation, which hinder model performance. This paper introduces ModelNet-R, a meticulously refined version of ModelNet40 designed to address these issues and serve as a more reliable benchmark. Additionally, this pape...

ID: 2509.05198v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Sequential Difference Maximization: Generating Adversarial Examples via Multi-Stage Optimization

2025-09-05

Авторы:

Xinlei Liu, Tao Hu, Peng Yi, Weitao Han, Jichao Xie, Baolin Li

## Контекст Эффективные методы атак на адверсарные примеры являются ключевыми для оценки устойчивости компьютерных визуальных моделей. Однако существующие методы часто сталкиваются с проблемами, такими как высокая стоимость вычислений, неэффективность в использовании градиентов или ограниченное воздействие на модель. Целью данной работы является разработка метода, который бы снизил эти ограничения, обеспечив более эффективный и мощный атакующий метод. ## Метод Мы предлагаем **Sequential Difference Maximization (SDM)** — новую методику для генерации адверсарных примеров. Метод основывается на подходе "многоэтапной оптимизации", включающей "цикл-ступень-шаг". В первой стадии используется функция потерь, сжимающая пространство решений, чтобы ограничить варианты. На следующих стадиях вводится функция потерь **Directional Probability Difference Ratio (DPDR)**, которая постепенно увеличивает вероятность неправильных меток, сжимая пространство, относящееся к неинтересным меткам. Это позволяет методу добиться более сильного воздействия с меньшим затратом ресурсов. ## Результаты Мы проводили эксперименты с SDM на нескольких многоклассовых моделях, включая ResNet-50 и VGG-16. Данные для этих экспериментов были взяты из стандартных наборов CIFAR-10 и ImageNet. SDM достиг впечатляющих результатов, показав высокую эффективность в атаке с минимальными затратами ресурсов. Например, против ResNet-50, SDM достиг 95% эффективности атаки за значительно меньший затратный усилий по сравнению с другими популярными методами. ## Значимость Результаты SDM представляют значительное значение в сфере оценки устойчивости моделей к адверсарным примерам. Метод может быть применен в защите систем, а также в улучшении методов защиты, таких как адверсарный тренинг. Благодаря своей эффективности и мощности, SDM может стать основой для развития новых методов, обеспечивающих более надежную защиту моделей от атак. ## Выводы Мы представили Sequential Difference Maximization (SDM) — метод, который эффективно генерирует адверсарные примеры, используя многоэтапную оптимизацию. Результаты наших экспериментов показали, что SDM превосходит существующие методы по силе атаки и эффективности. Мы также отметили, что SDM может быть интегрирован с методами защиты, чтобы повысить устойчивость моделей. Мы планируем продолжать исследовать возможности SDM для других типов моделей и приложений.

Annotation:

Efficient adversarial attack methods are critical for assessing the robustness of computer vision models. In this paper, we reconstruct the optimization objective for generating adversarial examples as "maximizing the difference between the non-true labels' probability upper bound and the true label's probability," and propose a gradient-based attack method termed Sequential Difference Maximization (SDM). SDM establishes a three-layer optimization framework of "cycle-stage-step." The processes b...

ID: 2509.00826v1 cs.CV, cs.AI, cs.LG, Doctor of Engineering

arXiv PDF

📄 Unified Supervision For Vision-Language Modeling in 3D Computed Tomography

2025-09-05

Авторы:

Hao-Chih Lee, Zelong Liu, Hamza Ahmed, Spencer Kim, Sean Huver, Vishwesh Nath, Zahi A. Fayad, Timothy Deyer, Xueyan Mei

#### Контекст Область визионно-языковых моделей (Vision-Language Models, VLMs) набирает популярность в радиологии за счет способности к zero-shot обучению и отсутствия необходимости в больших объемах меток данных. Однако в высокорисковых областях, таких как диагностическая радиология, эти модели часто не обладают достаточной точностью для надежного клинического применения. Это усложняется тем, что доступные общедоступные наборы данных трехмерных синуграфий рентгеновской томографии (CT) являются редкими и очень разнородными в форматах и гранулярности аннотаций. Чтобы решить эти проблемы, мы предлагаем Uniferum — новую трехмерную VLM, которая объединяет разнообразные сигналы управления (прогностические метки и маски сегментации) в единую модель обучения. #### Метод Uniferum использует трехмерные 3D CT данные с разными форматами аннотаций, включая классификационные метки и маски сегментации. Методология включает модификацию общих визионно-языковых моделей, чтобы интегрировать эти разноплановые сигналы управления в единую структуру. Модель разделяет обучение на несколько этапов: начальное обучение с классификационными метками, после чего добавляются маски сегментации для дополнительного адаптирования. Такой подход позволяет модели достигать высокой точности и гибкости при обработке разнородных данных. #### Результаты Мы провели эксперименты на трех разных 3D CT данных: CT-RATE, RAD-CHEST и INSPECT. Uniferum достиг статистически значимого улучшения показателя AUROC на CT-RATE, повысив его на 7% по сравнению с CLIP-based и другими моделями многометковой конволюционной нейронной сети. Модель подтвердила свою способность к generalization, демонстрируя неожиданную zero-shot высокую точность на RAD-CHEST и INSPECT. Эти результаты подтверждают эффективность интеграции разнородных аннотаций и сегментационного анализа для повышения производительности моделей. #### Значимость Uniferum может быть применен в различных здравоохранных задачах, включая диагностику и мониторинг заболеваний на основе 3D CT скананий. Его преимущество в том, что он обеспечивает достижение высокой точности без требований к большому объему меток данных. Это может существенно сократить время и стоимость для обучения моделей в клинических приложениях. Кроме того, Uniferum может стать моделью для будущих исследований в области VLMs для 3D медицинской импликации. #### Выводы Результаты Uniferum показывают, что одновременное использование разнородных сигналов управления может значительно повысить точность и общую выносливость трехмерных VLMs в области медицинской импликации. Будущие исследования будут сосредоточены на расширении модели для допо

Annotation:

General-purpose vision-language models (VLMs) have emerged as promising tools in radiology, offering zero-shot capabilities that mitigate the need for large labeled datasets. However, in high-stakes domains like diagnostic radiology, these models often lack the discriminative precision required for reliable clinical use. This challenge is compounded by the scarcity and heterogeneity of publicly available volumetric CT datasets, which vary widely in annotation formats and granularity. To address ...

ID: 2509.01554v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 TransForSeg: A Multitask Stereo ViT for Joint Stereo Segmentation and 3D Force Estimation in Catheterization

2025-09-05

Авторы:

Pedram Fekri, Mehrdad Zadeh, Javad Dargahi

#### Контекст Улучшение технологий мониторинга и визуализации в катехеризации требует повышения точности оценки взаимодействия медицинского оборудования с организмом пациента. Одной из ключевых задач является сочетание данных визуального и тактильного типа для повышения точности интерпретации данных. Для этого широко используются многозадачные нейросетевые модели, которые объединяют в себе различные задачи, такие как сегментация изображений и оценка трения. Эти задачи имеют прикладное значение в медицинской практике, поскольку позволяют улучшить точность и эффективность процедур катехеризации. Однако существуют проблемы с ресурсоемкостью и недостаточной точностью, которые существенно ограничивают практическое применение таких моделей. #### Метод Мы предлагаем TransForSeg — модель, основанную на Vision Transformer, которая обрабатывает два входных изображения в качестве последовательностей. Модель учитывает длинные зависимости между патчами изображений с разных углов, не требуя их последовательного расширения. Для каждого входа используется отдельный сегментационный блок, а для оценки трения — регрессионный блок, объединяющий результаты двух сегментационных блоков. Наша модель обеспечивает синхронную оценку сегментации и трения с помощью контекстно-зависимой моделирования, которая использует возможности Vision Transformer для передачи длинных зависимостей. #### Результаты Мы провели тщательные эксперименты на синтетических X-X-ray изображениях с разными уровнями шума. Модель была сравнена с современными моделями для сегментации изображений, задач оценки трения, а также с многозадачными моделями. Результаты показали, что TransForSeg превосходит существующие модели по качеству сегментации и точности оценки трения. Она установила новый стандарт в области катехеризации, позволив улучшить качество обработки изображений и точность тренировочных моделей. #### Значимость Модель TransForSeg может быть применена в различных областях, где требуется синхронная оценка геометрии и трения. Например, в медицинских процедурах, визуальном мониторинге и анализе трения. Основной преимуществом TransForSeg является её многозадачность, которая позволяет эффективно обрабатывать изображения и оценивать физические взаимодействия. Это открывает путь к улучшению точности и эффективности в медицинских процедурах. #### Выводы Мы представили TransForSeg — модель, которая демонстрирует высокую точность в сегментации изображений и оценке трения. Наши результаты показывают, что модель может стать новым стандартом в синхронной оценке сегментации и трения. Будущие исследования будут сконцентрированы на расширени

Annotation:

Recently, the emergence of multitask deep learning models has enhanced catheterization procedures by providing tactile and visual perception data through an end-to-end architecture. This information is derived from a segmentation and force estimation head, which localizes the catheter in X-ray images and estimates the applied pressure based on its deflection within the image. These stereo vision architectures incorporate a CNN-based encoder-decoder that captures the dependencies between X-ray im...

ID: 2509.01605v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Structure-aware Contrastive Learning for Diagram Understanding of Multimodal Models

2025-09-05

Авторы:

Hiroshi Sasaki

#### Контекст В последние годы multimodal models, такие как Contrastive Language-Image Pre-training (CLIP), показали исключительную эффективность в объединении визуальной и языковой информации. Однако эти модели сталкиваются с ограничениями при работе в специализированных визуальных областях, таких как диаграммы. Диаграммы отличаются своей структурой и символическим характером, отличным от природной имагии. Наша мотивация заключается в развитии методов, которые помогут моделям лучше понимать и работать с такими специализированными визуальными данными. #### Метод Мы предлагаем новую парадигму тренировки, которая направлена на улучшение понимания диаграмм внутри vision-language моделей. Наш подход использует "жесткие" примеры для продвинутого варианта contrastive learning, включающего два специальных целевых функции. Эти функции акцентуются на интересующих структурных свойствах диаграмм. Мы интегрируем эти целевые функции в процесс обучения модели, чтобы она могла более точно и семантически ценно понимать визуальный контент. #### Результаты Мы проверили нашу модель на датасете, содержащем flowcharts, как стандартный класс диаграмм. Наши результаты показали значительные улучшения по сравнению с стандартным CLIP и обычным hard negative learning. Мы измерили эффективность в tasks, таких как image-text matching и visual question answering, и показали, что наш подход значительно повышает точность и семантическое понимание. #### Значимость Наш подход может применяться в различных областях, где используются диаграммы, таких как образование, проектирование и анализ данных. Преимущества включают улучшенное понимание структуры диаграмм, более точную интерпретацию и высокую эффективность в задачах, требующих визуально-языкового понимания. Этот работ позволяет расширить возможности vision-language моделей, сделав их более универсальными и эффективными в специализированных визуальных задачах. #### Выводы Мы доказали, что целевое обучение структурной информации в диаграммах может значительно улучшить понимание vision-language моделей. Наша работа открывает новые возможности для развития моделей, которые будут более эффективно работать с символическими и структурированными визуальными данными. Мы планируем дальнейшее исследование в этой области, включая расширение применения наших методов к другим типам диаграмм и мультимодальным задачам.

Annotation:

Multimodal models, such as the Contrastive Language-Image Pre-training (CLIP) model, have demonstrated remarkable success in aligning visual and linguistic representations. However, these models exhibit limitations when applied to specialised visual domains, such as diagrams, which encode structured, symbolic information distinct from that of natural imagery. In this paper, we introduce a novel training paradigm explicitly designed to enhance the comprehension of diagrammatic images within vis...

ID: 2509.01959v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Ordinal Adaptive Correction: A Data-Centric Approach to Ordinal Image Classification with Noisy Labels

2025-09-05

Авторы:

Alireza Sedighi Moghaddam, Mohammad Reza Mohammadi

#### Контекст Обучение супервизионных нейронных сетей в задачах компьютерного зрения требует больших объемов качественно отмеченных данных. Однако обработка и отметка изображений, особенно при определении ординальных классов, где границы классов неясны, часто приводит к ошибкам и шуму в меток. Этот шум может существенно снизить точность и достоверность моделей глубокого обучения. В данной работе авторы сосредоточились на задаче обнаружения и исправления шума в метках при ординальной классификации изображений. #### Метод Предложен метод ORDinal Adaptive Correction (ORDAC), основанный на Label Distribution Learning (LDL). Данный подход адаптивно исправляет метки во время обучения, динамически устанавливая среднее и стандартное отклонение распределения меток для каждого примера. Это позволяет использовать весь набор данных, включая потенциально шумные метки, вместо их отбрасывания. ORDAC отличается гибкостью и устойчивостью к различным видам шума в метках. Метод был развит в рамках расширенных версий ORDAC_C и ORDAC_R, учитывающих дополнительные характеристики данных. #### Результаты Эксперименты проводились на двух бенчмарковых датасетах: для оценки возраста (Adience) и детекции степени заболевания диабетической ретинопатии. Шумовые метки симулировались асимметричным гауссовым шумом. Результаты показали, что ORDAC существенно улучшает показатели моделей: на датасете Adience с 40% шума, ORDAC_R снизил среднюю абсолютную ошибку с 0.86 до 0.62 и увеличил метрику реколл с 0.37 до 0.49. Также была продемонстрирована эффективность метода в устранении внутреннего шума в оригинальных данных. #### Значимость Предложенный подход может быть применен в задачах, где метоки изображений шумообъемлемы или неточны. Он обеспечивает улучшение качества и надёжности моделей, уменьшая влияние шума. Особенно актуален ORDAC для задач, где классы имеют естественную последовательность, таких как возрастная оценка или степень заболеваний. Работа открывает пути для будущих исследований в области адаптивной коррекции меток и использования LDL в обучении с шумом. #### Выводы Результаты показывают, что ORDAC, ORDAC_C и ORDAC_R эффективно исправляют шум в метках и повышают точность моделей в задачах ординальной классификации. Данный подход является основополагающим для повышения устойчивости моделей к шуму в метках и открывает пути для дальнейшего исследования методов LDL в обучении с неточными метками.

Annotation:

Labeled data is a fundamental component in training supervised deep learning models for computer vision tasks. However, the labeling process, especially for ordinal image classification where class boundaries are often ambiguous, is prone to error and noise. Such label noise can significantly degrade the performance and reliability of machine learning models. This paper addresses the problem of detecting and correcting label noise in ordinal image classification tasks. To this end, a novel data-...

ID: 2509.02351v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

2025-09-02

Авторы:

Jie Jiang, Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng

#### Контекст В последние годы наблюдается стремительное развитие мультимодальных больших языковых моделей (MLLMs), которым присущи способности к структурированному мышлению. Однако, несмотря на их мощь, эти модели часто применяют сложные методы мышления даже для решения простых задач, в результате чего возникают проблемы эффективности и экономии ресурсов. Необходимость адаптивного подхода, при котором модель автоматически определяла бы необходимость применения сложного мышления, стала мотивацией для разработки R-4B. Эта модель предназначена для автоматического решения задач с применением индивидуального подхода, который учитывает их сложность. #### Метод R-4B использует **би-режимную аннелинг-методику** (bi-mode annealing), чтобы включать два режима работы: "thinking" (сложное мышление) и "non-thinking" (простой подход). В первой стадии обучения модель учится на специально подобранном датасете, включающем образцы как с требующими сложного мышления, так и простыми задачами. Во второй стадии R-4B подвергается усовершенствованному фреймворку **GRPO** (improved GRPO), в котором политическая модель распределяет входные запросы между двумя режимами. Таким образом, R-4B научилась использовать как сложные, так и простые методы решения задач, оптимизируя вычислительные затраты. #### Результаты На 25 тестовых бенчмарках, R-4B показала выдающиеся результаты. Она превосходит Qwen2.5-VL-7B в большинстве задач и показывает результаты, сопоставимые с более крупными моделями, такими как Kimi-VL-A3B-Thinking-2506 (16B), но с значительно более низкими затратами вычислительных ресурсов. На примерах, требующих сложного мышления, R-4B демонстрирует максимальную эффективность, при этом не применяя медленные сложностные методы для простых задач. #### Значимость R-4B может использоваться в различных областях, где требуется эффективная работа моделей, оценивающих сложность задачи. Это могут быть приложения в области автоматизации, либо задачи, требующие быстрого решения. Особенно выгодной модель оказывается в ситуациях, когда необходимо минимизировать вычислительные затраты без потери точности. #### Выводы Результаты тестирования R-4B доказывают актуальность и эффективность адаптивного подхода в развитии MLLMs. Будущие исследования будут сконцентрированы на улучшении точности модели в сложных задачах и её эффективности в работе с большими объемами данных.

Annotation:

Multimodal Large Language Models (MLLMs) equipped with step-by-step thinking capabilities have demonstrated remarkable performance on complex reasoning problems. However, this thinking process is redundant for simple problems solvable without complex reasoning. To address this inefficiency, we propose R-4B, an auto-thinking MLLM, which can adaptively decide when to think based on problem complexity. The central idea of R-4B is to empower the model with both thinking and non-thinking capabilities...

ID: 2508.21113v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Unsupervised Video Continual Learning via Non-Parametric Deep Embedded Clustering

2025-09-02

Авторы:

Nattapong Kurpukdee, Adrian G. Bors

## Контекст Нейронные сети по-прежнему сталкиваются с проблемами, связанными с нехваткой методик для непрерывного обучения в условиях слишком большого объема данных. Особенно актуален вопрос непрерывного обучения в контексте видеоданных, где необходимо учитывать как пространственные, так и временные аспекты. Традиционные методы непрерывного обучения не могут справиться с данными видео, так как не принимают во внимание специфику видеоданных. Более того, многие алгоритмы непрерывного обучения требуют знания границ задач и классов, что не всегда доступно. Мы предлагаем метод, который может справиться с этими вызовами, обеспечивая непрерывное обучение видеоданных в условиях сокрытых границ задач и недоступности классовых меток. ## Метод Мы предлагаем решение, основанное на непараметричном кластеризационном подходе, основанном на Kernel Density Estimation (KDE). Данный подход использует глубокие базисы трансформеров для извлечения видеофичей. Мы также расширяем память для запоминания новых классов динамически во время обучения. Метод также использует передачу знаний из множества предыдущих задач, чтобы облегчить обучение новой задачи. Это развитие включает в себя использование непараметрического кластеризационного метода, который позволяет учитывать характеристики трансформеров для выделения видеофичей. ## Результаты Мы проводили эксперименты на трех видеоданныхсетях: UCF101, HMDB51 и Something-to-Something V2. Мы показали, что наш подход изменяет память в зависимости от объема данных и позволяет многоклассовый классификатор обучаться в условиях нестационарных классов. Наш результат показывает, что алгоритм превосходит другие подходы к непрерывному обучению видеоданных. Мы также провели оценку того, насколько эффективно алгоритм запоминает предыдущие задачи и учитывает новые. ## Значимость Наш подход может быть применен в сценариях, где необходимо обучение модели к новым классам без предварительного знания о классах или границах задач. Он может быть применен в различных областях, таких как распознавание действий, мониторинг задач и анализ видеоданных для различных приложений. Наши результаты показывают, что данный подход может значительно повысить эффективность обучения в условиях сокрытых границ задач и неконтролируемости классов. ## Выводы Мы предлагаем новый подход к непрерывному обучению видеоданных, который не требует знания о классах или границах задач. Наш алгоритм динамически расширяет память, чтобы учитывать новые классы в процессе обучения. Мы показали, что наш подход показывает высокую эффе

Annotation:

We propose a realistic scenario for the unsupervised video learning where neither task boundaries nor labels are provided when learning a succession of tasks. We also provide a non-parametric learning solution for the under-explored problem of unsupervised video continual learning. Videos represent a complex and rich spatio-temporal media information, widely used in many applications, but which have not been sufficiently explored in unsupervised continual learning. Prior studies have only focuse...

ID: 2508.21773v1 cs.CV, cs.AI, cs.LG

arXiv PDF

Показано 291 - 300 из 358 записей