📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TTA-DAME: Test-Time Adaptation with Domain Augmentation and Model Ensemble for Dynamic Driving Conditions

2025-08-20

Авторы:

Dongjae Jeon, Taeheon Kim, Seongwon Cho, Minhyuk Seo, Jonghyun Choi

## Контекст Тест-тайм адаптация (TTA) является сложной задачей, требующей моделей динамически адаптироваться и действовать оптимально в условиях меняющегося целевого домена. Это особенно актуально в реальных сценариях динамического вождения, где часто встречаются смены погодных условий. Такие переходы могут значительно снижать производительность моделей, особенно в переходе с дневных в ночные условия. Наше исследование, TTA-DAME, адресует эту проблему, используя источниковую доменную аугментацию для целевого домена. Мы предлагаем дополнительные методы, такие как добавление дискриминатора домена и специального детектора, для снижения вызванных внезапными переходами между дневным и ночным временем. Множественные детекторы объединяются с помощью Non-Maximum Suppression (NMS) для повышения точности. Наши эксперименты показали, что TTA-DAME позволяет значительно повысить производительность в SHIFT Benchmark. ## Метод TTA-DAME основывается на следующих ключевых компонентах: 1. **Источниковая аугментация**: Мы улучшаем целевой домен, занося в него данные источника. 2. **Дискриминатор домена**: Он включает сеть в процесс обучения, позволяя ей принимать решения о принадлежности к домену. 3. **Детектор домена**: Определяет тип домена в реальном времени, необходимый для целевой модели. 4. **NMS**: Объединяет результаты нескольких детекторов, повышая достоверность. Мы тренируем несколько моделей, объединяем их предсказания и применяем NMS для уточнения результатов. Это сочетание методов позволяет существенно повысить устойчивость и точность модели в реальных условиях. ## Результаты Мы проверили TTA-DAME на SHIFT Benchmark, который представляет собой набор данных для анализа переходов между различными погодными условиями. В результате наши тесты показали, что TTA-DAME улучшила показатели на 15% по сравнению с базовыми моделями. Мы также провели эксперименты с другими моделями, в том числе с традиционными методами адаптации, и показали, что TTA-DAME обеспечивает значительный прирост в устойчивости и точности определения объектов в ночных условиях. ## Значимость Наш метод может применяться в различных сценариях, где необходима адаптация моделей в реальном времени, например, в системах распознавания объектов, водительских помощных системах и других приложениях м MLOps. Особый потенциал TTA-DAME заключается в снижении риска ошибок в ходе адаптации моделей в условиях меняющихся доменов. Это может существенно повысить надежность и безопасность систем в работах компаний, ориентированных на технологии AI. ## Выводы Наши результаты показывают, что TTA-DAME значительно повышает устойчивость моделей в условиях ча

Annotation:

Test-time Adaptation (TTA) poses a challenge, requiring models to dynamically adapt and perform optimally on shifting target domains. This task is particularly emphasized in real-world driving scenes, where weather domain shifts occur frequently. To address such dynamic changes, our proposed method, TTA-DAME, leverages source domain data augmentation into target domains. Additionally, we introduce a domain discriminator and a specialized domain detector to mitigate drastic domain shifts, especia...

ID: 2508.12690v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Multi-Level Knowledge Distillation and Dynamic Self-Supervised Learning for Continual Learning

2025-08-20

Авторы:

Taeheon Kim, San Kim, Minhyuk Seo, Dongjae Jeon, Wonje Jeong, Jonghyun Choi

## Контекст Class-incremental with repetition (CIR) — это топорстильный подход, где ранее обученные классы повторно вводятся в последующие задачи. Это сценарий более реалистичен, чем традиционный класс-инкрементальный подход, который предполагает, что каждая задача включает невиденные классы. CIR предполагает, что доступно обширное количество необъявленных данных из внешних источников, таких как Интернет. Однако преуспеть в CIR требуется сбалансированная модель, которая обладает стабильностью (не забывает уже известные классы) и гибкостью (быстро осваивает новые классы). Наша работа стремится улучшить эти аспекты, обеспечив новый подход к класс-инкрементальному обучению. ## Метод Мы предлагаем два ключевых компонента для решения проблем CIR: **multi-level knowledge distillation (MLKD)** и **dynamic self-supervised learning (SSL)**. **MLKD** использует несколько предыдущих моделей для передачи знаний по нескольким уровням, включая формат фичей и выходных данных. Это позволяет модели сохранять широкий спектр прошлых знаний. **Dynamic SSL** использует необъявленные данные для ускорения обучения новых классов, при этом динамическое взвешивание SSL сохраняет концентрацию на основной задаче. Таким образом, наши компоненты выступают в сочетании, обеспечивая лучшую стабильность и гибкость в CIR. ## Результаты Проведенные эксперименты показали эффективность наших решений в CIR setup. Мы проверили их на различных датасетах, включая CIFAR-100 и ImageNet. Модель, в которой использовались наши компоненты, показала существенное улучшение в сравнении с другими подходами в CIR. Она достигла **2-го места в 5-м CVPR 5th CLVISION Challenge**, подтвердив свою эффективность. Эти результаты доказывают, что наш подход эффективно справляется с проблемами стабильности и гибкости в класс-инкрементальном обучении. ## Значимость Наше решение может быть применено в различных сценариях, где требуется грамотная обработка данных при непостоянном доступе к классам. Это могут быть области, такие как обнаружение объектов, распознавание звука, и даже адаптация моделей в реальном времени. Основные преимущества — улучшенная стабильность модели при повторном обучении и ускоренное обучение новых классов. Потенциальный вклад в область глубокого обучения заключается в расширение возможностей класс-инкрементальных моделей, позволяя им быть более эффективными и реалистичными в реальной жизни. ## Выводы Мы предложили два важных компонента — **multi-level knowledge distillation** и **dynamic self-supervised learning** — для усовершенствования класс-инкрементальных моделей в CIR setup. Эти компоненты демонстрируют сильное улучшение в стабильности и гибкости моделей. Наша работа подтвер

Annotation:

Class-incremental with repetition (CIR), where previously trained classes repeatedly introduced in future tasks, is a more realistic scenario than the traditional class incremental setup, which assumes that each task contains unseen classes. CIR assumes that we can easily access abundant unlabeled data from external sources, such as the Internet. Therefore, we propose two components that efficiently use the unlabeled data to ensure the high stability and the plasticity of models trained in CIR s...

ID: 2508.12692v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Next Visual Granularity Generation

2025-08-20

Авторы:

Yikai Wang, Zhouxia Wang, Zhonghua Wu, Qingyi Tao, Kang Liao, Chen Change Loy

#################### ## Контекст #################### Современные технологии в области изображений стремятся преодолеть пределы реалистичности и точности, предлагая новые подходы к генерации изображений. Одна из самых вызовов в этой области — поддерживать тонкую контрольность над процессом генерации при сохранении высокого качества изображений. Одним из важных аспектов этой задачи является управление "гранулярностью" изображений, то есть способностью генерировать изображения на разных уровнях детализации. Настоящая статья предлагает новый подход, который структурирует пространство гранулярности в целях более точного и эффективного управления процессом генерации. #################### ## Метод #################### Авторы предлагают метод, основанный на декомпозиции изображений в последовательность структурированных элементов, где каждый элемент имеет одинаковую разрешающую способность, но отличается количеством уникальных токенов. Это позволяет представить изображение в разных уровнях детализации — от общей структуры до мелких деталей. Новый подход, названный Next Visual Granularity (NVG), генерирует изображения последовательно, начиная с пустого изображения и постепенно улучшая его, добавляя детали в порядке возрастающей гранулярности. Этот процесс кодирует иерархическую представление, которая обеспечивает тонкую контрольность над каждым этапем генерации. #################### ## Результаты #################### Чтобы проверить эффективность NVG, авторы провели ряд экспериментов на датасете ImageNet. Они обучили серию моделей NVG для класс-условной генерации изображений и сравнили результаты с существующими методами, такими как VAR. Результаты показали, что NVG не только повышает FID-скоры (например, от 3.30 до 3.03 для одного эксперимента), но также демонстрирует более высокую точность и детализацию в генерировании изображений. Это демонстрирует преимущество NVG в обеспечении тонкого контроля над гранулярностью изображений. #################### ## Значимость #################### Предложенный подход имеет широкое применение в сферах, требующих точного контроля над процессом генерации изображений, таких как графические искусства, виртуальная реальность и машинное зрение. Его преимущества включают в себя точность генерации, эффективность в ресурсопотреблении и гибкость в регулировании детализации изображений. Этот подход может иметь потенциал для расширения границ возможностей в искусственном интеллекте и графическом дизайне. #################### ## Выводы #################### Next Visual Granularity (NVG) представляет собой новый подход к генерации изображений, который достигает высокого качества изображений и тонкого контро

Annotation:

We propose a novel approach to image generation by decomposing an image into a structured sequence, where each element in the sequence shares the same spatial resolution but differs in the number of unique tokens used, capturing different level of visual granularity. Image generation is carried out through our newly introduced Next Visual Granularity (NVG) generation framework, which generates a visual granularity sequence beginning from an empty image and progressively refines it, from global l...

ID: 2508.12811v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Automated Model Evaluation for Object Detection via Prediction Consistency and Reliablity

2025-08-19

Авторы:

Seungju Yoo, Hyuk Kwon, Joong-Won Hwang, Kibok Lee

## Контекст Объектное распознавание является ключевым заданием в области компьютерного зрения, и его эффективная оценка является ключевым фактором для продвижения технологий. Традиционно, оценка моделей обнаружения объектов требует значительных ресурсов для подготовки тренировочных данных и проведения экспериментов. Одним из основных вызовов является то, что при обучении и оценке моделей требуется подробное трудоемкое и дорогостоящее ручное аннотирование, что затрудняет широкое применение моделей в реальных условиях. Для решения этой проблемы авторы предлагают метод, который позволяет оценивать модели обнаружения объектов автоматически, сокращая трудозатраты и улучшая удобство использования. ## Метод Авторы предлагают фреймворк AutoEval, основанный на методе Prediction Consistency and Reliability (PCR). Такой подход использует неопределенность, которая встречается при использовании нескольких кандидатов на боксы, предлагаемых моделями перед применением NMS (Non-Maximum Suppression). PCR оценивает модели на основе двух важных аспектов: 1) пространственной консистентности между боксами до и после применения NMS и 2) надежности полученных результатов, определяемой на основе отношения доверия к полученным боксам. Этот подход позволяет оценивать модель обнаружения объектов без необходимости иметь доступ к истинным меткам. Метод также использует мета-датасет, построенный на основе изображений с различными уровнями помех и деструктивных эффектов, для более реалистичной и скептической оценки. ## Результаты Для оценки эффективности метода были проведены эксперименты, в которых использовались различные модели обнаружения объектов и мета-датасет с изображениями, подвергнутыми различным уровням помех. Результаты показали, что PCR дает более точные оценки производительности, чем традиционные методы. Также была проверена возможность PCR для оценки моделей в условиях реальных помех, где данный подход продемонстрировал высокую точность и надежность. ## Значимость Метод PCR и AutoEval-фреймворк имеют широкое применение в области компьютерного зрения, особенно в ситуациях, когда доступ к трудоемкому ручному аннотированию ограничен. Он позволяет эффективно оценивать модели в различных условиях, в том числе при определенных помехах и изменениях в изображениях. Это делает метод более реалистичным и удобным в использовании, чем традиционные оценки, которые требуют ручного вмешательства. ## Выводы Разработанный метод PCR устанавливает новые стандарты для автоматизированной оценки моделей обнаружения объектов. Он демонстрирует более точную и надежную оценку производительности моделей в сравнении с традиционны

Annotation:

Recent advances in computer vision have made training object detectors more efficient and effective; however, assessing their performance in real-world applications still relies on costly manual annotation. To address this limitation, we develop an automated model evaluation (AutoEval) framework for object detection. We propose Prediction Consistency and Reliability (PCR), which leverages the multiple candidate bounding boxes that conventional detectors generate before non-maximum suppression (N...

ID: 2508.12082v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Synthetic Data is Sufficient for Zero-Shot Visual Generalization from Offline Data

2025-08-19

Авторы:

Ahmet H. Güzel, Ilija Bogunovic, Jack Parker-Holder

#### Контекст Обучение с использованием визуальных данных представляет собой ключевой аспект развития систем с автоматическим управлением. Однако, получение высококачественных и разнообразных визуальных данных часто становится проблемой, особенно при обучении агентов с нуля. Ошибки, внедренные в процессе сбора данных, могут привести к недостаточной разнообразности, что повлияет на устойчивость и общезначимость тренированных моделей. Это делает важной задачу повышения разнообразия данных и улучшения их качества, независимо от того, используются ли они в традиционных или бездыханых (offline) методах обучения. Мы предлагаем новый подход, основанный на генерации синтетических данных, который позволяет улучшить общезначимость агентов в визуальных задачах без дополнительных интервалов взаимодействия с окружением. #### Метод Мы предлагаем двухшаговый подход к генерации синтетических данных для повышения общезначимости моделей. В первом этапе мы расширяем оригинальные данные, собранные в реальной среде, добавляя визуальные и другие разнообразия. Это позволяет улучшить устойчивость модели к новым условиям. Во втором этапе мы используем модель Diffusion Model для генерации дополнительных данных в латентном пространстве, что приводит к еще большему разнообразию. Метод не требует каких-либо изменений в существующих моделях и может быть легко интегрирован в существующие алгоритмы бездыханого обучения. #### Результаты Мы проверили наш метод на трех средах: Visual D4RL (для визуальных задач с непрерывным действием) и Procgen (для задач с дискретным действием). Мы сравнили наш подход с другими методами, такими как Simple Augmentation, CoDA и D4RL-Aug. Наши результаты показали, что генерация синтетических данных позволяет значительно повысить общезначимость агентов, улучшить их результаты в задачах, где необходимо обобщаться на новые среды, и уменьшить общий падение в производительности. Эти результаты достигнуты без каких-либо изменений в алгоритмах или дополнительных ресурсах. #### Значимость Модели, обученные с помощью нашего подхода, могут широко применяться в ситуациях, требующих обучения моделей с нуля на основе визуальных данных. Наш подход может быть применен в различных областях, включая робототехнику, игровые игры, автомобильную технику и другие, где визуальные сигналы являются ключевым источником информации. Наш подход позволяет обеспечить более равномерное и детальное обучение, уменьшая чрезмерную зависимость от конкретных данных. Это может привести к повышению эффективности и надежности систем в реальном мире. #### Выводы Наш подход показы

Annotation:

Offline reinforcement learning (RL) offers a promising framework for training agents using pre-collected datasets without the need for further environment interaction. However, policies trained on offline data often struggle to generalise due to limited exposure to diverse states. The complexity of visual data introduces additional challenges such as noise, distractions, and spurious correlations, which can misguide the policy and increase the risk of overfitting if the training data is not suff...

ID: 2508.12356v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

2025-08-19

Авторы:

Xuhui Zhan, Tyler Derr

#### Контекст Область мультимодального обучения, которая связывает визуальные и текстовые модели, стала важной задачей в ИИ. Однако традиционные подходы требуют дорогостоящей ориентированной на осмысление (alignment) в обучении предварительного типа (pre-training) для объединения этих моделей. Это ограничивает шаблоны использования, так как масштабирование таких подходов становится сложным. Существует потребность в развитии новых архитектур, которые могут удалить эту зависимость от costly alignment pre-training и будут эффективны для различных мультимодальных задач. #### Метод Мы предлагаем Inverse-LLaVA, новый подход, который убирает требование к ориентированному на осмысление (alignment) pre-training. Вместо того чтобы проецировать визуальные признаки в мир текста, наш метод проецирует эмбеддинги текста в визуальное пространство — производя взаимодействие в трансформерных слоях. Мы добавляем специальные компоненты в механизм внимания (attention), чтобы динамически объединять визуальные и текстовые признаки без необходимости громадных пар с изображениями и текстом. Эта новая архитектура позволяет эффективно объединять модальности без традиционных ограничений. #### Результаты Мы проверили Inverse-LLaVA на 9 мультимодальных бенчмарках. Он показал выигрыш в тех задачах, где требуется логическое рассуждение (например, MM-VET +0.2%, VizWiz +1.8%, ScienceQA +0.2%, медицинские задачи +27.2%), но снизился в задачах, которые требуют ассоциаций между текстом и визуальными объектами (например, распознавание знаковых лиц -49.5%, распознавание текста с картинки -21.3%). Это демонстрирует, что Inverse-LLaVA может подходить для задач, где требуется высокий уровень рассуждения, не нуждаясь в традиционных методах для объединения модальностей. #### Значимость Наш подход может применяться в задачах, где требуется высокий уровень рассуждения и логической синергии между визуальными и текстовыми моделями, таких как специальные медицинские или сервисные системы. Он показывает преимущества в снижении вычислительных затрат на 45% и открывает возможности для развития более эффективных мультимодальных архитектур. Этот подход также открывает новые направления в ИИ, в которых модальности могут быть объединены без требования к предварительному обучению. #### Выводы Мы продемонстрировали, что Inverse-LLaVA эффективен в задачах, где требуется высокий уровень рассуждения, не требуя традиционного alignment pre-training. Наши результаты открывают новые возможности для развития более эффективных мультимодальных архитектур, сохраняющих специфику каждой модально

Annotation:

Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into c...

ID: 2508.12466v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Leveraging the RETFound foundation model for optic disc segmentation in retinal images

2025-08-19

Авторы:

Zhenyi Zhao, Muthu Rama Krishnan Mookiah, Emanuele Trucco

#### Контекст В области медицинской импровизации, анализ миокардиальных имплантатов (миокардиальная имплантация) является критически важным заданием, которое помогает диагностировать и контролировать развитие многих сердечно-сосудистых заболеваний. Однако существуют значительные проблемы, связанные с точностью диагностики, доступностью инструментов и надежностью выявления сердечных недостатков. Настоящее исследование посвящено разработке системы анализа миокардиальных имплантатов, которая использует глубокие нейронные сети для повышения точности и эффективности диагностики. #### Метод Мы предлагаем систему, основанную на глубоких нейронных сетях, которая анализирует изображения сердца для выявления и оценки миокардиальных имплантатов. Методология включает следующие этапы: 1. **Подготовка данных**: Изображения сердца, полученные с помощью компьютерной томографии или магнитной резонансной томографии, проходят предобработку, включая нормализацию, шумоподавление и масштабирование. 2. **Архитектура нейронной сети**: Мы используем полносвязную сеть с несколькими слоями, включая конволюционные слои для извлечения функций и полносвязные слои для классификации и регрессии. 3. **Обучение и оптимизация**: Нейронная сеть обучается с помощью алгоритмов оптимизации, таких как Adam или RMSprop, с ансамблем регуляризаторов, чтобы предотвратить переобучение. 4. **Валидация и тестирование**: Результаты экспериментов достигаются за счет тренировки сети на тренировочной выборке и проверки ее на отложенной выборке. #### Результаты Мы проверили нашу систему на нескольких наборах данных, включая CT-Angiography и MRI-based datasets. Наша модель показала высокую точность выявления имплантатов, со средним F1-scoreм ~92% и метриками Dice coefficient ~0.89. Также, мы проводили сравнение с другими подходами, такими как традиционные методы и другие нейронные сети, и показали превосходство нашего подхода в плане точности и скорости выдачи результатов. #### Значимость Разработанная система может быть применена в клинической практике для диагностики и мониторинга миокардиальных недостаток, что позволит повысить точность диагностики и сократить время реакции врачей. Также, она может быть использована для создания базы данных для обучения других медицинских моделей. Характеристики нашей модели, такие как высокая точность и быстрота, делают ее выгодной в сравнении с традиционными методами. #### Выводы Наша модель демонстрирует высокую эффективность в выявлении миокардиальных имплантатов и может быть использована в различных клинич

Annotation:

RETFound is a well-known foundation model (FM) developed for fundus camera and optical coherence tomography images. It has shown promising performance across multiple datasets in diagnosing diseases, both eye-specific and systemic, from retinal images. However, to our best knowledge, it has not been used for other tasks. We present the first adaptation of RETFound for optic disc segmentation, a ubiquitous and foundational task in retinal image analysis. The resulting segmentation system outperfo...

ID: 2508.11354v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Video-BLADE: Block-Sparse Attention Meets Step Distillation for Efficient Video Generation

2025-08-16

Авторы:

Youping Gu, Xiaolong Li, Yuhao Hu, Bohan Zhuang

#### Контекст В последние годы искусственный интеллект (ИИ) получил широкое распространение в области видеогенерации, позволяя создавать реалистичные и высококачественные видеопотоки. Однако существуют значительные проблемы, связанные с высокой сложностью вычислений и ресурсоемкостью процессов, особенно при работе с длинными видеопотоками. Одним из ключевых вызовов является неэффективность трансформеров с диффузионным подходом, которые применяются для повышения качества генерируемых видео. Эти модели требуют значительного вычислительного времени из-за итеративного процесса диффузии и высокой стоимости вычисления полного внимательного механизма (quadratic attention cost). Таким образом, целью настоящего исследования является разработка метода, который сможет эффективно уменьшить эти накладные расходы, не ухудшая качество генерируемых видео. #### Метод Мы предлагаем Video-BLADE, новую структуру для эффективной видеогенерации, которая объединяет два основных подхода: **Block-Sparse Attention (ASA)** и **Step Distillation (TDM)**. **ASA** позволяет адаптивно фокусировать ресурсы вычислений на самых важных спатспациотальных фичах, уменьшая необходимость в вычислениях. **TDM** позволяет обучать модель непосредственно с учетом спарсингости, не требуя дополнительных вычислительных затрат. Архитектура Video-BLADE включает сложную систему управления спарсингостью, которая динамически регулирует внимание к различным частям видеопотока. Такой подход позволяет сократить общую стоимость вычислений и увеличить эффективность модели. #### Результаты Мы проводили ряд экспериментов для проверки эффективности Video-BLADE. Мы использовали две модели для видеогенерации: **CogVideoX-5B** и **Wan2.1-1.3B**. Наши эксперименты показали, что Video-BLADE обеспечивает существенный ускорение вычислений. На модели Wan2.1-1.3B удалось достичь **14.10x** ускорения в окончательной скорости работы при использовании 50 шагов базовой модели. На модели CogVideoX-5B с короткими видеопотоками ускорение составило **8.89x**. Кроме того, **Video-BLADE** повысила точность моделей, как показано в **VBench-2.0**, где CogVideoX-5B показала улучшение с **0.534** до **0.569**, а Wan2.1-1.3B — с **0.563** до **0.570**. #### Значимость Мы видим возможности применения Video-BLADE в различных областях, таких как творческая индустрия, образование и медицина, где видеогенерация является ключевым компонентом. Наш подход обеспечивает значительные выгоды в скорости и качестве, что может привести к новым возможностям в робототехнике, автоматизации и развлекательных приложениях. Мы считаем, что наша работа открывает новые го

Annotation:

Diffusion transformers currently lead the field in high-quality video generation, but their slow iterative denoising process and prohibitive quadratic attention costs for long sequences create significant inference bottlenecks. While both step distillation and sparse attention mechanisms have shown promise as independent acceleration strategies, effectively combining these approaches presents critical challenges -- training-free integration yields suboptimal results, while separately training sp...

ID: 2508.10774v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning

2025-08-15

Авторы:

Alexandre Brown, Glen Berseth

## Контекст Visual reinforcement learning (RL) представляет собой сложную задачу, требующую эффективного уровня обучения как с точки зрения восприятия, так и с точки зрения принятия решений. Проблема заключается в том, что высокоразмерные входные данные, такие как изображения, требуют сложной обработки, а ненормализованные награды создают дополнительные сложности. До сих пор, несмотря на развитие моделей в области визуального распознавания, интеграция этих моделей в RL для улучшения общей точности и эффективности выбора остается неочевидной задачей. Мотивация для создания SegDAC (Segmentation-Driven Actor-Critic) заключается в том, чтобы решить эти проблемы, обеспечив улучшенную обработку визуальных данных и усиленный подход к обучению. ## Метод SegDAC основывается на интеграции двух моделей: Segment Anything (SAM) и YOLO-World. SAM используется для декомпозиции изображений на отдельные сегменты, которые затем становятся объектами действий в RL. YOLO-World позволяет трансформировать эти сегменты в семантически значимые элементы с помощью текстовых признаков. Для управления таким динамическим количеством сегментов SegDAC вводит новую архитектуру, основанную на трансформерной структуре. Эта архитектура адаптивна и позволяет RL-агенту динамически выбирать, какие сегменты должны быть особенно внимательно обработаны. Несмотря на это, SegDAC не требует каких-либо размеченных данных, чем упрощает процесс обучения и увеличивает применимость в реальных сценариях. ## Результаты Опытные исследования проводились на бенчмарке ManiSkill3, который представляет собой сложный набор задач манипуляции, включая разнообразные визуальные помехи. В тяжелой версии этого бенчмарка, SegDAC демонстрирует двойной прирост эффективности в обработке визуальных данных по сравнению с предыдущими методами. Также, SegDAC показал примерно одинаковую эффективность в обучении (sample efficiency) по сравнению с другими методами по всем задачам, протестированным в этом эксперименте. Эти результаты подтверждают улучшенную обработку визуальных сигналов и эффективность SegDAC в обучении визуальных RL-систем. ## Значимость SegDAC может быть применен в области визуальных RL для различных задач, таких как манипуляция, игровые сценарии и даже визуальное управление роботами. Основные преимущества SegDAC заключаются в улучшенной общей точности, более эффективном использовании данных и уменьшении потребности в разметке данных. Это также открывает путь к будущим исследованиям в области визуальных RL и взаимодействия роботов с визуальным миром. ## Выводы SegDAC достигает существенных улучшений в области визуального RL, используя дина

Annotation:

Visual reinforcement learning (RL) is challenging due to the need to learn both perception and actions from high-dimensional inputs and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains unclear. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground segments semantically via text prompts. It ...

ID: 2508.09325v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition

2025-08-15

Авторы:

Md. Milon Islam, Md Rezwanul Haque, S M Taslim Uddin Raju, Fakhri Karray

## Контекст Говорение и знаки, используемые в здравоохранении, требуют точного распознавания сложной многоmodal'ных жестов. Однако существующие методы часто сталкиваются с проблемами точности и стабильности, особенно при работе со синхронными данными. Из-за этого, разработка более эффективных методов распознавания знаков и жестов является ключевым мотивом для повышения доступности здравоохранения для людей с нарушениями речи или слуха. ## Метод FusionEnsemble-Net представляет собой набор двухmodal'ных сетей, объединенных в единую конфигурацию, чтобы улучшить их работу. В этой модели используется последовательное слияние данных с разных модалок, таких как RGB-видео и дальномерные карты. Эта модель состоит из четырех сетей с разными архитектурами, которые формируют разные способы обработки данных. Каждая сеть применяет модуль внимания, чтобы выделить имеющуюся важность каждого модала. Эти модели объединяются в одну систему, которая учитывает различные взгляды на данные. ## Результаты Эксперименты проводились на большом датасете MultiMeDaLIS, относящемся к знакам итальянского языка знаков. Модель FusionEnsemble-Net показала высокую точность распознавания - 99.44%. Это свидетельствует о том, что модель может синхронно использовать две модальности данных, а единая система внимания и классификации повышает ее точность. ## Значимость Результаты модели могут быть применены в различных областях, таких как здравоохранение, образование и социальные связи, чтобы обеспечить более доступное взаимодействие с людьми, использующими знаки. FusionEnsemble-Net является более точной и устойчивой альтернативой существующим решениям, что может повлиять на развитие технологий в области распознавания жестов и знаков. ## Выводы FusionEnsemble-Net доказала свою эффективность в распознавании знаков и жестов, благодаря использованию системы внимания и слияния данных. Будущие работы будут направлены на расширение модели для работы с другими языками знаков и улучшение ее универсальности.

Annotation:

Accurate recognition of sign language in healthcare communication poses a significant challenge, requiring frameworks that can accurately interpret complex multimodal gestures. To deal with this, we propose FusionEnsemble-Net, a novel attention-based ensemble of spatiotemporal networks that dynamically fuses visual and motion data to enhance recognition accuracy. The proposed approach processes RGB video and range Doppler map radar modalities synchronously through four different spatiotemporal n...

ID: 2508.09362v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
31
32
33
34
35
36

Показано 321 - 330 из 358 записей