📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 G-CUT3R: Guided 3D Reconstruction with Camera and Depth Prior Integration

2025-08-19

Авторы:

Ramil Khafizov, Artem Komarichev, Ruslan Rakhimov, Peter Wonka, Evgeny Burnaev

## Контекст Область трехмерной реконструкции широко применяется в сферах, таких как виртуальная и аugmented реальность, а также в архитектурной моделировании. Несмотря на развитие методов трехмерной реконструкции, существуют значительные проблемы, связанные с необходимостью использовать дополнительные ресурсы, такие как глубинные карты или калибровочная информация камеры, чтобы повысить точность и качество реконструкции. Существующие методы часто либо жестко привязаны к определенным типам входных данных, либо неэффективно используют доступные сведения. Это мотивирует разработку более гибких и эффективных подходов, которые могут использовать дополнительные данные для улучшения результатов. ## Метод Метод G-CUT3R является модификацией CUT3R, добавляющей гибкость и эффективность за счет интеграции дополнительных модальностей входных данных. Метод включает несколько ключевых компонентов: 1. **Многомодальный кодировщик**: каждая модальность (RGB-изображение, глубинная карта, калибровочная информация) обрабатывается своим энкодером, позволяя эффективно извлекать признаки. 2. **Фуссинг признаков**: извлеченные признаки объединяются с использованием zero convolution, что позволяет избегать потерь из-за несовместимости модальностей. 3. **Лёгкая архитектура**: весь компонент может быть интегрирован во время выполнения без значительных изменений в основной архитектуре CUT3R, что делает G-CUT3R универсальным для различных сценариев применения. ## Результаты G-CUT3R был опробован на нескольких выборках данных, включающих 3D-реконструкции и задачи нескольких видов видов. Эксперименты показали, что интеграция дополнительных модальностей приводит к существенному повышению точности и качества реконструкции. Например, при использовании глубинных карт и калибровочных данных камеры, реконструкция стала более точной и детальной. Эти результаты подтверждают эффективность G-CUT3R в использовании дополнительной информации для улучшения результатов. ## Значимость G-CUT3R может быть применен в различных областях, включая виртуальную и аugmented реальность, архитектурное моделирование и промышленный дизайн. Его гибкость и эффективность делают его выгодным решением для сценариев, где доступны дополнительные модальности входных данных. Это позволяет повысить качество реконструкции и снизить потери из-за несоответствия модальностей. Будущие исследования будут ориентированы на улучшение многомодальной обработки и расширение применения G-CUT3R в различных сферах. ## Выводы G-CUT3R представляет собой прорыв в области трехмерной реконстру

Annotation:

We introduce G-CUT3R, a novel feed-forward approach for guided 3D scene reconstruction that enhances the CUT3R model by integrating prior information. Unlike existing feed-forward methods that rely solely on input images, our method leverages auxiliary data, such as depth, camera calibrations, or camera positions, commonly available in real-world scenarios. We propose a lightweight modification to CUT3R, incorporating a dedicated encoder for each modality to extract features, which are fused wit...

ID: 2508.11379v1 cs.CV, cs.AI

arXiv PDF

📄 Inside Knowledge: Graph-based Path Generation with Explainable Data Augmentation and Curriculum Learning for Visual Indoor Navigation

2025-08-19

Авторы:

Daniel Airinei, Elena Burceanu, Marius Leordeanu

#### Контекст Проблема визуальной внутренней навигации остается одной из самых сложных в области искусственного зрения. Она связана с ограниченным доступом к GPS, что приводит к необходимости использовать дополнительные источники информации. Несмотря на то, что существуют различные подходы к решению этой задачи, включая глубокое обучение, их развертывание в реальных ситуациях сталкивается с рядом проблем, таких как высокая сложность, нужда в дополнительных сенсорных системах или доступе к картам среды. Мы предлагаем более эффективный и реального времени решение, основанный на визуальном вводе, который может предсказывать направление к цели на основе изображений, съемок мобильного устройства. Наш подход значительно упрощает процесс сбора, аннотации и обучения данных, делая его автоматическим, эффективным и надежным. #### Метод Мы предлагаем использовать графовую модель для генерации путей, которая автоматически создает графы путей из данных, собранных с помощью мобильных устройств. Наш подход включает в себя три основных компонента: 1. **Curriculum Learning**: Мы используем последовательный подход к обучению, начиная с простых задач и плавно переходя к более сложным. 2. **Explainable Data Augmentation**: Мы используем специальные методы для генерации дополнительных данных, которые повышают устойчивость модели и уменьшают вероятность переобучения. 3. **Graph-Based Path Generation**: Мы генерируем граф, где узлы представляют собой различные положения в среде, а ребра представляют пути между ними. Это позволяет нашей модели быстро и эффективно определять направление к цели. #### Результаты Мы проводили эксперименты на нашем собственном датасете, состоящем из видеосъемок в помещении большого торгового центра. На каждом кадре были аннотированы правильные направления к разным целям. Мы сравнили нашу модель с другими подходами и получили значительные улучшения в точности и производительности. Наши результаты показывают, что наш подход представляет собой эффективное решение для визуальной внутренней навигации, которое может быть легко развернуто в различных средах. #### Значимость Наш подход имеет широкие области применения, включая визуальную навигацию в торговых центрах, музеях и других внутренних пространствах. Основные преимущества нашего подхода заключаются в том, что он не требует специальных сенсоров, дополнительных маркеров, карт среды или доступа к интернету. Это делает нашу модель независимой от сложности среды и позволяет развернуть ее в различных условиях. Мы считаем, что наш подход может существенно повысить удобство и эффективность внутренней нави

Annotation:

Indoor navigation is a difficult task, as it generally comes with poor GPS access, forcing solutions to rely on other sources of information. While significant progress continues to be made in this area, deployment to production applications is still lacking, given the complexity and additional requirements of current solutions. Here, we introduce an efficient, real-time and easily deployable deep learning approach, based on visual input only, that can predict the direction towards a target from...

ID: 2508.11446v1 cs.CV, cs.AI

arXiv PDF

📄 Handwritten Text Recognition of Historical Manuscripts Using Transformer-Based Models

2025-08-19

Авторы:

Erez Meoded

#### Контекст Историческое рукописное текстовое распознавание (HTR) является ключевым инструментом для раскрытия культурного и научного значения архивных документов. Однако данный процесс часто сталкивается с рядовыми трудностями, включая нехватку готовых транскрипций, вариативность языка и разнообразие рукописных почерков. Эти факторы сильно затрудняют дигитализацию и доступ к историческим текстам. В данном исследовании рассматривается новейшая transformer-based HTR-модель TrOCR, примененная к рукописным текстам 16-го века на латинском языке, написанным Рудольфом Гвалтером. Исследования сосредотачиваются на оптимизации изображений, использовании разнообразных методов аугментации и стратегиях ансамблевых методов. #### Метод В этой работе применяется TrOCR, являющаяся современной transformer-based HTR-модель, специально адаптированная для работы с историческими рукописями. Для улучшения качества распознавания были разработаны и испытаны четыре новые метода аугментации, призванные компенсировать характеристики рукописного почерка 16-го века. Набор данных Gwalther был использован для проведения экспериментов. Также рассматривались стратегии ensemble-learning, нацеленные на объединение сил различных моделей, тренированных с разными аугментациями. Эти методы позволили увеличить точность распознавания и снизить Character Error Rate (CER). #### Результаты В ходе экспериментов на датасете Gwalther с использованием TrOCR-BASIC было достигнуто Character Error Rate (CER) в 1.86. Это значение сократилось до 1.60 при использовании ensemble-learning, что составляет 50% относительного улучшения по сравнению с предыдущими результатами и 42% – по сравнению с предыдущим состоянием искусства. Особое внимание было уделено таким аугментационным методам, как Elastic, которые особенно эффективны для характеристик исторического рукописного почерка. Эти результаты демонстрируют значимость добавления доменно-специфических методов аугментации и ensemble-learning в HTR. #### Значимость Результаты этого исследования могут быть применены в области дигитализации исторических рукописей, где требуется высокая точность распознавания текстов. Методы, предложенные в работе, демонстрируют преимущества в улучшении качества перевода рукописных текстов, снижая ошибки и увеличивая доступность таких документов для широкого круга специалистов. Эти технологии могут быть применены в различных областях, включая историческое исследование, лингвистику и доступ к культурным артефактам. #### Выводы Исследование показало, что transformer-based модели, такие как TrOCR, достаточно эффективны для распознавания рукописных текстов 16-го века. Од

Annotation:

Historical handwritten text recognition (HTR) is essential for unlocking the cultural and scholarly value of archival documents, yet digitization is often hindered by scarce transcriptions, linguistic variation, and highly diverse handwriting styles. In this study, we apply TrOCR, a state-of-the-art transformer-based HTR model, to 16th-century Latin manuscripts authored by Rudolf Gwalther. We investigate targeted image preprocessing and a broad suite of data augmentation techniques, introducing ...

ID: 2508.11499v1 cs.CV, cs.AI, cs.DL, cs.LG

arXiv PDF

📄 Controlling Multimodal LLMs via Reward-guided Decoding

2025-08-19

Авторы:

Oscar Mañas, Pierluca D'Oro, Koustuv Sinha, Adriana Romero-Soriano, Michal Drozdzal, Aishwarya Agrawal

## Контекст Multimodal Large Language Models (MLLMs) — это мощные модели, которые обрабатывают и генерируют текст, изображения и другие типы данных. Их применение растет в областях, таких как автоматическое описание изображений, робототехника и системы помощи людям с ограниченными возможностями. Однако возникает необходимость в том, чтобы эти модели могли быть более контролируемыми и адаптированы к различным потребностям пользователей. Например, в задачах, таких как интерактивное обучение или системы помощи, пользователи могут хотеть управлять точностью и шириной результатов. **Controlling Multimodal LLMs via Reward-guided Decoding** — это попытка решить эту проблему, предлагая первую методику для воздействия на процесс определения результатов модели. ## Метод Работа предлагает новую методику для управления процессом декодирования MLLM, используя вознаграждение (reward) в качестве руководства. Этот подход включает в себя создание моделей вознаграждения, которые оценивают качество результатов модели, например, точность и ширину обнаружения объектов. Эти модели вводятся в процесс декодирования, где они отзываются для влияния на выбор слов и фраз. Таким образом, пользователь может динамически регулировать точность и ширину результатов, которые модель генерирует, не требуя предварительного обучения. Это дает гибкость в управлении работой модели во время выполнения, что важно для задач, где требуется быстрая адаптация. ## Результаты Исследование проводилось на стандартных бенчмарках, включающих задачи, такие как обнаружение объектов и интерактивные задачи генерирования текста. Были проведены эксперименты, показавшие, что новая методика дает значительный улучшение в контролируемости модели. Например, модель может быть настроена на приоритет точности или ширины обнаружения, в зависимости от задачи. Было также показано, что она показывает лучшие результаты по сравнению с другими методами гарантии точности результатов. ## Значимость Предложенный подход может быть применен в различных областях, таких как робототехника, интерактивные системы обучения и системы помощи, где требуется контролируемая интерактивность. Он позволяет улучшить качество результатов, давая пользователям большее количество возможностей для регулирования модели. Это также может привести к экономии ресурсов, так как пользователи могут регулировать ширину процесса поиска, уменьшая необходимость выполнения дорогостоящих операций. ## Выводы Наша работа представляет первую методику для контролируемого декодирования MLLM через вознаграждение. Мы демонстрируем, что модель может быть настроена на приоритет точности или ширины результатов и показывает лучшие результаты по

Annotation:

As Multimodal Large Language Models (MLLMs) gain widespread applicability, it is becoming increasingly desirable to adapt them for diverse user needs. In this paper, we study the adaptation of MLLMs through controlled decoding. To achieve this, we introduce the first method for reward-guided decoding of MLLMs and demonstrate its application in improving their visual grounding. Our method involves building reward models for visual grounding and using them to guide the MLLM's decoding process. Con...

ID: 2508.11616v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Is ChatGPT-5 Ready for Mammogram VQA?

2025-08-19

Авторы:

Qiang Li, Shansong Wang, Mingzhe Hu, Mojtaba Safari, Zachary Eidex, Xiaofeng Yang

#### Контекст В последние годы внимание к вопросам превентивного здравоохранения, в том числе скринингу рака молочной железы, существенно прогрессировало. В этой области важная роль отводится задачей визуального вопросования и ответа (VQA) на маммограммы. Эта задача сочетает интерпретацию изображений с клиническим рассуждением и может поддерживать процесс обнаружения рака молочной железы. Однако существующие модели иногда сталкиваются с ограничениями в точности и контекстуальной точности в клинических задачах. Это делает необходимым развитие моделей с более высоким уровнем производительности и точности. #### Метод Мы использовали пять моделей GPT-5 и одну модель GPT-4o для систематического оценивания их производительности в задачах VQA на маммограммах. Относительно области применения, мы использовали четыре публичных набора данных: EMBED, InBreast, CMMD и CBIS-DDSM. Обучение и оценка проводились в рамках задач классификации различных аспектов, таких как плотность, дисторсия, массы, кальцификации и малignant (меланома). Для обеспечения сравнительной оценки, мы сравнили результаты моделей с результатами человеческих экспертов. #### Результаты Модель GPT-5 показала себя как самая высокопроизводительная модель в задачах классификации плотности, дисторсии, масс и кальцификаций. К примеру, на датасете EMBED модель достигла следующих результатов: 56.8% в классификации плотности, 52.5% в дисторсии, 64.5% в классификации масс, 63.5% в кальцификации и 52.8% в классификации малignant. Однако, несмотря на эти результаты, GPT-5 показала себя хуже биомедицинских моделей, предназначенных специально для таких применений. На датасете InBreast, GPT-5 достиг 36.9% BI-RADS accuracy, 45.9% обнаружения аномалий и 35.0% классификации малignant. На датасете CMMD GPT-5 достиг 32.3% обнаружения аномалий и 55.0% классификации малignant. На CBIS-DDSM GPT-5 показала 69.3% BI-RADS accuracy, 66.0% обнаружения аномалий и 58.2% классификации малignant. #### Значимость GPT-5 может быть применена в первичных скринингах и предварительной диагностике, но её производительность недостаточна для применения в высокорисковых клинических средах без дополнительной оптимизации. Несмотря на это, улучшения, достигнутые от GPT-4o до GPT-5, показывают перспективу широкомасштабных общих моделей языка (LLMs) в помощь классическим задачам радиологии. #### Выводы Мы показали, что хотя GPT-5 показывает заметные улучшения по сравнению с предыдущими моделями, она ещё не готова для применения в клинических задачах без дополнительной адаптации. Н

Annotation:

Mammogram visual question answering (VQA) integrates image interpretation with clinical reasoning and has potential to support breast cancer screening. We systematically evaluated the GPT-5 family and GPT-4o model on four public mammography datasets (EMBED, InBreast, CMMD, CBIS-DDSM) for BI-RADS assessment, abnormality detection, and malignancy classification tasks. GPT-5 consistently was the best performing model but lagged behind both human experts and domain-specific fine-tuned models. On EMB...

ID: 2508.11628v1 cs.CV, cs.AI

arXiv PDF

📄 Preacher: Paper-to-Video Agentic System

2025-08-18

Авторы:

Jingwei Liu, Ling Yang, Hao Luo, Fan Wang, Hongyan Li, Mengdi Wang

## Контекст Превращение научных статей в видеоабстракты — это важное исследование в области автоматического понимания текста и видеогенерирующих систем. Несмотря на развитие современных технологий по генерированию видео, они сталкиваются с рядом ограничений: ограниченный контекстный окно, жесткие ограничения по продолжительности видео, ограниченная стилистическая разнообразие, а также невозможность включить доменно-специфические знания в процесс генерирования. Эти ограничения приводят к недостаточности достижений в создании доступных, легко воспринимаемых и стилистически разнообразных видеоабстрактов. Чтобы компенсировать эти проблемы, предложено разработать новую систему Preacher, чтобы обеспечить эффективное и качественное преобразование научных текстов в видео. ## Метод Preacher является первым агентным системой, ориентированной на преобразование научных статей в видео. Она применяет верхнюю-внизую и низкую-вверхую методику, которая позволяет декомпозировать, суммировать, и реформулировать текст научной статьи. Для генерирования видео используется низкоуровневая генерация видео, синтезирующая различные видео-сегменты в более гармоничный абстракт. Для повышения точности кросс-модальных представлений, Preacher вводит ключевые сцены и развивает непрерывный цепной метод (Progressive Chain of Thought, P-CoT) для построения более точного планирования. Это позволяет генерировать видео, которые являются высококачественными и доступными для широкого круга пользователей. ## Результаты Preacher проводила ряд экспериментов, используя разнообразные научные статьи из пяти различных научных областей. Эксперименты показывают, что система эффективно разбирает и понимает тексты, а также создает высококачественные видеоабстракты, содержащие ключевые методы, результаты и выводы. Это позволяет системе преобразовать сложные научные тексты в простой и понятный формат, что значительно увеличивает их доступность для широкой аудитории. Данные эксперименты подтверждают, что Preacher превосходит существующие модели в области генерирования видеоабстрактов. ## Значимость Результаты Preacher открывают новые возможности для сферы образования, ученых публикаций и общественного понимания научных текстов. Система может использоваться для создания доступных, кратких и стильно оформленных видео-абстрактов, что облегчает понимание и распространение научных идей. Благодаря своей подходу, Preacher может играть ключевую роль в области видеогенерирования, позволяя генерировать высококачественные видео, которые могут применяться не только в образовательных подхода

Annotation:

The paper-to-video task converts a research paper into a structured video abstract, distilling key concepts, methods, and conclusions into an accessible, well-organized format. While state-of-the-art video generation models demonstrate potential, they are constrained by limited context windows, rigid video duration constraints, limited stylistic diversity, and an inability to represent domain-specific knowledge. To address these limitations, we introduce Preacher, the first paper-to-video agenti...

ID: 2508.09632v3 cs.CV, cs.AI

arXiv PDF

📄 PTQAT: A Hybrid Parameter-Efficient Quantization Algorithm for 3D Perception Tasks

2025-08-18

Авторы:

Xinhao Wang, Zhiwei Lin, Zhongyu Xia, Yongtao Wang

## Контекст Пост-тренировочная квантизация (PTQ) и квантизация с подготовительным обучением (QAT) являются двумя основными подходами к квантизации моделей. PTQ, несмотря на свою простоту и эффективность, часто приводит к существенной потере качества в квантизированных моделях, особенно в задачах 3D-перцепшн. QAT, хотя и позволяет сохранить более высокое качество, требует оптимального выбора гиперпараметров и значительного увеличения нагрузки на GPU из-за тонкой настройки весов. На практике, обе эти технологии имеют ограничения, делая их менее привлекательными для эффективного развертывания 3D-сенсоров. Многие работы сосредоточены на достижении баланса между точностью и эффективностью, но не добиваются желаемых результатов в 3D-перцепшн, где качество важно для конкретных приложений, таких как автотранспорт. Наша мотивация заключается в разработке метода, который сочетает лучшие аспекты PTQ и QAT, обеспечивая эффективность и высокое качество для различных 3D-сетей. ## Метод Мы предлагаем PTQAT — новую гибридную алгоритм квантизации, который адаптивно выбирает критичные слои для QAT, оставляя остальные слои для PTQ. Особенностью нашего подхода является то, что мы ориентируемся не на слои с наибольшими расхождениями при квантизации, а на слои с менее заметными изменениями после квантизации. Мы предполагаем, что при таком подходе можно лучше компенсировать пропагацию ошибок квантизации. Это позволяет существенно уменьшить время обучения и требования к ресурсам GPU. Также мы доказали, что наш метод работает с различными типами моделей, включая CNNs и Transformers, и поддерживает различные бит-величины квантизации (например, 4 бита). Это делает PTQAT универсальным инструментом для удовлетворения различных задач 3D-перцепшн. ## Результаты Мы проверили наш алгоритм на наборе данных nuScenes, который включает в себя задачи объектного детектирования, сегментации и прогнозирования оккупантности. Наш алгоритм показал значительные улучшения по сравнению с QAT-только базой. Например, в задаче объектного детектирования, PTQAT повысил NDS ( nuScenes Detection Score) на 0.2%-0.9%, а в сегментации повысил mIoU (mean Intersection over Union) на 0.3%-2.0%. Эти результаты достигнуты за счет того, что мы квантизируем меньше слоев, а именно проводим QAT только для критичных слоев. Это позволяет эффективно использовать ресурсы и получить высокое качество модели. ## Значимость PTQAT может быть применен в различных приложениях, таких как автоматическое управление транспортом, видеонаблюдение и AR/VR. Он обеспечивает высокое качество модели, при этом эффективно используя ресурсы и уменьшая

Annotation:

Post-Training Quantization (PTQ) and Quantization-Aware Training (QAT) represent two mainstream model quantization approaches. However, PTQ often leads to unacceptable performance degradation in quantized models, while QAT imposes substantial GPU memory requirements and extended training time due to weight fine-tuning. In this paper, we propose PTQAT, a novel general hybrid quantization algorithm for the efficient deployment of 3D perception networks. To address the speed accuracy trade-off betw...

ID: 2508.10557v2 cs.CV, cs.AI

arXiv PDF

📄 Unlocking Robust Semantic Segmentation Performance via Label-only Elastic Deformations against Implicit Label Noise

2025-08-16

Авторы:

Yechan Kim, Dongho Yoon, Younkwan Lee, Unse Fatima, Hong Kook Kim, Songjae Lee, Sanga Park, Jeong Ho Park, Seonjong Kang, Moongu Jeon

## Контекст Обработка изображений для сегментации объектов является ключевым вопросом в области машинного обучения, особенно в сферах, таких как автоматизация производства, медицина и системы помощи в управлении трафиком. Однако даже самые продвинутые модели часто сталкиваются с проблемами, связанными с несогласованностью между изображением и его меткой. Такие несогласованности часто вызываются небольшими ошибками в метках, которые не являются очевидными, но все же могут повлиять на качество работы модели. Традиционные методы обучения, которые не учитывают эту проблему, могут привести к ухудшению производительности модели. Данная работа фокусируется на адресации этой проблемы в сегментации с помощью новых методик, которые могут улучшить обучение моделей и увеличить их устойчивость к мелким метковым ошибкам. ## Метод Для решения проблемы несогласованности между изображением и его меткой, авторы предлагают новый подход, который вводит "эластичные деформации" только в метках, но не в изображении. Это позволяет модели сосредоточиться на изучении объектов, не привязываясь к точным меткам, что может быть полезно в ситуациях с небольшими ошибками в метках. Такой подход декомпозирует традиционный процесс обучения, разделяя обработку изображений и меток, что дает модели большую устойчивость и гибкость. Метод использует специальные техники, такие как генерация новых меток через деформации, чтобы улучшить обучение и увеличить устойчивость модели к шумам в метках. ## Результаты Для проверки эффективности предложенного подхода, авторы проводили многочисленные эксперименты на различных датасетах, включая Vaihingen, LoveDA, Cityscapes и PASCAL VOC. Результаты показали, что новый метод приводит к значительным улучшениям в производительности, с увеличением mIoU (mean Intersection over Union) на +2.29, +2.38, +1.75 и +3.39 для соответствующих датасетов. Эти результаты демонстрируют, что эластичные деформации могут значительно улучшить устойчивость модели, даже без дополнительных трюков обучения. Кроме того, когда эта техника используется в сочетании с другими методами, такими как CutMix и Label Smoothing, результаты становятся еще более заметными. ## Значимость Предложенный подход может быть применен в различных областях, где необходима сегментация объектов, включая транспортную инфраструктуру, медицинскую изображования, автоматизированные системы управления производством. Он демонстрирует потенциал для улучшения обучения моделей, даже при наличии небольших мелких несогласованностей в метках. Это может привести к более надежным и точным моделям, которые могут б

Annotation:

While previous studies on image segmentation focus on handling severe (or explicit) label noise, real-world datasets also exhibit subtle (or implicit) label imperfections. These arise from inherent challenges, such as ambiguous object boundaries and annotator variability. Although not explicitly present, such mild and latent noise can still impair model performance. Typical data augmentation methods, which apply identical transformations to the image and its label, risk amplifying these subtle i...

ID: 2508.10383v1 cs.CV, cs.AI

arXiv PDF

📄 PQ-DAF: Pose-driven Quality-controlled Data Augmentation for Data-scarce Driver Distraction Detection

2025-08-16

Авторы:

Haibin Sun, Xinghui Song

#### Контекст Driver distraction detection является критически важной задачей для повышения безопасности дорожного движения и снижения числа дорожно-транспортных происшествий. Однако существующие модели часто сталкиваются с проблемами общеуниверсальности при использовании в реальных условиях. Это происходит в связи с недостатком данных и высокой стоимостью их аннотации, а также существенным дискретностным сдвигом между данными тренировки и условиями развертывания модели. Для решения этих проблем предлагается использовать Pose-driven Quality-controlled Data Augmentation Framework (PQ-DAF), который оптимизирует систему обучения с длинным шпаргалом и улучшает её устойчивость к отклонениям домена. #### Метод PQ-DAF основывается на Pose-driven Quality-controlled Data Augmentation Framework, который включает два основных компонента: Progressive Conditional Diffusion Model (PCDMs) и Sample Quality Assessment Module. PCDMs используется для точного построения ключевых фичей положения водителя. Sample Quality Assessment Module создается на основе CogVLM vision-language model для оценки качества сгенерированных образцов. Этот подход позволяет расширять обучающую выборку, снижая стоимость аннотации, и улучшать устойчивость модели к различным условиям развертывания. #### Результаты Расширенные эксперименты были проведены на данных KITTI и nuScenes. PQ-DAF показал существенный прирост в универсальности модели в сценариях с небольшим количеством данных, превосходя существующие методы. Метод достиг значительных улучшений в обнаружении отвлеченности водителя в условиях недостатка данных, обеспечивая более устойчивый и точный результат. #### Значимость PQ-DAF может быть применен в различных сферах, включая системы автоматизированного движения, дорожное наблюдение, а также для улучшения безопасности на дорогах. Он обеспечивает не только высокую точность в детектировании отвлеченности, но и эффективность в обучении с небольшим количеством данных. Это позволяет существенно сократить затраты на аннотацию данных и расширить поле применения моделей данных. #### Выводы PQ-DAF достигает существенного улучшения в обнаружении отвлеченности водителя в условиях недостатка данных. Он показывает высокую эффективность в расширении тренировочной выборки и улучшения устойчивости к различным условиям развертывания. Будущие исследования будут фокусироваться на расширении применение PQ-DAF к другим сценариям, а также на улучшении точности и скорости распознавания в условиях ограниченных данных.

Annotation:

Driver distraction detection is essential for improving traffic safety and reducing road accidents. However, existing models often suffer from degraded generalization when deployed in real-world scenarios. This limitation primarily arises from the few-shot learning challenge caused by the high cost of data annotation in practical environments, as well as the substantial domain shift between training datasets and target deployment conditions. To address these issues, we propose a Pose-driven Qual...

ID: 2508.10397v1 cs.CV, cs.AI

arXiv PDF

📄 Enhanced Sparse Point Cloud Data Processing for Privacy-aware Human Action Recognition

2025-08-16

Авторы:

Maimunatu Tunau, Vincent Gbouna Zakka, Zhuangzhuang Dai

Опубликовано с ошибкой. ## Контекст Human Action Recognition (HAR) является ключевым компонентом в области здравоохранения, фитнеса и умных технологий для дома и жизнедеятельности. Он позволяет отслеживать и анализировать поведение человека в различных сценариях. Однако, традиционные системы HAR, основанные на визуальном видео, имеют серьезные ограничения в отношении конфиденциальности. Чтобы решить эту проблему, были предложены альтернативные подходы, включая использование mmWave (миллиметровых волн) сенсоров, которые предлагают более приватный способ получения данных о поведении человека. Однако, данные, полученные с mmWave сенсоров, характеризуются спадмизированной и шумной природой, что создает значительные проблемы для обработки данных. В существующих исследованиях использовались три главных метода для обработки данных: DBSCAN (Density-Based Spatial Clustering of Applications with Noise), Hungarian Algorithm и Kalman Filtering. Несмотря на их популярность и эффективность, не была проведена систематическая оценка их взаимодействия и интеграции в контексте mmWave-based HAR. ## Метод Для выполнения данного исследования было проведено подробное сравнительное изучение трех методов обработки данных. Метод DBSCAN используется для идентификации кластеров данных, Hungarian Algorithm для определения сопоставлений между точками, а Kalman Filtering для уменьшения шума и улучшения непрерывности данных. Для этих методов были проведены индивидуальные и парные эксперименты, а также их комбинации. Использовалась база данных MiliPoint, которая представляет собой набор данных, содержащий точечные данные, полученные с mmWave сенсоров. Каждый метод был оценен по критериям точности распознавания действий и компьютерного расхода. На основе этих экспериментов был проведен подробный анализ сильных сторон и недостатков каждого подхода. ## Результаты Результаты экспериментов показали, что ни один из методов, использованных в изоляции, не может обеспечить максимальную точность распознавания и оптимальный компьютерный расход одновременно. Комбинация DBSCAN и Hungarian Algorithm демонстрировала лучшую точность распознавания, но с более высоким компьютерным расходом. Интеграция всех трёх методов значительно улучшила непрерывность и точность данных, но привела к высокому компьютерному расходу. Таким образом, лучшая точность распознавания была достигнута в случае использования трёх методов вместе, но это вызвало значительные затраты на вычисления. ## Значимость Результаты этих исследований имеют большое значение для развития mmWave-based HAR систем. Обнаружено, что лучшая точность распознавания достигается при использовании комбинации методов. Это может быть применено в си

Annotation:

Human Action Recognition (HAR) plays a crucial role in healthcare, fitness tracking, and ambient assisted living technologies. While traditional vision based HAR systems are effective, they pose privacy concerns. mmWave radar sensors offer a privacy preserving alternative but present challenges due to the sparse and noisy nature of their point cloud data. In the literature, three primary data processing methods: Density-Based Spatial Clustering of Applications with Noise (DBSCAN), the Hungarian ...

ID: 2508.10469v1 cs.CV, cs.AI

arXiv PDF

1
2
205
206
207
208
209
227
228

Показано 2061 - 2070 из 2274 записей