📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MindVL: Towards Efficient and Effective Training of Multimodal Large Language Models on Ascend NPUs

2025-09-17

Авторы:

Feilong Chen, Yijiang Liu, Yi Huang, Hao Wang, Miren Tian, Ya-Qi Yu, Minghui Liao, Jihao Wu

#### Контекст Современное развитие искусственного интеллекта способствует появлению моделей, обладающих многомодальными возможностями. Однако обучение таких моделей становится сложным из-за необходимости обработки различных типов данных, включая текст, изображения и таблицы. Это приводит к высоким требованиям к вычислительной мощности и эффективности обучения. Особенно сложной является задача обеспечения высокого качества результатов при ограничении используемых ресурсов. #### Метод MindVL — это многомодальная модель текстового понимания, разработанная для обучения на Ascend NPUs. Она включает в себя собственное разрешение изображений, благодаря чему может обрабатывать изображения в их оригинальном состоянии, не прибегая к традиционному сегментированию на куски. Эта архитектура позволяет сохранить тонкие детали и глобальные характеристики, которые важны для обработки сложных графических контентов. Для эффективного использования Ascend NPUs разработана распределенная фреймворк Mindspeed-MLLM, который обеспечивает устойчивость и точность обучения. MindVL проходит трехфазное обучение: начальная фаза налаживает основы, затем происходит многозадачное обучение, а в конце — инструкционный tuning. Для повышения производительности во время обучения вводятся технологии мультимодального упакования данных и гибридного параллелизма. #### Результаты Эксперименты показали, что MindVL сохраняет высокую точность при меньшем потреблении данных и ресурсов. Она показала результаты схожие с Qwen2.5-VL в общем понимании мультимодальных данных, а также при парсинге документов и таблиц. Особенно выдает удаленные результаты на задачах OCR. Это демонстрирует инновационность архитектуры и ее высокую эффективность в решении задач, требующих глубокого понимания мультимодальных задач. #### Значимость MindVL может применяться в различных областях, таких как разработка систем понимания документов, табличных данных и OCR. Она не только экономит ресурсы, но и предоставляет высококачественные результаты. Это делает ее привлекательной для задач, где необходима эффективность вычислений и точность. #### Выводы MindVL позволяет достичь новых завершений в области обучения многомодальных моделей на малом объеме ресурсов. Будущие исследования будут сфокусированы на том, как расширить типы данных, поддерживаемых моделью, и доработать ее для обработки еще более глубоких задач.

Annotation:

We propose MindVL, a multimodal large langauge model trained on Ascend NPUs. Similar to Qwen2.5-VL, MindVL adopts native-resolution Vision Transformers, which enables it to process images at their original variable resolutions. This design avoids the degradation caused by fixed-resolution tiling while preserving fine-grained details and global layouts, which is crucial for visually dense content such as complex charts and diagrams. To ensure the smooth training of MindVL on Ascend NPUs, we devel...

ID: 2509.11662v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 Multi-Agent Visual-Language Reasoning for Comprehensive Highway Scene Understanding

2025-08-27

Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Дорожная среда представляет собой сложный синергетический процесс, в котором сочетаются физические, светлые и технологические аспекты. Одна из самых важных задач в области транспорта — достичь предельной полноты понимания дорожной среды с помощью анализа видеоданных. Эта задача включает в себя различные задачи, такие как классификация погодных условий, оценка влажности полотна дороги и потоковый трафик. Однако существуют значительные ограничения в точности, эффективности и ресурсоемкость существующих систем. Многие системы используют монолитные архитектуры, которые неэффективно обрабатывают разнообразные данные. Необходима новая подходящая многоагентная система, которая сможет решать несколько задач одновременно, обеспечивающая быстродействие и высокую точность. #### Метод Мы предлагаем многоагентный фреймворк для многозадачного понимания дорожной среды, основанный на стратегии "смеси экспертов". Этот фреймворк использует большую генерическую модель зрения и языка (VLM), такую как GPT-4o, для контекстуализации с помощью данных о специальных темах. Эти конкретные задачи, выраженные в виде цепочки мыслей (CoT-промптов), используются для управления меньшей, но эффективной моделью VLM (например, Qwen2.5-VL-7B). Эта модель выполняет рассуждение в небольших видеопотоках и может взаимодействовать с другими модальностями, такими как видео и датчики дорожного окружения. Многоагентная система может работать с несколькими задачами, включая классификацию погодных условий, оценку влажности полотна дороги и обнаружение транспортной загруженности. Такая система обеспечивает высокую точность и эффективность, при этом решая несколько задач сразу. #### Результаты Мы проводили ряд экспериментов, используя три специализированных набора данных, которые соответствуют вышеупомянутым задачам. Для паведмент-витрины мы использовали многомодальные данные, включающие видео и данные с дорожных датчиков. Экспериментальные результаты показали, что наш фреймворк показывает высокую точность в различных ситуациях, включая технические условия, такие как дожди и снег. Наши результаты показали, что наша многоагентная система значительно превосходит существующие методы, обеспечивая более точный и эффективный анализ дорожной среды. #### Значимость Наш фреймворк может применяться в различных сферах, таких как отдаленное мониторинговое трафиковое управление, системы автоматического обнаружения дорожных условий и технологии поддержки решений. Он предлагает существенные преимущества,

Annotation:

This paper introduces a multi-agent framework for comprehensive highway scene understanding, designed around a mixture-of-experts strategy. In this framework, a large generic vision-language model (VLM), such as GPT-4o, is contextualized with domain knowledge to generates task-specific chain-of-thought (CoT) prompts. These fine-grained prompts are then used to guide a smaller, efficient VLM (e.g., Qwen2.5-VL-7B) in reasoning over short videos, along with complementary modalities as applicable. T...

ID: 2508.17205v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF

📄 Structured Prompting and Multi-Agent Knowledge Distillation for Traffic Video Interpretation and Risk Inference

2025-08-21

Авторы:

Yunxiang Yang, Ningning Xu, Jidong J. Yang

#### Контекст Интеллектуальные транспортные системы (ITS) и автономное вождение требуют эффективного понимания городских и автострадных сцен, а также точного выявления рисков в дорожном трафике. Однако существующие подходы часто сталкиваются с проблемами в области масштабируемости, гибкости и достоверности анализа в условиях сложной и динамичной среды. Эти ограничения приводят к недостаточной точности и неспособности работать в реальном времени. Многие существующие модели не могут обрабатывать видео с низким разрешением или генерировать подробные, контекстуально обоснованные оценки риска. Требуется разработка новых архитектур, которые бы способствовали улучшению точности и эффективности таких систем. #### Метод Мы предлагаем развитый подход, основанный на идее **Structured Prompting** и **Multi-Agent Knowledge Distillation**. Данная модель использует две большие Vision-Language Models (VLMs): GPT-4o и o3-mini. Используя **Chain-of-Thought (CoT)**, эти модели создают разноплановые и подробные выводы, которые в дальнейшем используются для подготовки знаний (pseudo-annotations). Эти аннотации используются для файн-тюнинга меньшего модели, оптимизированной под ресурсы. Результирующая модель, VISTA (Vision for Intelligent Scene and Traffic Analysis), получает мощные результаты в гибридной задаче видео-обработки и риск-инференции, несмотря на то, что имеет многократно меньшую параметрическую структуру. Это позволяет оптимизировать модель для работы на ресурс-ограниченных устройствах, таких как роутеры и смартфоны. #### Результаты В ходе экспериментов мы сравнивали нашу модель VISTA с другими моделями, используя стандартные метрики качества в области видео-описаний, такие как BLEU-4, METEOR, ROUGE-L и CIDEr. Наши результаты показали, что VISTA существенно превосходит своих тестовых моделей по этим метрикам, несмотря на значительное сокращение количества параметров. Мы также проводили эксперименты в среде реального трафика, где видео с низким разрешением были обработаны VISTA с помощью алгоритмов риск-инференции. Эти результаты показали, что VISTA удается генерировать достоверные оценки риска и сформировать контекстуально обоснованные описания трафика, даже при ограниченных возможностях вычислительных ресурсов. #### Значимость Наш подход имеет широкие возможности для применения в различных областях, включая ITS, автономное вождение и системы безопасности транспорта. Визуальный мониторинг трафика, построенный на VISTA, может быть использован для анализа транспортных проблем, оценки рисков и управления дорожной съемкой. Его мощность заключается в том, что он сочетает в себе высокую точность с низкими

Annotation:

Comprehensive highway scene understanding and robust traffic risk inference are vital for advancing Intelligent Transportation Systems (ITS) and autonomous driving. Traditional approaches often struggle with scalability and generalization, particularly under the complex and dynamic conditions of real-world environments. To address these challenges, we introduce a novel structured prompting and knowledge distillation framework that enables automatic generation of high-quality traffic scene annota...

ID: 2508.13439v1 cs.CV, cs.AI, cs.CL, eess.IV

arXiv PDF