📚 Саммари научных статей из arXiv

Найдено 124 результатов по запросу 'cs.AI, cs.CV, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Visual Perception Engine: Fast and Flexible Multi-Head Inference for Robotic Vision Tasks

2025-08-19

Авторы:

Jakub Łucki, Jonathan Becktor, Georgios Georgakis, Rob Royce, Shehryar Khattak

## Контекст Одной из основных задач вробототехники является построение эффективных систем визуального восприятия, которые могут обрабатывать несколько задач одновременно, такие как детекция объектов, сегментация сцены и вычисление глубины, с минимальными затратами ресурсов и максимальной производительностью. Несмотря на то, что задачи визуального восприятия вробототехнике широко исследованы, существуют проблемы, связанные с высоким потреблением ресурсов, медленной скоростью выполнения и сложностью интеграции множества моделей. Эти проблемы ограничивают производительность систем визуального восприятия, особенно на устройствах с ограниченными ресурсами, таких как навигационные роботы и смарт-модели. В этом контексте возникает потребность в модульных и эффективных фреймворках, которые могут обеспечить высокую производительность, эффективное использование ресурсов и максимальную гибкость поддержки разных задач. ## Метод Visual Perception Engine (VPEngine) представляет собой модульную архитектуру, ориентированную на эффективное использование GPU для визуальных многозадачных задач. Фреймворк использует глубокую нейронную сеть в качестве фондовой модели (foundation model) с общим компонентом извлечения признаков, который выделяет общие признаки изображения. Эти признаки делятся между несколькими специализированными моделями-задачами (такими как детекция, сегментация и глубина), которые работают параллельно, без необходимости повторного вычисления признаков. Таким образом, VPEngine устраняет ненужные передачи данных между GPU и CPU. Благодаря CUDA Multi-Process Service (MPS), VPEngine обеспечивает оптимальное использование GPU и постоянный фиксированный объем памяти. Фреймворк легко интегрируется с ROS2 и предоставляет связи на языке C++ для удобства использования в различных робототехнических приложениях. ## Результаты Запуск нашего фреймворка показал важное ускорение скорости выполнения визуальных задач. Для примера с DINOv2 в качестве фондовой модели и задачами детекции, сегментации и глубины, VPEngine демонстрирует высокую эффективность, достигая до 3 раз ускорения по сравнению с последовательным выполнением моделей. Это достигается благодаря оптимальной разделяемой архитектуре и распараллеливанию задач. Мы также демонстрируем возможность реального времени с выполнением на уровне $\geq$ 50 герц на NVIDIA Jetson Orin AGX, когда используются оптимизированные TensorRT-модели. Эти результаты доказывают, что VPEngine может обеспечить высокую производительность и гибкость в реальных условиях. ## Значимость VPEngine может применяться в различных робототехнических приложениях, таких как автономная навигация, смар

Annotation:

Deploying multiple machine learning models on resource-constrained robotic platforms for different perception tasks often results in redundant computations, large memory footprints, and complex integration challenges. In response, this work presents Visual Perception Engine (VPEngine), a modular framework designed to enable efficient GPU usage for visual multitasking while maintaining extensibility and developer accessibility. Our framework architecture leverages a shared foundation model backbo...

ID: 2508.11584v2 cs.RO, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 We-Math 2.0: A Versatile MathBook System for Incentivizing Visual Mathematical Reasoning

2025-08-16

Авторы:

Runqi Qiao, Qiuna Tan, Peiqing Yang, Yanzi Wang, Xiaowan Wang, Enhui Wan, Sitong Zhou, Guanting Dong, Yuchen Zeng, Yida Xu, Jie Wang, Chong Sun, Chen Li, Honggang Zhang

## Контекст В последние годы внимание ученых привлекалось к развитию алгоритмов с повышенным уровнем математического рассуждения. Однако, существующие методы часто сталкиваются с ограничениями в обработке сложных задач, недостаточной интеграцией знаний, или неэффективной моделировании пространства данных. Эти ограничения становятся причиной снижения работоспособности существующих систем. Для улучшения моделей математического рассуждения необходимо разрабатывать системы, которые не только оптимизируют данные, но и учитывают структуру знаний, а также применяют мощные методы машинного обучения. ## Метод Мы представляем We-Math 2.0 — универсальную систему, которая объединяет понятия математической системы знаний, моделирования пространства данных и использования методов машинного обучения. Система предлагает 5-уровневую структуру знаний, включающую 491 точек знаний и 1819 основных принципов. Она также включает два типа данных: MathBook-Standard, обеспечивающий широкий покрытие понятий, и MathBook-Pro, который предлагает 7 вариантов под 3-уровневой системой трудности. Для обучения мы предлагаем 2-ступенчатый алгоритм машинного обучения с подкреплением (RL), включающий (i) Cold-Start Fine-tuning для выравнивания модели с цепочкой мыслей, ориентированной на знания, и (ii) Progressive Alignment RL для улучшения прогресса в обучении на разных уровнях сложности. ## Результаты Используя эти компоненты, мы провели эксперименты на широко известных бенчмарках, таких как MathBookEval, а также на собственной математической тетради MathBook. Наши результаты показали, что We-Math 2.0 превосходит существующие модели по многим показателям, включая точность и скорость решения задач. Опробуемые параметры и выборка данных показали, что модель способна эффективно решать задачи, даже в условиях прогрессивного увеличения сложности. ## Значимость Мы видим широкие возможности применения We-Math 2.0 в области образования, искусственного интеллекта, и даже в профессиональной области математических вычислений. Эта система может помочь улучшить образовательные ресурсы, обеспечить более точное моделирование задач, и сделать математику более доступной для широкой аудитории. Будущие исследования будут направлены на расширение знаний, улучшение моделей, и расширение применений в новых областях. ## Выводы В итоге, We-Math 2.0 демонстрирует существенные достижения в области математических моделей, сочетая в себе систему знаний, моделирование пространства данных и новые методы обучения. Наши результаты показывают, что модель показывает высокую эффективность в решении сложных задач мате

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities across various tasks, but still struggle with complex mathematical reasoning. Existing research primarily focuses on dataset construction and method optimization, often overlooking two critical aspects: comprehensive knowledge-driven design and model-centric data space modeling. In this paper, we introduce We-Math 2.0, a unified system that integrates a structured mathematical knowledge system, model-centric data ...

ID: 2508.10433v1 cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Agentic Design Review System

2025-08-16

Авторы:

Sayan Nag, K J Joseph, Koustava Goswami, Vlad I Morariu, Balaji Vasan Srinivasan

#### Контекст Оценка графических дизайнов требует оценки из нескольких ракурсов, включая аллигейшн, композицию, эстетику и выбор цветов. Этот процесс часто затрудняется личными предъявлениями и несогласованностью мнений. Настоящая работа адресована этим проблемам, предлагая Agentic Design Review System (AgenticDRS), где несколько агентов совместно анализируют дизайн под управлением мета-агента. Такой подход позволяет объединить различные взгляды и получить более объективную оценку. #### Метод AgenticDRS использует несколько центральных технологий. Во-первых, **новый метод выбора примеров в контексте**, основанный на графическом соотнешении, позволяет каждому агенту понять контекст своего выбора. Во-вторых, **метод расширения запросов**, применяемый для уточнения информации, помогает агентам адаптироваться к конкретным дизайнам. Мета-агент организует работу всех агентов, обеспечивая согласованность и точность результатов. #### Результаты Для проверки системы был разработан DRS-BENCH, который включает в себя разнообразные типы дизайнов и формулирований. Агенты AgenticDRS были сравнены с текущими состояниями технологии, и результаты показали, что система демонстрирует значительный прогресс в оценке дизайнов и формировании понятных, действительных рекомендаций. Эксперименты также подтвердили улучшение точности и уменьшение времени, необходимого для обработки задачи. #### Значимость AgenticDRS может быть применим в различных областях, включая дизайн, маркетинг и UX-дизайн. Его преимущества заключаются в том, что он обеспечивает более точную, объективную и многогранную оценку дизайна, что может повысить качество программных продуктов и уменьшить время разработки. #### Выводы AgenticDRS представляет собой эффективное решение для проблем оценки графических дизайнов, достигая этого с помощью современных методов машинного обучения и интеллектуальной организации работы. Будущие исследования будут сосредоточены на расширении функциональности системы, улучшении точности и её использовании в реальных задачах.

Annotation:

Evaluating graphic designs involves assessing it from multiple facets like alignment, composition, aesthetics and color choices. Evaluating designs in a holistic way involves aggregating feedback from individual expert reviewers. Towards this, we propose an Agentic Design Review System (AgenticDRS), where multiple agents collaboratively analyze a design, orchestrated by a meta-agent. A novel in-context exemplar selection approach based on graph matching and a unique prompt expansion method plays...

ID: 2508.10745v1 cs.AI, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Real-time deep learning phase imaging flow cytometer reveals blood cell aggregate biomarkers for haematology diagnostics

2025-08-15

Авторы:

Kerem Delikoyun, Qianyu Chen, Liu Wei, Si Ko Myo, Johannes Krell, Martin Schlegel, Win Sen Kuan, John Tshon Yit Soong, Gerhard Schneider, Clarissa Prazeres da Costa, Percy A. Knolle, Laurent Renia, Matthew Edward Cove, Hwee Kuan Lee, Klaus Diepold, Oliver Hayden

## Контекст Анализ редких кровных агрегатов является важной задачей в гематологических исследованиях, так как эти структуры могут существенно улучшить методы диагностики без применения меток. Существующие автоматизированные системы гематологической диагностики, такие как традиционные потоковые цитометры, эффективно подсчитывают клеточки и выделяют их дифференциалы, но не могут распознавать кровных агрегатов, что приводит к необходимости вручную проверять результаты. Это ограничивает мощность технологий цитометрии и снижает их полезность в клинической практике. Была предложена новая технология, которая использует цифровую хологовой микроскопию (DHM) для измерения кровных клеток. Однако применение этой технологии в клинической практике столкнулось с проблемами, такими как большой объем данных и требование к офлайн-обработке. Необходимо разработать систему, которая могла бы решить эти проблемы и внести полезные кровных агрегатов в гематологические панели диагностики. ## Метод Кровные клетки были изображены с помощью цифровой хологовой микроскопии (DHM), которая предоставляет детальные фотографии каждой клетки в трехмерных графах. Для создания модели глубокого обучения для распознавания агрегатов была разработана методология, основанная на энд-то-энд дал мейн обучении. Метод представляет каждую клетку как граф, где узлы соответствуют отдельным кровным клеткам, а ребра - связям между ними. Для обработки больших объемов данных было разработано deep learning-based image processing framework RT-HAD, которое обрабатывает более 30 Гб изображений в реальном времени, используя разработанную архитектуру для быстрого детектирования агрегатов. Такой подход позволяет решать проблему большого объема данных, которая ставила препятствия для клинического применения цитометрии. ## Результаты В ходе исследований был проведен эксперимент с использованием RT-HAD для распознавания кровных агрегатов. Были изучены несколько случаев, включая анализ гематологических агрегатов, таких как лейкоциты и миелоциты, а также агрегаты тромбоцитов. Данные были обработаны в реальном времени, и обнаружены агрегаты с ошибкой в 8.9%. Это значение соответствует приемлемым ошибкам, принятым в лабораторных условиях для диагностики. Было показано, что RT-HAD позволяет не только быстро обрабатывать большие объемы данных, но и уменьшить время отведенное на офлайн-обработку, что решает проблему большого данных в клинической практике. ## Значимость Исследования RT-HAD открывают новые возможности для точечной диагностики, вкл

Annotation:

While analysing rare blood cell aggregates remains challenging in automated haematology, they could markedly advance label-free functional diagnostics. Conventional flow cytometers efficiently perform cell counting with leukocyte differentials but fail to identify aggregates with flagged results, requiring manual reviews. Quantitative phase imaging flow cytometry captures detailed aggregate morphologies, but clinical use is hampered by massive data storage and offline processing. Incorporating h...

ID: 2508.09215v1 q-bio.QM, cs.AI, cs.CV, cs.LG, eess.IV

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-14

Авторы:

Tao Tang, Chengxu Yang

## Контекст Медицинские изображения являются ключевым инструментом в диагностике заболеваний, а их качество имеет прямое влияние на точность клинических оценок. Однако существуют несколько факторов, которые приводят к появлению шума в изображениях, такие как недостаточное дозирование при сканировании, ограничения оборудования и визуальные артефакты. Эти факторы приводят к неровному шуму, который серьезно сказывается на распознавании структур и обнаружении недугов. Для решения этой проблемы требуется эффективный подход к денойсингу медицинских изображений, который мог бы улучшить качество изображений и облегчить взаимодействие с ими в процессе диагностики и лечения. ## Метод Модель MI-ND представляет собой новую модель денойсинга медицинских изображений, использующую многомерную архитектуру, включающую конволюционные слои и Transformer. Она включает в себя два основных компонента: нивелятор шума (NLE) и модуль адаптивного внимания (NAAB). NLE оценивает уровень шума в изображении, а NAAB регулирует внимание канала и пространственное построение изображений. Эти модули работают вместе для достижения лучшего восстановления структур и стабильности изображений, даже при наличии шума. Метод также использует кросс-модальную функцию слияния, чтобы обеспечить устойчивость к различным видам шума и кросс-модальным изменениям. ## Результаты Исследования проводились на нескольких многомодальных общедоступных наборах данных. Эксперименты показали, что MI-ND значительно превосходит конкурирующие методы по таким показателям как PSNR, SSIM и LPIPS. Она также повышает F1-меру и ROC-AUC в задачах диагностики, что демонстрирует ее сильную практическую ценность и потенциал для улучшения медицинских изображений. В частности, MI-ND эффективно восстанавливает структуры, повышает чувствительность диагностики и демонстрирует кросс-модальную устойчивость. Эти результаты подтверждают высокую эффективность модели в решении проблем, связанных с шумом в медицинских изображениях. ## Значимость Модель MI-ND может применяться в различных областях медицинской информатики, включая диагностику, лечение и оценку качества изображений. Ее преимущества заключаются в том, что она обеспечивает точное восстановление структур, улучшает чувствительность диагностики и демонстрирует высокую устойчивость к разным видам шума. Эти достижения могут способствовать улучшению качества диагностики, облегчению процессу лечения и повышению уровня доступности медицинских услуг. Будущие исследования будут сосредоточены на улучшении модели для б

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v2 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 PCA-Guided Autoencoding for Structured Dimensionality Reduction in Active Infrared Thermography

2025-08-13

Авторы:

Mohammed Salah, Numan Saeed, Davor Svetinovic, Stefano Sfarra, Mohammed Omar, Yusra Abdulrahman

## Контекст Active Infrared Thermography (AIRT) является эффективной методом неразрушающего контроля (NDT) для открытия подкристальных аномалий в промышленных компонентах. Однако, большая высокомерность данных AIRT представляет значимые вызовы для различных методов обработки и анализа. Нейронные сети с нелинейными автокодировщиками (AEs) широко используются для уменьшения размерности данных AIRT. Тем не менее, в рамках предложенных систем не возникает пространства, ограниченного структурой, что ограничивает их эффективность в задачах характеристики дефектов. Данная работа предлагает PCA-guided autoencoding framework для получения пространства структуры, которое может эффективно характеризировать нелинейные функции в AIRT, улучшая точность дефектной классификации. ## Метод Предлагаемый PCA-guided autoencoding framework объединяет автокодировщик нейронной сети с методом главных компонент (PCA) для достижения лучшей структурированности в пространстве нейросетевого автокодировщика. Основной инновацией является введение новой функции потерь, названной PCA distillation loss, которая принудительно выравнивает репрезентации нейросети с компонентами PCA. Эта концепция позволяет нейросети присвоить более структурированные веса, улучшая понимание информации в данных AIRT. Для оценки того, насколько пространство характеризует дефекты, предлагается метрика, основанная на нейросетевых моделях, которая анализирует контраст, значение сигнала к шуму (SNR) и эффективность решения задачи. ## Результаты В процессе экспериментов применялись данные из области AIRT, собранные на материалах PVC, CFRP и PLA. Результаты показали, что PCA-guided AE превосходит современные методы уменьшения размерности данных по критериям, таким как контраст, SNR и метрики нейросети. Эти результаты указывают на эффективность в том, что пространство, полученное с помощью PCA-guided AE, характеризует дефекты намного лучше, чем другие методы. Эти результаты отражают то, что структурированное пространство, введенное в PCA distillation loss, позволяет нейросети лучше интерпретировать и выделить нелинейные функции в AIRT. ## Значимость Полученные результаты открывают новые возможности для применения PCA-guided AE в области NDT, особенно в области обнаружения дефектов в материалах PVC, CFRP и PLA. Эта модель может быть применена в различных промышленных секторах, где NDT является критичным. Благодаря структурированному пространству, PCA-guided AE обеспечивает точные данные для выявления дефектов, улучшая возможности обнаружения и мониторинга. Данный подход также показал свою ценность в улучшении общей эффективности и точности AIRT в области NDT. ## Выводы В целом, предложенная PCA-

Annotation:

Active Infrared thermography (AIRT) is a widely adopted non-destructive testing (NDT) technique for detecting subsurface anomalies in industrial components. Due to the high dimensionality of AIRT data, current approaches employ non-linear autoencoders (AEs) for dimensionality reduction. However, the latent space learned by AIRT AEs lacks structure, limiting their effectiveness in downstream defect characterization tasks. To address this limitation, this paper proposes a principal component analy...

ID: 2508.07773v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 MIND: A Noise-Adaptive Denoising Framework for Medical Images Integrating Multi-Scale Transformer

2025-08-13

Авторы:

Tao Tang, Chengxu Yang

## Контекст В области медицинской имейджинга высокая точность диагностики и терапии зависит от качества изображений. Однако, из-за таких факторов, как низкодозная съемка, ограничения оборудования и импульсные искажения, медицинские изображения часто подвержены неоднородному шуму, который сильно сказывается на распознавании структур и обнаружении поражений. Это существенно снижает качество клинической оценки и последующих диагностических задач. Для решения этой проблемы необходимо разработать мощный метод адаптивного денойсинга, который бы учитывал многомерные особенности шума и повышал чувствительность диагностики. ## Метод Предлагаемый фреймворк MIND (Noise-Adaptive Denoising Framework for Medical Images) основывается на сочетании мульти-скайла конволюционных и Transformer-архитектур. Основные компоненты: Noise Level Estimator (NLE), который оценивает градации шума на уровне каналов, и Noise Adaptive Attention Module (NAAB), реализующий кросс-канальное внимание и фузирование спектрально-пространственных признаков. Модель использует сильно выраженный канально-пространственный регулятор при помощи преобразований, взвешенных в соответствии с генерируемым шумом. Данная архитектура позволяет реализовать эффективное кросс-модальное обучение и адаптацию к различным типам шумов в медицинских изображениях. ## Результаты Систематические эксперименты проводились на многомодальных публичных датасетах, включая традиционные и специальные модели шума. Исследования показали, что MIND существенно превосходит существующие методы по таким показателям как PSNR, SSIM и LPIPS, а также повышает F1-меру и ROC-AUC в задачах диагностики. Это свидетельствует о высоком качестве восстановления структур и улучшении значимости диагностических результатов. Модель показала себя как гибкое и эффективное решение для улучшения медицинских изображений и поддержки AI-помощи в клинических задачах. ## Значимость Предложенный подход имеет большое практическое значение в медицинской имейджинге. Он повышает точность диагностики, значительно повышает чувствительность к деталям в изображениях и поддерживает кросс-модальную устойчивость. Это открывает широкие возможности для роботов-диагностиков, повышения эффективности лечения и новых возможностей в нейромашинных исследованиях. Будущие исследования будут нацелены на повышение скорости модели, а также на расширение ее применения к нестандартным типам шумов и более сложным диагностическим сценариям. ## Выводы Разработанный фреймворк MIND доказал свою эффективность в адаптивном денойсинге медицинских и

Annotation:

The core role of medical images in disease diagnosis makes their quality directly affect the accuracy of clinical judgment. However, due to factors such as low-dose scanning, equipment limitations and imaging artifacts, medical images are often accompanied by non-uniform noise interference, which seriously affects structure recognition and lesion detection. This paper proposes a medical image adaptive denoising model (MI-ND) that integrates multi-scale convolutional and Transformer architecture,...

ID: 2508.07817v1 eess.IV, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 FEAT: A Multi-Agent Forensic AI System with Domain-Adapted Large Language Model for Automated Cause-of-Death Analysis

2025-08-13

Авторы:

Chen Shen, Wanqing Zhang, Kehan Li, Erwen Huang, Haitao Bi, Aiying Fan, Yiwen Shen, Hongmei Dong, Ji Zhang, Yuming Shao, Zengjia Liu, Xinshe Liu, Tao Li, Chunxia Yan, Shuanliang Fan, Di Wu, Jianhua Ma, Bin Cong, Zhenyuan Wang, Chunfeng Lian

## Контекст В современной медико-правовой системе существуют серьезные проблемы, связанные с нехваткой квалифицированных специалистов, несогласованностью диагностики и высоким объемом работы. Эти факторы способствуют ошибкам в определении причины смерти и могут привести к неправомерным выводам в правосудии. Одним из главных участников этих проблем является медико-легальная система Китая, где возрастающий набор данных и огромный объем работы становятся крайне трудно управляемыми. Чтобы решить эти проблемы, необходимо автоматизировать процессы анализа и вывода, улучшив точность и скорость диагностики. Наша мотивация заключается в разработке системы, которая могла бы оптимизировать работу значительного числа специалистов и обеспечить консистентность в диагностике. ## Метод Мы предлагаем FEAT (ForEnsic AgenT), многоагентную систему, основанную на доменно-адаптированном размеченном текстовом модели. Эта система включает: (i) **Planner** для декомпозиции задач, (ii) **Local Solvers** для анализа отдельных свидетельств, (iii) **Memory & Reflection Module** для итеративного улучшения и (iv) **Global Solver** для синтеза заключений. Мы использовали **tool-augmented reasoning**, **retrieval-augmented generation**, **forensic-tuned LLMs** и **human-in-the-loop feedback** для обеспечения высокой точности и соответствия правовым и медицинским стандартам. Данная многоуровневая архитектура позволяет гарантировать корректность и эффективность решений, даже при высоком количестве данных. ## Результаты Мы проводили эксперименты на многочисленных коллекциях китайских дел, где FEAT показал значительное превосходство по сравнению с текущими AI-системами в области медико-правового анализа. Мы проверили его в области длинных записей аутопсий и компактных выводов причин смерти. FEAT также продемонстрировал высокую общину в шести различных регионах Китая и высокую согласованность с выводами человеческих экспертов в безуглубленных проверках. Несколько старейшин медицины одобрили результаты FEAT, считая их эквивалентными результатам квалифицированных специалистов, в то же время выделяя лучшую обнаруживаемость тонких элементов доказательств. ## Значимость FEAT может быть применен в многих медико-правовых системах для улучшения эффективности и консистентности работы. Он обеспечивает автоматизацию рутинных процессов, повышает точность диагностики и уменьшает нагрузку на команды экспертов. Это может привести к более справедливому доступу к медицинским услугам и сократить пробелы в медико-легальных процессах. Будущие исследования будут фокусироваться на расширении FEAT для других областей медико-правового анализа и улучшении интеграци

Annotation:

Forensic cause-of-death determination faces systemic challenges, including workforce shortages and diagnostic variability, particularly in high-volume systems like China's medicolegal infrastructure. We introduce FEAT (ForEnsic AgenT), a multi-agent AI framework that automates and standardizes death investigations through a domain-adapted large language model. FEAT's application-oriented architecture integrates: (i) a central Planner for task decomposition, (ii) specialized Local Solvers for evi...

ID: 2508.07950v1 cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 Integrating Vision Foundation Models with Reinforcement Learning for Enhanced Object Interaction

2025-08-12

Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Область исследования, связанная с визуальным распознаванием и искусственным интеллектом, находится в центре внимания в последние годы из-за появления мощных моделей семантического визуального понимания. Однако, несмотря на развитие этих моделей, повышение качества взаимодействия с объектами в симуляционных средах остается вызовом. Обычно, агенты в таких средах сталкиваются с трудностями в распознавании и корректном взаимодействии с объектами из-за ограниченности их представления объектов. Мотивацией для данного исследования является повышение эффективности взаимодействия агента с объектами в симуляционной среде, чтобы позволить им выполнять более сложные задачи. ## Метод Разработанная методология включает в себя интеграцию двух ключевых компонентов: **Segment Anything Model (SAM)** и **YOLOv5** в качестве моделей визуального представления, а также **Proximal Policy Optimization (PPO)** в качестве агента для принятия решений. SAM и YOLOv5 используются для точного распознавания и сегментации объектов в симуляционной среде AI2-THOR. PPO, в свою очередь, оптимизирует поведение агента во время обучения с подкреплением. Основной архитектурой является комбинация этих моделей в одной среде, что позволяет агенту не только распознавать объекты, но и принимать решения о действиях на основе визуальных сигналов. ## Результаты На основе предложенной модели проведены эксперименты в четырех различных индорных кухонных средах. Результаты показали существенные улучшения по сравнению с базовым агентом, не использующим расширенное визуальное представление. Агент, использующий предложенную модель, показал 68% выше средней накопленной награды, 52,5% повышение успешности взаимодействия с объектами и 33% увеличение эффективности навигации. Эти показатели указывают на то, что интеграция визуальных моделей с RL может значительно повысить качество взаимодействия с объектами в симуляционных средах. ## Значимость Предложенный подход имеет широкие применения в сфере робототехники и симуляционных сред, где необходимо точное взаимодействие с объектами. Одним из преимуществ является улучшенная точность распознавания объектов и увеличение эффективности действий в среде. Это может привести к высокой точности и надежности в автоматизированных системах, например, в системах для сервисных роботов, которые должны решать задачи в различных условиях. Будущие исследования могут быть направлены на улучшение моделей визуального понимания и их интеграцию с другими методами задач RL. ## Выводы Предложенный подход, интегрирующий визуальные модели с RL, достиг зна

Annotation:

This paper presents a novel approach that integrates vision foundation models with reinforcement learning to enhance object interaction capabilities in simulated environments. By combining the Segment Anything Model (SAM) and YOLOv5 with a Proximal Policy Optimization (PPO) agent operating in the AI2-THOR simulation environment, we enable the agent to perceive and interact with objects more effectively. Our comprehensive experiments, conducted across four diverse indoor kitchen settings, demonst...

ID: 2508.05838v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY, 68T07, 68T40, 90C40, 93E35, I.2.6; I.2.9; I.2.10

arXiv PDF

📄 VCNet: Recreating High-Level Visual Cortex Principles for Robust Artificial Vision

2025-08-09

Авторы:

Brennen A. Hill, Zhang Xinyu, Timothy Putra Prasetio

Модели сверточных нейронных сетей (CNN), хотя и достигают высокой точности в задачах классификации изображений, обладают серьезными ограничениями: низкая эффективность использования данных, слабая обществойность за пределами обучающего набора и чувствительность к адверсарным направленным помехам. Работа основывается на том, что приматская визуальная система достигает эффективности и высокой устойчивости благодаря своей сложной структуре. В этой работе предлагается VCNet — модель, которая эмулирует биологические принципы работы визуального коры, включая горизонтальное и вертикальное процессинг, двойной поток информации и возвратные прогностические сигналы. Модель протестирована на двух специализированных датасетах: Spots-10 и задаче распознавания изображений в лучах. Результаты показали, что VCNet демонстрирует высокую точность классификации (92.1% на Spots-10 и 74.4% на лучах), превосходя сравнимые модели. Это доказывает, что интеграция природных принципов может привести к более эффективным и устойчивым моделям для решения проблем в машинном обучении.

Annotation:

Despite their success in image classification, modern convolutional neural networks (CNNs) exhibit fundamental limitations, including data inefficiency, poor out-of-distribution generalization, and vulnerability to adversarial perturbations. The primate visual system, in contrast, demonstrates superior efficiency and robustness, suggesting that its architectural principles may offer a blueprint for more capable artificial vision systems. This paper introduces Visual Cortex Network (VCNet), a nov...

ID: 2508.02995v1 cs.NE, cs.AI, cs.CV, cs.LG, 68T07, 68T45, 68U10, I.2.6; I.4.8; I.2.10; I.5.1

arXiv PDF

1
2
10
11
12
13

Показано 111 - 120 из 124 записей