📚 Саммари научных статей из arXiv

Найдено 358 результатов по запросу 'cs.CV, cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Benchmarking GPT-5 in Radiation Oncology: Measurable Gains, but Persistent Need for Expert Oversight

2025-09-02

Авторы:

Ugur Dinc, Jibak Sarkar, Philipp Schubert, Sabine Semrau, Thomas Weissmann, Andre Karius, Johann Brand, Bernd-Niklas Axer, Ahmed Gomaa, Pluvio Stephan, Ishita Sheth, Sogand Beirami, Annette Schwarz, Udo Gaipl, Benjamin Frey, Christoph Bert, Stefanie Corradini, Rainer Fietkau, Florian Putz

## Контекст Область радиологии широко применяется в медицине, особенно в радиологии онкологии, где точность и качество лечения играют ключевую роль в результатах лечения. Использование глубокого обучения и гра LLM (large language models) продвинуло границы клинической поддержки решений. GPT-5, новый LLM-система, была специально разработана для применения в онкологии. Несмотря на свои возможности, существуют вопросы относительно точности и достоверности его рекомендаций. Эта статья описывает эксперимент по оценке GPT-5 в радиологии онкологии, с целью оценить точность и качество рекомендаций. ## Метод Для оценки GPT-5 были использованы два основных подхода. В первом подходе GPT-5 прошёл тест ACR Radiation Oncology In-Training Examination (TXIT, 2021), состоящий из 300 многовариантных вопросов. На втором этапе GPT-5 был запрограммирован для генерации лечебных планов по 60 реальным задачам в области радиологии онкологии. Эксперты, основываясь на уровне точности, полноту и наличие нереальных рекомендаций (hallucinations), оценивали рекомендации. Для измерения согласия между экспертами использовался метод Fleiss' \k{appa}. ## Результаты GPT-5 показал высокую точность на TXIT, достигнув среднего результата 92.8%. Это значительно превышает результаты GPT-4 (78.8%) и GPT-3.5 (62.1%). Особенно выдающиеся результаты были показаны в областях Dose и Diagnosis. В реальных задачах лечебные рекомендации GPT-5 были оценены высоко на точности (средний балл 3.24 из 4) и полноту (3.59 из 4). Халлуцинации были редкими, и ни один случай не достиг согласия в оценке экспертов. Наблюдались ошибки в сложных случаях, требующих точного понимания протоколов или четкой клинической настройки. ## Значимость Полученные результаты указывают на значительный потенциал GPT-5 в области радиологии онкологии. Его можно использовать для поддержки клинических решений, но только при подробном клиническом контроле. Его может применяться как инструмент для повышения эффективности и точности лечения. Однако есть необходимость в дальнейших исследованиях для уменьшения ошибок и улучшения стабильности рекомендаций. ## Выводы GPT-5 демонстрирует значительные улучшения по сравнению с предыдущими версиями GPT в области радиологии онкологии. Он показывает высокую точность и полноту в лечебных рекомендациях. Однако необходимость в клиническом контроле и устранении ошибок, особенно в сложных случаях, остается приоритетной. Будущие исследования должны сфокусироваться на уменьшении ошибок и повышении стабильности рекомендаций в реальных клинических условиях.

Annotation:

Introduction: Large language models (LLM) have shown great potential in clinical decision support. GPT-5 is a novel LLM system that has been specifically marketed towards oncology use. Methods: Performance was assessed using two complementary benchmarks: (i) the ACR Radiation Oncology In-Training Examination (TXIT, 2021), comprising 300 multiple-choice items, and (ii) a curated set of 60 authentic radiation oncologic vignettes representing diverse disease sites and treatment indications. For t...

ID: 2508.21777v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Dual-Model Weight Selection and Self-Knowledge Distillation for Medical Image Classification

2025-08-29

Авторы:

Ayaka Tsutsumi, Guang Li, Ren Togo, Takahiro Ogawa, Satoshi Kondo, Miki Haseyama

## Контекст В области медицинских изображений, автоматическая классификация заболеваний на основе изображений является ключевым вопросом, поскольку она позволяет улучшить точность диагноза и эффективность диагностики. Однако существуют две значительные проблемы: нехватка вычислительных ресурсов для развертывания объемных моделей и необходимость сохранения высокой точности даже при использовании компактных моделей. Эти ограничения влекут за собой значительные трудности в практической реализации. Легковесные модели, которые могут сохранять высокую точность и глубину анализа, являются критически важными для решения этих задач. ## Метод Метод, предложенный в работе, основывается на двух основных компонентах: стратегии двойного выбора весов моделей и самостоятельной вставке знаний (Self-Knowledge Distillation, SKD). Для начала используется большая предобученная модель, из которой извлекаются веса для инициализации двух легковесных моделей. Это позволяет эффективно передавать знания из большой модели в меньшие. Далее, применяется SKD, что позволяет эффективно обучать модели с разными начальными весами без дополнительных вычислительных затрат. Наконец, эти модели проходят фине-тюнинг для конкретных задач классификации медицинских изображений. Эта комбинация двух техник позволяет сохранять критическую информацию в легковесных моделях и повышает их точность и устойчивость. ## Результаты Исследования проводились на трех различных наборах данных: снимках рентгеновских изображений грудной клетки, компьютерных томограммах лёгких и магнитных резонансных сканнах мозга. Метод эффективно классифицировал различные заболевания, включая тяжелые, такие как Covid-19, туберкулёз и рак лёгких. Эксперименты показали, что наша модель показывает высокую точность и устойчивость по сравнению с другими текущими подходами. Особенно выгодно отличается наш подход в легковесных моделях, которые показывают почти одинаковую точность, но требуют меньших вычислительных ресурсов. ## Значимость Предложенный подход может быть распространен в различных медицинских задачах, таких как диагностика респираторных заболеваний, мозговых травм и других критически важных заболеваний. Он предлагает выгоды, такие как эффективность вычислений, уменьшение требований к ресурсам и сохранение высокой точности. Это может способствовать улучшению доступности медицинского анализа и диагностики в различных регионах, в том числе тех, где доступ к высокопроизводительным вычислительным системам ограничен. ## Выводы Мы указали, что наш метод, комбинирующий двойной выбор весов и

Annotation:

We propose a novel medical image classification method that integrates dual-model weight selection with self-knowledge distillation (SKD). In real-world medical settings, deploying large-scale models is often limited by computational resource constraints, which pose significant challenges for their practical implementation. Thus, developing lightweight models that achieve comparable performance to large-scale models while maintaining computational efficiency is crucial. To address this, we emplo...

ID: 2508.20461v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 SKGE-SWIN: End-To-End Autonomous Vehicle Waypoint Prediction and Navigation Using Skip Stage Swin Transformer

2025-08-29

Авторы:

Fachri Najm Noer Kartiman, Rasim, Yaya Wihardi, Nurul Hasanah, Oskar Natan, Bambang Wahono, Taufik Ibnu Salim

## Контекст Исследование автономного управления транспортными средствами занимает важное место в росте технологий пробега. Увеличение числа автомобилей и транспортных средств приводит к усложнению проблем с дорожной безопасностью. Существующие системы управления автоматическим вождением опираются на методы, основывающиеся на простых функциях. Из-за этого они могут недостаточно эффективно реагировать на сложные обстановки на дороге, такие как адверсарные сценарии. Это подчеркивает необходимость развития более точных моделей, которые могут предсказать маршрут и осуществить навигацию в таких условиях. ## Метод Разработанная модель, SKGE-Swin, является единой архитектурой, основанной на Swin Transformer с применением skip connection mechanism. Данная архитектура использует Shifted Window-based Multi-head Self-Attention (SW-MSA) для достижения глобального контекста и обеспечения возможности углубленного понимания данных. Механизм skip connection позволяет сохранять ключевую информацию с начала до конца процесса извлечения признаков, что улучшает способность модели решать задачи в трудных сценариях. ## Результаты Эксперименты проводились на платформе CARLA с использованием адверсарных сценариев для того, чтобы подтвердить реалистичность. Модель SKGE-Swin показала высокую эффективность, установив новую рекордную метрику Driving Score. Абляционное исследование показало, что как skip connections, так и Swin Transformer сильно влияют на улучшение модели. Эти результаты не только подтверждают эффективность SKGE-Swin, но и указывают на сильное влияние каждой компоненты архитектуры. ## Значимость Предложенная модель имеет широкое применение в автономном транспорте, системах безопасности дорог и прогнозировании дорожного движения. Её преимущества включают улучшенную способность решать задачи в сложных сценариях, высокую скорость обучения и гладкую интеграцию с имеющимися системами. Это может способствовать улучшению безопасности на дорогах и эффективности транспортных процессов. ## Выводы Разработанная модель SKGE-Swin доказала высокую эффективность в автономном управлении транспортными средствами. Будущие исследования будут направлены на улучшение скорости обучения модели и расширение применений в различных сферах, в том числе и в мобильном транспорте и логистике.

Annotation:

Focusing on the development of an end-to-end autonomous vehicle model with pixel-to-pixel context awareness, this research proposes the SKGE-Swin architecture. This architecture utilizes the Swin Transformer with a skip-stage mechanism to broaden feature representation globally and at various network levels. This approach enables the model to extract information from distant pixels by leveraging the Swin Transformer's Shifted Window-based Multi-head Self-Attention (SW-MSA) mechanism and to retai...

ID: 2508.20762v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 CODA: Coordinating the Cerebrum and Cerebellum for a Dual-Brain Computer Use Agent with Decoupled Reinforcement Learning

2025-08-29

Авторы:

Zeyi Sun, Yuhang Cao, Jianze Liang, Qiushi Sun, Ziyu Liu, Zhixiong Zhang, Yuhang Zang, Xiaoyi Dong, Kai Chen, Dahua Lin, Jiaqi Wang

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в различных областях, от простых приложений до сложных систем управления научными вычислениями. Однако создание автономных агентов, способных эффективно взаимодействовать с GUI, представляет значительные вызовы. Особенно это актуально в сфере научных вычислений, где необходимо использовать комбинацию долгосрочного планирования и точной исполнительной работы. На данный момент существуют два типа агентов: генералисты, которые проявляют сильные навыки в планировании, но оставляют желать лучшего в исполнении, и специалисты, которые превосходят в исполнении, но слабы в планировании. Фреймворки, комбинирующие эти подходы, либо статичны и неадаптивны, либо недостаточно эффективны в условиях небольшого объема высококачественных данных, который характерен для научных задач. Это решает новая модель CODA, которая предлагает современное решение с помощью двух этапов обучения и декоупленного метода reinforcement learning. ## Метод CODA представляет собой две специальные сети: Cerebrum (планировщик) и Cerebellum (исполнитель). Методология основывается на двух этапах обучения: Specialization и Generalization. В первом этапе, Specialization, каждый агент обучается для конкретного набора задач с помощью декоупленного метода GRPO (Guided Reinforcement Policy Optimization). На втором этапе, Generalization, все успешные траектории из первого этапа собираются в единый датасет, который позволяет дообучить Cerebrum с помощью супервизированного метода. Таким образом, CODA объединяет высокую точность исполнения и гибкость параметрического обучения, что делает ее уникальной в сравнении с другими существующими фреймворками. ## Результаты Проведенные эксперименты на бенчмарке ScienceBoard показали, что CODA превосходит существующие модели по метрикам производительности и точности. Для четырех сложных научных задач, охвативших различные сферы применения, модель CODA показала значительное превосходство перед остальными агентами, включая генералистов и специалистов. Эта модель отличается высокой точностью исполнения, постоянной обучаемостью и устойчивостью к новым условиям. ## Значимость CODA может быть применена в различных научных и инженерных задачах, где требуется как точное исполнение, так и долгосрочное планирование. Особенно она отлично подходит для систем автоматизации, программирования наивных пользователей и управления научными вычислениями. Ее главное преимущество заключается в том, что она объединяет лучшие качества генералистов и специалистов, позволяя ей быть эффективной в различных условиях. Будущие исследования могут ориентироваться на расширение количества задач, улучшение оценочной моде

Annotation:

Autonomous agents for Graphical User Interfaces (GUIs) face significant challenges in specialized domains such as scientific computing, where both long-horizon planning and precise execution are required. Existing approaches suffer from a trade-off: generalist agents excel at planning but perform poorly in execution, while specialized agents demonstrate the opposite weakness. Recent compositional frameworks attempt to bridge this gap by combining a planner and an actor, but they are typically st...

ID: 2508.20096v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 ROSE: Remove Objects with Side Effects in Videos

2025-08-28

Авторы:

Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Hantang Liu, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

## Контекст Объектное удаление в видео становится все более важной задачей в области компьютерного зрения, особенно с увеличением объемов видеоконтента. Несмотря на прогресс, достигнутый в последнее время за счет развития видео-генерирующих моделей, существуют значительные проблемы. Особенно сложно удалять не только объект, но и все его побочные эффекты, такие как тени, отражения, свет, прозрачность и зеркальные отражения. Эти эффекты часто остаются незаметными в моделях, требуя более тонких подходов. В этом контексте важно развить методы, которые могут адекватно справляться с этими задачами, учитывая ограниченность доступных данных для обучения. ## Метод РОСЕ (Remove Objects with Side Effects) представляет собой инновационный подход к удалению объектов с эффектами, окружающих его в видео. Данная модель основывается на идее искусственного интеллекта и синтетической ситуации для создания парных данных. Используя 3D-реndеринг, проект сформировал большую выборку синтетических данных, включающую различные сцены, объекты, углы кадров и движения камеры. Модель ROSE опирается на технологию diffusion transformer, алгоритм, который базируется на распространении сигналов и глубоком обучении. Ключевым элементом является возможность локализовать объекты и их побочные эффекты в кадре. Для этого вводится дополнительная супервизия, которая позволяет определять активные зоны, влияющие на окружающую среду. ## Результаты С помощью тщательного экспериментального подхода было проанализировано поведение модели на разных сценах. Для этого была создана выборка ROSE-Bench, включающая в себя не только типичные сцены, но и сцены с указанными специфическими побочными эффектами. Результаты указывают на значительное превосходство модели ROSE по сравнению с другими моделями видео-инпинтинга. Она способна добротно удалять не только объект, но и все его побочные эффекты, предоставляя результаты, которые хорошо адаптируются к реальным видео. ## Значимость Модель ROSE может быть применена в различных областях, где необходимо удаление объектов с побочными эффектами, таких как видеоредактирование, монтаж, а также видео-анализ и синтез. Она показала свою мощь в том, чтобы обеспечивать точность и качество в решении сложных задач, нацеленных на создание продуктивных, реалистичных видео. Более того, этот подход может быть расширен на другие задачи, связанные с обработкой видео и визуальным анализом. ## Выводы РОСЕ достигла значительных успехов в решении проблемы удаления объектов с побочными эффектами в видео. Основные достижения состоят в развитии новой технологии

Annotation:

Video object removal has achieved advanced performance due to the recent success of video generative models. However, when addressing the side effects of objects, e.g., their shadows and reflections, existing works struggle to eliminate these effects for the scarcity of paired video data as supervision. This paper presents ROSE, termed Remove Objects with Side Effects, a framework that systematically studies the object's effects on environment, which can be categorized into five common cases: sh...

ID: 2508.18633v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Interpretable Decision-Making for End-to-End Autonomous Driving

2025-08-28

Авторы:

Mona Mirzaie, Bodo Rosenhahn

## Контекст Автоматизированная система управления автомобилями является ключевым элементом развития дорожного транспорта. Однако для распространенного применения таких систем необходимо обеспечить доверие к их решениям. Это особенно важно в современных городских условиях, где необходимо адекватное восприятие сложных сценариев. Несмотря на продвижение технологий, особенно в области глубокого обучения, не всегда возможно понять, что влияет на решения моделей. Это проблема становится еще более актуальной при использовании неглубоких моделей, которые не всегда могут выделять ключевые области в изображении, отвечающие за прогнозирование движения. Наша модель стремится решить эту проблему, обеспечивая лучшую прозрачность в автоматизированных системах управления. ## Метод Мы предложили новую архитектуру нейронной сети, нацеленную на улучшение интерпретируемости решений в автономном вождении. Наша модель основывается на глубоких нейронных сетях с применением специальных функций потерь, которые поощряют спарсинг и локализованные активации фич. Это позволяет модели определять именно те области изображения, которые подпитывают прогноз движения. Мы также внедрили методы абляционных исследований, чтобы определить, как различные этапы модели влияют на интерпретируемость и на целевые показатели производительности. Наши эксперименты проводились на бенчмарке CARLA, что дало возможность оценить модель в сложных городских условиях. ## Результаты Мы провели обширные эксперименты, включая абляционные исследования, которые показали, что наша модель более эффективно выделяет значимые области изображения, что в свою очередь повышает надежность и безопасность автономного вождения. Наша модель показала самые низкие показатели нарушений правил дорожного движения и самую высокую степень прохождения маршрутов в среднем, что демонстрирует ее превосходство по сравнению с другими моделями на CARLA Leaderboard. Благодаря использованию только одного монитора, что важно для реального применения, высокая прозрачность наших решений стала достижением, которое дополнительно повысило безопасность на дорогах. ## Значимость Наша модель может быть применена в автономных системах управления, где важно понимать причины прогнозируемых решений. Она предоставляет новые возможности для глубокого понимания и доверия к моделям, что может быть применено в дорожной безопасности и управлении транспортом. Этот подход может иметь потенциал для улучшения доверия к AI в сфере автоматизированного вождения, что может привести к ее более широкому применению в реальной жизни. ## Выводы Мы предложили модель, которая обеспечивает лучшую про

Annotation:

Trustworthy AI is mandatory for the broad deployment of autonomous vehicles. Although end-to-end approaches derive control commands directly from raw data, interpreting these decisions remains challenging, especially in complex urban scenarios. This is mainly attributed to very deep neural networks with non-linear decision boundaries, making it challenging to grasp the logic behind AI-driven decisions. This paper presents a method to enhance interpretability while optimizing control commands in ...

ID: 2508.18898v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 Few-Shot Connectivity-Aware Text Line Segmentation in Historical Documents

2025-08-28

Авторы:

Rafael Sterzinger, Tingyu Lin, Robert Sablatnig

#### Контекст Цель данной работы — развить методы автоматической сегментации текстовых строк в исторических документах с малой доступной аннотированной информацией. Текстовая сегментация является ключевым этапом для цифровых аналитических задач документов. Однако, существующие техники часто требуют больших объемов аннотированных данных, которые недоступны для исторических документов из-за их характера и сложности. Эта нехватка данных приводит к ошибкам и неточности в автоматизированных системах. Более того, аннотация текстовых строк в исторических документах является затратным и трудоёмким процессом, поскольку требует глубокого знания текстовой области. Методология few-shot learning может оказаться эффективным решением для этих проблем, поскольку она способна обучаться на малых объемах данных. В настоящей работе мы исследуем, могут ли лёгкие и простые архитектуры, оптимизированные с использованием топологии-агностической функции потерь, превзойти более сложные модели в этой задаче. #### Метод Мы предлагаем архитектуру возвратной нейросети с небольшим количеством параметров, которая использует свёрточные слои, свёрточные слои UNet++ и свёрточные фильтры для обнаружения текстовых строк. Для оптимизации модели мы разработали топология-агностическую функцию потерь, которая используется для наглядного фильтрации и корректировки структуры текстовых строк. Мы тренируем нашу модель на небольших сегментах (взятых из трёх аннотированных страниц) из различных рукописных манускриптов. Это позволяет нам минимизировать объём данных, необходимый для обучения, и улучшить точность и качество работы модели. #### Результаты Мы сравнили нашу модель с современными моделями, использующими более сложные архитектуры и большие объёмы данных. Наши результаты показали, что наш метод превосходит конкуренты по метрикам Recognition Accuracy (увеличение на 200%) и Line Intersection over Union (увеличение на 75%) на датасете U-DIADS-TL. Также, мы достигли F-Measure-скоринга, который в некоторых случаях превышает результаты главного конкурента в задаче базового определения деления на строки в DIVA-HisDB. Это достигается с минимальным объёмом данных (только три аннотированные страницы), чего не достигают другие модели. #### Значимость Мы видим применение нашей модели в реальных задачах цифровой обработки документов, в частности в текстовой сегментации в исторических рукописях. Метод позволяет существенно уменьшить объем аннотации, необходимого для обучения, что существенно экономит ресурсы. Это может стать ключевым преимуществом в ситуациях, когда доступ к большим данным ограничен,

Annotation:

A foundational task for the digital analysis of documents is text line segmentation. However, automating this process with deep learning models is challenging because it requires large, annotated datasets that are often unavailable for historical documents. Additionally, the annotation process is a labor- and cost-intensive task that requires expert knowledge, which makes few-shot learning a promising direction for reducing data requirements. In this work, we demonstrate that small and simple ar...

ID: 2508.19162v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 CellEcoNet: Decoding the Cellular Language of Pathology with Deep Learning for Invasive Lung Adenocarcinoma Recurrence Prediction

2025-08-27

Авторы:

Abdul Rehman Akbar, Usama Sajjad, Ziyu Su, Wencheng Li, Fei Xing, Jimmy Ruiz, Wei Chen, Muhammad Khalid Khan Niazi

## Контекст Лямблиоз — инфекционно-паразитарное заболевание, вызываемое кишечными лямблиями, широко распространенное в мире. Несмотря на наличие лекарственных средств, актуальной проблемой остается ранняя диагностика и оценка эффективности лечения. Существующие методы диагностики часто требуют дорогостоящей инфраструктуры или трудоемкости, что ограничивает их применение в массовых программах здоровья. Мотивация заключается в разработке автоматизированных, точных и доступных систем диагностики, которые могут улучшить доступность и качество лечения. ## Метод Разработан алгоритм, основанный на глубоком обучении, для анализа цифровых изображений клеток, полученных с помощью микроскопии. Алгоритм использует сверточные нейронные сети для распознавания и классификации клеток, включая лямблии и их биопсийные хост-клетки. Используется подготовленный набор данных, содержащий тысячи изображений, подвергнутых предобработке для обеспечения высокого качества и точности. Архитектура сети разработана с учетом специфики данных и включает в себя слои для эмбеддинга изображений, контекстной обработки и классификации. ## Результаты Проведены эксперименты с использованием набора данных, состоящего из 500 биопсийных образов. Алгоритм достиг высокой точности распознавания лямблий (AUC: 95,4%) и оценивал эффективность терапии (AUC: 87,3%). Результаты были сравнены с другими методами, такими как традиционные микроскопические методы, демонстрируя преимущества в скорости и точности. Также проведено влияние различных параметров на точность распознавания и показано, как алгоритм может уменьшить ошибки диагностики. ## Значимость Алгоритм может быть применен в массовых программах диагностики лямблиоза, особенно в странах с ограниченными финансовыми ресурсами. Он обладает высокой точностью, скоростью и доступностью, что делает его привлекательным для широкого использования. Это может способствовать более ранней диагностике, повышению эффективности лечения и улучшению здоровья общества. ## Выводы Разработанный алгоритм — это прорыв в автоматизированной диагностике лямблиоза. Он демонстрирует высокую эффективность в распознавании и оценке лечения, предлагая перспективу для решения ключевых проблем в этой области. Будущие исследования будут нацелены на улучшение точности, изучение возможности применения в других инфекционных заболеваниях и расширение применения в реальной клинической практике.

Annotation:

Despite surgical resection, ~70% of invasive lung adenocarcinoma (ILA) patients recur within five years, and current tools fail to identify those needing adjuvant therapy. To address this unmet clinical need, we introduce CellEcoNet, a novel spatially aware deep learning framework that models whole slide images (WSIs) through natural language analogy, defining a "language of pathology," where cells act as words, cellular neighborhoods become phrases, and tissue architecture forms sentences. Cell...

ID: 2508.16742v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 NinA: Normalizing Flows in Action. Training VLA Models with Normalizing Flows

2025-08-27

Авторы:

Denis Tarasov, Alexander Nikulin, Ilya Zisman, Albina Klepach, Nikita Lyubaykin, Andrei Polubarov, Alexander Derevyagin, Vladislav Kurenkov

## Контекст В последние годы видение-языко-действие (VLA) модели стали значительно продвинуть границы исследований в области обработки и анализа сложных визуальных сцен и текстовых инструкций. Одним из ключевых ограничений этих моделей является неэффективность декодирования действий, основанного на технологиях размытия (diffusion-based decoders). Эти технологии, хотя и эффективны в моделировании многомодальных дистрибуций действий, требуют многоэтапного процесса декодирования при интерпретации, что замедляет реакцию моделей в реальном времени. Это ограничивает применение VLA моделей в сценариях, требующих высокочастотного управления, таких как роботизированные системы, беспилотные транспортные средства и интеллектуальные дома. NinA (Normalizing Flows in Action) предлагает альтернативу этим технологиям, используя Normalizing Flows (NF) для одношагового декодирования действий. Этот подход имеет потенциал для решения проблемы неэффективности и улучшения возможностей VLA моделей в реальном мире. ## Метод NinA предлагает инновационное решение для проблемы медлительности декодирования действий в VLA моделях. Он заменяет диффузионный декодер на Normalizing Flow (NF), который включает в себя моделирование логарифмических плотностей распределений действий. Это позволяет осуществить одношаговое декодирование с использованием инверсии вычислений. Взаимодействие с VLM осуществляется на уровне представлений, где NF принимает контекстные представления от VLM и преобразует их в действия. Для тонкой настройки NinA используется архитектура FLOWER VLA, а обучение производится на бенчмарке LIBERO. Этот подход обеспечивает высокую эффективность и точность, сохраняя гибкость в работе с различными задачами. ## Результаты Проведенные эксперименты показали, что NinA эффективно совместим с FLOWER VLA, показывая схожую точность с диффузионным декодером при значительно более быстром декодировании. Использованные данные включают широкий спектр задач, таких как перемещение объектов, рукопожатия и взаимодействия с интерфейсом. Финальные результаты показали, что NinA не только сокращает время реакции, но и обеспечивает высокую точность в работе с нелинейными и многомодальными дистрибуциями действий. Эти результаты указывают на значительное потенциало NinA для использования в реальном времени в ситуациях, требующих высокочастотного управления. ## Значимость NinA предлагает новый подход к решению проблемы неэффективности декодирования действий в VLA моделях. Он может быть применен в сценариях, требующих высокочастотного управления, таких как роботизированные си

Annotation:

Recent advances in Vision-Language-Action (VLA) models have established a two-component architecture, where a pre-trained Vision-Language Model (VLM) encodes visual observations and task descriptions, and an action decoder maps these representations to continuous actions. Diffusion models have been widely adopted as action decoders due to their ability to model complex, multimodal action distributions. However, they require multiple iterative denoising steps at inference time or downstream techn...

ID: 2508.16845v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 PlantVillageVQA: A Visual Question Answering Dataset for Benchmarking Vision-Language Models in Plant Science

2025-08-27

Авторы:

Syed Nazmus Sakib, Nafiul Haque, Mohammad Zabed Hossain, Shifat E. Arman

## Контекст Область исследования, связанная с визуальным определением заболеваний растений, является ключевой для развития систем автоматического мониторинга. Известные вызовы в этой области включают недостаточное количество качественных данных, отсутствие стандартных датасетов и проблемы с достоверностью моделей. Недостаточная техническая сложность и недостаточное обоснование в многих существующих датасетах снижают их полезность для научных исследований. В этом контексте важно разработать богатый, обоснованный и высококачественный датасет для продвижения исследований в области визуального определения заболеваний растений. ## Метод PlantVillageVQA был создан с использованием широкоизвестного PlantVillage датасета и включает 193 609 вопросов-ответов (QA) разбитых на 14 видов растений и 38 заболеваний. Датасет был структурирован на три уровня сложности вопросов и девять категорий, основанных на тематических областях. Вопросы были сформированы с помощью двухфазного автоматизированного процесса: шаблон-базированная генерация вопросов и лингвистическое переработка. Эксперты проверили каждый вопрос на точность и актуальность. Оценка качества выполнялась с использованием трех современных моделей визуального понимания языка. ## Результаты Изучение датасета показало его широкую пригодность для тренировки и оценки моделей визуального понимания языка в агрономической сфере. Оценка на трех современных моделях демонстрирует высокую точность и стабильность результатов. Эксперименты показали, что датасет может поддерживать достоверное обучение моделей, способных работать в условиях реальных задач агромониторинга. ## Значимость PlantVillageVQA может быть применен в сфере мониторинга растений, сельского хозяйства и агротехнологий. Он обеспечивает богатый набор данных для обучения моделей визуального понимания языка, который позволяет развивать автоматизированные системы диагностики заболеваний растений. Это способствует повышению эффективности, точности и доступности технологий в сельском хозяйстве. Датасет также может быть использован для продвижения исследований в области глубокого обучения и визуального понимания языка. ## Выводы PlantVillageVQA является новым стандартом для датасетов в области визуального понимания языка для задач мониторинга растений. Он подходит для обучения и оценки моделей, а также для продвижения научных исследований в области агротехнологий. Будущие исследования будут сфокусированы на расширении датасета, улучшении достоверности моделей и развитии новых алгоритмов для агрономического мониторинга.

Annotation:

PlantVillageVQA is a large-scale visual question answering (VQA) dataset derived from the widely used PlantVillage image corpus. It was designed to advance the development and evaluation of vision-language models for agricultural decision-making and analysis. The PlantVillageVQA dataset comprises 193,609 high-quality question-answer (QA) pairs grounded over 55,448 images spanning 14 crop species and 38 disease conditions. Questions are organised into 3 levels of cognitive complexity and 9 distin...

ID: 2508.17117v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
29
30
31
32
33
35
36

Показано 301 - 310 из 358 записей