📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 SWIRL: A Staged Workflow for Interleaved Reinforcement Learning in Mobile GUI Control

2025-08-29

Авторы:

Quanfeng Lu, Zhantao Ma, Shuai Zhong, Jin Wang, Dahai Yu, Michael K. Ng, Ping Luo

## Контекст Область исследований, связанная с mobile GUI control (контролем пользовательских интерфейсов мобильных приложений), получила значительный интерес в последние годы, особенно в связи с развитием крупных моделей визуального языка (LVLMs) и их возможностями в области естественных языков. Несмотря на этот прогресс, существующие методы либо ограничены в своих возможностях, либо неэффективны в условиях реального времени. Это приводит к необходимости разработки более устойчивых и мощных систем, которые могут легко переключаться между высокоуровневыми и низкоуровневыми задачами. Целью данной работы является разработка методологии, которая могла бы оптимизировать многоагентные системы, обеспечивая их эффективную координацию и устойчивость в различных сценариях. ## Метод SWIRL (Staged Workflow for Interleaved Reinforcement Learning) представляет собой инновационный подход к обучению многоагентных систем. Он преобразует задачи многоагентного обучения в последовательность задач обучения одного агента. В этой модели каждый агент обучается по очереди, при этом другие агенты остаются неизменными. Этот подход обеспечивает стабильность обучения и позволяет достичь эффективного взаимодействия между агентами. Для гарантии качества и корректности решений в SWIRL внедрены такие теоретические примитивы, как шаг защиты обучения, теорема о монотонном улучшении и гарантии на возврат при оптимизации. Метод также включает в себя Navigator, который преобразует естественный язык и контекст экрана в структурированные планы, и Interactor, который реализует эти планы на уровне атомарных действий. ## Результаты SWIRL протестирован на широком спектре задач, включая обработку естественного языка и контроль низкоуровневых элементов GUI. Обширные эксперименты показали, что SWIRL превосходит существующие методы в выполнении задач, обеспечивая более высокую точность и устойчивость в решении задач. В частности, на мобильных GUI бенчмарках SWIRL демонстрирует улучшение производительности, уменьшая количество ошибок и увеличивая скорость выполнения задач. Этот подход также продемонстрировал свою эффективность в задачах многоагентного математического разумания, подтверждая широкий потенциал SWIRL как основы для развития многоагентных систем. ## Значимость Помимо мобильных GUI-систем, SWIRL может быть применен в таких областях, как управление роботами, системы автоматизированного обучения и обработка изображений. Особенностью SWIRL является его гибкость и мощь, позволяющие применять его в различных контекстах. Этот подход обеспечивает эффективность, стабильность и гарантированные результаты в различных зада

Annotation:

The rapid advancement of large vision language models (LVLMs) and agent systems has heightened interest in mobile GUI agents that can reliably translate natural language into interface operations. Existing single-agent approaches, however, remain limited by structural constraints. Although multi-agent systems naturally decouple different competencies, recent progress in multi-agent reinforcement learning (MARL) has often been hindered by inefficiency and remains incompatible with current LVLM ar...

ID: 2508.20018v1 cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF

📄 Decentralized Vision-Based Autonomous Aerial Wildlife Monitoring

2025-08-23

Авторы:

Makram Chahine, William Yang, Alaa Maalouf, Justin Siriska, Ninad Jadhav, Daniel Vogt, Stephanie Gil, Robert Wood, Daniela Rus

## Контекст Охрана и мониторинг диких животных является важной задачей для сохранения биоразнообразия и эффективного управления природой. Несмотря на прогресс в робототехнике и искусственном интеллекте, существуют значительные вызовы в области эффективного мониторинга и идентификации индивидуальных животных в своих натуральных условиях. Наиболее распространенные подходы заключаются либо в обработке данных с ограниченного набора датчиков, либо в использовании централизованных систем, требующих значительной пропускной способности и высокой надежности связи. Однако эти подходы часто ограничиваются масштабируемостью, гибкостью и надежностью в дикой природе. Мы предлагаем децентрализованную визуальную систему для мониторинга диких животных, которая может работать в реальном времени, используя минимальные сенсоры и обеспечивая масштабируемость для больших групп животных. ## Метод Мы предлагаем децентрализованную архитектуру, основанную на многоквадроторной системе с визуальным подходом для мониторинга животных. Каждый дрон оснащен одной RGB-камерой и использует наши разработанные алгоритмы для обнаружения, идентификации и слежения за животными. Важным аспектом нашего подхода является алгоритм координации, который позволяет квадроторам работать независимо и динамически менять миссии в зависимости от ситуации. Мы использовали набор методов машинного обучения для обнаружения и отслеживания животных, а также алгоритмы сжатия видео для эффективного использования сетевых ресурсов. Наша система не требует централизованного контроля, что делает ее отказоустойчивой и гибкой в работе. ## Результаты Мы проверили нашу систему в реальных условиях на территории леса, где были запущены несколько дронов для мониторинга больших групп животных, включая диких оленей. Наши алгоритмы позволили достичь высокой точности в идентификации и отслеживании животных, даже при движении в тяжелых полярных условиях. Мы также провели эксперименты с разным количеством дронов, продемонстрировав масштабируемость нашей системы. Результаты показали, что наш подход эффективен в разных условиях, обеспечивая надежный мониторинг без необходимости централизованного контроля. ## Значимость Наш подход может быть применен в различных областях, включая охрану природы, исследования диких животных и управление парковыми зонами. Он предлагает преимущества в масштабируемости, низком потреблении ресурсов и надежности в работе. Мы считаем, что наша система может существенно повысить эффек

Annotation:

Wildlife field operations demand efficient parallel deployment methods to identify and interact with specific individuals, enabling simultaneous collective behavioral analysis, and health and safety interventions. Previous robotics solutions approach the problem from the herd perspective, or are manually operated and limited in scale. We propose a decentralized vision-based multi-quadrotor system for wildlife monitoring that is scalable, low-bandwidth, and sensor-minimal (single onboard RGB came...

ID: 2508.15038v1 cs.RO, cs.AI, cs.CV, cs.MA, I.2.9

arXiv PDF

📄 See it. Say it. Sorted: Agentic System for Compositional Diagram Generation

2025-08-23

Авторы:

Hantao Zhang, Jingyang Liu, Ed Li

#### ## Контекст Современные технологии стремятся сократить разрыв между рукописными чертежами и высококачественными композиционными диаграммами. Это важно для областей, где точность и структура рисунков ключевые, например, в научной публикации или проектных работах. Однако существующие системы часто страдают от неточностей в структурировании и несовместимости с ручными чертежами. Недостаток в системах, которые могут эффективно работать с пользовательскими чертежами, ограничивает их применение в профессиональных задачах. Это создает мотивацию для разработки агентных систем, которые могут генерировать точные, работоспособные диаграммы на основе неточных рукописных чертежей. #### ## Метод Методология заключается в создании "агентской системы", которая сочетает в себе визуально-языковую модель (Vision-Language Model, VLM) и большую языковую модель (Large Language Model, LLM). Данная система работает по принципу итеративного лучшения. В ходе каждой итерации Critic VLM проводит квалитативные реляционные редактирования рисунка, в то время как несколько моделей LLM предлагают различные стратегии изменения (от консервативных до агрессивных или фокусированных). Затем Judge VLM выбирает наиболее подходящую стратегию, учитывая глобальные ограничения, такие как аллигатор, композиция и подключение. Это позволяет обеспечить гарантированное улучшение качества изображения, не теряя тех свойств, которые характерны для ручных чертежей. Эта система генерирует результат в виде программных SVG, что делает её легко расширяемой и применимой в различных приложениях. #### ## Результаты Разработанная система протестирована на 10 рукописных чертежах, полученных из публикаций, сравниваясь с двумя лидирующими в своем классе генерирующими изображениями моделями (GPT-5 и Gemini-2.5-Pro). Результаты показали, что предлагаемая система превосходит эти модели в точности композиции и структурировании. Она успешно поддерживает глобальные ограничения, такие как точное размещение элементов, и не вводит нежелательных текстовых элементов. Это означает, что система визуально-языковых моделей может генерировать рисунки, которые не только выглядят правильно, но и соответствуют требованиям задач, где точность и структура ключевые. #### ## Значимость Разработанная система может быть применена в различных областях, таких как создание инфографики, проектирование схем и дизайн. Её преимущества заключаются в том, что она обеспечивает высокую точность и сохранение глобальных ограничений в работе с неточными рукописными чертежами. Это может ускорить процессы, повысить качество работ и снизить трудо

Annotation:

We study sketch-to-diagram generation: converting rough hand sketches into precise, compositional diagrams. Diffusion models excel at photorealism but struggle with the spatial precision, alignment, and symbolic structure required for flowcharts. We introduce See it. Say it. Sorted., a training-free agentic system that couples a Vision-Language Model (VLM) with Large Language Models (LLMs) to produce editable Scalable Vector Graphics (SVG) programs. The system runs an iterative loop in which a C...

ID: 2508.15222v1 cs.AI, cs.CV, cs.MA

arXiv PDF

📄 RED.AI Id-Pattern: First Results of Stone Deterioration Patterns with Multi-Agent Systems

2025-08-21

Авторы:

Daniele Corradetti, José Delgado Rodrigues

## Контекст RED.AI (Reabilita\c{c}\~ao Estrutural Digital atrav\'es da AI) — это инициатива, нацеленная на развитие инновационных технологий для диагностики и реабилитации строений. Одним из ключевых аспектов этого проекта является идентификация патологий в камнях. Известно, что стандартные методы диагностики, основанные на прямом визуальном осмотре специалистами, требуют больших затрат времени и ресурсов. Эти ограничения могут привести к неточностям и отбытию вовремя критических сигналов об износе. Существует необходимость в развитии автоматизированных систем, которые могут помочь экспертам в быстрой и точной диагностике. ## Метод В рамках проекта RED.AI разработан Id-Pattern — система, основанная на агентной системе, способной организовывать совместную работу нескольких специалистов. Эта система имитирует сотрудничество между экспертами, используя многоагентный подход. Система включает в себя пять специальных AI-агентов: литолога, патолога, эколога, консерватора-реставратора и диагностического координатора. Каждый из этих агентов располагает своими собственными моделями и взаимодействует в рамках системы, повышая точность диагностики. Использованные данные включают 28 сложных изображений, показывающих различные патологии камня. ## Результаты В результате экспериментов Id-Pattern достиг невероятного повышения эффективности по сравнению с базовой моделью. В частности, система показала значительное превосходство в точности диагностики и скорости обработки данных. Эти результаты были достигнуты благодаря интеграции специализированных AI-агентов, работающих в командном режиме, и их регулировании через оркестровочную AI-систему. ## Значимость Id-Pattern может быть применен в различных областях, включая архитектурное наследие, геологию и экологию. Инновационный подход позволяет быстро и точно определять патологии в камне, уменьшая трудозатраты и улучшая достоверность диагностики. Эта система может стать ключевым инструментом для экспертов, помогая им эффективно реагировать на сигналы об износе и предотвращать крупные проблемы. ## Выводы Результаты первых экспериментов Id-Pattern показали перспективу этой системы в решении проблем идентификации патологий в камнях. В будущем планируется расширять систему, добавляя больше агентов и улучшая ее интеллектуальные модели. Такой подход может стать моделью для других приложений в области искусственного интеллекта в строительстве и археологии.

Annotation:

The Id-Pattern system within the RED.AI project (Reabilita\c{c}\~ao Estrutural Digital atrav\'es da AI) consists of an agentic system designed to assist in the identification of stone deterioration patterns. Traditional methodologies, based on direct observation by expert teams, are accurate but costly in terms of time and resources. The system developed here introduces and evaluates a multi-agent artificial intelligence (AI) system, designed to simulate collaboration between experts and automat...

ID: 2508.13872v1 cs.CV, cs.MA, I.2.11; I.5.4

arXiv PDF

📄 Think Before You Segment: An Object-aware Reasoning Agent for Referring Audio-Visual Segmentation

2025-08-09

Авторы:

Jinxing Zhou, Yanghao Zhou, Mingfei Han, Tong Wang, Xiaojun Chang, Hisham Cholakkal, Rao Muhammad Anwer

**Резюме** В статье предлагается новый подход к задаче Referring Audio-Visual Segmentation (Ref-AVS), направленный на решение проблем привычных методов, опирающихся на кроп-инвариантные выборки. Традиционные подходы, основанные на представлениях в памяти, часто недостаточно точны и не интерпретируемы. Более того, они затруднены в использовании в случае не всех типов данных. Рассмотренный авторами подход позволяет выделить объект в видео в ответ на запрос в текстовом виде, используя модель Ref-Thinker, которая обрабатывает текст, изображение и звук. Далее используется Grounding-DINO для координатной гранулярности, и SAM2 для точного сегментирования. Новый Ref-AVSBench позволяет тренировать модели с более высокой целесообразностью и повышенной универсальностью. На тесте, который включает в себя более сложную семантику и новые данные, алгоритм показал себя лучше, чем предыдущие модели. Этот подход может стать основой для улучшения семантического понимания в аудио-визуальных системах.

Annotation:

Referring Audio-Visual Segmentation (Ref-AVS) aims to segment target objects in audible videos based on given reference expressions. Prior works typically rely on learning latent embeddings via multimodal fusion to prompt a tunable SAM/SAM2 decoder for segmentation, which requires strong pixel-level supervision and lacks interpretability. From a novel perspective of explicit reference understanding, we propose TGS-Agent, which decomposes the task into a Think-Ground-Segment process, mimicking th...

ID: 2508.04418v1 cs.MM, cs.CV, cs.MA, cs.SD, eess.AS

arXiv PDF

Показано 11 - 15 из 15 записей