📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Towards Generalizable Safety in Crowd Navigation via Conformal Uncertainty Handling

2025-08-08

Авторы:

Jianpeng Yao, Xiaopan Zhang, Yu Xia, Zejin Wang, Amit K. Roy-Chowdhury, Jiachen Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область автономной навигации мобильных роботов в густонаселенных средах является одной из наиболее критически важных и сложных задач современной робототехники. Роботы, обученные с использованием методов обучения с подкреплением (RL), демонстрируют впечатляющие результаты в контролируемых условиях, однако сталкиваются с серьезными проблемами при выходе за пределы обучающего распределения. Это явление, известное как проблема распределения (distribution shift), становится особенно критичным в динамических сценариях с пешеходами, где даже небольшие изменения в поведении людей могут привести к катастрофическим последствиям. Существующие подходы к обеспечению безопасности в навигации часто полагаются на предопределенные правила или консервативные стратегии, которые ограничивают маневренность робота и снижают эффективность в типовых ситуациях. Более того, традиционные методы не учитывают неопределенность в прогнозировании поведения пешеходов, что становится решающим фактором при столкновении с нестандартными паттернами движения. Например, внезапное изменение скорости группы пешеходов, появление агрессивно настроенных индивидов или переход от индивидуального к групповому поведению может привести к систематическим провалам в безопасности. Авторы статьи акцентируют внимание на фундаментальном недостатке современных RL-систем: они оптимизируются только для ожидаемого распределения данных, игнорируя хвостовые сценарии, которые могут быть редкими, но критически важными для безопасности. Это создает ложное чувство надежности и делает таких роботов непригодными для реального применения в неструктурированных человеческих средах. Необходим новый подход, который бы интегрировал оценку неопределенности напрямую в процесс принятия решений, позволяя роботу адаптивно реагировать на непредвиденные обстоятельства без компромисса в эффективности. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный метод, который решает проблему устойчивости к распределениям через интеграцию адаптивного конформного вывода (adaptive conformal inference) в процесс обучения с подкреплением. Система работает по принципу двухуровневой архитектуры: на первом уровне модель прогнозирует будущие траектории пешеходов с оценкой неопределенности, а на втором - использует эти оценки для принятия безопасных решений. Ключевым инновационным элементом является использование конформного предиктора, который генерирует калиброванные доверительные интервалы для предсказаний движения пешеходов. В отличие от традиционных вероятностных методов, конформный вывод обеспечует гарантированный уровень покрытия независимо от базового распределения данных. Система динамически адаптирует эти интервалы на основе текущей сцены, учитывая такие факторы как плотность толпы, скорость движения и исторические паттерны поведения. Внедрение неопределенностей в пространство наблюдений агента осуществляется через специально разработанное представление, включающее как предсказанные траектории, так и соответствующие им доверительные области. Это позволяет агенту не просто реагировать на предсказанное поведение, но и учитывать вероятность отклонения от этих предсказаний. Обучение проводится с использованием метода ограниченного обучения с подкреплением (constrained RL), где ограничения формулируются в терминах максимально допустимого уровня неопределенности при взаимодействии с человеком. Архитектура системы включает три основных компонента: модуль прогнозирования траекторий на основе LSTM-сети с вниманием, модуль конформного предиктора для генерации доверительных регионов, и политику агента, обученную через алгоритм Proximal Policy Optimization (PPO) с safety constraints. Уникальность подхода заключается в том, что границы безопасности адаптируются онлайн, реагируя на текущий уровень неопределенности в среде. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Комплексное экспериментальное исследование проводилось в трех основных направлениях: оценка производительности в in-distribution сценариях, тестирование robustness при различных видах distribution shift, и валидация на реальном роботе. Для in-distribution оценки использовался симуляционный датасет, включающий 10,000 с

Annotation:

Mobile robots navigating in crowds trained using reinforcement learning are known to suffer performance degradation when faced with out-of-distribution scenarios. We propose that by properly accounting for the uncertainties of pedestrians, a robot can learn safe navigation policies that are robust to distribution shifts. Our method augments agent observations with prediction uncertainty estimates generated by adaptive conformal inference, and it uses these estimates to guide the agent's behavior...

ID: 2508.05634v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

Показано 831 - 835 из 835 записей