📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.
Annotation:
Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...
ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM
Авторы:

Xinwei Liu, Xiaojun Jia, Yuan Xun, Simeng Qin, Xiaochun Cao

**Резюме:** Vision-Language Models (VLMs), такие как GPT-4, становятся все более эффективными в определении геолокации пользователей на основе публичных изображений, создавая серьезные угрозы для геоприватности. Традиционные методы адверасарных пертурбаций недостаточно эффективны в таком контексте, так как плохо справляются с высокоразрешенными изображениями, ограниченными бюджетами пертурбаций и риском введения неуместного семантического контента. Для решения этой проблемы авторы предлагают GeoShield — инновационный адверасарный фреймворк, нацеленный на защиту геоприватности. GeoShield включает в себя три модуля: разделение географических и негеографических функций, идентификацию гео-раскрывающих элементов и масштабируемую оптимизацию пертурбаций на глобальном и локальном уровнях. Результаты экспериментов показывают, что GeoShield эффективен в чернобокс-сценариях, обеспечивая высокий уровень приватности с минимальными изменениями визуального и семантического качества изображения. Это первое исследование, которое применяет адверасарные пертурбации для защиты от геолокационного выведения в современных VLMs, предлагая практическое и эффективное решение для растущих проблем приватности.
Annotation:
Vision-Language Models (VLMs) such as GPT-4o now demonstrate a remarkable ability to infer users' locations from public shared images, posing a substantial risk to geoprivacy. Although adversarial perturbations offer a potential defense, current methods are ill-suited for this scenario: they often perform poorly on high-resolution images and low perturbation budgets, and may introduce irrelevant semantic content. To address these limitations, we propose GeoShield, a novel adversarial framework d...
ID: 2508.03209v1 cs.CV, cs.AI
Авторы:

Wang Yu-Hang, Shiwei Li, Jianxiang Liao, Li Bohan, Jian Liu, Wenfei Yin

**Резюме** Атаки с адверсариальными возмущениями представляют серьёзную угрозу для глубоких нейронных сетей, приводя к ухудшению их производительности. Одной из основных методологий защиты является Адверсариальная Обучаемость (Adversarial Training, AT), которая, однако, характеризуется высокими вычислительными затратами и снижением точности модели. Другой подход — использование аугментации данных — также имеет ограничения, так как существующие методы либо дают незначительный прирост в прочности, либо требуют значительных вычислительных ресурсов. В этой работе авторы предлагают Universal Adversarial Augmenter (UAA) — фреймворк, который эффективно комбинирует различные стратегии аугментации для повышения прочности моделей. UAA разделяет процесс генерации возмущений от процесса обучения, позволяя предварительно вычислить универсальные трансформации в автономном режиме. Это позволяет эффективно генерировать уникальные адверсариальные возмущения для каждого образца во время обучения. Результаты экспериментов на различных бенчмарках показывают, что UAA достигает нового уровня эффективности и прочности, устанавливая новый стандарт в защите моделей без необходимости онлайн-генерации адверсариальных примеров.
Annotation:
Adversarial perturbations pose a significant threat to deep learning models. Adversarial Training (AT), the predominant defense method, faces challenges of high computational costs and a degradation in standard performance. While data augmentation offers an alternative path, existing techniques either yield limited robustness gains or incur substantial training overhead. Therefore, developing a defense mechanism that is both highly efficient and strongly robust is of paramount importance.In this...
ID: 2508.03213v1 cs.CV, cs.AI, C.1.2
Авторы:

Hikari Yanagawa, Yuichi Hiroi, Satomi Tokida, Yuji Hatada, Takefumi Hiraki

**Резюме:** В коммерческих метавселенных, несмотря на многообразие пользовательского контента, отсутствует эффективная навигационная поддержка, способная адаптироваться к интересам и целям пользователей. Ранее разработанные навигационные агенты были ограничены управляемыми средами, и их применение в разнообразных коммерческих мирах сталкивалось с значительными техническими ограничениями. В данной статье представлен **Navigation Pixie**, агент для поддержки навигации, основанный на гибкой архитектуре, которая сочетает структурированные пространственные метаданные и обработку естественного языка на основе технологий языковых моделей (LLM). Это позволяет минимизировать зависимость от платформ и обеспечить эксперименты на больших пользовательских выборках. Исследования, проведенные на коммерческой платформе **Cluster** с участием 99 пользователей на ПК и 94 пользователя с VR-устройствами, демонстрируют, что Navigation Pixie значительно повышает время пребывания и степень свободного исследования пространства по сравнению с фиксированными маршрутами или отсутствием агента. Результаты подтверждают эффективность подхода и открывают новые возможности для разработки конверсациионных навигационных агентов в коммерческих метавселенных.
Annotation:
While commercial metaverse platforms offer diverse user-generated content, they lack effective navigation assistance that can dynamically adapt to users' interests and intentions. Although previous research has investigated on-demand agents in controlled environments, implementation in commercial settings with diverse world configurations and platform constraints remains challenging. We present Navigation Pixie, an on-demand navigation agent employing a loosely coupled architecture that integr...
ID: 2508.03216v1 cs.HC, cs.AI
Авторы:

Mutaz Ayesh, Nicolás Gutiérrez-Rolón, Fernando Alva-Manchego

**Резюме** В данной работе команда CardiffNLP представляет свой подход к задаче адаптации текстов на испанском языке, представленной в рамках CLEARS-2025. Задача разделена на два подзадания, в которых необходимо перефразировать тексты в более простой и доступный для понимания формат. Авторы использовали метод промптинга больших языковых моделей (LLM), экспериментируя с различными вариациями приглашений. Начиная с LLaMA-3.2, они в конечном счёте перешли на Gemma-3, которая показала лучшие результаты. Этот подход позволил команде занять третье место в Подзадании 1 и второе место в Подзадании 2. Работа детально описывает использованные варианты промптингов, примеры и результаты экспериментов, подчеркивая эффективность выбранного подхода для создания текстов в простой и читаемой форме.
Annotation:
This paper details the CardiffNLP team's contribution to the CLEARS shared task on Spanish text adaptation, hosted by IberLEF 2025. The shared task contained two subtasks and the team submitted to both. Our team took an LLM-prompting approach with different prompt variations. While we initially experimented with LLaMA-3.2, we adopted Gemma-3 for our final submission, and landed third place in Subtask 1 and second place in Subtask 2. We detail our numerous prompt variations, examples, and experim...
ID: 2508.03240v1 cs.CL, cs.AI
Авторы:

Deborah Dore, Elena Cabrio, Serena Villata

**Резюме** Растущий объём политических дебатов и обсуждений высокого уровня требует разработки специализированных методов для автоматического анализа такого контента. Однако специфика политического языка, в том числе использование скрытых коммуникационных стратегий и неявных аргументов, представляет сложную задачу даже для современных общеуниверсальных предварительно обученных языковых моделей. Для решения этой проблемы авторы представляют RooseBERT — специализированную языковую модель, предварительно обученную на большом корпусе политических дебатов и речей на английском языке (8 тыс. дебатов, каждый из которых состоит из нескольких поддебатов по различным темам). RooseBERT была оценена на четырех задачах: распознавание именованных сущностей, анализ тональности, выделение и классифицирование компонентов аргументации, а также предсказание и классификация отношений аргументов. Результаты демонстрируют значительное улучшение показателей по сравнению с общеуниверсальными моделями, подчеркивая преимущества доменно-специфичного предварительного обучения в анализе политических дебатов. RooseBERT доступна для исследовательского сообщества.
Annotation:
The increasing amount of political debates and politics-related discussions calls for the definition of novel computational methods to automatically analyse such content with the final goal of lightening up political deliberation to citizens. However, the specificity of the political language and the argumentative form of these debates (employing hidden communication strategies and leveraging implicit arguments) make this task very challenging, even for current general-purpose pre-trained Langua...
ID: 2508.03250v1 cs.CL, cs.AI
Авторы:

Osama Mohammed, Jiaxin Pan, Mojtaba Nayyeri, Daniel Hernández, Steffen Staab

**Резюме** Моделирование временных изменений взаимодействий между сущностями является ключевым для многих реальных задач, таких как прогнозирование маневров водителей в трафике или обнаружение финансового мошенничества. В отличие от классических методов прогнозирования временных рядов, эти задачи требуют рассмотрения того, как и когда сущности взаимодействуют, что необходимо для временного графового представления. Существующие методы часто используют снапшот-графы для кодирования временной динамики. Авторы предлагают новый подход: **полно-исторический граф**, где каждая сущность представлена уникальным узлом на каждом временном шаге. Граф разделяет два типа ребер: внутришаговые (intra-time-step) для отношений в рамках одного кадра и межшаговые (inter-time-step) для соединений сущности с собой на соседних шагах. Для обучения на этом графе предлагается модель **ETDNet**, которая сочетает: 1. Модуль графового внимания для агрегации информации внутри шага. 2. Многоголовной модуль временного внимания для обработки межшаговых отношений. 3. Функцию фьюзинга (fusion) для комбинации информации после каждого слоя. Эксперименты на датасетах Waymo (прогнозирование намерений водителей) и Elliptic++ (обнаружение мошенничества) показывают значительные улучшения: для Waymo показатель точности (joint accuracy) вырос с 74,1% до 75,6%, а для Elliptic++ метрика F1 для класса мошенничества увеличилась с 60,4% до 88,1%. Эти результаты подтверждают преимущество явного представления временных и структурных отношений в единой модели.
Annotation:
Modeling evolving interactions among entities is critical in many real-world tasks. For example, predicting driver maneuvers in traffic requires tracking how neighboring vehicles accelerate, brake, and change lanes relative to one another over consecutive frames. Likewise, detecting financial fraud hinges on following the flow of funds through successive transactions as they propagate through the network. Unlike classic time-series forecasting, these settings demand reasoning over who interacts ...
ID: 2508.03251v1 cs.AI
Авторы:

Davin Choo, Winston Fu, Derek Khu, Tzeh Yuan Neoh, Tze-Yang Poon, Nicholas Teh

Данная статья рассматривает проблему онлайн-распределения ресурсов, где неделимые объекты должны быть немедленно и необратимо распределены между агентами. Классические понятия справедливости, такие как envy-freeness и maximin share fairness, не могут быть эффективно приближены в этой области. Авторы фокусируются на пропорциональности с учётом одного дополнительного ресурса (PROP1), которая представляет собой более легкую для достижения форму справедливости. Исследуются три естественных жадных алгоритма, которые оказываются неэффективными против адаптивных противников. Однако, при использовании неадаптивных противников или дополнительной информации, такой как предсказания максимального значения ресурса (MIV), можно достичь значимого приближения к PROP1. Несмотря на это, более строгие формы справедливости, такие как EF1, MMS и PROPX, остаются недостижимыми даже с идеальными предсказаниями.
Annotation:
We study the online fair division problem, where indivisible goods arrive sequentially and must be allocated immediately and irrevocably to agents. Prior work has established strong impossibility results for approximating classic fairness notions, such as envy-freeness and maximin share fairness, in this setting. In contrast, we focus on proportionality up to one good (PROP1), a natural relaxation of proportionality whose approximability remains unresolved. We begin by showing that three natural...
ID: 2508.03253v1 cs.GT, cs.AI, cs.MA
Авторы:

Jisoo Kim, Wooseok Seo, Junwan Kim, Seungho Park, Sooyeon Park, Youngjae Yu

Развёртывание текст-видео (T2V) моделей в ресурсоограниченных средах сталкивается с проблемой высокого вычислительного затратности. Одной из главных сложностей является решение проблемы "mode collapse" во время классических методов знаний дистилляции, которые часто приводят к ухудшению качества при использовании моделей с ограниченной емкостью. Для решения этой проблемы, авторы предлагают метод ReDPO, который сочетает DPO (Directed Property Optimization) и SFT (Supervised Fine-Tuning). ReDPO позволяет студентской модели сосредоточиться на восстановлении ключевых свойств, а не на пассивном имитации учителя, что повышает качество. Кроме того, представлен видео-фильтрующий фреймворк V.I.P., обеспечивающий высококачественные наборы данных для калибровки моделей. Результаты показывают, что ReDPO и V.I.P. позволяют сократить параметры модели на 36.2% и 67.5% для VideoCrafter2 и AnimateDiff, сохраняя или превосходя качество полных моделей.
Annotation:
With growing interest in deploying text-to-video (T2V) models in resource-constrained environments, reducing their high computational cost has become crucial, leading to extensive research on pruning and knowledge distillation methods while maintaining performance. However, existing distillation methods primarily rely on supervised fine-tuning (SFT), which often leads to mode collapse as pruned models with reduced capacity fail to directly match the teacher's outputs, ultimately resulting in deg...
ID: 2508.03254v1 cs.CV, cs.AI
Авторы:

Junhyuk Choi, Hyeonchu Park, Haemin Lee, Hyebeen Shin, Hyun Joung Jin, Bugeun Kim

**Резюме:** В статье исследуется способность современных Large Language Models (LLMs) моделировать экономическое поведение реальных людей на основе данных о 522 корейских участниках эксперимента Pay-What-You-Want (PWYW). Авторы сравнивают три современных мультимодальных LLMs, оценивая их способность предсказывать индивидуальные решения в сценариях культурного потребления. Обнаружено, что, несмотря на неточность предсказаний на индивидуальном уровне, LLMs успешно отражают групповые тенденции поведения. Также выяснено, что распространённые методы подачи запросов (prompting), такие как улучшенная генерация с дополнительным контекстом (retrieval-augmented generation) или реконструкция личностных портретов, не дают значимого преимущества по сравнению с простыми методами. Исследование представляет первую полную оценку возможностей LLMs в моделировании экономического поведения на основе реальных данных, оказывая полезные рекомендации для применения LLMs в вычислительных социальных науках.
Annotation:
Recent advances in Large Language Models (LLMs) have generated significant interest in their capacity to simulate human-like behaviors, yet most studies rely on fictional personas rather than actual human data. We address this limitation by evaluating LLMs' ability to predict individual economic decision-making using Pay-What-You-Want (PWYW) pricing experiments with real 522 human personas. Our study systematically compares three state-of-the-art multimodal LLMs using detailed persona informatio...
ID: 2508.03262v1 cs.CL, cs.AI
Показано 14351 - 14360 из 14425 записей