📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Step More: Going Beyond Single Backpropagation in Meta Learning Based Model Editing

2025-08-09

Авторы:

Xiaopeng Li, Shasha Li, Xi Wang, Shezheng Song, Bin Ji, Shangwen Wang, Jun Ma, Xiaodong Liu, Mina Liu, Jie Yu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Large Language Models (LLMs) являются основой многих современных AI-приложений, но их статическая природа создает сложности при необходимости обновления их знаний. Обновление модели в традиционном режиме часто требует полного переобучения, что является ресурсоемким и дорогостоящим процессом. Для решения этой проблемы были разработаны методы моделирования, известные как модельные редактирования. Эти методы позволяют вносить изменения в модель, ориентированные на конкретные параметры, что значительно экономит ресурсы. Одним из важных подходов в области модельных редактирований является мета-обучение на основе модельного редактирования (MLBME). Методы MLBME оказались эффективными в обеспечении качества и скорости редактирования модели. Однако, несмотря на их успех, существуют ограничения. В частности, MLBME показывает неудовлетворительные результаты при работе с небольшими наборами данных, что ограничивает его применение в реальных сценариях с ограниченными данными. Кроме того, вычисление КЛ-разности (KL divergence) представляет собой существенный барьер для эффективности обучения, создавая узким местом в процессе. Эти проблемы подчеркивают необходимость разработки более эффективных методов, которые могли бы улучшить производительность MLBME в условиях ограниченных данных и оптимизировать процесс обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В этой статье авторы представляют новый метод под названием **Step More Edit (SMEdit)**, разработанный для улучшения производительности MLBME в условиях ограниченных данных. SMEdit включает в себя несколько ключевых компонентов. Во-первых, SMEdit использует стратегию известную как Множественные Бэкпропагационные Шаги (MBPS). Эта стратегема позволяет выполнять несколько шагов обратного распространения (backpropagation) в процессе обучения, что улучшает способность модели адаптироваться к новым данным, особенно когда данных недостаточно. Это позволяет модели более эффективно обучаться и адаптироваться к изменениям в данных. Во-вторых, SMEdit вводит нормализацию весов (norm regularization) на обновления параметров. Это помогает контролировать изменения весов во время обучения, что в свою очередь повышает эффективность и стабильность процесса обучения. Нормализация весов также помогает избежать нежелательных изменений в модели, которые могут привести к нестабильности или ухудшению качества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности SMEdit авторы провели эксперименты на двух наборах данных и с использованием двух LLMs. Результаты экспериментов показали, что SMEdit превосходит предыдущие методы MLBME по различным метрикам. В частности, SMEdit достигает высокого качества редактирования даже при ограниченных данных, что демонстрирует его способность эффективно адаптироваться к новым ситуациям. Кроме того, MBPS стратегия была интегрирована в существующие методы MLBME, что привело к дополнительному повышению их производительности. Это показывает, что MBPS может быть универсально применяемым подходом для улучшения методов модельного редактирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SMEdit имеет широкое применение в области AI, особенно когда речь идет об обновлении моделей в реальном времени. Его способность эффективно работать с ограниченными данными делает его применимым в ситуациях, где требуется быстрое и экономичное обновление моделей. Например, это может быть полезно в сфере медицинских диагностик, где модели должны быть часто обновляемыми в соответствии с последними данными. Кроме того, SMEdit может быть использован в задачах, требующих высокого уровня адаптивности и эффективности, таких как рекомендательные системы, обработка естественного языка, и прогнозирование в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SMEdit представляет собой важный шаг вперед в области модельного редактирования, улучшая качество и эффективность процесса обучения. Авторы отмечают, что дальнейшие исследования могут быть направлены на дальнейшее улучшение стратегии MBPS и его интеграции с другими методами модельного редактирования. Также, расширение применения SMEdit на более широкий класс моделей и наборов данных может открыть новые возможности для его использования в реальных приложениях. Доступность кода, который авторы планируют опубликовать, также откроет путь для дальнейших экспериментов и разработок в этой области.

Annotation:

Large Language Models (LLMs) underpin many AI applications, but their static nature makes updating knowledge costly. Model editing offers an efficient alternative by injecting new information through targeted parameter modifications. In particular, meta-learning-based model editing (MLBME) methods have demonstrated notable advantages in both editing effectiveness and efficiency. Despite this, we find that MLBME exhibits suboptimal performance in low-data scenarios, and its training efficiency is...

ID: 2508.04012v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Identity Theft in AI Conference Peer Review

2025-08-09

Авторы:

Nihar B. Shah, Melisa Bok, Xukun Liu, Andrew McCallum

## КОНТЕКСТ И ПРОБЛЕМАТИКА Научная переписка и процесс пиар-рецензирования являются ключевыми элементами научного сообщества, обеспечивающими качество и ценность научных работ. Однако, как показывают новые исследования, этот процесс стал целью мошенничества, в том числе в области искусственного интеллекта (AI). Авторы статьи раскрывают случаи **идентификационного кражи** в процессе пиар-рецензирования в AI-конференциях, которые могут оказать значительное влияние на всю научную сферу. Проблема заключается в том, что нечестные исследователи создают фальшивые профили рецензирующих с целью манипулирования оценками научных работ. Они используют слабые места в процессах набора рецензирующих и проверки их идентификации, что позволяет им обойти существующие контроли. Такие действия могут привести к несправедливому принятию или отклонению работ, которые могут не соответствовать высоким стандартам научности. Эта проблема выходит за рамки отдельных случаев и представляет собой серьезную угрозу для всей системы научного сотрудничества. Она подчеркивает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества, особенно в условиях цифровизации и глобализации научного процесса. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для борьбы с идентификационной кражей в процессе пиар-рецензирования авторы предлагают ряд стратегий и технических решений. Одним из ключевых подходов является улучшение процедур проверки идентификации рецензирующих. Это включает в себя использование более надежных методов аутентификации, таких как двухфакторная аутентификация и проверка документов. Кроме того, предлагается внедрение **систем мониторинга и анализа поведения** рецензирующих. Эти системы будут следить за тем, как рецензирующие взаимодействуют с платформами пиар-рецензирования, и выявлять подозрительные действия. Например, если рецензирующий постоянно одобряет работы из одной группы авторов или демонстрирует необычное поведение, это может быть признаком мошенничества. Также предлагается создание системы **централизованного управления процессом пиар-рецензирования**, которая бы обеспечивала более прозрачность и контроль над всеми этапами процесса. Это позволит быстрее выявлять и пресекать попытки мошенничества. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели исследование на основе данных из нескольких AI-конференций, где были выявлены случаи мошенничества. Они использовали различные методы анализа данных для выявления подозрительных действий рецензирующих. Результаты показали, что в некоторых случаях фальшивые рецензирующие были созданы с целью одобрения работ, которые были написаны теми же людьми или их коллегами. Эти рецензирующие демонстрировали необычное поведение, такое как быстрая рецензирование и высокая частота одобрения. Кроме того, исследование показало, что существующие системы проверки идентификации рецензирующих не всегда эффективны в выявлении мошенничества. Это подтверждает необходимость внедрения более строгих мер по защите процесса пиар-рецензирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты этого исследования имеют значительное значение для всей научной сферы. Они подчеркивают необходимость внедрения более строгих мер по защите процесса пиар-рецензирования от мошенничества. Это может помочь обеспечить более честный и прозрачный процесс оценки научных работ. Кроме того, предлагаемые методы могут быть применены не только в области AI, но и в других научных дисциплинах. Они могут помочь предотвратить мошенничество и обеспечить высокий уровень достоверности научных публикаций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, исследование показывает, что идентификационная кража в процессе пиар-рецензирования является серьезной проблемой, которая требует немедленного решения. Авторы предлагают ряд стратегий и технических решений, которые могут помочь в борьбе с этой проблемой. Будущие исследования могут сосредоточиться на разработке более совершенных методов аутентификации и мониторинга поведения рецензирующих. Также необходимо проводить регулярные аудиты процессов пиар-рецензирования для выявления и пресекания попыток мошенничества.

Annotation:

We discuss newly uncovered cases of identity theft in the scientific peer-review process within artificial intelligence (AI) research, with broader implications for other academic procedures. We detail how dishonest researchers exploit the peer-review system by creating fraudulent reviewer profiles to manipulate paper evaluations, leveraging weaknesses in reviewer recruitment workflows and identity verification processes. The findings highlight the critical need for stronger safeguards against i...

ID: 2508.04024v1 cs.DL, cs.AI, cs.CR

arXiv PDF

📄 Uncertainty-Aware GUI Agent: Adaptive Perception through Component Recommendation and Human-in-the-Loop Refinement

2025-08-09

Авторы:

Chao Hao, Shuai Wang, Kaiwen Zhou

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Графические интерфейсы пользователя (GUI) являются ключевым элементом взаимодействия человека с мобильными приложениями. Несмотря на успехи в автоматизации задач с помощью GUI-агентов, существуют существенные проблемы, связанные с избыточностью входных данных и неоднозначностью принятия решений. Традиционные подходы к GUI-автоматизации часто борются с избыточностью информации, поступающей с экранов мобильных устройств, что приводит к перегрузке данных и ухудшению эффективности. Кроме того, неоднозначность задач и сложность рационального выбора действий в сложных сценариях делают процесс навигации по GUI менее надежным. Проблема управления GUI-агентами в условиях неопределенности требует разработки методологий, которые смогут эффективно управлять сложностью интерфейсов и обеспечить высокую точность в исполнении задач. Одна из ключевых проблем — это перцептивная неопределенность, возникающая из-за избытка информации и шума в поступающих данных. Другая проблема — это решательская неопределенность, связанная с неоднозначностью задач и сложностью принятия решений в ситуациях, требующих сложного рассуждения. Мотивация данного исследования заключается в том, чтобы создать GUI-агента, способного адаптироваться к сложностям интерфейсов и обеспечить более точное взаимодействие с пользователем. Это требует разработки механизмов, которые могут снизить избыточность информации и обеспечить вовлеченность пользователя в решение сложных ситуаций, чтобы улучшить качество автоматизации GUI-задач. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе представлен **RecAgent**, GUI-агент, который использует адаптивное восприятие для решения проблем перцептивной и решательской неопределенности. Решение состоит из двух основных компонентов: механизма рекомендации компонентов и модуля взаимодействия с пользователем. Механизм рекомендации компонентов работает на основе выявления наиболее релевантных элементов интерфейса, что позволяет снизить избыточность входных данных и сосредоточиться на ключевых элементах, необходимых для выполнения задачи. Этот механизм помогает снизить перцептивную неопределенность, обрабатывая только те данные, которые имеют реальное значение для выполнения действий. Модуль взаимодействия с пользователем, или "human-in-the-loop", используется для решения проблем решательской неопределенности. В случаях, когда задача является неоднозначной или требует сложного рассуждения, агент запрашивает обратную связь у пользователя. Это позволяет агенту принимать более осведомленные и направленные решения, основываясь на подтверждении пользователя. Объединение этих компонентов в единый фреймворк позволяет RecAgent активно снижать сложность входных данных и реагировать на ситуации высокой неопределенности путем использования обратной связи от пользователя. Таким образом, агент становится более адаптивным и эффективным в выполнении задач. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RecAgent авторы представили набор данных под названием **ComplexAction**, который содержит сложные сценарии GUI-навигации. Этот набор данных был разработкан специально для тестирования успешности выполнения одноступенчатых действий в сложных ситуациях. В ходе экспериментов RecAgent демонстрирует высокую эффективность в снижении перцептивной и решательской неопределенности. Агент показал высокие показатели успешности выполнения действий в сложных сценариях, превысив базовые модели благодаря адаптивному механизму рекомендаций и взаимодействию с пользователем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RecAgent имеет широкие возможности применения в областях, требующих автоматизации GUI-задач, таких как мобильные тестирования, автоматизация повторяющихся действий и повышение доступности для пользователей с ограниченными возможностями. Преимущества метода заключаются в уменьшении сложности входных данных, улучшении точности выполнения задач и обеспечении более надежного взаимодействия с пользователем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе были достигнуты значительные результаты в адресации проблем перцептивной и решательской неопределенности в GUI-навигации. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов рекомендации и взаимодействия с пользователем, а также на расширении области применения таких агентов в реальных сценариях.

Annotation:

Graphical user interface (GUI) agents have shown promise in automating mobile tasks but still struggle with input redundancy and decision ambiguity. In this paper, we present \textbf{RecAgent}, an uncertainty-aware agent that addresses these issues through adaptive perception. We distinguish two types of uncertainty in GUI navigation: (1) perceptual uncertainty, caused by input redundancy and noise from comprehensive screen information, and (2) decision uncertainty, arising from ambiguous tasks ...

ID: 2508.04025v1 cs.AI

arXiv PDF

📄 Enhancing Serendipity Recommendation System by Constructing Dynamic User Knowledge Graphs with Large Language Models

2025-08-09

Авторы:

Qian Yong, Yanhui Li, Jialiang Shi, Yaguang Dou, Tian Qi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Рекомендательные системы (RS) играют ключевую роль в формировании пользовательского опыта в современных индустриальных приложениях. Однако существующие системы часто сталкиваются с проблемами, такими как фильтр пузырьков, когда пользователи получают однородный контент, что ведет к снижению удовлетворенности и разнообразия рекомендованных материалов. Основная причина этих проблем заключается в цикле обратной связи, который поощряет рекомендации похожего контента на основе прошлых действий пользователя, что может приводить к узкому восприятию интересов пользователей. В последнее время, большие языковые модели (LLMs) привлекли значительное внимание в области рекомендательных систем, благодаря их высокому уровню общей знанию и способности к продвинутому резонированию. Однако, несмотря на их потенциал, внедрение LLMs в RS сталкивается с некоторыми трудностями. Одной из основных проблем является сохранение логичности резонирования, полезность результатов, а также удовлетворение требований задержки (латентности), что необходимо для работы рекомендательных систем в реальном времени. Требуется решение, способное обеспечить качество рекомендаций, сохранив при этом эффективность в работе. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают новый метод, основанный на динамическом построении пользовательских знаний с помощью LLMs. Метод включает в себя двухэтапную рамку (two-stage framework): 1. **Двух-хоп резонирование (Two-hop reasoning)**: Этот этап использует статические профили пользователей и их исторические данные о поведении для динамического построения пользовательских графов знаний. Двух-хоп резонирование проводится на этих графах, что позволяет улучшить качество и точность результатов резонирования. Это помогает выявить потенциальные интересы пользователей, которые могут быть неочевидными на основе прошлых действий. 2. **Близковременная адаптация (Near-line adaptation)**: Для внедрения этого подхода в индустриальные рекомендательные системы, авторы предлагают эффективный метод развертывания. Он включает в себя модель поиска u2i (user-to-item), которая также имеет возможности i2i (item-to-item) поиска. Эта модель позволяет получать релевантные результаты, которые соответствуют новым интересам пользователя, при этом сохраняя высокую конверсию традиционных моделей u2i. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода, авторы проводили онлайн-эксперименты на базе приложения Dewu, которое обслуживает десятки миллионов пользователей. Результаты экспериментов показали значительное улучшение показателей: - **Увеличение новизны рекомендаций**: Экспозиция нового контента (exposure novelty rate) выросла на 4.62%, а новизна кликов (click novelty rate) на 4.85%. - **Улучшение пользовательского опыта**: Среднее время просмотра (average view duration) увеличилось на 0.15%, а уникальный показатель кликов (unique visitor click-through rate) — на 0.07%. - **Повышение взаимодействия пользователей**: Уникальный показатель взаимодействия (unique visitor interaction penetration) вырос на 0.30%. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод обеспечивает значительное улучшение качества рекомендаций, способствуя более разнообразному и новому контенту, который может привести к более высокой удовлетворенности пользователей. Он также позволяет эффективно внедрять LLMs в рекомендательные системы, сохраняя при этом требования к производительности и латентности, что делает его применимым в индустриальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод является важной шагом в улучшении рекомендательных систем, особенно в контексте борьбы с фильтром пузырьков и повышении пользовательского опыта. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности LLMs в реальных условиях, а также на расширении методологии для других доменов применения рекомендательных систем.

Annotation:

The feedback loop in industrial recommendation systems reinforces homogeneous content, creates filter bubble effects, and diminishes user satisfaction. Recently, large language models(LLMs) have demonstrated potential in serendipity recommendation, thanks to their extensive world knowledge and superior reasoning capabilities. However, these models still face challenges in ensuring the rationality of the reasoning process, the usefulness of the reasoning results, and meeting the latency requireme...

ID: 2508.04032v1 cs.IR, cs.AI

arXiv PDF

📄 A Comparative Survey of PyTorch vs TensorFlow for Deep Learning: Usability, Performance, and Deployment Trade-offs

2025-08-09

Авторы:

Zakariya Ba Alawi

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее десятилетие глубокое обучение стало ключевой областью исследований в области искусственного интеллекта, приведшей к революционным достижениям в таких областях, как компьютерное зрение, обработка естественного языка и автоматическое управление. Однако успех глубоких моделей зависит не только от их архитектуры, но также от выбора фреймворка, который обеспечивает эффективное обучение и развертывание моделей. Два наиболее популярных фреймворка для глубокого обучения — PyTorch и TensorFlow — стали неотъемлемыми инструментами для исследователей и практиков. TensorFlow, разработанный Google, известен своей надежной инфраструктурой для промышленных приложений, включая широкий набор инструментов для развертывания, таких как TensorFlow Lite и TensorFlow Serving. Однако его графовая модель выполнения, хотя и обеспечивает высокую производительность, часто считается менее удобной для исследовательских экспериментов. PyTorch, созданный Facebook, напротив, отличается динамической, Python-подобной структурой, которая упрощает экспериментирование и отладку. Однако до недавнего времени PyTorch отставал от TensorFlow в плане готовности к промышленному использованию. Это создает дилемму для разработчиков, которые должны выбирать между простотой и гибкостью PyTorch и производительностью и готовностью к производству TensorFlow. Эта статья представляет собой подробный сравнительный анализ этих двух фреймворков с точки зрения удобства использования, производительности и возможностей развертывания. Она также рассматривает тенденции в использовании фреймворков в академических исследованиях и промышленных приложениях, помогая разработчикам принимать обоснованные решения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для сравнения PyTorch и TensorFlow авторы проанализировали несколько ключевых аспектов: программистский интерфейс, производительность обучения и вывода, а также возможности развертывания. В частности: 1. **Программистский интерфейс и удобство использования**: TensorFlow использует графовую модель выполнения, которая требует предварительного определения вычислительного графа. Хотя это повышает производительность, это может усложнить отладку и экспериментирование. PyTorch, с другой стороны, использует динамическую вычислительную модель, которая ближе к Python и упрощает разработку моделей. 2. **Производительность**: Авторы провели сравнение скорости обучения и вывода на различных задачах, таких как классификация изображений и обработка текста. TensorFlow обычно демонстрирует высокую производительность в больших наборах данных, тогда как PyTorch может быть более эффективен в меньших экспериментальных установках. 3. **Развертывание**: TensorFlow имеет более зрелую экосистему для развертывания, включая инструменты для мобильных и веб-приложений. PyTorch, однако, активно развивает свои инструменты, такие как TorchScript и ONNX, чтобы снизить это разрыв. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены сравнительные тесты на нескольких наборах данных и задачах. Результаты показали, что TensorFlow обеспечивает высокую производительность при обучении на больших датасетах, особенно при использовании оптимизаций, таких как XLA. PyTorch, в свою очередь, предлагает более высокую скорость разработки и гибкость, особенно в исследовательских задачах. В области развертывания TensorFlow продемонстрировал преимущество благодаря своим зрелым инструментам, таким как TensorFlow Lite. Однако PyTorch активно развивает свои инструменты, что может сделать его более конкурентоспособным в будущем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты данного исследования имеют широкое применение для разработчиков, инженеров и исследователей в области глубокого обучения. PyTorch лучше подходит для исследовательских проектов, где гибкость и удобство использования критически важны. Тензорфлоу, с другой стороны, лучше подходит для промышленных приложений, где необходима надежность и масштабируемость. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, оба фреймворка имеют свои сильные и слабые стороны. PyTorch лучше подходит для исследовательских задач, тогда как TensorFlow лучше подходит для промышленных приложений. Будущие исследования могут фокусироваться на улучшении взаимодействия между фреймворками и интеграции компиляторных оптимизаций для повышения производительности.

Annotation:

This paper presents a comprehensive comparative survey of TensorFlow and PyTorch, the two leading deep learning frameworks, focusing on their usability, performance, and deployment trade-offs. We review each framework's programming paradigm and developer experience, contrasting TensorFlow's graph-based (now optionally eager) approach with PyTorch's dynamic, Pythonic style. We then compare model training speeds and inference performance across multiple tasks and data regimes, drawing on recent be...

ID: 2508.04035v1 cs.LG, cs.AI, 68T05, I.2.6; I.2.10

arXiv PDF

📄 CORE-ReID V2: Advancing the Domain Adaptation for Object Re-Identification with Optimized Training and Ensemble Fusion

2025-08-09

Авторы:

Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Syahid Al Irfan, Hindriyanto Dwi Purnomo, Radius Tanone

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область Object Re-Identification (ReID) — одна из ключевых задач в компьютерном зрении, которая нацелена на идентификацию объектов, таких как люди или автомобили, на различных камерах или в разных сценариях. Несмотря на значительные успехи в этой области, решение задач ReID остается сложной задачей, особенно в контексте Unsupervised Domain Adaptation (UDA). Традиционные подходы к ReID часто страдают от проблемы доменной разницы, когда модели, обученные на одном наборе данных, не эффективно работают на другом из-за различий в распределении данных. Это особенно актуально для практических приложений, где данные могут быть собраны в различных условиях, таких как разные местоположения, освещение или ракурсы. Проблема UDA в ReID заключается в том, чтобы адаптировать модель, обученную на исходном домене (source domain), к новому, целевому домену (target domain), где метки данных недоступны. Это требует разработки эффективных методов для борьбы с проблемами различий в данных и генерации качественных представлений объектов. Кроме того, многие существующие решения страдают от недостатков в точности и сложности, что ограничивает их применимость в реальных сценариях. В этом контексте, CORE-ReID V2 предлагает улучшенный подход, который стремится решить эти проблемы, используя расширенные методы предобработки данных, улучшенную архитектуру модели и эффективные механизмы фьюзинга для повышения точности и эффективности ReID в различных доменах. ## ПРЕДЛОЖЕННЫЙ МЕТОД CORE-ReID V2 — это усовершенствованный фреймворк, который строится на основе предшественника CORE-ReID, но включает в себя несколько ключевых улучшений для решения проблем UDA в Object ReID. Основным компонентом этого фреймворка является использование CycleGAN для синтеза данных в процессе предобработки. CycleGAN позволяет генерировать синтетические изображения, которые помогают переносить характеристики изображений из исходного домена в целевой, тем самым снижая разрыв между распределениями данных. Во время файн-тюнинга, CORE-ReID V2 использует совершенствованный механизм ensemble fusion, который состоит из Efficient Channel Attention Block (ECAB) и Simplified Efficient Channel Attention Block (SECAB). Эти блоки позволяют эффективно обрабатывать как локальные, так и глобальные функции представлений объектов, что помогает уменьшить неопределенность в псевдо-метках для целевых образцов. ECAB и SECAB обеспечивают более глубокое понимание данных, улучшая качество представлений и повышая точность классификации. Архитектура CORE-ReID V2 также поддерживает легковесные бэкбоны, такие как ResNet18 и ResNet34, что делает его более эффективным с точки зрения вычислительных ресурсов. Это позволяет фреймворку быть более масштабируемым и пригодным для различных практических приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности CORE-ReID V2 проведены эксперименты на различных наборах данных, включая UDA Person ReID и Vehicle ReID. Результаты демонстрируют, что CORE-ReID V2 значительно превосходит современные методы по ключевым метрикам, таким как Mean Average Precision (mAP) и Rank-k Accuracy (Top-1, Top-5, Top-10). Например, на некоторых наборах данных, CORE-ReID V2 достигает высочайших показателей mAP и Rank-1 Accuracy, что подтверждает его лидирующую позицию среди современных подходов. В экспериментах также было показано, что использование CycleGAN для синтеза данных в предобработке существенно повышает качество адаптации модели к новым доменам. Благодаря эффективным механизмам фьюзинга, CORE-ReID V2 успешно справляется с неопределенностью в псевдо-метках, что является ключевым фактором для достижения высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CORE-ReID V2 имеет широкий спектр применений в различных областях, включая безопасность, транспорт и розничную торговлю. Благодаря его способности эффективно адаптироваться к различным доменам, этот фреймворк может быть использован для решения задач ReID в реальных условиях, где данные могут быть получены из различных источников. Преимущества CORE-ReID V2 включают в себя не только высокую точность и эффективность, но и масштабируемость благодаря поддержке легковесных бэкбонов. Это делает его пригодным для использования на различных платформах, включая мобильные устройства. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CORE-ReID V2 является значительным шагом вперед в области Unsupervised Domain Adaptation для Object ReID. Он не только показывает высокую эффективность на различных наборах данных, но и открывает новые возможности для дальнейших исследований в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей и методов для еще более эффективной адаптации к новым доменам. Открытый код и модели также позволят другим исследователям продолжить работу над улучшением этого фреймворка.

Annotation:

This study presents CORE-ReID V2, an enhanced framework building upon CORE-ReID. The new framework extends its predecessor by addressing Unsupervised Domain Adaptation (UDA) challenges in Person ReID and Vehicle ReID, with further applicability to Object ReID. During pre-training, CycleGAN is employed to synthesize diverse data, bridging image characteristic gaps across different domains. In the fine-tuning, an advanced ensemble fusion mechanism, consisting of the Efficient Channel Attention Blo...

ID: 2508.04036v1 cs.CV, cs.AI

arXiv PDF

📄 SEA: Self-Evolution Agent with Step-wise Reward for Computer Use

2025-08-09

Авторы:

Liang Tang, Shuxian Li, Yuhao Cheng, Yukang Huo, Zhepeng Wang, Yiqiang Yan, Kaer Huang, Yanzhe Jing, Tiaonan Duan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Компьютерное использование является ключевой областью в искусственном интеллекте, где агенты должны выполнять задачи пользователей, взаимодействуя с компьютерами. Несмотря на широкий интерес со стороны индустрии и научного сообщества, современные агенты показывают неудовлетворительные результаты в реальных условиях. Основная проблема состоит в сложности обучения агентов для выполнения длинных последовательностей действий, особенно при ограниченных вычислительных ресурсах. Традиционные подходы требуют значительных вычислительных мощностей для обучения на длительных траекториях, что ограничивает их практическую применимость. Другая ключевая проблема заключается в необходимости создания агентов, которые могут эффективно комбинировать знания о компьютерных системах с планированием действий. Существующие модели часто требуют отдельного обучения для задач знаковения (grounding) и планирования, что увеличивает сложность и стоимость разработки. Таким образом, требуется инновационный подход для создания эффективных, масштабируемых и практически применимых агентов для компьютерного использования. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается Self-Evolution Agent (SEA) для компьютерного использования, который решает ключевые проблемы существующих подходов. Авторы предлагают три ключевых инновации: автоматический процесс генерации траекторий, эффективное пошаговое обучение с подкреплением (reinforcement learning) и метод улучшения модели без необходимости дополнительного обучения. Во-первых, для обучения агента используется автоматизированный пайплайн генерации верифицируемых траекторий. Это позволяет создавать высококачественные данные для обучения, не требуя ручного вмешательства. Во-вторых, предлагается пошаговый метод обучения с подкреплением, который снижает вычислительные требования для обучения на длинных траекториях. Это достигается путем разбиения длинных задач на более мелкие подзадачи, что позволяет эффективнее использовать вычислительные ресурсы. В-третьих, предлагается метод объединения возможностей знаковения и планирования в единую модель без необходимости дополнительного обучения. Это достигается путем интеграции этих функций на уровне модели, что значительно упрощает процесс разработки и повышает эффективность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов для оценки эффективности предлагаемого агента SEA. Эксперименты проводились на различных наборах данных, специально созданных для задач компьютерного использования. Агент SEA, имеющий всего 7 миллиардов параметров, показал высокую эффективность в выполнении задач, превосходящую другие модели с таким же числом параметров. Кроме того, его результаты были сравнимы с моделями, имеющими большее количество параметров. В экспериментах также была продемонстрирована эффективность предлагаемых методов генерации данных и обучения с подкреплением. Агент SEA успешно справлялся с длинными последовательностями действий, что является ключевым фактором для практического применения. Результаты также показали, что интеграция знаковения и планирования в одну модель значительно повышает эффективность и простоту разработки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый агент SEA имеет значительный потенциал для практического применения в различных областях. Он может быть использован для автоматизации рутинных задач на компьютерах, таких как управление документами, выполнение сложных последовательностей команд и взаимодействие с различными приложениями. Благодаря своей эффективности и малому количеству параметров, SEA может быть легко интегрирован в различные системы без необходимости больших вычислительных мощностей. Кроме того, предлагаемый метод автоматической генерации данных и пошагового обучения может быть применен в других областях искусственного интеллекта, требующих обучения на длинных последовательностях. Это повышает практическую значимость предлагаемого подхода и открывает возможности для его применения в более широком контексте. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен Self-Evolution Agent (SEA) для компьютерного использования, который представляет собой значительный шаг вперед в области искусственного интеллекта. Благодаря инновационным методам генерации данных, пошагового обучения и интеграции функций знаковения и планирования, SEA достигает высокой эффективности с относительно небольшим количеством параметров. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности агентов для компьютерного использования, включая разработку более сложных моделей и методов обучения. Авторы также планируют открыть исходный код и веса модели для более широкого использования и развития в этой области.

Annotation:

Computer use agent is an emerging area in artificial intelligence that aims to operate the computers to achieve the user's tasks, which attracts a lot of attention from both industry and academia. However, the present agents' performance is far from being used. In this paper, we propose the Self-Evolution Agent (SEA) for computer use, and to develop this agent, we propose creative methods in data generation, reinforcement learning, and model enhancement. Specifically, we first propose an automat...

ID: 2508.04037v1 cs.AI

arXiv PDF

📄 FLAT: Latent-Driven Arbitrary-Target Backdoor Attacks in Federated Learning

2025-08-09

Авторы:

Tuan Nguyen, Khoa D Doan, Kok-Seng Wong

**Резюме** Статья предлагает новый подход к внедрению вредоносных backdoor-атак в системы федеративного обучения (FL). Традиционные backdoor-атаки в FL ограничены фиксированными триггерами или одной целью, что делает их неэффективными и легко обнаруживаемыми. В отличие от них, авторы предлагают FLAT (FL Arbitrary-Target Attack), которая использует локальный условный автокодировщик для генерации динамических, целевых и адаптивных триггеров. Это позволяет атакующему выбирать произвольную цель без переучивания модели и скрыться от стандартных методов обнаружения. FLAT объединяет в себе высокую успешность атаки, стелтость и гибкость в единой модели. Эксперименты показали, что атака достаточно эффективна и устойчива против передовых методов защиты FL. Научиться распознавать и бороться с подобными новыми типами backdoor-атак требуется для развития эффективных защитных стратегий в FL.

Annotation:

Federated learning (FL) is vulnerable to backdoor attacks, yet most existing methods are limited by fixed-pattern or single-target triggers, making them inflexible and easier to detect. We propose FLAT (FL Arbitrary-Target Attack), a novel backdoor attack that leverages a latent-driven conditional autoencoder to generate diverse, target-specific triggers as needed. By introducing a latent code, FLAT enables the creation of visually adaptive and highly variable triggers, allowing attackers to sel...

ID: 2508.04064v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 DRIVE: Dynamic Rule Inference and Verified Evaluation for Constraint-Aware Autonomous Driving

2025-08-09

Авторы:

Longling Geng, Huangxing Li, Viktor Lado Naess, Mert Pilanci

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономная эксплуатация автомобилей представляет собой сложную задачу, требующую обеспечения безопасной и социально совместимой езды в разнообразных условиях. Одной из ключевых проблем в этой области является необходимость соблюдения мягких ограничений (soft constraints), таких как социальные нормы, предпочтения и контекстные факторы, которые часто неявны и трудно формализовать. Традиционные подходы к автономному управлению зависят от жестких предварительно заданных моделей ограничений или моделей, основанных исключительно на наградах, что может приводить к недостаточной адаптации к контексту или нарушениям социальных норм. Кроме того, существующие методы обучения ограничений часто не способны обеспечить проверяемость (verifiability) и объяснимость (explainability) решений, что является критическим для реального развертывания. Эти проблемы обостряются в ситуациях, характеризующихся высокой динамикой и разнообразием условий езды. Необходимо разработать фреймворк, который может динамически выучивать и соблюдать мягкие ограничения, обеспечивая при этом высокую точность, плавность траекторий и объяснимость решений. Целью данной работы является разработка фреймворка DRIVE, который решает эти проблемы, объединяя в себе динамическое обучение ограничений и проверяемый процесс принятия решений. ## ПРЕДЛОЖЕННЫЙ МЕТОД DRIVE предлагает инновационный фреймворк, который сочетает динамическое обучение мягких ограничений и проверяемую оптимизацию траекторий. Основные компоненты фреймворка включают: 1. **Динамическое обучение ограничений:** Используя моделирование вероятностного распределения вида exponential-family likelihood, DRIVE оценивает вероятность состояний переходов в зависимости от контекста езды. Это позволяет получить распределения мягких ограничений, которые адаптируются к конкретным ситуациям. 2. **Проверяемая оптимизация:** Изученные распределения ограничений интегрируются в модуль планирования, основанный на выпуклой оптимизации. Это гарантирует, что сгенерированные траектории не только физически выполнимы, но также соответствуют выученным предпочтениям. 3. **Объединение обучения и планирования:** В отличие от традиционных подходов, DRIVE тесно связывает процессы обучения ограничений и принятия решений, обеспечивая единый фреймворк для динамического анализа и выполнения. 4. **Проверка и объясняемость:** Фреймворк включает в себя механизмы проверки, которые подтверждают эффективность и надежность сгенерированных траекторий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ DRIVE протестирован на крупномасштабных натуралистических данных о езде, включая наборы данных inD, highD и RoundD. Эти данные включают разнообразные сценарии езды, включая городские и междугородние условия. Фреймворк сравнивается с представительными базовыми методами, основанными на обратном обучении ограничений и моделях наград. Результаты показывают, что DRIVE достигает: - **Нулевой процент нарушений мягких ограничений (0.0% violation rate)**. - **Плавные и физически возможные траектории.** - **Лучшая Generalization по сравнению с базовыми методами.** Проверочные эксперименты также подтверждают высокую эффективность, объяснимость и надежность фреймворка. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ DRIVE имеет широкий спектр практических применений в области автономных транспортных систем. Он может быть использован для: - **Улучшения безопасности:** Нулевые нарушения мягких ограничений обеспечивают безопасность взаимодействия с другими участниками дорожного движения. - **Социальной совместимости:** Адаптация к предпочтениям и нормам поведения позволяет создать более естественные и человекоподобные траектории. - **Повышение надежности:** Высокая объяснимость и проверяемость делают DRIVE пригодным для реального развертывания в критических системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Фреймворк DRIVE представляет собой важный шаг вперед в области автономного управления, объединяя динамическое обучение ограничений и проверяемую оптимизацию. Будущие исследования могут фокусироваться на расширении фреймворка для включения более сложных контекстов, таких как многоагентные взаимодействия и непредвиденные условия дорожного движения. Также возможно исследование применения DRIVE в других областях, требующих динамического обучения и проверяемых решений, таких как робототехника и интеллектуальные транспортные системы.

Annotation:

Understanding and adhering to soft constraints is essential for safe and socially compliant autonomous driving. However, such constraints are often implicit, context-dependent, and difficult to specify explicitly. In this work, we present DRIVE, a novel framework for Dynamic Rule Inference and Verified Evaluation that models and evaluates human-like driving constraints from expert demonstrations. DRIVE leverages exponential-family likelihood modeling to estimate the feasibility of state transiti...

ID: 2508.04066v1 cs.RO, cs.AI

arXiv PDF

📄 Personalized Knowledge Transfer Through Generative AI: Contextualizing Learning to Individual Career Goals

2025-08-09

Авторы:

Ronja Mehlan, Claudia Hess, Quintus Stierstorfer, Kristina Schaaff

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современном образовательном пространстве актуальность персонализации учебного контента значительно возросла, особенно с интеграцией искусственного интеллекта в дигитальные образовательные системы. Традиционные подходы к обучению часто не учитывают индивидуальных целей и потребностей учащихся, что может приводить к снижению мотивации и эффективности учебного процесса. Задача адаптации учебных материалов к конкретным карьерным целям учащихся становится ключевой для повышения их увлечения и долгосрочной успешности. Применение генеративных моделей искусственного интеллекта (GenAI) открывает новые возможности для создания персонализированных образовательных сценариев. Однако существует недостаток достоверных данных о том, как эти технологии влияют на мотивацию, удовлетворенность и эффективность учения. Кроме того, неясен потенциал такой персонализации в контексте связывания академических знаний с практическими требованиями рабочего места. Данная проблематика вызывает вопросы о том, как можно эффективно использовать GenAI для создания учебных сценариев, которые не только соотносятся с личными карьерными целями учащихся, но и повышают их ангежджмент и когнитивное увлечение. Исследование этой темы может помочь определить, насколько эффективными являются такие подходы и какие практические выгоды они могут принести как учащимся, так и образовательным организациям. ## ПРЕДЛОЖЕННЫЙ МЕТОД В исследовании была разработана методология, основанная на использовании генеративных моделей искусственного интеллекта для создания персонализированных учебных сценариев. Основная идея заключалась в том, чтобы адаптировать учебный контент к конкретным карьерным целям учащихся, используя GenAI для генерации контента, который отражает эти цели. В рамках эксперимента были сформированы две группы учащихся: одна группа получала учебные материл

Annotation:

As artificial intelligence becomes increasingly integrated into digital learning environments, the personalization of learning content to reflect learners' individual career goals offers promising potential to enhance engagement and long-term motivation. In our study, we investigate how career goal-based content adaptation in learning systems based on generative AI (GenAI) influences learner engagement, satisfaction, and study efficiency. The mixed-methods experiment involved more than 4,000 lea...

ID: 2508.04070v1 cs.AI, cs.CY

arXiv PDF

1
2
3368
3369
3370
3371
3372
3402
3403

Показано 33691 - 33700 из 34022 записей