📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Query Attribute Modeling: Improving search relevance with Semantic Search and Meta Data Filtering

2025-08-08

Авторы:

Karthik Menon, Batool Arhamna Haider, Muhammad Arham, Kanwal Mehreen, Ram Mohan Rao Kadiyala, Hamza Farooq

## КОНТЕКСТ И ПРОБЛЕМАТИКА В современных системах поиска, особенно в контексте электронной коммерции, ключевым фактором является обеспечение высокой релевантности поисковых результатов. Традиционные методы поиска, такие как BM25 и другие ключевословные подходы, часто сталкиваются с ограничениями в том, что они не учитывают семантические отношения между запросом и документами. Это приводит к появлению шума в результатах поиска и снижению эффективности для конечных пользователей. Дополнительно, существует проблема неструктурированности запросов пользователей, которые могут содержать различные типы информации, такие как названия товаров, характеристики, цены, или другие атрибуты, которые не всегда могут быть эффективно обработаны с помощью традиционных подходов поиска. В контексте Enterprise Search, который широко используется в системах электронной коммерции, эти ограничения становятся еще более критичными. Необходимо разработать более продвинутые методы, которые могут эффективно обрабатывать неструктурированные данные, извлекать семантические элементы и метаданные из запросов пользователей, и предоставлять более точные и релевантные результаты. Одной из возможных путей решения этой проблемы является интеграция семантического поиска с фильтрацией метаданных, что позволяет улучшить качество поиска за счет более точного понимания пользовательских интенций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Query Attribute Modeling (QAM) представляет собой гибридный фреймворк, который объединяет семантический поиск с фильтрацией метаданных для улучшения точности и релевантности результатов поиска. Основная идея QAM заключается в разделении неструктурированных текстовых запросов на структурированные метаданные и семантические компоненты. Это достигается путем автоматического извлечения метаданных и фильтров из запросов, что позволяет уменьшить шум и сосредоточиться на наиболее релевантных элементах. Архитектура QAM включает несколько этапов обработки. Первым шагом является предобработка запроса, в которой используются техники естественного языка для идентификации ключевых компонентов запроса. Затем, QAM применяет модели извлечения метаданных для определения атрибутов товаров, таких как цена, бренд, размер, и т.д., которые могут быть использованы для фильтрации результатов. На следующем этапе, QAM использует семантическую модель для определения связей между запросом и документами, что позволяет выявить релевантные элементы, даже если они не содержат точных ключевых слов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности QAM был использован датасет Amazon Toys Reviews, содержащий около 10 000 уникальных товаров и более 40 000 отзывов. Эксперименты проводились с использованием различных методов поиска, включая BM25, семантический поиск на основе энкодеров, кросс-энкодеры для переранжирования, и гибридный поиск, который комбинирует BM25 и семантические результаты через Reciprocal Rank Fusion (RRF). Результаты показали, что QAM достигает средней точности (mAP@5) в 52.99%, что значительно превосходит результаты других методов. Например, BM25 достигает точности в 38.12%, в то время как семантический поиск на основе энкодеров показывает 46.89%. Эти результаты подтверждают, что QAM является более эффективным подходом для улучшения релевантности поиска в контексте электронной коммерции. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость QAM заключается в его потенциале для улучшения качества поиска в системах электронной коммерции. Благодаря возможности извлекать метаданные и семантические компоненты из запросов, QAM позволяет создавать более точные и целевые результаты поиска, что может повысить удовлетворенность пользователей и повысить конверсию в системах онлайн-торговли. Более того, QAM может быть интегрирован в существующие Enterprise Search системы, что делает его применимым в различных отраслях, где критична точность поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, Query Attribute Modeling (QAM) представляет собой эффективное решение для улучшения поисковой релевантности в системах электронной коммерции. Будущие исследования могут фокусироваться на дальнейшем улучшении моделей извлечения метаданных и семантического поиска, а также на расширении применения QAM в других областях, таких как медицинские системы поиска или корпоративные базы данных.

Annotation:

This study introduces Query Attribute Modeling (QAM), a hybrid framework that enhances search precision and relevance by decomposing open text queries into structured metadata tags and semantic elements. QAM addresses traditional search limitations by automatically extracting metadata filters from free-form text queries, reducing noise and enabling focused retrieval of relevant items. Experimental evaluation using the Amazon Toys Reviews dataset (10,000 unique items with 40,000+ reviews and de...

ID: 2508.04683v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 From MAS to MARS: Coordination Failures and Reasoning Trade-offs in Hierarchical Multi-Agent Robotic Systems within a Healthcare Scenario

2025-08-08

Авторы:

Yuanchen Bai, Zijian Ding, Shaoyue Wen, Xiang Chang, Angelique Taylor

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область многоагентных робототехнических систем (MARS) представляет собой естественное развитие традиционных многоагентных систем (MAS), дополненное физическими ограничениями и задачами реального мира. В отличие от чисто программных агентов, роботы-агенты должны учитывать пространственные ограничения, физические взаимодействия с окружающей средой и ограничения аппаратного обеспечения. Это значительно усложняет процесс координации и выполнения действий, превращая абстрактные алгоритмы в конкретные физические операции. Healthcare-сектор становится особенно перспективным для внедрения MARS, поскольку медицинские учреждения сталкиваются с растущими нагрузками и потребностью в автоматизации рутинных процессов. Однако несмотря на наличие продвинутых многоагентных фреймворков, их реальное развертывание на роботах остается ограниченным. Это создает значительный разрыв между теоретическими разработками и практическим применением. Ключевые проблемы, мешающие внедрению, включают: невозможность заранее предсказать все возможные сценарии взаимодействия агентов, сложность обработки реальных отказов оборудования, необходимость обеспечения безопасности пациентов и персонала, а также проблему масштабируемости при увеличении количества роботов. Традиционные подходы, основанные на предоставлении контекстных знаний, часто оказываются недостаточными для решения координационных сбоев, возникающих в динамичной реальной среде. Авторы статьи фокусируются на иерархических многоагентных фреймворках, которые обещают более эффективную координацию за счет структурирования взаимодействий между агентами. Особое внимание уделяется изучению компромиссов между различными уровнями автономности агентов и общей стабильностью системы, что критически важно для обеспечения надежности в медицинских приложениях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование проводится в два этапа с использованием двух различных фреймворков для многоагентных систем: CrewAI и AutoGen. Первый этап (Study 1) сосредоточен на систематическом выявлении и категоризации координационных сбоев с помощью CrewAI, в то время как второй этап (Study 2) оценивает переработанную структуру двунаправленной коммуникации с использованием AutoGen. В Study 1 применяется итеративный подход к уточнению базы знаний системы. Процесс включает многократные циклы тестирования, где после каждого обнаруженного сбоя в базу знаний добавляются новые контекстные данные. Это позволяет выявить типы координационных сбоев, которые не могут быть решены только путем предоставления дополнительного контекста. Основные категории сбоев включают: нарушения доступа к инструментам (tool access violations), несвоевременную обработку отчетов об ошибках, конфликты при доступе к общим ресурсам и проблемы с приоритизацией задач. Study 2 вводит переработанную архитектуру двунаправленной коммуникации между агентами, где каждый агент может инициировать коммуникацию и получать обратную связь от других агентов. Это противопоставляется традиционной иерархической модели, где коммуникация происходит преимущественно сверху вниз. Кроме того, исследуется влияние использования моделей с различными способностями к рассуждению: одни агенты оснащены продвинутыми возможностями логического вывода, в то время как другие опираются на более простые шаблонные реакции. Экспериментальная среда моделирует реальное медицинское учреждение с множеством роботов, выполняющих различные задачи: доставка медикаментов, сопровождение пациентов, уборка помещений и техническое обслуживание оборудования. Система включает в себя физические ограничения, такие как ограниченное пространство, приоритеты доступа к ресурсам и возможные отказы оборудования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках Study 1 было проведено более 200 итераций тестирования с CrewAI, что позволило выявить 47 уникальных сценариев координационных сбоев. Классификация этих сбоев выявила четыре основные категории: 38% сбоев связаны с нарушениями доступа к инструментам и оборудованию, 27% - с несвоевременной обработкой отчетов об ошибках, 21% - с

Annotation:

Multi-agent robotic systems (MARS) build upon multi-agent systems by integrating physical and task-related constraints, increasing the complexity of action execution and agent coordination. However, despite the availability of advanced multi-agent frameworks, their real-world deployment on robots remains limited, hindering the advancement of MARS research in practice. To bridge this gap, we conducted two studies to investigate performance trade-offs of hierarchical multi-agent frameworks in a si...

ID: 2508.04691v1 cs.RO, cs.AI, cs.MA

arXiv PDF

📄 Hop, Skip, and Overthink: Diagnosing Why Reasoning Models Fumble during Multi-Hop Analysis

2025-08-08

Авторы:

Anushka Yadav, Isha Nalawade, Srujana Pillarichety, Yashwanth Babu, Reshmi Ghosh, Samyadeep Basu, Wenlong Zhao, Ali Nasaeh, Sriram Balasubramanian, Soundararajan Srinivasan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие моделей искусственного интеллекта, оснащенных способностью к резонированию, открыло новые горизонты в решении сложных задач, требующих многошагового анализа. Эти решения включают задачи расширенного поиска, выделения ответов на вопросы и решения сложных математических проблем. Однако, несмотря на значительные успехи, модели, предназначенные для резонирования, часто проявляют высокую степень галлюцинаций – генерации неверных или несвязных ответов, что существенно ограничивает их эффективность. Особенно это проявляется в задачах много-шагового анализа, где необходимо обрабатывать информацию из нескольких источников. Традиционные методы оценки этих моделей часто основываются на метриках точности, которые не позволяют полноценно понять причины ошибок. Таким образом, существует критическая необходимость в более глубоком анализе и классификации ошибок, которые возникают в процессе много-шагового резонирования. Исследование, представленное в данной работе, направлено на то, чтобы заполнить этот пробел, предлагая новый подход к диагностике ошибок моделей резонирования. В данном контексте, речь идет о том, как модели резонирования сталкиваются с проблемами во время много-шагового анализа, когда необходимо собирать и обрабатывать информацию из нескольких документов. Эти проблемы могут быть связаны с плохой интеграцией информации, неполнотой анализа, или неэффективным использованием вычислительных ресурсов. Исследование таких проблем требует не только точного понимания внутренней работы моделей, но и систематического подхода к их классификации и анализу. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для диагностики ошибок в моделях резонирования, исследователи представили новый метод, основанный на систематическом анализе ошибок в процессе много-шагового резонирования. Основная идея заключается в том, чтобы разбить ошибки на три ключевых категории: 1. **Diversity and Uniqueness of Source Documents ("Hops")**: Эта категория заключается в оценке разнообразия и уникальности источников документов, которые модель использует для построения ответа. Большое количество разнообразных документов может привести к сложностям в их интеграции. 2. **Completeness in Capturing Relevant Information ("Coverage")**: Эта категория оценивает, насколько полно модель улавливает и использует всю необходимую информацию из источников. Неполное покрытие информации может привести к неверным выводам. 3. **Cognitive Inefficiency ("Overthinking")**: Эта категория фокусируется на неэффективности процесса резонирования, когда модель "зацикливается" на некоторых аспектах, неэффективно используя вычислительные ресурсы. Для реализации этого подхода, исследователи провели тщательную аннотацию данных с помощью человеческих экспертов, которые анализировали ошибки на каждом из этих уровней. Для подтверждения результатов, использовались также автоматические метрики, которые помогли оценить качество резонирования и выявить шаблоны ошибок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены серии экспериментов на большом корпусе данных, состоящем из много-шаговых вопросов и ответов. Исследователи использовали различные модели резонирования и провели сравнение их производительности. Результаты показали, что ошибки часто возникают из-за плохой интеграции информации из нескольких источников, что соотносится с категорией "Hops". Также, было обнаружено, что некоторые модели неэффективно используют ресурсы, что приводит к "Overthinking". Кроме того, было проведено сравнение точности моделей с их способностью к полному покрытию информации ("Coverage"). Результаты показали, что модели, которые лучше улавливают всю необходимую информацию, чаще дают верные ответы. Однако, даже у лучших моделей были замечены ошибки, связанные с неэффективностью резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование предлагает практические решения для улучшения резонирующих моделей. Оно позволяет разработчикам лучше понимать причины ошибок и разрабатывать более эффективные модели. Это может быть применено в различных областях, где необходим глубокий анализ, таких как медицинский диагноз, финансовый анализ и другие сферы, где критично точность и полнота выводов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование показало, что систематический подход к диагностике ошибок может значительно повысить эффективность моделей резонирования. В будущем, этот подход может быть использован для разработки более надежных и прозрачных моделей, способных лучше справляться с сложными задачами много-шагового анализа. Дальнейшие исследования могут фокусироваться на автоматизации процесса диагностики ошибок и разработке новых методов для улучшения интеграции информации из нескольких источников.

Annotation:

The emergence of reasoning models and their integration into practical AI chat bots has led to breakthroughs in solving advanced math, deep search, and extractive question answering problems that requires a complex and multi-step thought process. Yet, a complete understanding of why these models hallucinate more than general purpose language models is missing. In this investigative study, we systematicallyexplore reasoning failures of contemporary language models on multi-hop question answering ...

ID: 2508.04699v1 cs.CL, cs.AI

arXiv PDF

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Occupancy Learning with Spatiotemporal Memory

2025-08-07

Авторы:

Ziyang Leng, Jiawei Yang, Wenlong Yi, Bolei Zhou

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы технологии автономного вождения стали активно развиваться, и одной из ключевых задач в этой области является восприятие окружающей среды. Одним из наиболее перспективных представлений для этой задачи является 3D-оккупация, позволяющая моделировать окружающее пространство на детализированном уровне. Однако, несмотря на многообещающие результаты, остаются серьезные проблемы, связанные с эффективной агрегацией 3D-оккупации во времени на основе многокадровых входных данных. Эти проблемы связаны с высокой вычислительной нагрузкой, а также неопределенностью и динамикой, присущими вокселям, которые используются для представления 3D-пространства. Сложности, возникающие при обработке временных данных, включают необходимость учета исторической информации, что требует разработки методов, способных обрабатывать и запоминать изменения в сцене на протяжении времени. Кроме того, динамические изменения в окружающей среде могут привести к временным несоответствиям в данных, что затрудняет точное предсказание оккупации в реальном времени. В связи с этим необходимо создать надежный метод, который мог бы эффективно интегрировать информацию из нескольких кадров, учитывая временные зависимости и динамику сцены. Это подчеркивает важность разработки методологических подходов, направленных на улучшение представления оккупации в 3D-пространстве и решение текущих проблем в области автономного вождения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают новый подход, названный ST-Occ, который представляет собой фреймворк для обучения представлению оккупации на уровне сцены с учетом спатио-временных особенностей. Основными компонентами ST-Occ являются спатио-временная память и механизм внимания, который позволяет эффективно обрабатывать информацию из нескольких кадров. Спатио-временная память служит для накопления и хранения исторической информации о сцене, что позволяет улучшить контекстуальное восприятие оккупации. Эта память организована в виде сцены, что обеспечивает эффективное хранение и доступ к данным. Используя эту память, система может учитывать изменения в оккупации, происходящие со временем, и корректировать свои предсказания на основе полученной информации. Механизм внимания в ST-Occ позволяет адаптировать текущее представление оккупации в зависимости от спатио-временной памяти, что добавляет уровень неуверенности и осведомленности о динамике. Этот подход позволяет системе выделять наиболее значимые аспекты данных, полученных из нескольких кадров, что приводит к более точным предсказаниям оккупации. В результате, ST-Occ значительно улучшает представление спатио-временной информации, что делает его более эффективным для задач предсказания оккупации в 3D-пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов авторы провели серию тестов, чтобы оценить эффективность предложенного метода по сравнению с существующими передовыми решениями. Для оценки производительности модели использовались наборы данных, содержащие многокадровые изображения, которые отражали различные сцены и динамические изменения в оккупации. В частности, проводились тесты на различных метриках, включая средний Intersection over Union (mIoU), который является стандартом для оценки качества предсказаний в задачах сегментации. Результаты экспериментов показали, что метод ST-Occ превосходит другие современные подходы, демонстрируя улучшение на 3 mIoU. Кроме того, было зафиксировано снижение временной несоответствия на 29%, что указывает на более высокую стабильность и надежность предсказаний, полученных с помощью предложенного метода. Эти результаты подтверждают, что ST-Occ не только эффективно агрегирует информацию о сценах, но и значительно улучшает точность предсказаний оккупации, что имеет важное значение для автономного вождения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ST-Occ имеет широкие перспективы применения в различных областях, включая автономное вождение, робототехнику и системы мониторинга окружающей среды. Преимущества, которые он предлагает, заключаются в более точном и надежном восприятии 3D-оккупации, что может значительно улучшить безопасность и эффективность автономных транспортных средств. Благодаря способности учитывать временные зависимости и динамические изменения в сцене, ST-Occ может быть использован для разработки более адаптивных и устойчивых систем, способных реагировать на изменения в окружающей среде в реальном времени. Это может привести к созданию более безопасных систем автономного вождения, которые смогут лучше справляться с непредсказуемыми ситуациями на дороге. Кроме того, результаты, полученные с использованием ST-Occ, могут быть полезны в других областях, таких как компьютерное зрение и обработка изображений, где требуется анализ и предсказание изменений во времени. Таким образом, предложенный подход может оказать значительное влияние на развитие технологий восприятия и понимания окружающей среды. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной статье авторы представили метод ST-Occ, который предлагает новые решения для проблемы восприятия 3D-оккупации в автономном вождении. Основные достижения включают создание спатио-временной памяти и механизма внимания, которые значительно улучшают качество предсказаний и уменьшают временные несоответствия. Будущие исследования могут сосредоточиться на расширении возможностей ST-Occ, включая интеграцию с другими методами машинного обучения и глубокого обучения, а также на улучшении обработки данных в условиях сложной и динамичной среды. Это открывает новые горизонты для развития технологий, связанных с автономным вождением и восприятием окружающей среды.

Annotation:

3D occupancy becomes a promising perception representation for autonomous driving to model the surrounding environment at a fine-grained scale. However, it remains challenging to efficiently aggregate 3D occupancy over time across multiple input frames due to the high processing cost and the uncertainty and dynamics of voxels. To address this issue, we propose ST-Occ, a scene-level occupancy representation learning framework that effectively learns the spatiotemporal feature with temporal consis...

ID: 2508.04705v1 cs.CV

arXiv PDF

📄 GeoShield: Safeguarding Geolocation Privacy from Vision-Language Models via Adversarial Perturbations

2025-08-06

Авторы:

Xinwei Liu, Xiaojun Jia, Yuan Xun, Simeng Qin, Xiaochun Cao

**Резюме:** Vision-Language Models (VLMs), такие как GPT-4, становятся все более эффективными в определении геолокации пользователей на основе публичных изображений, создавая серьезные угрозы для геоприватности. Традиционные методы адверасарных пертурбаций недостаточно эффективны в таком контексте, так как плохо справляются с высокоразрешенными изображениями, ограниченными бюджетами пертурбаций и риском введения неуместного семантического контента. Для решения этой проблемы авторы предлагают GeoShield — инновационный адверасарный фреймворк, нацеленный на защиту геоприватности. GeoShield включает в себя три модуля: разделение географических и негеографических функций, идентификацию гео-раскрывающих элементов и масштабируемую оптимизацию пертурбаций на глобальном и локальном уровнях. Результаты экспериментов показывают, что GeoShield эффективен в чернобокс-сценариях, обеспечивая высокий уровень приватности с минимальными изменениями визуального и семантического качества изображения. Это первое исследование, которое применяет адверасарные пертурбации для защиты от геолокационного выведения в современных VLMs, предлагая практическое и эффективное решение для растущих проблем приватности.

Annotation:

Vision-Language Models (VLMs) such as GPT-4o now demonstrate a remarkable ability to infer users' locations from public shared images, posing a substantial risk to geoprivacy. Although adversarial perturbations offer a potential defense, current methods are ill-suited for this scenario: they often perform poorly on high-resolution images and low perturbation budgets, and may introduce irrelevant semantic content. To address these limitations, we propose GeoShield, a novel adversarial framework d...

ID: 2508.03209v1 cs.CV, cs.AI

arXiv PDF

📄 The Power of Many: Synergistic Unification of Diverse Augmentations for Efficient Adversarial Robustness

2025-08-06

Авторы:

Wang Yu-Hang, Shiwei Li, Jianxiang Liao, Li Bohan, Jian Liu, Wenfei Yin

**Резюме** Атаки с адверсариальными возмущениями представляют серьёзную угрозу для глубоких нейронных сетей, приводя к ухудшению их производительности. Одной из основных методологий защиты является Адверсариальная Обучаемость (Adversarial Training, AT), которая, однако, характеризуется высокими вычислительными затратами и снижением точности модели. Другой подход — использование аугментации данных — также имеет ограничения, так как существующие методы либо дают незначительный прирост в прочности, либо требуют значительных вычислительных ресурсов. В этой работе авторы предлагают Universal Adversarial Augmenter (UAA) — фреймворк, который эффективно комбинирует различные стратегии аугментации для повышения прочности моделей. UAA разделяет процесс генерации возмущений от процесса обучения, позволяя предварительно вычислить универсальные трансформации в автономном режиме. Это позволяет эффективно генерировать уникальные адверсариальные возмущения для каждого образца во время обучения. Результаты экспериментов на различных бенчмарках показывают, что UAA достигает нового уровня эффективности и прочности, устанавливая новый стандарт в защите моделей без необходимости онлайн-генерации адверсариальных примеров.

Annotation:

Adversarial perturbations pose a significant threat to deep learning models. Adversarial Training (AT), the predominant defense method, faces challenges of high computational costs and a degradation in standard performance. While data augmentation offers an alternative path, existing techniques either yield limited robustness gains or incur substantial training overhead. Therefore, developing a defense mechanism that is both highly efficient and strongly robust is of paramount importance.In this...

ID: 2508.03213v1 cs.CV, cs.AI, C.1.2

arXiv PDF

📄 Navigation Pixie: Implementation and Empirical Study Toward On-demand Navigation Agents in Commercial Metaverse

2025-08-06

Авторы:

Hikari Yanagawa, Yuichi Hiroi, Satomi Tokida, Yuji Hatada, Takefumi Hiraki

**Резюме:** В коммерческих метавселенных, несмотря на многообразие пользовательского контента, отсутствует эффективная навигационная поддержка, способная адаптироваться к интересам и целям пользователей. Ранее разработанные навигационные агенты были ограничены управляемыми средами, и их применение в разнообразных коммерческих мирах сталкивалось с значительными техническими ограничениями. В данной статье представлен **Navigation Pixie**, агент для поддержки навигации, основанный на гибкой архитектуре, которая сочетает структурированные пространственные метаданные и обработку естественного языка на основе технологий языковых моделей (LLM). Это позволяет минимизировать зависимость от платформ и обеспечить эксперименты на больших пользовательских выборках. Исследования, проведенные на коммерческой платформе **Cluster** с участием 99 пользователей на ПК и 94 пользователя с VR-устройствами, демонстрируют, что Navigation Pixie значительно повышает время пребывания и степень свободного исследования пространства по сравнению с фиксированными маршрутами или отсутствием агента. Результаты подтверждают эффективность подхода и открывают новые возможности для разработки конверсациионных навигационных агентов в коммерческих метавселенных.

Annotation:

While commercial metaverse platforms offer diverse user-generated content, they lack effective navigation assistance that can dynamically adapt to users' interests and intentions. Although previous research has investigated on-demand agents in controlled environments, implementation in commercial settings with diverse world configurations and platform constraints remains challenging. We present Navigation Pixie, an on-demand navigation agent employing a loosely coupled architecture that integr...

ID: 2508.03216v1 cs.HC, cs.AI

arXiv PDF

📄 CardiffNLP at CLEARS-2025: Prompting Large Language Models for Plain Language and Easy-to-Read Text Rewriting

2025-08-06

Авторы:

Mutaz Ayesh, Nicolás Gutiérrez-Rolón, Fernando Alva-Manchego

**Резюме** В данной работе команда CardiffNLP представляет свой подход к задаче адаптации текстов на испанском языке, представленной в рамках CLEARS-2025. Задача разделена на два подзадания, в которых необходимо перефразировать тексты в более простой и доступный для понимания формат. Авторы использовали метод промптинга больших языковых моделей (LLM), экспериментируя с различными вариациями приглашений. Начиная с LLaMA-3.2, они в конечном счёте перешли на Gemma-3, которая показала лучшие результаты. Этот подход позволил команде занять третье место в Подзадании 1 и второе место в Подзадании 2. Работа детально описывает использованные варианты промптингов, примеры и результаты экспериментов, подчеркивая эффективность выбранного подхода для создания текстов в простой и читаемой форме.

Annotation:

This paper details the CardiffNLP team's contribution to the CLEARS shared task on Spanish text adaptation, hosted by IberLEF 2025. The shared task contained two subtasks and the team submitted to both. Our team took an LLM-prompting approach with different prompt variations. While we initially experimented with LLaMA-3.2, we adopted Gemma-3 for our final submission, and landed third place in Subtask 1 and second place in Subtask 2. We detail our numerous prompt variations, examples, and experim...

ID: 2508.03240v1 cs.CL, cs.AI

arXiv PDF

📄 RooseBERT: A New Deal For Political Language Modelling

2025-08-06

Авторы:

Deborah Dore, Elena Cabrio, Serena Villata

**Резюме** Растущий объём политических дебатов и обсуждений высокого уровня требует разработки специализированных методов для автоматического анализа такого контента. Однако специфика политического языка, в том числе использование скрытых коммуникационных стратегий и неявных аргументов, представляет сложную задачу даже для современных общеуниверсальных предварительно обученных языковых моделей. Для решения этой проблемы авторы представляют RooseBERT — специализированную языковую модель, предварительно обученную на большом корпусе политических дебатов и речей на английском языке (8 тыс. дебатов, каждый из которых состоит из нескольких поддебатов по различным темам). RooseBERT была оценена на четырех задачах: распознавание именованных сущностей, анализ тональности, выделение и классифицирование компонентов аргументации, а также предсказание и классификация отношений аргументов. Результаты демонстрируют значительное улучшение показателей по сравнению с общеуниверсальными моделями, подчеркивая преимущества доменно-специфичного предварительного обучения в анализе политических дебатов. RooseBERT доступна для исследовательского сообщества.

Annotation:

The increasing amount of political debates and politics-related discussions calls for the definition of novel computational methods to automatically analyse such content with the final goal of lightening up political deliberation to citizens. However, the specificity of the political language and the argumentative form of these debates (employing hidden communication strategies and leveraging implicit arguments) make this task very challenging, even for current general-purpose pre-trained Langua...

ID: 2508.03250v1 cs.CL, cs.AI

arXiv PDF

1
2
3393
3394
3395
3396
3397
3402
3403

Показано 33941 - 33950 из 34022 записей