📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 CourtMotion: Learning Event-Driven Motion Representations from Skeletal Data for Basketball

2025-12-04

Авторы:

Omer Sela, Michael Chertok, Lior Wolf

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper presents CourtMotion, a spatiotemporal modeling framework for analyzing and predicting game events and plays as they develop in professional basketball. Anticipating basketball events requires understanding both physical motion patterns and their semantic significance in the context of the game. Traditional approaches that use only player positions fail to capture crucial indicators such as body orientation, defensive stance, or shooting preparation motions. Our two-stage approach fir...

ID: 2512.01478v1 cs.CV, cs.MA

arXiv PDF

📄 VideoChat-M1: Collaborative Policy Planning for Video Understanding via Multi-Agent Reinforcement Learning

2025-11-26

Авторы:

Boyu Chen, Zikang Wang, Zhengrong Yue, Kainan Yan, Chenyun Yu, Yi Huang, Zijun Liu, Yafei Wen, Xiaoxin Chen, Yang Liu, Peng Li, Yali Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

By leveraging tool-augmented Multimodal Large Language Models (MLLMs), multi-agent frameworks are driving progress in video understanding. However, most of them adopt static and non-learnable tool invocation mechanisms, which limit the discovery of diverse clues essential for robust perception and reasoning regarding temporally or spatially complex videos. To address this challenge, we propose a novel Multi-agent system for video understanding, namely VideoChat-M1. Instead of using a single or f...

ID: 2511.19524v1 cs.CV, cs.MA

arXiv PDF

📄 Enhancing Agentic Autonomous Scientific Discovery with Vision-Language Model Capabilities

2025-11-19

Авторы:

Kahaan Gandhi, Boris Bolliet, Inigo Zubeldia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We show that multi-agent systems guided by vision-language models (VLMs) improve end-to-end autonomous scientific discovery. By treating plots as verifiable checkpoints, a VLM-as-a-judge evaluates figures against dynamically generated domain-specific rubrics, enabling agents to correct their own errors and steer exploratory data analysis in real-time. Case studies in cosmology and astrochemistry demonstrate recovery from faulty reasoning paths and adaptation to new datasets without human interve...

ID: 2511.14631v1 cs.CL, cs.AI, cs.CV, cs.MA

arXiv PDF

📄 AdaptFly: Prompt-Guided Adaptation of Foundation Models for Low-Altitude UAV Networks

2025-11-18

Авторы:

Jiao Chen, Haoyi Wang, Jianhua Tang, Junyi Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Low-altitude Unmanned Aerial Vehicle (UAV) networks rely on robust semantic segmentation as a foundational enabler for distributed sensing-communication-control co-design across heterogeneous agents within the network. However, segmentation foundation models deteriorate quickly under weather, lighting, and viewpoint drift. Resource-limited UAVs cannot run gradient-based test-time adaptation, while resource-massive UAVs adapt independently, wasting shared experience. To address these challenges, ...

ID: 2511.11720v1 cs.CV, cs.MA

arXiv PDF

📄 GenCellAgent: Generalizable, Training-Free Cellular Image Segmentation via Large Language Model Agents

2025-10-18

Авторы:

Xi Yu, Yang Yang, Qun Liu, Yonghua Du, Sean McSweeney, Yuewei Lin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Cellular image segmentation is essential for quantitative biology yet remains difficult due to heterogeneous modalities, morphological variability, and limited annotations. We present GenCellAgent, a training-free multi-agent framework that orchestrates specialist segmenters and generalist vision-language models via a planner-executor-evaluator loop (choose tool $\rightarrow$ run $\rightarrow$ quality-check) with long-term memory. The system (i) automatically routes images to the best tool, (ii)...

ID: 2510.13896v1 q-bio.QM, cs.AI, cs.CV, cs.MA

arXiv PDF

📄 UNCAP: Uncertainty-Guided Planning Using Natural Language Communication for Cooperative Autonomous Vehicles

2025-10-17

Авторы:

Neel P. Bhatt, Po-han Li, Kushagra Gupta, Rohan Siva, Daniel Milan, Alexander T. Hogue, Sandeep P. Chinchali, David Fridovich-Keil, Zhangyang Wang, Ufuk Topcu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Safe large-scale coordination of multiple cooperative connected autonomous vehicles (CAVs) hinges on communication that is both efficient and interpretable. Existing approaches either rely on transmitting high-bandwidth raw sensor data streams or neglect perception and planning uncertainties inherent in shared data, resulting in systems that are neither scalable nor safe. To address these limitations, we propose Uncertainty-Guided Natural Language Cooperative Autonomous Planning (UNCAP), a visio...

ID: 2510.12992v1 cs.RO, cs.CL, cs.CV, cs.MA

arXiv PDF

📄 GPS-MTM: Capturing Pattern of Normalcy in GPS-Trajectories with self-supervised learning

2025-10-01

Авторы:

Umang Garg, Bowen Zhang, Anantanjit Subrahmanya, Chandrakanth Gudavalli, BS Manjunath

#### Контекст Городские транспортные системы и мобильность человека являются ключевыми компонентами современных городов. Однако моделирование и анализ мобильных данных человека, таких как GPS-траектории, остается сложной задачей. Обычно, эти данные требуют ручного меток или подготовки, что ограничивает масштаб и эффективность. В этом контексте возникает потребность в разработке методов, которые могут автоматически учитывать контекстный смысл и структуру данных без ручного вмешательства. Это требуется для развития более точных моделей для прогнозирования движения, выявления аномалий и других задач в области мобильности. #### Метод GPS-MTM (GPSMasked Trajectory Transformer) представляет собой фундаментальную модель для анализа траекторий, основанную на трансформерах. Она разделяет мобильные данные на две модальности: **статы** (категории точек интереса) и **действия** (переходы между точками). Главной особенностью является использование бидирекционального трансформера с самостоятельным обучением (self-supervised learning). Модель обучается через задачу маскирования: она предсказывает пропущенные значения в обоих модальностях, что позволяет устанавливать семантические связи без посредственного меток. Эта архитектура обеспечивает гибкость и эффективность в обработке больших наборов данных. #### Результаты Модель была протестирована на трех популярных датасетах: Numosim-LA, Urban Anomalies и Geolife. Она показала выдающиеся результаты на задачах **реконструкции траекторий**, **предсказания следующей точки перемещения** и **аномалии в движении**. Особенно выдающимися были показатели в **динамических задачах**, таких как **обратное и прямое динамическое моделирование**, где критически важно учитывать контекст. GPS-MTM показала стабильную превосходность по сравнению с существующими методами, такими как LSTMs и CNNs, в частности, при прогнозировании следующей точки перемещения. #### Значимость GPS-MTM может применяться в различных областях, включая **мобильность человека**, **управление городскими транспортными системами**, **выявление аномалий** и **задачи безопасности**. Ее мощь заключается в том, что она не требует ручной подготовки данных и может автоматически выделять значимые корреляции. Благодаря своему универсальному подходу, GPS-MTM открывает пути к новым возможностям в **репрезентационном обучении** и **мобильных системах**. #### Выводы GPS-MTM устанавливает новые стандарты в области моделирования траекторий, используя самостоятельное обучение и бидирекциональную модель трансформера. Это демонстрирует потенциал фундаментальных моделей для мобильных данных и их важност

Annotation:

Foundation models have driven remarkable progress in text, vision, and video understanding, and are now poised to unlock similar breakthroughs in trajectory modeling. We introduce the GPSMasked Trajectory Transformer (GPS-MTM), a foundation model for large-scale mobility data that captures patterns of normalcy in human movement. Unlike prior approaches that flatten trajectories into coordinate streams, GPS-MTM decomposes mobility into two complementary modalities: states (point-of-interest categ...

ID: 2509.24031v1 cs.LG, cs.AI, cs.CV, cs.MA

arXiv PDF

📄 Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

2025-09-30

Авторы:

Yulei Qin, Xiaoyu Tan, Zhengbao He, Gang Li, Haojia Lin, Zongyi Li, Zihan Xu, Yuchen Shi, Siqi Cai, Renting Rui, Shaofei Cai, Yuzheng Cai, Xuan Zhang, Sheng Ye, Ke Li, Xing Sun

#### Контекст Reinforcement learning (RL) является ключевым подходом для развития стратегических навыков у глубоких нейронных сетей над задачами с длинным горизонтом и редкими наградами. Однако он сталкивается с проблемой trade-off между exploration (исследованием) и exploitation (использованием), которая мешает эффективному обучению. Предыдущие исследования стимулируют exploration с помощью максимизации политики, но это проблематично из-за потенциальной instability при многократном shiftе дистрибуции. В данной работе мы фокусируемся на стабильном балансе между exploration и exploitation, используя собственные опыты агента. #### Метод Мы предлагаем SPEAR — curriculum-based self-imitation learning (SIL) framework, который расширяет vanilla SIL, хранящий self-generated promising trajectories в replay buffer для off-policy обновления. SPEAR включает curriculum-based steering для управления process exploration. Он использует intrinsic rewards для skill-level exploration и action-level exploration через SIL. В начале, reward-based reward помогает агенту накопить tool-use skills, расширяя его exposure к разным средствам среды с растущим entropy. Затем, self-imitation усиливается для эксплуатации успешных шагов из replay buffer, ускоряя iterative solution. Для stabilizing обучения, мы recalibrate advantages в replay buffer и вводим regularizations, такие как clipping high-covariance tokens, уменьшая over-confidence. #### Результаты Мы провели эксперименты на сетях с agentic capabilities, используя сложные задачи с горизонтом действий. SPEAR стабилизировал training и улучшил exploration-exploitation balance, показав значительное превосходство по metricам в сравнении с baselineami. Мы также проанализировали качество решений, наблюдая улучшение в динамической среде. #### Значимость SPEAR может применяться в областях, где требуется агентское поведение, такие как robotics, game-playing и conversational agents. Он обеспечивает более стабильное обучение, эффективное использование ресурсов и лучшую adaptability в разных средах. Potential implications включают улучшение agentic skills в широком диапазоне задач. #### Выводы SPEAR достигает стабильного и эффективного обучения agentic RL через self-imitation и progressive exploration. Наши результаты открывают новые направления в исследованиях обучения с agentic capabilities, направленных на улучшение stability и adaptability в RL. Будущие работы будут фокусироваться на улучшении curriculum design и exploration strategies для устранения препятствий в итоге.

Annotation:

Reinforcement learning (RL) is the dominant paradigm for sharpening strategic tool use capabilities of LLMs on long-horizon, sparsely-rewarded agent tasks, yet it faces a fundamental challenge of exploration-exploitation trade-off. Existing studies stimulate exploration through the lens of policy entropy, but such mechanical entropy maximization is prone to RL training instability due to the multi-turn distribution shifting. In this paper, we target the progressive exploration-exploitation balan...

ID: 2509.22601v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.MA

arXiv PDF

📄 Multi-Agent Amodal Completion: Direct Synthesis with Fine-Grained Semantic Guidance

2025-09-24

Авторы:

Hongxing Fan, Lipeng Wang, Haohua Chen, Zehuan Huang, Jiangtao Wu, Lu Sheng

## Контекст Амодальное завершение (amodal completion) — процесс генерирования невидимых частей оккультедных объектов — является ключевым заданием в области компьютерного зрения и машинного обучения. Оно имеет широкое приложение в таких действиях, как изображение редактирования и приложения в augmented reality (AR). Однако существующие подходы сталкиваются с рядом проблем, включая необходимость больших объемов данных, проблемы генерализации и ошибок, накапливающихся в развивающихся программных конвейерах. Наша работа призвана решить эти проблемы, обеспечив более эффективный и точный подход к амодальному завершению. ## Метод Мы предлагаем **Collaborative Multi-Agent Reasoning Framework**, основанный на стратегии взаимодействия между несколькими агентами для полного понимания и решения задачи амодального завершения. Наш фреймворк включает в себя несколько специализированных агентов, которые анализируют отношения между объектами и оценивают границы, необходимые для расширения. Для точного маскирования используется генерация масок, а для генерирования тонкого семантического управления — раннее создание текстовых описаний. Для улучшения процесса изображения мы используем Diffusion Transformer, который позволяет выдавать высококачественные слои RGBA. Этот подход устраняет необходимость в дополнительной сегментации, обеспечивая прямую и точную генерацию. ## Результаты Мы проводили многочисленные эксперименты с использованием различных наборов данных, включая объекты с различными уровнями комплексности и размеров. Наши результаты показали, что наш подход превосходит существующие методы по метрикам качества, таким как PSNR, SSIM и FID. Мы также проводили аблационные эксперименты, показав, что каждая часть нашей системы играет критическую роль в достижении лучших результатов. Наши результаты демонстрируют высокую точность и генерализуемость наших решений в действительных сценариях. ## Значимость Наш подход имеет широкие области применения, включая изображение редактирования, augmented reality и приложения в ботах-имитаторах. Он предоставляет преимущества, такие как улучшенная точность, уменьшение ошибок и решение проблем с генерализацией в существующих подходах. Благодаря нашему методу, можно достигать высокого качества изображения с меньшим риском повторной генерации нежелательных частей, таких как оккультедные объекты. Мы считаем, что наш подход может быть применен в различных сферах, включая коммерческую редактирования изображений и робототехнику. ## Выводы Мы представили новый подход к амодальному завершению, использующий Collaborative Multi-Agent Reasoning Framework с тонким семантическим управлением. Наши результаты показывают, что этот подхо

Annotation:

Amodal completion, generating invisible parts of occluded objects, is vital for applications like image editing and AR. Prior methods face challenges with data needs, generalization, or error accumulation in progressive pipelines. We propose a Collaborative Multi-Agent Reasoning Framework based on upfront collaborative reasoning to overcome these issues. Our framework uses multiple agents to collaboratively analyze occlusion relationships and determine necessary boundary expansion, yielding a pr...

ID: 2509.17757v1 cs.CV, cs.MA

arXiv PDF

📄 CoPAD : Multi-source Trajectory Fusion and Cooperative Trajectory Prediction with Anchor-oriented Decoder in V2X Scenarios

2025-09-23

Авторы:

Kangyu Wu, Jiaqi Qiao, Ya Zhang

#### Контекст Интерес к автономному вождению и взаимодействию транспортных средств возрос в последние годы, в связи с ростом требований к безопасности, эффективности и удобству движения. Одним из ключевых аспектов этого развития является точная и достоверная прогнозирования движения транспортных средств. Несмотря на то, что развитие методов данных позволило достичь значительных улучшений в этой области, существуют определенные ограничения, связанные с нестабильностью одного-на-одинного восприятия водителями. Данная работа инициирует новый подход, предлагающий решение данных проблем, сформировав новую модель, названную CoPAD. #### Метод CoPAD представляет собой сложную архитектуру, которая решает проблемы нестабильности в однородных данных об окружении. Она включает в себя модуль слияния данных, основанный на Гунгарском алгоритме и Калмановом фильтре, который обеспечивает эффективную обработку множества данных входных источников. Для расширения характеристик исходных данных включены модули "прошлое время внимания" (PTA), модуль мод внимания и модуль анкора-ориентированного декодирования (AoD). Эти модули позволяют обеспечить богатые, точные и прогностически важные траектории движения. Декодер с использованием анкоров позволяет формировать полные данные траекторий движения, что значительно улучшает точность прогноза в сценариях V2X. #### Результаты Лабораторные испытания проводились на DAIR-V2X-Seq датасете, чтобы оценить показатели CoPAD. Эксперименты показали, что новая модель дает наилучший результат в плане точности прогнозирования траекторий в сравнении с другими подходами. Например, она эффективно обрабатывает данные с различных входных источников, в том числе от транспортных средств и инфраструктуры дорог. Эти результаты подтверждают, что CoPAD может эффективно улучшить прогнозирование движения в автономных и взаимодействующих системах. #### Значимость Предложенная модель может быть применена в различных сценариях, включая системы автономного вождения, системы экстренного маневрирования и адаптивные системы управления трафиком. Она предоставляет улучшенную точность прогноза движения, что может существенно повысить безопасность и эффективность движения. Данный подход также может использоваться в разработке новых решений для систем взаимодействия, таких как V2X (Vehicle-to-Everything), что будет способствовать автоматизации и оптимизации транспортных процессов. #### Выводы Разработанный CoPAD является одним из наиболее эффективных подходов к решению проблем нестабильности данных в системах прогноза движения

Annotation:

Recently, data-driven trajectory prediction methods have achieved remarkable results, significantly advancing the development of autonomous driving. However, the instability of single-vehicle perception introduces certain limitations to trajectory prediction. In this paper, a novel lightweight framework for cooperative trajectory prediction, CoPAD, is proposed. This framework incorporates a fusion module based on the Hungarian algorithm and Kalman filtering, along with the Past Time Attention (P...

ID: 2509.15984v1 cs.CV, cs.MA, cs.RO

arXiv PDF

Показано 1 - 10 из 15 записей