📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Enhancing Underwater Object Detection through Spatio-Temporal Analysis and Spatial Attention Networks

2025-11-01

Авторы:

Sai Likhith Karri, Ansh Saxena

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This study examines the effectiveness of spatio-temporal modeling and the integration of spatial attention mechanisms in deep learning models for underwater object detection. Specifically, in the first phase, the performance of temporal-enhanced YOLOv5 variant T-YOLOv5 is evaluated, in comparison with the standard YOLOv5. For the second phase, an augmented version of T-YOLOv5 is developed, through the addition of a Convolutional Block Attention Module (CBAM). By examining the effectiveness of th...

ID: 2510.25797v1 cs.CV, cs.CL, cs.RO

arXiv PDF

📄 Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views

2025-10-29

Авторы:

Anna Deichler, Jonas Beskow

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We introduce Look and Tell, a multimodal dataset for studying referential communication across egocentric and exocentric perspectives. Using Meta Project Aria smart glasses and stationary cameras, we recorded synchronized gaze, speech, and video as 25 participants instructed a partner to identify ingredients in a kitchen. Combined with 3D scene reconstructions, this setup provides a benchmark for evaluating how different spatial representations (2D vs. 3D; ego vs. exo) affect multimodal groundin...

ID: 2510.22672v2 cs.CV, cs.CL, cs.RO, I.2.10; I.2.9; I.2.7; H.5.2

arXiv PDF

📄 Virtual Community: An Open World for Humans, Robots, and Society

2025-08-22

Авторы:

Qinhong Zhou, Hongxin Zhang, Xiangye Lin, Zheyuan Zhang, Yutian Chen, Wenjun Liu, Zunzhe Zhang, Sunli Chen, Lixing Fang, Qiushi Lyu, Xinyu Sun, Jincheng Yang, Zeyuan Wang, Bao Chi Dang, Zhehuan Chen, Daksha Ladia, Jiageng Liu, Chuang Gan

#### Контекст Современное прогрессивное развитие искусственного интеллекта (ИИ) и робототехники приводит к глубокой трансформации общественного развития. Интеллектуальные системы начинают входить в общий цикл жизнедеятельности человека, образуя общую среду для сотрудничества и взаимодействия. Однако это процесс порождает решение множества новых задач и вопросов. Одним из таких задач является создание условий для эффективного взаимодействия между людьми, роботами и обществом в целом. В этой работе предлагается Virtual Community — платформа для создания общности, в которой могут действовать люди, роботы и общество. Данная платформа основывается на универсальном физическом движке и включает в себя реальные 3D-сцены. Её целью является исследование проблем эмбодьд социального интеллекта, в частности: 1) исследование возможностей мотивированного сотрудничества или конкуренции между роботами; 2) изучение способов формирования социальных отношений и создания общин; 3) разработка моделей для сотрудничества между роботами и людьми в открытом мире. #### Метод Virtual Community представляет собой уникальную среду с открытым кодом, сочетающую в себе физическую модель действий, 3D-сцены и многоагентную систему. Физический движок включает в себя систему роботов, людей и их интеракций в рамках общества. Для построения среды используется большой набор реальных 3D-сцен, включая домашние интерьеры, улицы и другие общественные места. Это позволяет создать реалистичную общность, в которой могут действовать роботы, люди и другие субъекты общества. Для решения задач в рамках Virtual Community разработана оригинальная методология, включающая: 1) широкомасштабное построение сцен с учетом существующих реальных структур; 2) использование разнообразных агентов с разнообразными характеристиками и возможностями; 3) разработка протоколов для конкурентного и сотрудничествующего взаимодействия. #### Результаты Для оценки возможностей Virtual Community проведены эксперименты, в которых были использованы различные методы компьютерного зрения, машинного обучения и физических моделей. Были проведены эксперименты на оценке способности роботов совместно решать задачи, взаимодействовать с человеком и работать в составе общественных сообществ. Были оценены различные базовые алгоритмы, включая методы глубокого обучения, для решения задач, охватывающих различные уровни абстракции, от высокоуровневых задач планирования до низкоуровневых задач координации действий. #### Значимость Virtual Community может быть использована в многочисленных областях применения. Например

Annotation:

The rapid progress in AI and Robotics may lead to a profound societal transformation, as humans and robots begin to coexist within shared communities, introducing both opportunities and challenges. To explore this future, we present Virtual Community-an open-world platform for humans, robots, and society-built on a universal physics engine and grounded in real-world 3D scenes. With Virtual Community, we aim to study embodied social intelligence at scale: 1) How robots can intelligently cooperate...

ID: 2508.14893v1 cs.CV, cs.CL, cs.RO

arXiv PDF