📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Sai Likhith Karri, Ansh Saxena
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This study examines the effectiveness of spatio-temporal modeling and the
integration of spatial attention mechanisms in deep learning models for
underwater object detection. Specifically, in the first phase, the performance
of temporal-enhanced YOLOv5 variant T-YOLOv5 is evaluated, in comparison with
the standard YOLOv5. For the second phase, an augmented version of T-YOLOv5 is
developed, through the addition of a Convolutional Block Attention Module
(CBAM). By examining the effectiveness of th...
📄 Look and Tell: A Dataset for Multimodal Grounding Across Egocentric and Exocentric Views
2025-10-29Авторы:
Anna Deichler, Jonas Beskow
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We introduce Look and Tell, a multimodal dataset for studying referential
communication across egocentric and exocentric perspectives. Using Meta Project
Aria smart glasses and stationary cameras, we recorded synchronized gaze,
speech, and video as 25 participants instructed a partner to identify
ingredients in a kitchen. Combined with 3D scene reconstructions, this setup
provides a benchmark for evaluating how different spatial representations (2D
vs. 3D; ego vs. exo) affect multimodal groundin...
Авторы:
Qinhong Zhou, Hongxin Zhang, Xiangye Lin, Zheyuan Zhang, Yutian Chen, Wenjun Liu, Zunzhe Zhang, Sunli Chen, Lixing Fang, Qiushi Lyu, Xinyu Sun, Jincheng Yang, Zeyuan Wang, Bao Chi Dang, Zhehuan Chen, Daksha Ladia, Jiageng Liu, Chuang Gan
#### Контекст
Современное прогрессивное развитие искусственного интеллекта (ИИ) и робототехники приводит к глубокой трансформации общественного развития. Интеллектуальные системы начинают входить в общий цикл жизнедеятельности человека, образуя общую среду для сотрудничества и взаимодействия. Однако это процесс порождает решение множества новых задач и вопросов. Одним из таких задач является создание условий для эффективного взаимодействия между людьми, роботами и обществом в целом.
В этой работе предлагается Virtual Community — платформа для создания общности, в которой могут действовать люди, роботы и общество. Данная платформа основывается на универсальном физическом движке и включает в себя реальные 3D-сцены. Её целью является исследование проблем эмбодьд социального интеллекта, в частности: 1) исследование возможностей мотивированного сотрудничества или конкуренции между роботами; 2) изучение способов формирования социальных отношений и создания общин; 3) разработка моделей для сотрудничества между роботами и людьми в открытом мире.
#### Метод
Virtual Community представляет собой уникальную среду с открытым кодом, сочетающую в себе физическую модель действий, 3D-сцены и многоагентную систему. Физический движок включает в себя систему роботов, людей и их интеракций в рамках общества. Для построения среды используется большой набор реальных 3D-сцен, включая домашние интерьеры, улицы и другие общественные места. Это позволяет создать реалистичную общность, в которой могут действовать роботы, люди и другие субъекты общества.
Для решения задач в рамках Virtual Community разработана оригинальная методология, включающая: 1) широкомасштабное построение сцен с учетом существующих реальных структур; 2) использование разнообразных агентов с разнообразными характеристиками и возможностями; 3) разработка протоколов для конкурентного и сотрудничествующего взаимодействия.
#### Результаты
Для оценки возможностей Virtual Community проведены эксперименты, в которых были использованы различные методы компьютерного зрения, машинного обучения и физических моделей. Были проведены эксперименты на оценке способности роботов совместно решать задачи, взаимодействовать с человеком и работать в составе общественных сообществ. Были оценены различные базовые алгоритмы, включая методы глубокого обучения, для решения задач, охватывающих различные уровни абстракции, от высокоуровневых задач планирования до низкоуровневых задач координации действий.
#### Значимость
Virtual Community может быть использована в многочисленных областях применения. Например
Annotation:
The rapid progress in AI and Robotics may lead to a profound societal
transformation, as humans and robots begin to coexist within shared
communities, introducing both opportunities and challenges. To explore this
future, we present Virtual Community-an open-world platform for humans, robots,
and society-built on a universal physics engine and grounded in real-world 3D
scenes. With Virtual Community, we aim to study embodied social intelligence at
scale: 1) How robots can intelligently cooperate...