📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Conversational Orientation Reasoning: Egocentric-to-Allocentric Navigation with Multimodal Chain-of-Thought

2025-09-25

Авторы:

Yu Ti Huang

#### Контекст В последнее время становится все важнее создавать роботы-консультанты, способные общаться на естественном языке и решать задачи, связанные с навигацией. Одной из ключевых проблем является перевод егогоцентрических указаний (например, "на моей правой стороне") в аллоцентрические направления (например, "на восток" или "на запад"). Данная задача становится особенно сложной в закрытых пространствах, таких как торговые центры и офисные здания, где сигналы GPS недоступны, и доступ к точным картам ограничен. Несмотря на то, что цепь мысли (Chain-of-Thought, CoT) позволила улучшить умения логического рассуждения в задачах языка и визуального распознавания, её применение к мультимодальной проблеме манипулирования спациальными ориентациями остается недостаточно исследовано. #### Метод Мы предлагаем Conversational Orientation Reasoning (COR), новую метрику для интерпретированных наборов данных на традиционном китайском языке, представленных в виде проекций реальных сред. Цель COR — развитие умений навигации, ориентируясь на смешанные сообщения, в том числе используя результаты транскрипции речи (ASR) и неточности в указаниях, встречающихся в реальных обстоятельствах. Мы предлагаем новую архитектуру Мультимодальной цепи мысли (MCoT), которая объединяет звуковые сигналы и координаты с помощью структурированного процесса в три этапа: (1) извлечение пространственных отношений, (2) преобразование координат в абсолютные направления и (3) интерпретация положения пользователя. Для развития COR в ресурсораспределенных условиях мы применили стратегию курсивного обучения, начиная с простых задач и продвигаясь к сложным. #### Результаты Мы провели исследования с помощью имитационного тестирования на реальных данных и показали, что MCoT достигает 100% точности на чистом тексте и 98,1% на текстах, полученных с помощью ASR. Это существенно превосходит результаты неупорядоченных и моно модальных подходов. Мы также проверили MCoT на нескольких тестах, связанных с контекстом, включая скейлинг по сложности, многоязычие и референтные неоднозначности. Модель показала высокую точность и устойчивость при различных условиях, что демонстрирует её потенциал в сфере интерактивного взаимодействия со средами. #### Значимость Мы видим возможности для применения нашего подхода в различных областях, включая промышленную навигацию, виртуальные помощники и системы управления в закрытых пространствах. МCoT обеспечивает интерпретируемые решения и эффективно использует ресурсы. Он также может быть применён к решению задач, в которых необходимо работать с нетрадиционными и м

Annotation:

Conversational agents must translate egocentric utterances (e.g., "on my right") into allocentric orientations (N/E/S/W). This challenge is particularly critical in indoor or complex facilities where GPS signals are weak and detailed maps are unavailable. While chain-of-thought (CoT) prompting has advanced reasoning in language and vision tasks, its application to multimodal spatial orientation remains underexplored. We introduce Conversational Orientation Reasoning (COR), a new benchmark design...

ID: 2509.18200v1 cs.LG, cs.AI, cs.CL, cs.RO

arXiv PDF

📄 VehicleWorld: A Highly Integrated Multi-Device Environment for Intelligent Vehicle Interaction

2025-09-10

Авторы:

Jie Yang, Jiajun Chen, Zhangyue Yin, Shuo Chen, Yuxin Wang, Yiran Guo, Yuan Li, Yining Zheng, Xuanjing Huang, Xipeng Qiu

## Контекст Область исследования связана с развитием интеллектуальных систем для интерактивного управления автомобилями. Недавние прогрессы в искусственном интеллекте и автоматизированном управлении привели к появлению внедряемых систем, обеспечивающих безопасность и эффективность вождения. Однако существуют серьезные проблемы, связанные с трудностями в создании систем, которые могут эффективно координироваться в узких, тесно связанных системах. Эти системы часто требуют сложных вычислений и неэффективных процессов, что приводит к ошибкам и резким потерям в производительности. Таким образом, необходимо разработать среду, которая могла бы полностью имитировать работу таких систем и помогла бы оценивать их поведение в разных сценариях. ## Метод Методология, разработанная в рамках этого исследования, основывается на создании комплексной среды, названной **VehicleWorld**. Она включает 30 модулей, 250 API-интерфейсов и 680 свойств, выполняющихся в реальном времени. Эта среда позволяет тестировать и оценивать поведение автомобильных агентов в разных сценариях. Эталонным подходом является **Function Calling (FC)**, который использует статические вызовы для выполнения задач. Однако этот подход имеет ограничения, так как не имеет состояния и требует много вызовов для понимания ситуации. Заменив этот подход на **State-based Function Call (SFC)**, мы добиваемся состояния системы, позволяя ему делать прямые переходы в соответствии с целевыми условиями. ## Результаты Исследование включало системные эксперименты с использованием **VehicleWorld**, где были оценены различные сценарии. Данные о входе и выходе, полученные при работе с **SFC**, показали значительное улучшение эффективности и точности в сравнении с **FC**. Особое внимание было уделено анализу реального времени, где **SFC** демонстрировал значительное сокращение времени ответа и улучшение устойчивости. ## Значимость Результаты исследования могут быть применены в различных областях, включая интеллектуальные системы для автомобилей, системы безопасности, автоматизацию производственных процессов. Наибольший потенциал SFC имеет в области управления автомобилями в реальном времени, где необходимо сохранять состояние и выполнять прямые переходы в зависимости от целей. Этот подход предлагает значительные преимущества в скорости выполнения, точности и устойчивости, что делает его привлекательным для реализации в сложных системах. ## Выводы Разработанная среда **VehicleWorld** и метод **SFC** достигли значительных улучшений в выполнении задач управления автомобилями. Эти результаты открывают новые возможност

Annotation:

Intelligent vehicle cockpits present unique challenges for API Agents, requiring coordination across tightly-coupled subsystems that exceed typical task environments' complexity. Traditional Function Calling (FC) approaches operate statelessly, requiring multiple exploratory calls to build environmental awareness before execution, leading to inefficiency and limited error recovery. We introduce VehicleWorld, the first comprehensive environment for the automotive domain, featuring 30 modules, 250...

ID: 2509.06736v1 cs.AI, cs.CL, cs.RO

arXiv PDF

📄 Virtual Community: An Open World for Humans, Robots, and Society

2025-08-22

Авторы:

Qinhong Zhou, Hongxin Zhang, Xiangye Lin, Zheyuan Zhang, Yutian Chen, Wenjun Liu, Zunzhe Zhang, Sunli Chen, Lixing Fang, Qiushi Lyu, Xinyu Sun, Jincheng Yang, Zeyuan Wang, Bao Chi Dang, Zhehuan Chen, Daksha Ladia, Jiageng Liu, Chuang Gan

#### Контекст Современное прогрессивное развитие искусственного интеллекта (ИИ) и робототехники приводит к глубокой трансформации общественного развития. Интеллектуальные системы начинают входить в общий цикл жизнедеятельности человека, образуя общую среду для сотрудничества и взаимодействия. Однако это процесс порождает решение множества новых задач и вопросов. Одним из таких задач является создание условий для эффективного взаимодействия между людьми, роботами и обществом в целом. В этой работе предлагается Virtual Community — платформа для создания общности, в которой могут действовать люди, роботы и общество. Данная платформа основывается на универсальном физическом движке и включает в себя реальные 3D-сцены. Её целью является исследование проблем эмбодьд социального интеллекта, в частности: 1) исследование возможностей мотивированного сотрудничества или конкуренции между роботами; 2) изучение способов формирования социальных отношений и создания общин; 3) разработка моделей для сотрудничества между роботами и людьми в открытом мире. #### Метод Virtual Community представляет собой уникальную среду с открытым кодом, сочетающую в себе физическую модель действий, 3D-сцены и многоагентную систему. Физический движок включает в себя систему роботов, людей и их интеракций в рамках общества. Для построения среды используется большой набор реальных 3D-сцен, включая домашние интерьеры, улицы и другие общественные места. Это позволяет создать реалистичную общность, в которой могут действовать роботы, люди и другие субъекты общества. Для решения задач в рамках Virtual Community разработана оригинальная методология, включающая: 1) широкомасштабное построение сцен с учетом существующих реальных структур; 2) использование разнообразных агентов с разнообразными характеристиками и возможностями; 3) разработка протоколов для конкурентного и сотрудничествующего взаимодействия. #### Результаты Для оценки возможностей Virtual Community проведены эксперименты, в которых были использованы различные методы компьютерного зрения, машинного обучения и физических моделей. Были проведены эксперименты на оценке способности роботов совместно решать задачи, взаимодействовать с человеком и работать в составе общественных сообществ. Были оценены различные базовые алгоритмы, включая методы глубокого обучения, для решения задач, охватывающих различные уровни абстракции, от высокоуровневых задач планирования до низкоуровневых задач координации действий. #### Значимость Virtual Community может быть использована в многочисленных областях применения. Например

Annotation:

The rapid progress in AI and Robotics may lead to a profound societal transformation, as humans and robots begin to coexist within shared communities, introducing both opportunities and challenges. To explore this future, we present Virtual Community-an open-world platform for humans, robots, and society-built on a universal physics engine and grounded in real-world 3D scenes. With Virtual Community, we aim to study embodied social intelligence at scale: 1) How robots can intelligently cooperate...

ID: 2508.14893v1 cs.CV, cs.CL, cs.RO

arXiv PDF

📄 The 2D+ Dynamic Articulatory Model DYNARTmo: Tongue-Palate Contact Area Estimation

2025-08-13

Авторы:

Bernd J. Kröger

## Контекст Динамическая модель артикуляции DYNARTmo, разработанная Bernd J. Kröger, является двухмерной моделью, ориентированной на исследование движений языка. Однако, существующая модель не учитывает сложности трёхмерной структуры полости рта, в частности, курвинатуры ротовой полости и контактных зон языка с полостью рта. Эти факторы играют ключевую роль в нормальной речи и озвучивании. Эта проблема особенно актуальна для области говорения и учёбы, где необходимы точные средства для моделирования и анализа речи. Модель DYNARTmo была расширена для решения этой проблемы, интегрировав внутреннюю трёхмерную репрезентацию полости рта. ## Метод В работе были разработаны две альтернативные геометрические модели курвинатуры ротовой полости: 0.5-эллипс и синусоидальная кривая. Эти модели используются для моделирования кривизны ротовой полости в горизонтальном плоскости. Для каждого анаterior-posteriorная позиция языка вычисляются аналитически контактные точки с полостью рта. Это позволяет генерировать электропалатограммы, похожие на анализы, выполняемые в сфере речи. Также, DYNARTmo была расширена для отображения движений языка в трёх разных плоскостях: сагиттальной, глотточной и ротовой. ## Результаты Используя новую модификацию DYNARTmo, была проведена серия экспериментов с различными моделями курвинатуры ротовой полости. Эти эксперименты показали, что геометрия ротовой полости, особенно кривизна, имеет существенное влияние на размер и форму контактных зон языка с полостью рта. Эти результаты подтверждают важность учёта курвинатуры полости рта в моделировании речи, особенно для приложений в сфере электропалатографии и диагностики речевых нарушений. ## Значимость Расширенная модель DYNARTmo может быть применена в сфере обучения речи, где необходимы точные методы моделирования и анализа языковых процессов. Благодаря учёту трёхмерной структуры полости рта, модель также полезна в сфере специализированной диагностики речевых расстройств. Данная работа открывает путь для дальнейшего исследования в области моделирования речи и анализа, включая синтез артикуляционных и акустических сигналов. ## Выводы Работа показала, что модель DYNARTmo, расширенная для учёта курвинатуры ротовой полости, значительно повышает точность моделирования контактов языка с полостью рта. Будущие исследования будут направлены на развитие модели, включая добавление вида лица и реализацию синтеза артикуляционно-акустических сигналов для более точного оценки реализма модели.

Annotation:

This paper describes an extension of the two-dimensional dynamic articulatory model DYNARTmo by integrating an internal three-dimensional representation of the palatal dome to estimate tongue-palate contact areas from midsagittal tongue contours. Two alternative dome geometries - a half-ellipse and a cosine based profile - are implemented to model lateral curvature in the coronal plane. Using these geometries, lateral contact points are analytically computed for each anterior-posterior position,...

ID: 2508.07262v1 cs.CL, cs.RO

arXiv PDF

📄 Following Route Instructions using Large Vision-Language Models: A Comparison between Low-level and Panoramic Action Spaces

2025-08-09

Авторы:

Vebjørn Haug Kåsene, Pierre Lison

**Резюме** В данной работе исследуется возможность использования больших моделей языка и визуального восприятия (LVLMs) для решения задачи Vision-and-Language Navigation (VLN), требующей позволить автономным роботам следовать естественным языковым инструкциям в незнакомых пространствах. Хотя ранее для VLN разрабатывались специализированные модели, авторы исследуют возможность применения безразмерных LVLMs (например, Qwen2.5-VL-3B-Instruct), причем независимо от их оптимизации для VLN. Также изучается возможность использования таких моделей в различных парадигмах действий: низкоуровневых (с эгоцентричным просмотром) и панорамных (с выбором из панорамных точек). На датасете Room-to-Room (R2R) проведена сравнительная оценка эффективности этих моделей. Основные выводы: LVLMs могут выполнять VLN, но до сих пор не достигают уровня специализированных моделей, а наилучшая модель показывает 41% успеха на тестовом наборе.

Annotation:

Vision-and-Language Navigation (VLN) refers to the task of enabling autonomous robots to navigate unfamiliar environments by following natural language instructions. While recent Large Vision-Language Models (LVLMs) have shown promise in this task, most current VLM systems rely on models specifically designed and optimized for navigation, leaving the potential of off-the-shelf LVLMs underexplored. Furthermore, while older VLN approaches used low-level action spaces with egocentric views and atom...

ID: 2508.02917v1 cs.CV, cs.AI, cs.CL, cs.RO

arXiv PDF

Показано 11 - 15 из 15 записей