Conversational Orientation Reasoning: Egocentric-to-Allocentric Navigation with Multimodal Chain-of-Thought
2509.18200v1
cs.LG, cs.AI, cs.CL, cs.RO
2025-09-25
Авторы:
Yu Ti Huang
Резюме на русском
#### Контекст
В последнее время становится все важнее создавать роботы-консультанты, способные общаться на естественном языке и решать задачи, связанные с навигацией. Одной из ключевых проблем является перевод егогоцентрических указаний (например, "на моей правой стороне") в аллоцентрические направления (например, "на восток" или "на запад"). Данная задача становится особенно сложной в закрытых пространствах, таких как торговые центры и офисные здания, где сигналы GPS недоступны, и доступ к точным картам ограничен. Несмотря на то, что цепь мысли (Chain-of-Thought, CoT) позволила улучшить умения логического рассуждения в задачах языка и визуального распознавания, её применение к мультимодальной проблеме манипулирования спациальными ориентациями остается недостаточно исследовано.
#### Метод
Мы предлагаем Conversational Orientation Reasoning (COR), новую метрику для интерпретированных наборов данных на традиционном китайском языке, представленных в виде проекций реальных сред. Цель COR — развитие умений навигации, ориентируясь на смешанные сообщения, в том числе используя результаты транскрипции речи (ASR) и неточности в указаниях, встречающихся в реальных обстоятельствах. Мы предлагаем новую архитектуру Мультимодальной цепи мысли (MCoT), которая объединяет звуковые сигналы и координаты с помощью структурированного процесса в три этапа: (1) извлечение пространственных отношений, (2) преобразование координат в абсолютные направления и (3) интерпретация положения пользователя. Для развития COR в ресурсораспределенных условиях мы применили стратегию курсивного обучения, начиная с простых задач и продвигаясь к сложным.
#### Результаты
Мы провели исследования с помощью имитационного тестирования на реальных данных и показали, что MCoT достигает 100% точности на чистом тексте и 98,1% на текстах, полученных с помощью ASR. Это существенно превосходит результаты неупорядоченных и моно модальных подходов. Мы также проверили MCoT на нескольких тестах, связанных с контекстом, включая скейлинг по сложности, многоязычие и референтные неоднозначности. Модель показала высокую точность и устойчивость при различных условиях, что демонстрирует её потенциал в сфере интерактивного взаимодействия со средами.
#### Значимость
Мы видим возможности для применения нашего подхода в различных областях, включая промышленную навигацию, виртуальные помощники и системы управления в закрытых пространствах. МCoT обеспечивает интерпретируемые решения и эффективно использует ресурсы. Он также может быть применён к решению задач, в которых необходимо работать с нетрадиционными и м
Abstract
Conversational agents must translate egocentric utterances (e.g., "on my
right") into allocentric orientations (N/E/S/W). This challenge is particularly
critical in indoor or complex facilities where GPS signals are weak and
detailed maps are unavailable. While chain-of-thought (CoT) prompting has
advanced reasoning in language and vision tasks, its application to multimodal
spatial orientation remains underexplored. We introduce Conversational
Orientation Reasoning (COR), a new benchmark designed for Traditional Chinese
conversational navigation projected from real-world environments, addressing
egocentric-to-allocentric reasoning in non-English and ASR-transcribed
scenarios. We propose a multimodal chain-of-thought (MCoT) framework, which
integrates ASR-transcribed speech with landmark coordinates through a
structured three-step reasoning process: (1) extracting spatial relations, (2)
mapping coordinates to absolute directions, and (3) inferring user orientation.
A curriculum learning strategy progressively builds these capabilities on
Taiwan-LLM-13B-v2.0-Chat, a mid-sized model representative of
resource-constrained settings. Experiments show that MCoT achieves 100%
orientation accuracy on clean transcripts and 98.1% with ASR transcripts,
substantially outperforming unimodal and non-structured baselines. Moreover,
MCoT demonstrates robustness under noisy conversational conditions, including
ASR recognition errors and multilingual code-switching. The model also
maintains high accuracy in cross-domain evaluation and resilience to linguistic
variation, domain shift, and referential ambiguity. These findings highlight
the potential of structured MCoT spatial reasoning as a path toward
interpretable and resource-efficient embodied navigation.