📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PerspAct: Enhancing LLM Situated Collaboration Skills through Perspective Taking and Active Vision

2025-11-15

Авторы:

Sabrina Patania, Luca Annese, Anita Pellegrini, Silvia Serino, Anna Lambiase, Luca Pallonetto, Silvia Rossi, Simone Colombani, Tom Foulsham, Azzurra Ruggeri, Dimitri Ognibene

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in Large Language Models (LLMs) and multimodal foundation models have significantly broadened their application in robotics and collaborative systems. However, effective multi-agent interaction necessitates robust perspective-taking capabilities, enabling models to interpret both physical and epistemic viewpoints. Current training paradigms often neglect these interactive contexts, resulting in challenges when models must reason about the subjectivity of individual perspectives o...

ID: 2511.08098v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2025-08-27

Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Annotation:

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impair...

ID: 2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC

arXiv PDF