Talking to Robots: A Practical Examination of Speech Foundation Models for HRI Applications

2508.17753v1 cs.RO, cs.AI, cs.CL, cs.HC 2025-08-27
Авторы:

Theresa Pekarek Rosin, Julia Gachot, Henri-Leon Kordt, Matthias Kerzel, Stefan Wermter

Резюме на русском

## Контекст В статье рассматриваются вопросы использования систем автоматического распознавания речи (ASR) в контексте взаимодействия человека с роботом (HRI). Авторы подчеркивают, что в реальных условиях работы ASR сталкиваются с недостатками качества аудиопотока, влиянием экологических факторов, разнообразием пользователей и требованиями к реакции на сложные типы речи. Эти аспекты создают специфические вызовы для HRI, где ошибки распознавания могут привести к проблемам в выполнении задач, понижению доверия пользователей и угрозам безопасности. Цель работы — оценить потенциал современных ASR-систем в HRI, а также выявить их ограничения и биазы. ## Метод Исследование основывается на экспериментальном подходе, включающем оценку четырех современных ASR-систем на основе данных из восьми публичных баз данных, представляющих шесть типов сложности: доменно-специфическая, с акцентом, шумная, возрастно-варьирующаяся, имеющая империя, и спонтанная речь. Модели распознавания выслушивались на примере различных типов речи, окружающих технологии в HRI, что позволило выявить различия в их поведении в разных условиях. Техническая архитектура ASR-систем и методы их оценки были выбраны с учетом требований к точности и устойчивости в HRI. ## Результаты Результаты вы most significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety. ## Значимость Полученные результаты имеют значительные потенциальные применения в разработке более надежных и универсальных систем взаимодействия человек-робот. ASR-системы, эффективно работающие в различных условиях, могут существенно улучшить удобство и безопасность HRI. Данные работы могут повлиять на оптимизацию моделей распознавания и их применение в реальных сценариях, включая роботизированные дома, промышленность и здравоохранение. ## Выводы Авторы выводят, что несмотря на прогресс в развитии ASR, существуют серьезные ограничения, которые необходимо устранить для эффективного применения в HRI. Будущие исследования будут сосредотачиваться на улучшении устойчивости моделей к шуму, разнообразию речи и ситуационным сложностям. Также планируется расширение использования наборов данных для более широкой оценки и улучшения ASR-систем. Эти улучшения имеют важное значение для развития надежных и безопасных систем HRI.

Abstract

Automatic Speech Recognition (ASR) systems in real-world settings need to handle imperfect audio, often degraded by hardware limitations or environmental noise, while accommodating diverse user groups. In human-robot interaction (HRI), these challenges intersect to create a uniquely challenging recognition environment. We evaluate four state-of-the-art ASR systems on eight publicly available datasets that capture six dimensions of difficulty: domain-specific, accented, noisy, age-variant, impaired, and spontaneous speech. Our analysis demonstrates significant variations in performance, hallucination tendencies, and inherent biases, despite similar scores on standard benchmarks. These limitations have serious implications for HRI, where recognition errors can interfere with task performance, user trust, and safety.

Ссылки и действия