Probing the Gaps in ChatGPT Live Video Chat for Real-World Assistance for People who are Blind or Visually Impaired
2508.03651v1
cs.HC, cs.AI
2025-08-06
Авторы:
Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo
Резюме на русском
Работа исследует применение живого видео-чата ChatGPT (режим Advanced Voice with Video) в качестве повседневного помощника для незрячих и слабовидящих (BVI) в реальных условиях. В эксперименте восемь участников BVI использовали систему для поиска предметов, ориентирования внутри и снаружи помещений и распознавания ориентиров. Выявлены две зоны разрыва: 1) статические сцены описываются точно и полезно, тогда как динамические ситуации требуют непрерывных, временно-критичных подсказок, которые модель выдаёт с запаздыванием; 2) сильные голосовые ответы вызывают ощущение «человечности», но приводят к галлюцинациям, неточностям в пространственных данных и сладкоречивым утверждениям, что повышает риск для безопасности. Авторы рекомендуют добавить внешние датчики, пересмотреть стратегию вмешательства и учитывать экологические и этические факторы при проектировании ассистивных видео-агентов.
Abstract
Recent advancements in large multimodal models have provided blind or
visually impaired (BVI) individuals with new capabilities to interpret and
engage with the real world through interactive systems that utilize live video
feeds. However, the potential benefits and challenges of such capabilities to
support diverse real-world assistive tasks remain unclear. In this paper, we
present findings from an exploratory study with eight BVI participants.
Participants used ChatGPT's Advanced Voice with Video, a state-of-the-art live
video AI released in late 2024, in various real-world scenarios, from locating
objects to recognizing visual landmarks, across unfamiliar indoor and outdoor
environments. Our findings indicate that current live video AI effectively
provides guidance and answers for static visual scenes but falls short in
delivering essential live descriptions required in dynamic situations. Despite
inaccuracies in spatial and distance information, participants leveraged the
provided visual information to supplement their mobility strategies. Although
the system was perceived as human-like due to high-quality voice interactions,
assumptions about users' visual abilities, hallucinations, generic responses,
and a tendency towards sycophancy led to confusion, distrust, and potential
risks for BVI users. Based on the results, we discuss implications for
assistive video AI agents, including incorporating additional sensing
capabilities for real-world use, determining appropriate intervention timing
beyond turn-taking interactions, and addressing ecological and safety concerns.
Ссылки и действия
Дополнительные ресурсы: