The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility

2508.07989v1 cs.CV, cs.HC 2025-08-13
Авторы:

Xiantao Zhang

Резюме на русском

## Контекст Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) предлагают огромные возможности в качестве систем помощи для слепых и слабовидящих людей. Однако, несмотря на их высокую точность в распознавании статических объектов, эти модели сталкиваются с серьезными ограничениями при определении динамических явлений. Например, они сталкиваются с трудностями при распознавании направления движения эскалатора, что может быть критически важной информацией для пользователей с ограниченными возможностями зрения. Это особенно важно в условиях быстрого городского транспорта, где необходимо активно реагировать на динамические ситуации. Описанная проблема отражает широкую проблему, названную **Implicit Motion Blindness** (неявная слепота к движению), которая возникает из-за ограничений существующих моделей в понимании продолжительных движущихся объектов. Такие модели обычно рассматривают видео как последовательность отдельных кадров, что не позволяет достаточно точно определить непрерывные и низконереабильные движения. Задача повышения надежности и безопасности MLLMs для пользователей с ограниченными возможностями зрения является ключевой мотивацией для данного исследования. ## Метод Для исследования **Implicit Motion Blindness** в MLLMs разработана методология, основанная на экспериментальном анализе распознавания движения эскалатора. Эксперименты проводились на наборе данных, содержащем видеозаписи с различных углов и условий, включая эскалаторы с разными направлениями движения. Архитектура существующих моделей была проанализирована с помощью каскадного анализа нейросетевых слоев, определяющих кадры и последовательности. Основной подход включал в себя два этапа: 1. **Формализация задачи**: Определение ключевых показателей для оценки распознавания движения, включая точность, временной ответ и устойчивость. 2. **Запуск экспериментов**: Оценка того, насколько стандартные модели способны правильно определять направление движения эскалатора в различных условиях. В результате было выявлено, что даже самые современные модели часто пропускают или неточно определяют движение эскалатора, особенно при небольшом количестве движущихся объектов на кадре. ## Результаты Набор экспериментальных данных включал видеозаписи с эскалаторов в различных условиях (световых, текстурных и движущихся объектов). Было выявлено, что модели MLLMs, такие как CLIP и LLaVA, показывают приемлемую точность при распознавании статических форм, но существенно хуже справляются с движущимися объектами. Например, модели демонстрировали точность в распознавании направления эскалатора

Abstract

Multimodal Large Language Models (MLLMs) hold immense promise as assistive technologies for the blind and visually impaired (BVI) community. However, we identify a critical failure mode that undermines their trustworthiness in real-world applications. We introduce the Escalator Problem -- the inability of state-of-the-art models to perceive an escalator's direction of travel -- as a canonical example of a deeper limitation we term Implicit Motion Blindness. This blindness stems from the dominant frame-sampling paradigm in video understanding, which, by treating videos as discrete sequences of static images, fundamentally struggles to perceive continuous, low-signal motion. As a position paper, our contribution is not a new model but rather to: (I) formally articulate this blind spot, (II) analyze its implications for user trust, and (III) issue a call to action. We advocate for a paradigm shift from purely semantic recognition towards robust physical perception and urge the development of new, human-centered benchmarks that prioritize safety, reliability, and the genuine needs of users in dynamic environments.

Ссылки и действия