The Escalator Problem: Identifying Implicit Motion Blindness in AI for Accessibility
2508.07989v1
cs.CV, cs.HC
2025-08-13
Авторы:
Xiantao Zhang
Резюме на русском
## Контекст
Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) предлагают огромные возможности в качестве систем помощи для слепых и слабовидящих людей. Однако, несмотря на их высокую точность в распознавании статических объектов, эти модели сталкиваются с серьезными ограничениями при определении динамических явлений. Например, они сталкиваются с трудностями при распознавании направления движения эскалатора, что может быть критически важной информацией для пользователей с ограниченными возможностями зрения. Это особенно важно в условиях быстрого городского транспорта, где необходимо активно реагировать на динамические ситуации.
Описанная проблема отражает широкую проблему, названную **Implicit Motion Blindness** (неявная слепота к движению), которая возникает из-за ограничений существующих моделей в понимании продолжительных движущихся объектов. Такие модели обычно рассматривают видео как последовательность отдельных кадров, что не позволяет достаточно точно определить непрерывные и низконереабильные движения. Задача повышения надежности и безопасности MLLMs для пользователей с ограниченными возможностями зрения является ключевой мотивацией для данного исследования.
## Метод
Для исследования **Implicit Motion Blindness** в MLLMs разработана методология, основанная на экспериментальном анализе распознавания движения эскалатора. Эксперименты проводились на наборе данных, содержащем видеозаписи с различных углов и условий, включая эскалаторы с разными направлениями движения. Архитектура существующих моделей была проанализирована с помощью каскадного анализа нейросетевых слоев, определяющих кадры и последовательности.
Основной подход включал в себя два этапа:
1. **Формализация задачи**: Определение ключевых показателей для оценки распознавания движения, включая точность, временной ответ и устойчивость.
2. **Запуск экспериментов**: Оценка того, насколько стандартные модели способны правильно определять направление движения эскалатора в различных условиях.
В результате было выявлено, что даже самые современные модели часто пропускают или неточно определяют движение эскалатора, особенно при небольшом количестве движущихся объектов на кадре.
## Результаты
Набор экспериментальных данных включал видеозаписи с эскалаторов в различных условиях (световых, текстурных и движущихся объектов). Было выявлено, что модели MLLMs, такие как CLIP и LLaVA, показывают приемлемую точность при распознавании статических форм, но существенно хуже справляются с движущимися объектами. Например, модели демонстрировали точность в распознавании направления эскалатора
Abstract
Multimodal Large Language Models (MLLMs) hold immense promise as assistive
technologies for the blind and visually impaired (BVI) community. However, we
identify a critical failure mode that undermines their trustworthiness in
real-world applications. We introduce the Escalator Problem -- the inability of
state-of-the-art models to perceive an escalator's direction of travel -- as a
canonical example of a deeper limitation we term Implicit Motion Blindness.
This blindness stems from the dominant frame-sampling paradigm in video
understanding, which, by treating videos as discrete sequences of static
images, fundamentally struggles to perceive continuous, low-signal motion. As a
position paper, our contribution is not a new model but rather to: (I) formally
articulate this blind spot, (II) analyze its implications for user trust, and
(III) issue a call to action. We advocate for a paradigm shift from purely
semantic recognition towards robust physical perception and urge the
development of new, human-centered benchmarks that prioritize safety,
reliability, and the genuine needs of users in dynamic environments.
Ссылки и действия
Дополнительные ресурсы: