SpiderNets: Estimating Fear Ratings of Spider-Related Images with Vision Models
2509.04889v1
cs.CV, cs.AI, cs.HC, cs.LG
2025-09-09
Авторы:
Dominik Pegler, David Steyrl, Mengfan Zhang, Alexander Karner, Jozsef Arato, Frank Scharnowski, Filip Melinscak
Резюме на русском
## Контекст
Боязнь ловкости (arachnophobia) — одна из наиболее распространенных фобий, влияющая на качество жизни и мотивацию к лечению у большинства пациентов. Обычно для снижения этой боязни используется классическая терапия, но выявление эффективных визуальных стимулов и их динамическое настройирование в процессе лечения могут ускорить процесс. Экспозурная терапия, воспользовавшись структурированным набором визуальных стимулов, может быть оптимизирована, если модели ИИ смогут точно предсказывать потенциальное потребление страху от изображений. В настоящем исследовании мы исследовали возможность использования предобученных зрения-моделей для точного предсказания человеческих оценок страха от спидер-связанных изображений.
## Метод
Мы использовали три различных предобученные компьютерно-визуальные модели, которые были дообучены для предсказания человеческих оценок страха от спидер-связанных изображений (на шкале от 0 до 100). Модели были обучены с использованием переобучения (transfer learning) на наших данных. Мы провели кросс-валидацию, чтобы оценить точность предсказаний. Для анализа интерпретируемости моделей мы провели оценки, показав, какие части изображений влияют на предсказания. Для категорий-ошибок мы проанализировали условия, приводящие к высоким ошибкам (например, дальние виды, изображения с артефактами).
## Результаты
Мы достигли среднего значения матожидания абсолютной ошибки (MAE) в пределах от 10.1 до 11.0. Наши результаты показали, что уменьшение размера обучающей выборки значительно повлияло на точность модели, но при увеличении данных не было значительных улучшений. Изучение зрения отдельных категорий показало, что модели становятся менее точными при дальних видах и изображениях с артефактами.
## Значимость
Наши результаты указывают на потенциал использования предобученных моделей зрения для предсказания страха от визуальных стимулов в целях лечения. Это может позволить повысить эффективность терапии, предоставив данные для динамического регулирования террапийных материалов. Ценность этого подхода также заключается в том, что модели могут быть объяснены, что значительно улучшает доверие к их результатам.
## Выводы
Мы показали, что предобученные модели зрения могут точно предсказать человеческие оценки страха в отношении спидер-связанных изображений. Наши результаты подкрепляют роль моделей зрения в клинических приложениях, связанных с терапией страха. Мы также выделили необходимость увеличивать размер обучающих данных для повышения точности и улучшать модели с учетом
Abstract
Advances in computer vision have opened new avenues for clinical
applications, particularly in computerized exposure therapy where visual
stimuli can be dynamically adjusted based on patient responses. As a critical
step toward such adaptive systems, we investigated whether pretrained computer
vision models can accurately predict fear levels from spider-related images. We
adapted three diverse models using transfer learning to predict human fear
ratings (on a 0-100 scale) from a standardized dataset of 313 images. The
models were evaluated using cross-validation, achieving an average mean
absolute error (MAE) between 10.1 and 11.0. Our learning curve analysis
revealed that reducing the dataset size significantly harmed performance,
though further increases yielded no substantial gains. Explainability
assessments showed the models' predictions were based on spider-related
features. A category-wise error analysis further identified visual conditions
associated with higher errors (e.g., distant views and artificial/painted
spiders). These findings demonstrate the potential of explainable computer
vision models in predicting fear ratings, highlighting the importance of both
model explainability and a sufficient dataset size for developing effective
emotion-aware therapeutic technologies.