VS-LLM: Visual-Semantic Depression Assessment based on LLM for Drawing Projection Test
2508.05299v1
cs.CV, cs.AI
2025-08-09
Авторы:
Meiqi Wu, Yaxuan Kang, Xuchen Li, Shiyu Hu, Xiaotang Chen, Yunfeng Kang, Weiqiang Wang, Kaiqi Huang
Резюме на русском
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Для диагностики и оценки психического состояния человека в области психотерапии и психодиагностики широко используется тест на рисунки (Drawing Projection Test, DPT). Один из наиболее распространенных видов DPT — тематический тест "A Person Picking an Apple from a Tree" (PPAT), который позволяет выявить различные психологические состояния, включая депрессию. Через анализ рисунков можно получить глубокое понимание психического состояния человека, особенно когда они используют такие элементы, как цвета, пространственное расположение и другие визуальные аспекты. Однако, интерпретация рисунков в DPT требует больших усилий со стороны психологов, которые должны основываться на своем опыте и знаниях. Кроме того, тест PPAT имеет определенные ограничения: он выполняется под временным давлением, без возможности получения вербальных подсказок, что может приводить к неточностям в рисунках и отсутствию детальных описаний.
В этой области исследования существует необходимость в разработке эффективных методов автоматизированного анализа рисунков, которые позволяют упрощать и улучшать процесс диагностики. Традиционные методы распознавания рисунков обычно сосредоточены на распознавании отдельных объектов, но DPT требует более широкого подхода, который учитывает общую оценку рисунков, включая использование цветов, пространственного расположения и других визуальных элементов.
## ПРЕДЛОЖЕННЫЙ МЕТОД
Для решения этих проблем, авторы предлагают метод Visual-Semantic Depression Assessment based on LLM (VS-LLM). Этот метод основывается на использовании технологии языковых моделей (LLM) для анализа визуально-семантических аспектов рисунков. Архитектура VS-LLM включает в себя несколько ключевых компонентов:
1. **Визуальный анализ**: Метод анализирует визуальные элементы рисунков, такие как использование цветов, пространственное расположение объектов и общую композицию. Эти элементы играют важную роль в оценке психологического состояния.
2. **Семантический анализ**: Дополнительно к визуальным аспектам, метод учитывает семантические элементы, такие как выбор объектов, их размеры, формы и их взаимодействие. Это позволяет получить более глубокий инсайт в психическое состояние человека.
3. **Интеграция LLM**: Языковые модели используются для обработки и анализа данных, полученных из рисунков. LLM позволяет создавать более точные модели для оценки психического состояния, основываясь на комплексном анализе визуальных и семантических данных.
4. **Автоматизированная система**: Авторы также разработали систему, которая позволяет автоматизировать процесс анализа рисунков, что значительно упрощает работу психологов и повышает эффективность диагностики.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности метода VS-LLM были проведены эксперименты на базе данных рисунков, собранных в рамках тестирования PPAT. Данные включали рисунки, созданные участниками теста, которые были подвергнуты анализу с помощью предложенного метода.
Результаты показали, что метод VS-LLM достигает значительного улучшения по сравнению со знаниями психологов. Конкретно, VS-LLM показал лучшие результаты на 17.6% по сравнению с традиционным методом оценки психологами. Это улучшение связано с более точным анализом визуальных и семантических элементов рисунков, который позволяет выявить более точные характеристики психического состояния.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предложенный метод имеет значительное практическое применение в области психологической диагностики. Он может быть использован для большого количества задач, таких как:
- **Диагностика депрессии**: VS-LLM позволяет быстро и точно оценивать психическое состояние человека на основе его рисунков.
- **Психотерапия и консультирование**: Метод может быть использован для поддержки психотерапевтических сессий, помогая психологам лучше понять состояние пациентов.
- **Автоматизация процессов**: Автоматическая система упрощает работу психологов, позволяя им сосредоточиться на более сложных аспектах диагностики.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В работе представлен метод VS-LLM, который улучшает процесс оценки психического состояния человека на основе рисунков. Этот метод демонстрирует высокую эффективность и может быть применен в различных областях психологии и психотерапии. В будущем, дальнейшее исследование может быть направлено на улучшение точности и расширение областей применения данного метода, а также на интеграцию с другими методами диагностики психического состояния.
Abstract
The Drawing Projection Test (DPT) is an essential tool in art therapy,
allowing psychologists to assess participants' mental states through their
sketches. Specifically, through sketches with the theme of "a person picking an
apple from a tree (PPAT)", it can be revealed whether the participants are in
mental states such as depression. Compared with scales, the DPT can enrich
psychologists' understanding of an individual's mental state. However, the
interpretation of the PPAT is laborious and depends on the experience of the
psychologists. To address this issue, we propose an effective identification
method to support psychologists in conducting a large-scale automatic DPT.
Unlike traditional sketch recognition, DPT more focus on the overall evaluation
of the sketches, such as color usage and space utilization. Moreover, PPAT
imposes a time limit and prohibits verbal reminders, resulting in low drawing
accuracy and a lack of detailed depiction. To address these challenges, we
propose the following efforts: (1) Providing an experimental environment for
automated analysis of PPAT sketches for depression assessment; (2) Offering a
Visual-Semantic depression assessment based on LLM (VS-LLM) method; (3)
Experimental results demonstrate that our method improves by 17.6% compared to
the psychologist assessment method. We anticipate that this work will
contribute to the research in mental state assessment based on PPAT sketches'
elements recognition. Our datasets and codes are available at
https://github.com/wmeiqi/VS-LLM.
Ссылки и действия
Дополнительные ресурсы: