"Mirror" Language AI Models of Depression are Criterion-Contaminated
2508.05830v1
cs.CL, cs.CY
2025-08-12
Авторы:
Tong Li, Rasiq Hussain, Mehak Gupta, Joshua R. Oltmanns
Резюме на русском
## Контекст
Исследование области ИИ в психологии и здравоохранении находится в стадии активного развития. Одной из актуальных проблем является моделирование расстройств ментального здоровья, включая депрессию. Многие стремятся к созданию моделей, которые бы определяли этость в социальных сетях и других источниках текстов. Однако одной из ключевых проблем является возможность "критерийной засоренности" (criterion contamination), когда модель сильно зависит от тех же данных, которые она пытается предсказать. Это приводит к искажению результатов и ограниченной общей точности моделей.
## Метод
Для экспериментов были использованы данные от 110 участников, прошедших два типа интервью: структурированные диагностические интервью и интервью по жизненной истории. Тексты от этих интервью были поданы трём моделям ИИ: GPT-4, GPT-4o и LLaMA3-70B. Модели были разделены на "Mirror models" (использовали тексты структурированных интервью для предсказания диагностических результатов) и "Non-Mirror models" (использовали тексты из жизненных историй). Эксперименты проводились для сравнения эффектных размеров и общей точности предсказаний.
## Результаты
"Mirror models" показали сильную зависимость от исходных данных и сильные эффекты (например, R² = 0.80). Однако эти результаты оказались "засоренными" критерием, так как модели, в основном, предсказывали входящие данные заново. "Non-Mirror models", в свою очередь, показали меньший, но всё же весомый эффект (R² = 0.27) и более высокую общую точность в предсказаниях. Тематический анализ показал, что обе модели формируют отдельные кластеры, но "Mirror models" показывали более высокую степень повторения входных данных.
## Значимость
Эти результаты показывают, что "Mirror models" могут быть полезны для определения определённых деталей в тексте, но они не подходят для общей моделирования и реального применения в психологической практике. "Non-Mirror models", в свою очередь, демонстрируют большую общую точность и смекалку, что делает их более привлекательными для реальных психологических исследований и постановке диагноза.
## Выводы
Эта работа подчеркивает ограничения "Mirror models" в психологическом контексте и поддерживает использование "Non-Mirror models" для более жизнеспособных и общих моделей психологического моделирования. Будущие исследования должны сосредоточиться на развитии моделей, которые способны обрабатывать более широкий диапазон текстов, не зависящих от исходных критериев, для улучшения точности моделей и их применимости в психологии.
Abstract
A growing number of studies show near-perfect LLM language-based prediction
of depression assessment scores (up to R2 of .70). However, many develop these
models directly from language responses to depression assessments. These
"Mirror models" suffer from "criterion contamination", which arises when a
predicted score depends in part on the predictors themselves. This causes
artificial effect size inflation which reduces model generalizability. The
present study compares the performance of Mirror models versus "Non-Mirror
models", which are developed from language that does not mirror the assessment
they are developed to predict. N = 110 research participants completed two
different interviews: structured diagnostic and life history interviews. GPT-4,
GPT-4o and LLaMA3-70B were then prompted to predict structured diagnostic
interview depression scores from the two transcripts separately. Mirror models
(using structured diagnostic data) showed very large effect sizes (e.g., R2 =
.80). As expected, NonMirror models (using life history data) demonstrated
smaller effect sizes, but were relatively large (e.g., R2 = .27). When Mirror
and Non-Mirror model-predicted structured interview depression scores were
correlated with self-reported depression symptoms, Mirror and NonMirror
performed the same (e.g., r = ~.54), indicating that Mirror models contain bias
perhaps due to criterion contamination. Topic modeling identified clusters
across Mirror and Non-Mirror models, as well as between true-positive and
false-positive predictions. In this head-to-head comparison study, Mirror
language AI models of depression showed artificially inflated effect sizes and
less generalizability. As language AI models for depression continue to evolve,
incorporating Non-Mirror models may identify interpretable, and generalizable
semantic features that have unique utility in real-world psychological
assessment.
Ссылки и действия
Дополнительные ресурсы: