"Mirror" Language AI Models of Depression are Criterion-Contaminated

2508.05830v1 cs.CL, cs.CY 2025-08-12
Авторы:

Tong Li, Rasiq Hussain, Mehak Gupta, Joshua R. Oltmanns

Резюме на русском

## Контекст Исследование области ИИ в психологии и здравоохранении находится в стадии активного развития. Одной из актуальных проблем является моделирование расстройств ментального здоровья, включая депрессию. Многие стремятся к созданию моделей, которые бы определяли этость в социальных сетях и других источниках текстов. Однако одной из ключевых проблем является возможность "критерийной засоренности" (criterion contamination), когда модель сильно зависит от тех же данных, которые она пытается предсказать. Это приводит к искажению результатов и ограниченной общей точности моделей. ## Метод Для экспериментов были использованы данные от 110 участников, прошедших два типа интервью: структурированные диагностические интервью и интервью по жизненной истории. Тексты от этих интервью были поданы трём моделям ИИ: GPT-4, GPT-4o и LLaMA3-70B. Модели были разделены на "Mirror models" (использовали тексты структурированных интервью для предсказания диагностических результатов) и "Non-Mirror models" (использовали тексты из жизненных историй). Эксперименты проводились для сравнения эффектных размеров и общей точности предсказаний. ## Результаты "Mirror models" показали сильную зависимость от исходных данных и сильные эффекты (например, R² = 0.80). Однако эти результаты оказались "засоренными" критерием, так как модели, в основном, предсказывали входящие данные заново. "Non-Mirror models", в свою очередь, показали меньший, но всё же весомый эффект (R² = 0.27) и более высокую общую точность в предсказаниях. Тематический анализ показал, что обе модели формируют отдельные кластеры, но "Mirror models" показывали более высокую степень повторения входных данных. ## Значимость Эти результаты показывают, что "Mirror models" могут быть полезны для определения определённых деталей в тексте, но они не подходят для общей моделирования и реального применения в психологической практике. "Non-Mirror models", в свою очередь, демонстрируют большую общую точность и смекалку, что делает их более привлекательными для реальных психологических исследований и постановке диагноза. ## Выводы Эта работа подчеркивает ограничения "Mirror models" в психологическом контексте и поддерживает использование "Non-Mirror models" для более жизнеспособных и общих моделей психологического моделирования. Будущие исследования должны сосредоточиться на развитии моделей, которые способны обрабатывать более широкий диапазон текстов, не зависящих от исходных критериев, для улучшения точности моделей и их применимости в психологии.

Abstract

A growing number of studies show near-perfect LLM language-based prediction of depression assessment scores (up to R2 of .70). However, many develop these models directly from language responses to depression assessments. These "Mirror models" suffer from "criterion contamination", which arises when a predicted score depends in part on the predictors themselves. This causes artificial effect size inflation which reduces model generalizability. The present study compares the performance of Mirror models versus "Non-Mirror models", which are developed from language that does not mirror the assessment they are developed to predict. N = 110 research participants completed two different interviews: structured diagnostic and life history interviews. GPT-4, GPT-4o and LLaMA3-70B were then prompted to predict structured diagnostic interview depression scores from the two transcripts separately. Mirror models (using structured diagnostic data) showed very large effect sizes (e.g., R2 = .80). As expected, NonMirror models (using life history data) demonstrated smaller effect sizes, but were relatively large (e.g., R2 = .27). When Mirror and Non-Mirror model-predicted structured interview depression scores were correlated with self-reported depression symptoms, Mirror and NonMirror performed the same (e.g., r = ~.54), indicating that Mirror models contain bias perhaps due to criterion contamination. Topic modeling identified clusters across Mirror and Non-Mirror models, as well as between true-positive and false-positive predictions. In this head-to-head comparison study, Mirror language AI models of depression showed artificially inflated effect sizes and less generalizability. As language AI models for depression continue to evolve, incorporating Non-Mirror models may identify interpretable, and generalizable semantic features that have unique utility in real-world psychological assessment.

Ссылки и действия