Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge
2508.08236v1
cs.CL, cs.CY
2025-08-13
Авторы:
Yunna Cai, Fan Wang, Haowei Wang, Kun Wang, Kailai Yang, Sophia Ananiadou, Moyan Li, Mingming Fan
Резюме на русском
## Контекст
Обеспечение безопасности в интерактивных диалогах широко применяемых технологий, таких как Логические Лингвистические Модели (LLM), является критическим в подобных сферах, как медицинская помощь, психологическая поддержка или юридические консультации. Особенно важной является оценка безопасности в разговорах, связанных с психическим здоровьем, где отсутствие золотого стандарта и этическая чувствительность сделали эту задачу одной из самых актуальных и сложных в области искусственного интеллекта. Существующие методы оценки безопасности часто ограничиваются ссылочным подходом, требующим предоставления стандартизированных ответов или текстов, что не всегда доступно в реальных ситуациях. Необходимо разработать более универсальный, гибкий и интерпретируемый подход к оценке безопасности, который может работать в условиях отсутствия готовых стандартов.
## Метод
Мы предлагаем LLM-as-Judge, продвинутый подход, который использует технологию создания контекстов (prompt-based) для оценки безопасности LLM-ответов в сфере психического здоровья. В этой модели активно используются специализированные цепочки рассуждений, основанные на принципах психологических интервенций, для того чтобы оценивать ответы модели. Метод предлагает бинарную оценку (точечную) на нескольких аспектах безопасности, что позволяет получать более подробные и транспартные результаты. Для того чтобы обеспечить теоретическую основу, был разработан PsyCrisis-Bench — бенчмарк, основанный на реальных диалогах по ментальному здоровью на китайском языке, включающий такие рисковые области, как самоубийственная идеология, самоповреждение и экзистенциальный тревога. Наш подход выделяется своей способностью работать без стандартных ссылок и оказывать большую транспарентность в оценке безопасности.
## Результаты
Мы проводили 3600 экспериментов с целью проверить эффективность нашего подхода. Результаты показали, что LLM-as-Judge достигает наивысшего уровня согласия с оценками экспертов и выдает более понятные и транспартные мотивированные результаты. Особенно сильно показал себя наш метод в сложных ситуациях, когда отсутствуют стандартные ответы или готовые ссылки. Мы также представили высококачественный датасет на китайском языке, содержащий диалоги, связанные с самоубийством, самоповреждением и экзистенциальными проблемами. Благодаря нашей методике, мы можем предлагать более точные и интерпретируемые результаты в области безопасност
Abstract
Evaluating the safety alignment of LLM responses in high-risk mental health
dialogues is particularly difficult due to missing gold-standard answers and
the ethically sensitive nature of these interactions. To address this
challenge, we propose PsyCrisis-Bench, a reference-free evaluation benchmark
based on real-world Chinese mental health dialogues. It evaluates whether the
model responses align with the safety principles defined by experts.
Specifically designed for settings without standard references, our method
adopts a prompt-based LLM-as-Judge approach that conducts in-context evaluation
using expert-defined reasoning chains grounded in psychological intervention
principles. We employ binary point-wise scoring across multiple safety
dimensions to enhance the explainability and traceability of the evaluation.
Additionally, we present a manually curated, high-quality Chinese-language
dataset covering self-harm, suicidal ideation, and existential distress,
derived from real-world online discourse. Experiments on 3600 judgments show
that our method achieves the highest agreement with expert assessments and
produces more interpretable evaluation rationales compared to existing
approaches. Our dataset and evaluation tool are publicly available to
facilitate further research.
Ссылки и действия
Дополнительные ресурсы: