Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge

2508.08236v1 cs.CL, cs.CY 2025-08-13

Авторы:

Yunna Cai, Fan Wang, Haowei Wang, Kun Wang, Kailai Yang, Sophia Ananiadou, Moyan Li, Mingming Fan

Резюме на русском

## Контекст Обеспечение безопасности в интерактивных диалогах широко применяемых технологий, таких как Логические Лингвистические Модели (LLM), является критическим в подобных сферах, как медицинская помощь, психологическая поддержка или юридические консультации. Особенно важной является оценка безопасности в разговорах, связанных с психическим здоровьем, где отсутствие золотого стандарта и этическая чувствительность сделали эту задачу одной из самых актуальных и сложных в области искусственного интеллекта. Существующие методы оценки безопасности часто ограничиваются ссылочным подходом, требующим предоставления стандартизированных ответов или текстов, что не всегда доступно в реальных ситуациях. Необходимо разработать более универсальный, гибкий и интерпретируемый подход к оценке безопасности, который может работать в условиях отсутствия готовых стандартов. ## Метод Мы предлагаем LLM-as-Judge, продвинутый подход, который использует технологию создания контекстов (prompt-based) для оценки безопасности LLM-ответов в сфере психического здоровья. В этой модели активно используются специализированные цепочки рассуждений, основанные на принципах психологических интервенций, для того чтобы оценивать ответы модели. Метод предлагает бинарную оценку (точечную) на нескольких аспектах безопасности, что позволяет получать более подробные и транспартные результаты. Для того чтобы обеспечить теоретическую основу, был разработан PsyCrisis-Bench — бенчмарк, основанный на реальных диалогах по ментальному здоровью на китайском языке, включающий такие рисковые области, как самоубийственная идеология, самоповреждение и экзистенциальный тревога. Наш подход выделяется своей способностью работать без стандартных ссылок и оказывать большую транспарентность в оценке безопасности. ## Результаты Мы проводили 3600 экспериментов с целью проверить эффективность нашего подхода. Результаты показали, что LLM-as-Judge достигает наивысшего уровня согласия с оценками экспертов и выдает более понятные и транспартные мотивированные результаты. Особенно сильно показал себя наш метод в сложных ситуациях, когда отсутствуют стандартные ответы или готовые ссылки. Мы также представили высококачественный датасет на китайском языке, содержащий диалоги, связанные с самоубийством, самоповреждением и экзистенциальными проблемами. Благодаря нашей методике, мы можем предлагать более точные и интерпретируемые результаты в области безопасност

Abstract

Evaluating the safety alignment of LLM responses in high-risk mental health dialogues is particularly difficult due to missing gold-standard answers and the ethically sensitive nature of these interactions. To address this challenge, we propose PsyCrisis-Bench, a reference-free evaluation benchmark based on real-world Chinese mental health dialogues. It evaluates whether the model responses align with the safety principles defined by experts. Specifically designed for settings without standard references, our method adopts a prompt-based LLM-as-Judge approach that conducts in-context evaluation using expert-defined reasoning chains grounded in psychological intervention principles. We employ binary point-wise scoring across multiple safety dimensions to enhance the explainability and traceability of the evaluation. Additionally, we present a manually curated, high-quality Chinese-language dataset covering self-harm, suicidal ideation, and existential distress, derived from real-world online discourse. Experiments on 3600 judgments show that our method achieves the highest agreement with expert assessments and produces more interpretable evaluation rationales compared to existing approaches. Our dataset and evaluation tool are publicly available to facilitate further research.

Ссылки и действия

Читать на arXiv Скачать PDF

Дополнительные ресурсы:

Exploring Safety Alignment Evaluation of LLMs in Chinese Mental Health Dialogues via LLM-as-Judge

Авторы:

Резюме на русском

Abstract

Ссылки и действия

Связанные статьи

Identifying attributions of causality in political text

Sycophancy Claims about Language Models: The Missing Human-in-the-Loop

CAIRNS: Balancing Readability and Scientific Accuracy in Climate Adaptation Ques...

Gender Bias in Emotion Recognition by Large Language Models

Analysing Personal Attacks in U.S. Presidential Debates

Навигация