COMPEER: Controllable Empathetic Reinforcement Reasoning for Emotional Support Conversation

2508.09521v1 cs.CL, cs.AI 2025-08-15
Авторы:

Yunxiao Wang, Meng Liu, Wenqi Liu, Kaiyu Jiang, Bin Wen, Fan Yang, Tingting Gao, Guorui Zhou, Liqiang Nie

Резюме на русском

## Контекст В современном мире, в котором технологии и искусственный интеллект все более вступают в повседневные отношения, эмоциональная поддержка становится ключевым аспектом для поддержания благополучного жизненного баланса. Однако, несмотря на развитие моделей контролируемого машинного обучения, алгоритмы, обладающие способностью эмпатического мышления и контролируемого направления развития бесед, до сих пор остаются редкостью. Это отклонение от человеческих привычных стилей общения затрудняет эффективность и интеллектуальность взаимодействия с пользователями. Именно эта проблема и лежит в основе мотивации для создания COMPEER, модели, призванной сочетать эмпатическое мышление с управляемым поведением и квалитиативно улучшать способность женщины поддержать психологические нужды пользователей. ## Метод COMPEER основывается на концепции "контролируемого эмпатического разума", которая включает в себя выделение и анализ эмоционального состояния пользователя с помощью естественного языка и структурированных психологических шагов. Для обучения модели разработана специальная датасет, в которой каждая реплика аннотирована с учетом соответствия принципам психологии и предпочтений пользователя. Для повышения точности и способности модели реагировать на конкретные сценарии мы использовали рейтингные сети с рекуррентными нейронными сетями (RNN), которые обеспечивают уточненную оценку в сложных ситуациях. Для мотивации пользователя улучшенной модели мы включили реинтерпретацию диалога на основе личности и стратегию корректировки наград с учетом повторения и редкости ответов. Эта система позволяет модели лучше учитывать контекст и характер пользователя. ## Результаты Мы проводили эксперименты с различными датасетами, включая обучающую и валидирующую выборки, где COMPEER показала высокую точность в определении эмоциональных состояний и эффективность в построении психологически корректных диалогов. На основе наших тестов, COMPEER существенно превосходит другие модели в сфере эмоциональной поддержки, особенно в случае сложных диалогов. Мы также проверили эффективность стратегии реинтерпретации диалога и награды, которая позволила снизить частоту повторений ответов и улучшить взаимодействие. Отчет тестирования показал, что COMPEER повышает качество бесед, делая их более естественными и эффективными. ## Значимость COMPEER может применяться в различных областях, включая социальные сети, психологическую поддержку и удаленное обучение. Особенно применимость COMPEER отмечается в ситуациях, когда нуждаются в эмоциональной поддержке ли

Abstract

Emotional support conversations are crucial for promoting emotional well-being, yet current models often lack deep empathetic reasoning grounded in psychological principles. To address this, we propose controllable empathetic reasoning, which combines natural language reasoning with structured psychological steps. We construct a fine-grained dataset annotated with reasoning correctness and response preferences to enable this capability. To further enhance training, we employ reinforcement learning with a unified process-outcome reward model that delivers precise feedback. To mitigate response repetitiveness from entropy collapse, we introduce personality-based dialogue rewriting and a redundancy-aware reward reweighting strategy. Our approach significantly improves model's emotional support ability, advancing the development of empathetic, human-like support systems.

Ссылки и действия