Prosocial Behavior Detection in Player Game Chat: From Aligning Human-AI Definitions to Efficient Annotation at Scale
2508.05938v1
cs.CL, cs.AI, cs.CY, I.2.7; K.4
2025-08-12
Авторы:
Rafal Kocielnik, Min Kim, Penphob, Boonyarungsrit, Fereshteh Soltani, Deshawn Sambrano, Animashree Anandkumar, R. Michael Alvarez
Резюме на русском
#### Контекст
Детектирование просоциальных поведений в игровых чатах является новым и важным заданием, особенно для систем управления доверием и безопасностью. Отличается от детектирования токсичности, просоциальное поведение определяется как предметно-ориентированное общение, нацеленное на поддержку или улучшение поведения других игроков. Однако существуют узкие места, такие как неполные определения и отсутствие широко распространенных наборов данных для обучения моделей. Мы разработали методологию, которая позволяет эффективно детектировать просоциальность в тексте и решает проблему нехватки человеческих меток.
#### Метод
Мы предлагаем трехэтапную пипелье, нацеленную на эффективное классификационное решение в области просоциальности. Используя небольшой набор меток от человеков, мы идентифицировали наиболее эффективный подход к автоматической маркировке текста с помощью нейросетевых моделей. Во втором этапе мы ввели цикл человеко-AI, который позволяет сократить разбирательства между людьми и моделями (в нашем случае GPT-4), уточняя и расширяя определения. В третьем этапе мы автоматизировали процесс синтеза большого количества высококачественных меток с помощью GPT-4 и разработали двухэтапную систему интерпретации: легковесный классификатор работает с высокой долей уверенности, а в случаях неоднозначности происходит вызов модели GPT-4.
#### Результаты
Мы провели эксперименты с 10k меток, синтезировав данные с помощью GPT-4. Наши результаты показали надежную точность классификации просоциальных поведений, приблизительно 0.90, при этом уменьшив затраты на интерпретацию примерно на 70%. Мы также доказали, что наша методология оптимизирует синтез меток, уменьшает затраты на обучение и в то же время повышает точность.
#### Значимость
Наш подход может быть применен в различных системах мониторинга игровых чатов, помогая снизить порог вхождения для разработчиков систем управления доверием и безопасностью. Он также предлагает значительные преимущества, включая высокую точность, снижение затрат и упрощение процесса классификации. Этот подход может выступать в качестве модели для других задач, требующих эффективного решения с помощью человеко-AI-интерактивных систем.
#### Выводы
Мы доказали эффективность нашего подхода в решении задачи классификации просоциальности в тексте, а также сделали значительный шаг в сторону оптимизации человеко-AI-интерактивных систем. Наша работа открывает новые возможности для развития систем модерации и мониторинга в реальном времени, которые требуют высокой точности, эффективности и минималь
Abstract
Detecting prosociality in text--communication intended to affirm, support, or
improve others' behavior--is a novel and increasingly important challenge for
trust and safety systems. Unlike toxic content detection, prosociality lacks
well-established definitions and labeled data, requiring new approaches to both
annotation and deployment. We present a practical, three-stage pipeline that
enables scalable, high-precision prosocial content classification while
minimizing human labeling effort and inference costs. First, we identify the
best LLM-based labeling strategy using a small seed set of human-labeled
examples. We then introduce a human-AI refinement loop, where annotators review
high-disagreement cases between GPT-4 and humans to iteratively clarify and
expand the task definition-a critical step for emerging annotation tasks like
prosociality. This process results in improved label quality and definition
alignment. Finally, we synthesize 10k high-quality labels using GPT-4 and train
a two-stage inference system: a lightweight classifier handles high-confidence
predictions, while only $\sim$35\% of ambiguous instances are escalated to
GPT-4o. This architecture reduces inference costs by $\sim$70% while achieving
high precision ($\sim$0.90). Our pipeline demonstrates how targeted human-AI
interaction, careful task formulation, and deployment-aware architecture design
can unlock scalable solutions for novel responsible AI tasks.