Evaluating Podcast Recommendations with Profile-Aware LLM-as-a-Judge

2508.08777v1 cs.IR, cs.AI, cs.LG 2025-08-14
Авторы:

Francesco Fabbri, Gustavo Penha, Edoardo D'Amico, Alice Wang, Marco De Nadai, Jackie Doremus, Paul Gigioli, Andreas Damianou, Oskar Stal, Mounia Lalmas

Резюме на русском

#### Контекст Оценка рекомендаций поддерживает ключевую роль в современных рекомендательных системах, позволяя измерить качество рекомендаций и улучшить пользовательский опыт. Тем не менее, в долгоформатовых доменах, таких как подкасты, существуют серьезные проблемы. Оффлайн методы, такие как проверка корреляции между рекомендациями и действиями пользователей, страдают от экспозиционного биаса, то есть неточностей в представлении данных. Альтернативным подходом — онлайн-тестированием, таким как A/B-тестирование — требуется большое количество ресурсов и является ограниченным в применении. Данная работа предлагает новый подход, использующий Аль LLM-ас-а-Jудж (LLM в роли судьи) для эффективного и интерпретируемого оценивания подкастов. #### Метод Предложенная методика использует два этапа. В первом этапе алгоритм строит профили пользователей на основе 90-дневной истории прослушивания. Эти профили содержат в себе два основных компонента: тематические интересы и поведенческие модели. Это позволяет представить пользователя как компактные, но осмысленные представления их предпочтений. Во втором этапе Аль LLM-ас-а-Jудж использует эти профили в качестве входных данных для оценки качества рекомендаций. Ламбда проводит подробные оценки для каждой пары пользователя-подкаста, основываясь на соответствии профиля и подкаста. Этот подход упрощает входные данные и улучшает их читаемость, позволяя лучше понять причины рекомендаций. #### Результаты В экспериментах использовались данные из 90-дневных прослушиваний пользователей. Оценивались качество рекомендаций и точность сравнения с реальными предпочтениями пользователей. Профиль-ауэс LLM-ас-а-Jудж был сравнен с двумя вариантами: одним использовался вход в виде голых данных, а другой — оценка без профилей. Аль LLM-ас-а-Jудж показал высокую точность в соответствии с реальными предпочтениями пользователей и при этом был удобнее в использовании, чем другие подходы. Это позволяет ему быть эффективным инструментом для тестирования и моделирования в рекомендательных системах. #### Значимость Предлагаемый подход может применяться в многих областях, где требуется эффективная и понятная оценка рекомендаций в долгоформатовых доменах. Он позволяет избежать неточностей, связанных с экспозиционным биасом, и упрощает оценку качества рекомендательных моделей. Данный подход может использоваться в итеративном тестировании и моделировании, предоставляя более четкое понимание качества рекомендательных систем. #### Выводы Профиль-ауэс LLM-ас-а-Jудж доказал свою эффективность в о

Abstract

Evaluating personalized recommendations remains a central challenge, especially in long-form audio domains like podcasts, where traditional offline metrics suffer from exposure bias and online methods such as A/B testing are costly and operationally constrained. In this paper, we propose a novel framework that leverages Large Language Models (LLMs) as offline judges to assess the quality of podcast recommendations in a scalable and interpretable manner. Our two-stage profile-aware approach first constructs natural-language user profiles distilled from 90 days of listening history. These profiles summarize both topical interests and behavioral patterns, serving as compact, interpretable representations of user preferences. Rather than prompting the LLM with raw data, we use these profiles to provide high-level, semantically rich context-enabling the LLM to reason more effectively about alignment between a user's interests and recommended episodes. This reduces input complexity and improves interpretability. The LLM is then prompted to deliver fine-grained pointwise and pairwise judgments based on the profile-episode match. In a controlled study with 47 participants, our profile-aware judge matched human judgments with high fidelity and outperformed or matched a variant using raw listening histories. The framework enables efficient, profile-aware evaluation for iterative testing and model selection in recommender systems.

Ссылки и действия