From latent factors to language: a user study on LLM-generated explanations for an inherently interpretable matrix-based recommender system
2509.18980v1
cs.AI, cs.HC, cs.IR, H.3.3; H.5.2; I.2.7
2025-09-25
Авторы:
Maxime Manderlier, Fabian Lecron, Olivier Vu Thanh, Nicolas Gillis
Резюме на русском
## Контекст
В последние годы значительное внимание уделяется развитию систем рекомендаций, которые обеспечивают понятность своих решений и могут объяснить свои рекомендации пользователям. Однако многие из существующих подходов к объяснению рекомендаций либо ограничены синтетическими экспериментами, либо недостаточно учитывают реальных пользователей. Наша работа фокусируется на доказательстве того, что ло LLM могут генерировать эффективные пользовательские объяснения для математически интерпретируемой модели рекомендаций, основанной на ограниченном факторном разложении матрицы. Эта модель характеризуется явной представлением пользовательских предпочтений и линейным масштабом предсказанных баллов, что делает её репрезентации и рекомендациями непосредственно понятными. Целью нашего исследования является изучение как пользователи реагируют на различные стили объяснений, сгенерированных с помощью LLM, и как эти стили влияют на их оценку качества рекомендаций.
## Метод
Мы использовали констрейнтную модель факторного разложения матрицы, где заданы ограничения на пользовательские предпочтения, и предсказания размером, соответствующим масштабу наблюдаемых рейтингов. Для сгенерирования естественноязычных объяснений, мы разработали комплексные модели для трансформации матричных данных в естественный язык с помощью LLM. Мы создали несколько вариантов объяснений, изменяя входные данные для LLM, такие как описания пользовательских предпочтений или предполагаемые рекомендации. Эксперименты проводились с участием 326 пользователей, которые оценили качество объяснений по 5 ключевым критериям: транспарентность, эффективность, убедительность, доверие и удовлетворенность. Также мы провели анализ комментариев пользователей, чтобы получить дополнительные подробности о предпочтениях пользователей.
## Результаты
Пользователи оценили все типы объяснений стабильно высоким рейтингом, хотя были заметные различия во время обработки некоторых типов объяснений. Объяснения, основанные на предпочтениях пользователей, получили высокую оценку по транспарентности и доверию, но менее эффективными оказались в убеждении пользователей. Объяснения, основанные на предполагаемых рекомендациях, оказались более убедительными и удовлетворяли пользователей больше, но показали меньшую транспарентность. Общая удовлетворенность пользователей была высокой, но варианты, объясняющие и то и другое, показали самые высокие показатели во всех критериях. Комментарии пользователей подтвердили эти наблюдения и дали дополнительные подробности о том, как люди ре
Abstract
We investigate whether large language models (LLMs) can generate effective,
user-facing explanations from a mathematically interpretable recommendation
model. The model is based on constrained matrix factorization, where user types
are explicitly represented and predicted item scores share the same scale as
observed ratings, making the model's internal representations and predicted
scores directly interpretable. This structure is translated into natural
language explanations using carefully designed LLM prompts. Many works in
explainable AI rely on automatic evaluation metrics, which often fail to
capture users' actual needs and perceptions. In contrast, we adopt a
user-centered approach: we conduct a study with 326 participants who assessed
the quality of the explanations across five key dimensions-transparency,
effectiveness, persuasion, trust, and satisfaction-as well as the
recommendations themselves.To evaluate how different explanation strategies are
perceived, we generate multiple explanation types from the same underlying
model, varying the input information provided to the LLM. Our analysis reveals
that all explanation types are generally well received, with moderate
statistical differences between strategies. User comments further underscore
how participants react to each type of explanation, offering complementary
insights beyond the quantitative results.