User eXperience Perception Insights Dataset (UXPID): Synthetic User Feedback from Public Industrial Forums

2509.11777v1 cs.CL, cs.LG 2025-09-17
Авторы:

Mikhail Kulyabin, Jan Joosten, Choro Ulan uulu, Nuno Miguel Martins Pacheco, Fabian Ries, Filippos Petridis, Jan Bosch, Helena Holmström Olsson

Резюме на русском

```## Контекст Оценка качества использования продуктов (User eXperience, UX) является ключевым фактором успеха многих производственных и технологических продуктов. Однако доступ к реальным данным о пользовательском опыте часто ограничен из-за приватности и ограничений лицензий. Несмотря на то, что общественные форумы, такие как форумы промышленной автоматизации, являются богатой источником пользовательских отзывов и обсуждений, их использование для анализа остается сложным из-за неструктурированного характера контента и специфичной лексики, присущей определенным областям. Эти трудности затрудняют систематический анализ отзывов, выявление ключевых тем, оценку серьезности проблем и выявление потребностей пользователей. Для решения этих проблем предлагается новый подход, основанный на синтезированных, но реалистичных данных, позволяющий устранить приватность и лицензионные ограничения. ## Метод В качестве решения был разработан механизм синтеза пользовательских отзывов, использующий реальные данные с открытых форумов. Эти данные были обработаны с помощью трансформер-моделей, чтобы создать 7130 искусственных пользовательских комментариев, подробно рассматривающих продукты и их функциональные возможности. Для каждого комментария создана структурированная аннотация в формате JSON, включающая метаданные, серьезность проблемы, оценки негативности и положительности, а также тематическую классификацию. Эта систематизированная структура позволяет эффективно использовать данные для обучения и оценки моделей NLP, таких как модели трансформеров, на задачи классификации, анализа тональности и выявления ключевых слов. ## Результаты В результате синтеза получены 7130 отзывов, каждый из которых содержит многопостачные комментарии, оценки серьезности и тенденций пользователя, а также тематические классификации. Эти данные отражают реальные сценарии использования продуктов и их функциональность. Данные получены в формате JSON, достаточно просто и удобно для использования в моделях NLP. Эксперименты показали, что модели, обученные на этом датасете, показали высокую точность в определении тональности, классификации и выделении ключевых слов. ## Значимость Датасет UXPID представляет собой значительный шаг вперед в области искусственного пользовательского опыта. Он может быть применен в обучении моделей для задач, таких как анализ тональности, выявление проблем и выделение ключевых слов. Эти модели могут использоваться в промышленных приложениях для анализа отзывов о продуктах, в том числе в сфере промышленной автоматизации. Данные также могут быть ис

Abstract

Customer feedback in industrial forums reflect a rich but underexplored source of insight into real-world product experience. These publicly shared discussions offer an organic view of user expectations, frustrations, and success stories shaped by the specific contexts of use. Yet, harnessing this information for systematic analysis remains challenging due to the unstructured and domain-specific nature of the content. The lack of structure and specialized vocabulary makes it difficult for traditional data analysis techniques to accurately interpret, categorize, and quantify the feedback, thereby limiting its potential to inform product development and support strategies. To address these challenges, this paper presents the User eXperience Perception Insights Dataset (UXPID), a collection of 7130 artificially synthesized and anonymized user feedback branches extracted from a public industrial automation forum. Each JavaScript object notation (JSON) record contains multi-post comments related to specific hardware and software products, enriched with metadata and contextual conversation data. Leveraging a large language model (LLM), each branch is systematically analyzed and annotated for UX insights, user expectations, severity and sentiment ratings, and topic classifications. The UXPID dataset is designed to facilitate research in user requirements, user experience (UX) analysis, and AI-driven feedback processing, particularly where privacy and licensing restrictions limit access to real-world data. UXPID supports the training and evaluation of transformer-based models for tasks such as issue detection, sentiment analysis, and requirements extraction in the context of technical forums.

Ссылки и действия