```## Контекст
Оценка качества использования продуктов (User eXperience, UX) является ключевым фактором успеха многих производственных и технологических продуктов. Однако доступ к реальным данным о пользовательском опыте часто ограничен из-за приватности и ограничений лицензий. Несмотря на то, что общественные форумы, такие как форумы промышленной автоматизации, являются богатой источником пользовательских отзывов и обсуждений, их использование для анализа остается сложным из-за неструктурированного характера контента и специфичной лексики, присущей определенным областям. Эти трудности затрудняют систематический анализ отзывов, выявление ключевых тем, оценку серьезности проблем и выявление потребностей пользователей. Для решения этих проблем предлагается новый подход, основанный на синтезированных, но реалистичных данных, позволяющий устранить приватность и лицензионные ограничения.
## Метод
В качестве решения был разработан механизм синтеза пользовательских отзывов, использующий реальные данные с открытых форумов. Эти данные были обработаны с помощью трансформер-моделей, чтобы создать 7130 искусственных пользовательских комментариев, подробно рассматривающих продукты и их функциональные возможности. Для каждого комментария создана структурированная аннотация в формате JSON, включающая метаданные, серьезность проблемы, оценки негативности и положительности, а также тематическую классификацию. Эта систематизированная структура позволяет эффективно использовать данные для обучения и оценки моделей NLP, таких как модели трансформеров, на задачи классификации, анализа тональности и выявления ключевых слов.
## Результаты
В результате синтеза получены 7130 отзывов, каждый из которых содержит многопостачные комментарии, оценки серьезности и тенденций пользователя, а также тематические классификации. Эти данные отражают реальные сценарии использования продуктов и их функциональность. Данные получены в формате JSON, достаточно просто и удобно для использования в моделях NLP. Эксперименты показали, что модели, обученные на этом датасете, показали высокую точность в определении тональности, классификации и выделении ключевых слов.
## Значимость
Датасет UXPID представляет собой значительный шаг вперед в области искусственного пользовательского опыта. Он может быть применен в обучении моделей для задач, таких как анализ тональности, выявление проблем и выделение ключевых слов. Эти модели могут использоваться в промышленных приложениях для анализа отзывов о продуктах, в том числе в сфере промышленной автоматизации. Данные также могут быть ис