Synthetic Data Generation for Screen Time and App Usage

2509.13892v1 cs.HC, cs.AI, I.2; J.4 2025-09-19
Авторы:

Gustavo Kruger, Nikhil Sachdeva, Michael Sobolev

Резюме на русском

## Контекст Современное исследование смартфонов и их воздействия на поведение и взаимодействие с технологиями требует больших объемов данных. Однако собирать такие данные трудно из-за высоких затрат, угроз приватности, несбалансированных семплов пользователей и биасах, такими как нереагирование, которые могут исказить результаты. Эти проблемы сподвигли исследователей искать альтернативные подходы, такие как генерация синтетических данных, которые могут предоставить важные аналитические сведения без необходимости сбора реальных данных. Новый подход в этой области открыли большие языковые модели (LLMs), такие как ChatGPT от OpenAI, которые способны генерировать структурированные и поведенчески адекватные данные. ## Метод Исследование основывается на использовании ChatGPT для генерации синтетических данных по использованию смартфона. Четыре стратегии построения запросов (prompts) были изучены: два фактора были рассмотрены — уровень детализации запроса (описание юзера или ожидаемых результатов) и включение семплов реальных данных (при их наличии или отсутствии). Эти стратегии были сравнены для определения того, как они влияют на качество генерируемых данных. Эксперименты основывались на метриках качества, таких как точность и разнообразие генерируемых данных. ## Результаты Изученные стратегии построения запросов показали различия в качестве генерируемых данных. Запросы с более подробным описанием юзера и ожидаемых результатов, а также те, которые включали семплы реальных данных, привели к более высокому качеству синтетических данных. Эти данные оказались более точными и продолжительными в сравнении с другими подходами. Однако имели место проблемы с достаточной разнообразием генерируемых данных, которые могли не у reflecting всю широту поведенческих моделей пользователей. ## Значимость Генерация синтетических данных по использованию смартфонов может иметь широкие применения в области исследований поведения пользователей, разработки интерфейсов и мониторинга технологического воздействия. Этот подход предлагает преимущества, такие как устранение проблем с приватностью и высокими затратами на сбор данных, но при этом имеются ограничения в полноту отражения реальных моделей поведения. Несмотря на это, результаты указывают на потенциал LLMs для создания данных, которые могут использоваться в сценариях, где реальные данные недоступны или представляют собой большую проблему. ## Выводы Исследование показало, что генерация синтетических данных по использованию смартфонов с помощью LLMs является возможным решением для некоторых задач. Однако для улучшения качества генери

Abstract

Smartphone usage data can provide valuable insights for understanding interaction with technology and human behavior. However, collecting large-scale, in-the-wild smartphone usage logs is challenging due to high costs, privacy concerns, under representative user samples and biases like non-response that can skew results. These challenges call for exploring alternative approaches to obtain smartphone usage datasets. In this context, large language models (LLMs) such as Open AI's ChatGPT present a novel approach for synthetic smartphone usage data generation, addressing limitations of real-world data collection. We describe a case study on how four prompt strategies influenced the quality of generated smartphone usage data. We contribute with insights on prompt design and measures of data quality, reporting a prompting strategy comparison combining two factors, prompt level of detail (describing a user persona, describing the expected results characteristics) and seed data inclusion (with versus without an initial real usage example). Our findings suggest that using LLMs to generate structured and behaviorally plausible smartphone use datasets is feasible for some use cases, especially when using detailed prompts. Challenges remain in capturing diverse nuances of human behavioral patterns in a single synthetic dataset, and evaluating tradeoffs between data fidelity and diversity, suggesting the need for use-case-specific evaluation metrics and future research with more diverse seed data and different LLM models.

Ссылки и действия