Synthetic Data Generation for Screen Time and App Usage
2509.13892v1
cs.HC, cs.AI, I.2; J.4
2025-09-19
Авторы:
Gustavo Kruger, Nikhil Sachdeva, Michael Sobolev
Резюме на русском
## Контекст
Современное исследование смартфонов и их воздействия на поведение и взаимодействие с технологиями требует больших объемов данных. Однако собирать такие данные трудно из-за высоких затрат, угроз приватности, несбалансированных семплов пользователей и биасах, такими как нереагирование, которые могут исказить результаты. Эти проблемы сподвигли исследователей искать альтернативные подходы, такие как генерация синтетических данных, которые могут предоставить важные аналитические сведения без необходимости сбора реальных данных. Новый подход в этой области открыли большие языковые модели (LLMs), такие как ChatGPT от OpenAI, которые способны генерировать структурированные и поведенчески адекватные данные.
## Метод
Исследование основывается на использовании ChatGPT для генерации синтетических данных по использованию смартфона. Четыре стратегии построения запросов (prompts) были изучены: два фактора были рассмотрены — уровень детализации запроса (описание юзера или ожидаемых результатов) и включение семплов реальных данных (при их наличии или отсутствии). Эти стратегии были сравнены для определения того, как они влияют на качество генерируемых данных. Эксперименты основывались на метриках качества, таких как точность и разнообразие генерируемых данных.
## Результаты
Изученные стратегии построения запросов показали различия в качестве генерируемых данных. Запросы с более подробным описанием юзера и ожидаемых результатов, а также те, которые включали семплы реальных данных, привели к более высокому качеству синтетических данных. Эти данные оказались более точными и продолжительными в сравнении с другими подходами. Однако имели место проблемы с достаточной разнообразием генерируемых данных, которые могли не у reflecting всю широту поведенческих моделей пользователей.
## Значимость
Генерация синтетических данных по использованию смартфонов может иметь широкие применения в области исследований поведения пользователей, разработки интерфейсов и мониторинга технологического воздействия. Этот подход предлагает преимущества, такие как устранение проблем с приватностью и высокими затратами на сбор данных, но при этом имеются ограничения в полноту отражения реальных моделей поведения. Несмотря на это, результаты указывают на потенциал LLMs для создания данных, которые могут использоваться в сценариях, где реальные данные недоступны или представляют собой большую проблему.
## Выводы
Исследование показало, что генерация синтетических данных по использованию смартфонов с помощью LLMs является возможным решением для некоторых задач. Однако для улучшения качества генери
Abstract
Smartphone usage data can provide valuable insights for understanding
interaction with technology and human behavior. However, collecting
large-scale, in-the-wild smartphone usage logs is challenging due to high
costs, privacy concerns, under representative user samples and biases like
non-response that can skew results. These challenges call for exploring
alternative approaches to obtain smartphone usage datasets. In this context,
large language models (LLMs) such as Open AI's ChatGPT present a novel approach
for synthetic smartphone usage data generation, addressing limitations of
real-world data collection. We describe a case study on how four prompt
strategies influenced the quality of generated smartphone usage data. We
contribute with insights on prompt design and measures of data quality,
reporting a prompting strategy comparison combining two factors, prompt level
of detail (describing a user persona, describing the expected results
characteristics) and seed data inclusion (with versus without an initial real
usage example). Our findings suggest that using LLMs to generate structured and
behaviorally plausible smartphone use datasets is feasible for some use cases,
especially when using detailed prompts. Challenges remain in capturing diverse
nuances of human behavioral patterns in a single synthetic dataset, and
evaluating tradeoffs between data fidelity and diversity, suggesting the need
for use-case-specific evaluation metrics and future research with more diverse
seed data and different LLM models.
Ссылки и действия
Дополнительные ресурсы: