📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Synthetic Data Generation for Screen Time and App Usage

2025-09-19

Авторы:

Gustavo Kruger, Nikhil Sachdeva, Michael Sobolev

## Контекст Современное исследование смартфонов и их воздействия на поведение и взаимодействие с технологиями требует больших объемов данных. Однако собирать такие данные трудно из-за высоких затрат, угроз приватности, несбалансированных семплов пользователей и биасах, такими как нереагирование, которые могут исказить результаты. Эти проблемы сподвигли исследователей искать альтернативные подходы, такие как генерация синтетических данных, которые могут предоставить важные аналитические сведения без необходимости сбора реальных данных. Новый подход в этой области открыли большие языковые модели (LLMs), такие как ChatGPT от OpenAI, которые способны генерировать структурированные и поведенчески адекватные данные. ## Метод Исследование основывается на использовании ChatGPT для генерации синтетических данных по использованию смартфона. Четыре стратегии построения запросов (prompts) были изучены: два фактора были рассмотрены — уровень детализации запроса (описание юзера или ожидаемых результатов) и включение семплов реальных данных (при их наличии или отсутствии). Эти стратегии были сравнены для определения того, как они влияют на качество генерируемых данных. Эксперименты основывались на метриках качества, таких как точность и разнообразие генерируемых данных. ## Результаты Изученные стратегии построения запросов показали различия в качестве генерируемых данных. Запросы с более подробным описанием юзера и ожидаемых результатов, а также те, которые включали семплы реальных данных, привели к более высокому качеству синтетических данных. Эти данные оказались более точными и продолжительными в сравнении с другими подходами. Однако имели место проблемы с достаточной разнообразием генерируемых данных, которые могли не у reflecting всю широту поведенческих моделей пользователей. ## Значимость Генерация синтетических данных по использованию смартфонов может иметь широкие применения в области исследований поведения пользователей, разработки интерфейсов и мониторинга технологического воздействия. Этот подход предлагает преимущества, такие как устранение проблем с приватностью и высокими затратами на сбор данных, но при этом имеются ограничения в полноту отражения реальных моделей поведения. Несмотря на это, результаты указывают на потенциал LLMs для создания данных, которые могут использоваться в сценариях, где реальные данные недоступны или представляют собой большую проблему. ## Выводы Исследование показало, что генерация синтетических данных по использованию смартфонов с помощью LLMs является возможным решением для некоторых задач. Однако для улучшения качества генери

Annotation:

Smartphone usage data can provide valuable insights for understanding interaction with technology and human behavior. However, collecting large-scale, in-the-wild smartphone usage logs is challenging due to high costs, privacy concerns, under representative user samples and biases like non-response that can skew results. These challenges call for exploring alternative approaches to obtain smartphone usage datasets. In this context, large language models (LLMs) such as Open AI's ChatGPT present a...

ID: 2509.13892v1 cs.HC, cs.AI, I.2; J.4

arXiv PDF