Word Clouds as Common Voices: LLM-Assisted Visualization of Participant-Weighted Themes in Qualitative Interviews

2508.07517v1 cs.CL, cs.AI, cs.HC 2025-08-13
Авторы:

Joseph T. Colonel, Baihan Lin

Резюме на русском

## Контекст Область визуализации и анализа текстовых данных широко используется в исследованиях, предоставляя визуальные инструменты для выявления интересных моделей и отношений в данных. Одной из популярных техник является использование **word clouds**, которые агрегируют слова по частоте их использования. Однако в контексте квалитиативных интервью эти методы часто оказываются неэффективными. Они переоценивают нерелевантные слова, не учитывают парафразы и разбивают семантически связанные идеи на независимые фрагменты. В результате, данные могут быть представлены неточно, что снижает эффективность в ранней стадии анализа. Это ставит перед исследователями задачу развития более точных и интерактивных визуальных методов. ## Метод **ThemeClouds** — это инструмент, основанный на генеративных моделях языка (LLMs), который предлагает новую логику визуализации темы в квалитиативных интервью. Он оптимизирует традиционные подходы, используя LLM для идентификации тем на уровне понятий в тексте. Вместо того, чтобы только подсчитывать частоту слов, ThemeClouds рассчитывает, сколько уникальных участников упоминает каждую тему. Это дает более точное представление о важности темы в контексте всего интервью. Инструмент позволяет исследователям настраивать настройки визуализации и проводить прозрачный анализ. Это делает инструмент гибким и пригодным для различных исследовательских задач. ## Результаты На основе интервью пользователей, проводивших эксперимент с различными конфигурациями звукового прибора (31 участника, 155 транскриптов), ThemeClouds продемонстрировал вышеперечисленные преимущества. Сравнивая его с традиционными методами, такими как LDA и BERTopic, ThemeClouds показал более точное отображение реальных предпочтений участников. Он отфильтровал нерелевантные слова и объединил семантически связанные темы, что упростило интерпретацию результатов. Это демонстрирует мощь глубокого обучения в предоставлении более точных и интерактивных визуализаций. ## Значимость ThemeClouds может быть применен в различных областях, где требуется анализ квалитиативных данных, включая исследования в области медицины, образования, IT и т.д. Он предоставляет более точное представление частоты тем и позволяет исследователям быстрее узнавать основные модели в данных. Также он может быть полезен для создания интерактивных визуальных анализов, которые позволяют проводить подробные кросс-условий сравнения. ## Выводы ThemeClouds представляет собой современный подход к визуализации квалитиативных интервью, используя глубокое обучение для улучшения точности и понятности данных. Он обесп

Abstract

Word clouds are a common way to summarize qualitative interviews, yet traditional frequency-based methods often fail in conversational contexts: they surface filler words, ignore paraphrase, and fragment semantically related ideas. This limits their usefulness in early-stage analysis, when researchers need fast, interpretable overviews of what participant actually said. We introduce ThemeClouds, an open-source visualization tool that uses large language models (LLMs) to generate thematic, participant-weighted word clouds from dialogue transcripts. The system prompts an LLM to identify concept-level themes across a corpus and then counts how many unique participants mention each topic, yielding a visualization grounded in breadth of mention rather than raw term frequency. Researchers can customize prompts and visualization parameters, providing transparency and control. Using interviews from a user study comparing five recording-device configurations (31 participants; 155 transcripts, Whisper ASR), our approach surfaces more actionable device concerns than frequency clouds and topic-modeling baselines (e.g., LDA, BERTopic). We discuss design trade-offs for integrating LLM assistance into qualitative workflows, implications for interpretability and researcher agency, and opportunities for interactive analyses such as per-condition contrasts (``diff clouds'').

Ссылки и действия