HICode: Hierarchical Inductive Coding with LLMs

2509.17946v1 cs.CL, cs.AI, cs.HC 2025-09-24
Авторы:

Mian Zhong, Pristina Wang, Anjalie Field

Резюме на русском

## Контекст В современных исследованиях, особенно в области естественной языковой обработки, анализ больших текстовых корпусов является ключевым заданием. Однако существующие подходы, такие как методы тематического моделирования, часто либо недостаточно точны, либо требуют ручного вмешательства, что не эффективно при работе с крупными данными. Ручной метод методического кодирования, широко распространенный в качестве альтернативы, тоже имеет свои ограничения: он немасштабируемый, непоследователен и может влечь за собой субъективность аналитика. Для преодоления этих трудностей, авторы предлагают подход, использующий глубокое обучение, чтобы улучшить точность и масштабируемость кодирования для получения более глубоких и тщательных анализов. ## Метод HICode — это двухэтапная модель, призванная эффективно автоматизировать процесс кодирования в некоторых фазе исследования. Она состоит из двух частей: **индуктивного кодирования** и **иерархического кластеризации**. В первой фазе, генерация тегов происходит непосредственно из анализируемого текста, используя технологию глубокого обучения. Эта технология настраивается на задачу поиска подходящих меток для данных. Во второй фазе, полученные метки вложены в иерархию, чтобы обнаружить темы, которые могут быть неочевидными в исходных данных. Эта модель предлагается как независимая от языка и применимая к различным типам данных, включая тексты, аудио и видео. ## Результаты HICode была протестирована на трех различных корпусах данных, включая рецензии к фильмам, сообщения в социальных сетях и отзывы о продуктах. Модель показала высокую точность в соответствии с людскими темами, проанализированными вручную. Запуски экспериментов демонстрируют, что полученные результаты соответствуют профессиональному методическому кодированию в качестве стандарта. Также были проведены испытания на реальных данных, включая документы, связанные с кризисом наркотиков в США. Эти испытания показали, что HICode может обнаруживать затененные темы, такие как провокационные маркетинговые стратегии. ## Значимость Результаты HICode показывают большой потенциал модели в различных областях, включая юридический анализ, маркетинг, социальные исследования и литературные исследования. Основное преимущество этого подхода в том, что он увеличивает масштабируемость и точность анализа, обнаруживая темы, которые могут быть недоступны для ручного анализа. Благодаря этому, модель может существенно сэкономить время исследователей и улучшить качество анализа текстового контента.

Abstract

Despite numerous applications for fine-grained corpus analysis, researchers continue to rely on manual labeling, which does not scale, or statistical tools like topic modeling, which are difficult to control. We propose that LLMs have the potential to scale the nuanced analyses that researchers typically conduct manually to large text corpora. To this effect, inspired by qualitative research methods, we develop HICode, a two-part pipeline that first inductively generates labels directly from analysis data and then hierarchically clusters them to surface emergent themes. We validate this approach across three diverse datasets by measuring alignment with human-constructed themes and demonstrating its robustness through automated and human evaluations. Finally, we conduct a case study of litigation documents related to the ongoing opioid crisis in the U.S., revealing aggressive marketing strategies employed by pharmaceutical companies and demonstrating HICode's potential for facilitating nuanced analyses in large-scale data.

Ссылки и действия