Large Language Models for Oral History Understanding with Text Classification and Sentiment Analysis
2508.06729v1
cs.CL, cs.AI
2025-08-13
Авторы:
Komala Subramanyam Cherukuri, Pranav Abishai Moses, Aisa Sakata, Jiangping Chen, Haihua Chen
Резюме на русском
## Контекст
Оральная история является важной частью культурного наследия, особенно в контексте социальных и исторических трагедий, таких как инцидент инцидент японского населения США во времена Второй мировой войны. Этот исторический факт отражает широкие проблемы системного преследования и исторического забвения. Обработка гораздо большого масштаба таких архивов требует автоматизированных методов, которые могут избежать эмоциональной сложности и высоких затрат на аннотацию. Этот доклад описывает подход, основанный на нейросетевых моделях, который позволяет эффективно анализировать такие архивы, обеспечивая понимание и доступ к оральной истории.
## Метод
Методология основывается на нескольких фазных этапах: подготовка данных, оптимизация моделей и выполнение экспериментов. Для подготовки данных использовалась техника "промптинга", которая позволяет сгенерировать качественные результаты с использованием моделей LLMs. Модели ChatGPT, Llama и Qwen использовались для лемматизации, классификации семантики и анализа тональности текста. Эти модели протестированы в задачах классификации семантики и анализа тональности, направленных на контекст японских американских инцидентов. Выборка данных составила 558 предложений из 15 интервью с разными историями. Эталонные данные были сгенерированы для проверки эффективности техники и моделей.
## Результаты
Проведенные эксперименты показали высокую эффективность моделей в лемматизации и классификации. Модель ChatGPT показала наилучший результат в семантической классификации с F1-меры 88.71%, а Llama и Qwen показали близкие результаты (84.99% и 83.72% соответственно). Для анализа тональности модель Llama показала лучшую результативность (82.66%), следовали Qwen (82.29%) и ChatGPT (82.29%). Использование подходящих конфигураций "промптинга" позволило аннотировать 92,191 предложений из 1,002 интервью в JAIOH. Эти результаты подтверждают возможность LLMs для эффективности анализа оральных историй на большой шкале.
## Значимость
Область применения этого подхода включает цифровые хранилища, исторические исследования, и цифровую культурную память. Важность этого исследования в том, что оно применяет новые технологии для улучшения доступа к таким историческим архивам, а также повышает уровень понимания исторических событий. Методы, описанные в этой работе, могут быть использованы для развития культурного наследия в разных регионах и для разных групп населения.
## Выводы
Результаты экспериментов демонстрируют, что LLMs могут эффективно анализировать боль
Abstract
Oral histories are vital records of lived experience, particularly within
communities affected by systemic injustice and historical erasure. Effective
and efficient analysis of their oral history archives can promote access and
understanding of the oral histories. However, Large-scale analysis of these
archives remains limited due to their unstructured format, emotional
complexity, and high annotation costs. This paper presents a scalable framework
to automate semantic and sentiment annotation for Japanese American
Incarceration Oral History. Using LLMs, we construct a high-quality dataset,
evaluate multiple models, and test prompt engineering strategies in
historically sensitive contexts. Our multiphase approach combines expert
annotation, prompt design, and LLM evaluation with ChatGPT, Llama, and Qwen. We
labeled 558 sentences from 15 narrators for sentiment and semantic
classification, then evaluated zero-shot, few-shot, and RAG strategies. For
semantic classification, ChatGPT achieved the highest F1 score (88.71%),
followed by Llama (84.99%) and Qwen (83.72%). For sentiment analysis, Llama
slightly outperformed Qwen (82.66%) and ChatGPT (82.29%), with all models
showing comparable results. The best prompt configurations were used to
annotate 92,191 sentences from 1,002 interviews in the JAIOH collection. Our
findings show that LLMs can effectively perform semantic and sentiment
annotation across large oral history collections when guided by well-designed
prompts. This study provides a reusable annotation pipeline and practical
guidance for applying LLMs in culturally sensitive archival analysis. By
bridging archival ethics with scalable NLP techniques, this work lays the
groundwork for responsible use of artificial intelligence in digital humanities
and preservation of collective memory. GitHub:
https://github.com/kc6699c/LLM4OralHistoryAnalysis.
Ссылки и действия
Дополнительные ресурсы: