Large Language Models for Oral History Understanding with Text Classification and Sentiment Analysis

2508.06729v1 cs.CL, cs.AI 2025-08-13
Авторы:

Komala Subramanyam Cherukuri, Pranav Abishai Moses, Aisa Sakata, Jiangping Chen, Haihua Chen

Резюме на русском

## Контекст Оральная история является важной частью культурного наследия, особенно в контексте социальных и исторических трагедий, таких как инцидент инцидент японского населения США во времена Второй мировой войны. Этот исторический факт отражает широкие проблемы системного преследования и исторического забвения. Обработка гораздо большого масштаба таких архивов требует автоматизированных методов, которые могут избежать эмоциональной сложности и высоких затрат на аннотацию. Этот доклад описывает подход, основанный на нейросетевых моделях, который позволяет эффективно анализировать такие архивы, обеспечивая понимание и доступ к оральной истории. ## Метод Методология основывается на нескольких фазных этапах: подготовка данных, оптимизация моделей и выполнение экспериментов. Для подготовки данных использовалась техника "промптинга", которая позволяет сгенерировать качественные результаты с использованием моделей LLMs. Модели ChatGPT, Llama и Qwen использовались для лемматизации, классификации семантики и анализа тональности текста. Эти модели протестированы в задачах классификации семантики и анализа тональности, направленных на контекст японских американских инцидентов. Выборка данных составила 558 предложений из 15 интервью с разными историями. Эталонные данные были сгенерированы для проверки эффективности техники и моделей. ## Результаты Проведенные эксперименты показали высокую эффективность моделей в лемматизации и классификации. Модель ChatGPT показала наилучший результат в семантической классификации с F1-меры 88.71%, а Llama и Qwen показали близкие результаты (84.99% и 83.72% соответственно). Для анализа тональности модель Llama показала лучшую результативность (82.66%), следовали Qwen (82.29%) и ChatGPT (82.29%). Использование подходящих конфигураций "промптинга" позволило аннотировать 92,191 предложений из 1,002 интервью в JAIOH. Эти результаты подтверждают возможность LLMs для эффективности анализа оральных историй на большой шкале. ## Значимость Область применения этого подхода включает цифровые хранилища, исторические исследования, и цифровую культурную память. Важность этого исследования в том, что оно применяет новые технологии для улучшения доступа к таким историческим архивам, а также повышает уровень понимания исторических событий. Методы, описанные в этой работе, могут быть использованы для развития культурного наследия в разных регионах и для разных групп населения. ## Выводы Результаты экспериментов демонстрируют, что LLMs могут эффективно анализировать боль

Abstract

Oral histories are vital records of lived experience, particularly within communities affected by systemic injustice and historical erasure. Effective and efficient analysis of their oral history archives can promote access and understanding of the oral histories. However, Large-scale analysis of these archives remains limited due to their unstructured format, emotional complexity, and high annotation costs. This paper presents a scalable framework to automate semantic and sentiment annotation for Japanese American Incarceration Oral History. Using LLMs, we construct a high-quality dataset, evaluate multiple models, and test prompt engineering strategies in historically sensitive contexts. Our multiphase approach combines expert annotation, prompt design, and LLM evaluation with ChatGPT, Llama, and Qwen. We labeled 558 sentences from 15 narrators for sentiment and semantic classification, then evaluated zero-shot, few-shot, and RAG strategies. For semantic classification, ChatGPT achieved the highest F1 score (88.71%), followed by Llama (84.99%) and Qwen (83.72%). For sentiment analysis, Llama slightly outperformed Qwen (82.66%) and ChatGPT (82.29%), with all models showing comparable results. The best prompt configurations were used to annotate 92,191 sentences from 1,002 interviews in the JAIOH collection. Our findings show that LLMs can effectively perform semantic and sentiment annotation across large oral history collections when guided by well-designed prompts. This study provides a reusable annotation pipeline and practical guidance for applying LLMs in culturally sensitive archival analysis. By bridging archival ethics with scalable NLP techniques, this work lays the groundwork for responsible use of artificial intelligence in digital humanities and preservation of collective memory. GitHub: https://github.com/kc6699c/LLM4OralHistoryAnalysis.

Ссылки и действия