AI Blob! LLM-Driven Recontextualization of Italian Television Archives
2508.09535v1
cs.MM, cs.AI, cs.CL, cs.DL
2025-08-15
Авторы:
Roberto Balestri
Резюме на русском
## Контекст
Область исследования связана с использованием ИИ для улучшения доступа к историческим телевизионным архивам. Исторические телевизионные архивы часто остаются недоступными или неэффективно используются из-за сложности в их поиске и реконтекстуализации. Традиционные методы, основанные на статических метаданных, не могут удовлетворительно разрешать эти задачи. AI Blob! предлагает использовать семантические технологии и Large Language Models (LLMs) для более эффективного поиска, реконтекстуализации и создания новых номинативных позиций в архивах. Основная мотивация заключается в развитии инструментов, которые могут автоматизировать и улучшить процесс доступа к телевизионным архивам, позволяя новым видам художественного и исторического восприятия.
## Метод
Система AI Blob! использует методы автоматического распознавания речи (ASR), семантических векторов и retrieval-augmented generation (RAG). Архивная видео footage, содержащаяся в 1,547 видеозаписях, проходит ASR для генерации текстовых транскриптов. Затем эти транскрипты разбиваются на уровень предложений, и каждое предложение становится объектом semantic embedding, которые вставляются в векторную базу данных. Пользователь может вводить тематические запросы, например "politics" или "culture". LLM, используя эти запросы, выдает ряд семантически похожих запросов, которые расширяют поиск. На основе этих входных данных, система выбирает аудио-визуальные фрагменты, которые организуются в новую логическую последовательность, представляющую собой новую хронологию и контекст. Это позволяет создавать новые тематические монтажи, подобные редакторским практикам журналистики.
## Результаты
AI Blob! провел эксперименты с 1,547 видеозаписями, реализовав систему поиска и реконтекстуализации. В результате, возможность поиска по семантическим запросам была достигнута, что позволило значительно улучшить доступ к архивным материалам. Алгоритмы поиска векторной базы данных позволили реконструировать новые тематические последовательности, предоставляя пользователям более широкий выбор для анализа и создания новых номинативных структур. Это демонстрирует возможность поиска по семантическим характеристикам, а не только метаданным.
## Значимость
AI Blob! может применяться в области исторического исследования, культурного анализа и архивальной работы. Он предлагает новые возможности для автоматизации и улучшения доступа к телевизионным архивам. В отличие от традиционных методов, он позволяет вести более точный поиск по тематическим запросам, что улучшает эффективность работы с
Abstract
This paper introduces AI Blob!, an experimental system designed to explore
the potential of semantic cataloging and Large Language Models (LLMs) for the
retrieval and recontextualization of archival television footage. Drawing
methodological inspiration from Italian television programs such as Blob (RAI
Tre, 1989-), AI Blob! integrates automatic speech recognition (ASR), semantic
embeddings, and retrieval-augmented generation (RAG) to organize and
reinterpret archival content. The system processes a curated dataset of 1,547
Italian television videos by transcribing audio, segmenting it into
sentence-level units, and embedding these segments into a vector database for
semantic querying. Upon user input of a thematic prompt, the LLM generates a
range of linguistically and conceptually related queries, guiding the retrieval
and recombination of audiovisual fragments. These fragments are algorithmically
selected and structured into narrative sequences producing montages that
emulate editorial practices of ironic juxtaposition and thematic coherence. By
foregrounding dynamic, content-aware retrieval over static metadata schemas, AI
Blob! demonstrates how semantic technologies can facilitate new approaches to
archival engagement, enabling novel forms of automated narrative construction
and cultural analysis. The project contributes to ongoing debates in media
historiography and AI-driven archival research, offering both a conceptual
framework and a publicly available dataset to support further interdisciplinary
experimentation.