C-QUERI: Congressional Questions, Exchanges, and Responses in Institutions Dataset

2509.21548v1 cs.CY, cs.CL 2025-09-30
Авторы:

Manjari Rudra, Daniel Magleby, Sujoy Sikdar

Резюме на русском

## Контекст Политические вопросы и ответы в слушаниях и палатных заседаниях не только помогают собирать информацию, но и стратегически используются для продвижения частных интересов, формирования партийных нарративов и влияния на публичное мнение. Однако эти стратегические аспекты в значительной степени остаются неизученными, в основном из-за отсутствия больших данных для изучения подобного дискурса. Слушания в Конгрессе представляют собой идеальный объект для изучения политического вопрошения из-за строгого регулирования процесса, обязательности ответа свидетелей и гарантии вопросов всех политических партий. Это позволяет сравнивать поведение членов Конгресса в разных политических контекстах. C-QUERI (Congressional Questions, Exchanges, and Responses in Institutions Dataset) — это инновационный подход к изучению такого дискурса, объединяя пайплайн для извлечения вопросов-ответов из неструктурированных текстов и построение независимого научного ресурса. ## Метод C-QUERI использует пайплайн, который извлекает вопросы и ответы из неструктурированных текстов слушаний. Этот процесс включает несколько ключевых этапов. Сначала производится предобработка текстов, включая нормализацию, лемматизацию и удаление шума. Затем применяется алгоритм для определения последовательностей вопросов и ответов, который определяет точки начала и конца ответов. В качестве результата получена новая база данных из слушаний Конгресса за период 108-й до 117-й конгрессов. Эта база данных позволяет проводить структурированные анализы вопросов и ответов, сравнивать поведение членов разных политических партий и изучать стратегии вопрошения в политическом дискурсе. ## Результаты Исследования показали, что стратегии вопрошения членов разных политических партий существенно различаются. Например, можно предсказать политическую принадлежность члена Конгресса, проанализировав только его вопросы. Это показывает, что вопросы не только отражают простую информационную потребность, но и стратегически используются для формирования политических отношений. База данных C-QUERI позволяет проводить многочисленные эксперименты, такие как изучение того, как члены разных партий употребляют язык, изменяют свои стратегии в разных контекстах, и влияют на то, как информация подается публике. ## Значимость Результаты C-QUERI могут быть применены в различных областях, включая политическую науку, лингвистику, анализ массовых коммуникаций и анализ поведения в политических интервью. Этот ресурс дает возможность углубить понимание того, как политические вопросы и ответы формируют общественное мнение и

Abstract

Questions in political interviews and hearings serve strategic purposes beyond information gathering including advancing partisan narratives and shaping public perceptions. However, these strategic aspects remain understudied due to the lack of large-scale datasets for studying such discourse. Congressional hearings provide an especially rich and tractable site for studying political questioning: Interactions are structured by formal rules, witnesses are obliged to respond, and members with different political affiliations are guaranteed opportunities to ask questions, enabling comparisons of behaviors across the political spectrum. We develop a pipeline to extract question-answer pairs from unstructured hearing transcripts and construct a novel dataset of committee hearings from the 108th--117th Congress. Our analysis reveals systematic differences in questioning strategies across parties, by showing the party affiliation of questioners can be predicted from their questions alone. Our dataset and methods not only advance the study of congressional politics, but also provide a general framework for analyzing question-answering across interview-like settings.

Ссылки и действия