Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts

2509.01814v1 cs.CL, cs.AI, cs.HC 2025-09-05
Авторы:

Shreyas Tirumala, Nishant Jain, Danny D. Leybzon, Trent D. Buskirk

Резюме на русском

## Контекст Область исследования сосредоточена на исследовании трансформер-базных Large Language Models (LLMs), которые обеспечивают развитие "AI interviewers" — систем, которые могут проводить голосовые опросы в реальном времени. Эти системы возникли в результате развития ИИ и технических достижений в области обработки естественного языка. Основной мотивацией является поиск более эффективных и точных способов сбора данных в контекстах количественных и качественных исследований. Существующие Interactive Voice Response (IVR) системы часто ограничены в своих возможностях, и есть необходимость выяснить, могут ли AI interviewers превосходить их в систематичности, точности и функциональности. ## Метод Авторы применяют сравнительный подход к оценке возможностей AI interviewers и IVR-систем. Основные аспекты оценки включают в себя: **input/output performance** (точность распознавания речи, качество записи ответов и обработка эмоций) и **verbal reasoning** (силами проверки, пояснения и работы с ветвящейся логикой). Для проведения исследований были использованы реальные и симулированные данные, позволяющие проверить системы в различных условиях. Такие подходы позволяют измерить как качество технической реализации, так и их применимость в реальных исследовательских контекстах. ## Результаты На основе проведенных экспериментов становится очевидным, что AI interviewers превосходят IVR-системы в обеих категориях — **input/output performance** и **verbal reasoning**. Например, AI interviewers обеспечивают более точное распознавание речи и лучшую обработку ответов. Однако, некоторые недостатки также выявлены: высокая частота ошибок в реальном времени при переводе речи в текст, ограниченная возможность обработки эмоций, а также несогласованность в последовательности продолжения опроса. Эти факторы влияют на применимость AI interviewers в качестве инструмента для качественных исследований, где точность и гибкость имеют особое значение. ## Значимость Полученные результаты показывают, что AI interviewers могут быть применены в различных областях, включая market research, healthcare, и другие сферы, где необходима сбора данных в реальном времени. Однако, их применение в qualitative research может быть ограничено из-за ограниченных возможностей в emotion detection и некоторой неточности в обработке сложных вопросов. Тем не менее, их потенциал в quantitative research гораздо выше, где вопросы более структурированы, и точность требуется в первую очередь. ## Выводы AI interviewers представляют собой перспективный инструмент для сбора данных в различных исследовательских контекстах. Они превосходят IVR-системы во многих аспектах, но имеют ограничения, особенно в области качественных исследований. Будущие исследования должны сфокусироваться на улучшении emotion detection, точности реального времени пере

Abstract

Transformer-based Large Language Models (LLMs) have paved the way for "AI interviewers" that can administer voice-based surveys with respondents in real-time. This position paper reviews emerging evidence to understand when such AI interviewing systems are fit for purpose for collecting data within quantitative and qualitative research contexts. We evaluate the capabilities of AI interviewers as well as current Interactive Voice Response (IVR) systems across two dimensions: input/output performance (i.e., speech recognition, answer recording, emotion handling) and verbal reasoning (i.e., ability to probe, clarify, and handle branching logic). Field studies suggest that AI interviewers already exceed IVR capabilities for both quantitative and qualitative data collection, but real-time transcription error rates, limited emotion detection abilities, and uneven follow-up quality indicate that the utility, use and adoption of current AI interviewer technology may be context-dependent for qualitative data collection efforts.

Ссылки и действия