Hallucination vs interpretation: rethinking accuracy and precision in AI-assisted data extraction for knowledge synthesis

2508.09458v2 cs.HC, cs.AI, cs.ET 2025-08-15
Авторы:

Xi Long, Christy Boscardin, Lauren A. Maggio, Joseph A. Costello, Ralph Gonzales, Rasmyah Hammoudeh, Ki Lai, Yoon Soo Park, Brian C. Gin

Резюме на русском

#### Контекст Информационные технологии становятся важной составляющей в сфере здравоохранения, поддерживая клинические решения и знания. Однако их эффективность зависит от качества данных и точности их интерпретации. Автоматизация процессов сбора и анализа данных с помощью ИИ позволяет ускорить работу, но она не без проблем. Одна из основных проблем — возникновение "халлуцинаций" в искусственном интеллекте, когда система генерирует неверные или неподходящие данные. Данное исследование фокусируется на проблеме различения "халлуцинаций" от интерпретаций человека и на поиске способов повысить точность и эффективность ИИ-помощи в синтезе знаний. #### Метод Для экспериментов использовался ИИ-ориентированный платформа для выполнения синтеза знаний. Авторы исследования оценили работу системы на 187 публикациях с 17 вопросами, полученными из специального специального обзора. Для оценки согласованности ответов сравнивались результаты ИИ и человеческих ответов. Для категориальных вопросов использовалась мера interrater reliability, а для открытых вопросов — тематическая согласованность. Ошибки выявлялись путем сравнения ответов с исходными публикациями. #### Результаты Находилось, что ИИ показывает высокую согласованность с человеческими ответами в тех случаях, когда ответы являются четко определенными и не требуют интерпретации (например, заголовок, цель исследования). Однако при вопросах, требующих субъективного разбора или отсутствующих в исходных данных, согласованность значительно ниже. Практически все ошибки в ответах ИИ были связаны с интерпретационными трудностями (18.3%), в то время как человеческие ошибки происходили намного чаще (4.37%). AI-анализ позволил выявить сложности интерпретации, что позволило улучшить процесс прежде чем передать результаты на человеческий проверку. #### Значимость Естественная синхронность ИИ с человеческими ответами показывает возможность использовать артифициальный интеллект в качестве достоверного и полезного инструмента в знаний синтезе. В то же время, находились значительные отличия во время выявления сложных ситуаций, что подтверждает необходимость человеческого вклада в процесс. Исследование свидетельствует о возможности использования ИИ в процессе знаний синтеза, но также указывает на необходимость осторожности в работе с интерпретируемыми данными. #### Выводы Результаты демонстрируют, что ИИ может стать достоверным и эффективным сопутствующим средством в синтезе знаний, но его работа требует дополнительного анализа и контроля

Abstract

Knowledge syntheses (literature reviews) are essential to health professions education (HPE), consolidating findings to advance theory and practice. However, they are labor-intensive, especially during data extraction. Artificial Intelligence (AI)-assisted extraction promises efficiency but raises concerns about accuracy, making it critical to distinguish AI 'hallucinations' (fabricated content) from legitimate interpretive differences. We developed an extraction platform using large language models (LLMs) to automate data extraction and compared AI to human responses across 187 publications and 17 extraction questions from a published scoping review. AI-human, human-human, and AI-AI consistencies were measured using interrater reliability (categorical) and thematic similarity ratings (open-ended). Errors were identified by comparing extracted responses to source publications. AI was highly consistent with humans for concrete, explicitly stated questions (e.g., title, aims) and lower for questions requiring subjective interpretation or absent in text (e.g., Kirkpatrick's outcomes, study rationale). Human-human consistency was not higher than AI-human and showed the same question-dependent variability. Discordant AI-human responses (769/3179 = 24.2%) were mostly due to interpretive differences (18.3%); AI inaccuracies were rare (1.51%), while humans were nearly three times more likely to state inaccuracies (4.37%). Findings suggest AI variability depends more on interpretability than hallucination. Repeating AI extraction can identify interpretive complexity or ambiguity, refining processes before human review. AI can be a transparent, trustworthy partner in knowledge synthesis, though caution is needed to preserve critical human insights.

Ссылки и действия