ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering
2508.07321v1
cs.CL, cs.AI, cs.LG, I.2.7
2025-08-13
Авторы:
Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh
Резюме на русском
## Контекст
Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования.
## Метод
Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы.
## Результаты
В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные.
## Значимость
Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям.
## Выводы
Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю
Abstract
The rapid proliferation of Large Language Models (LLMs) has significantly
contributed to the development of equitable AI systems capable of factual
question-answering (QA). However, no known study tests the LLMs' robustness
when presented with obfuscated versions of questions. To systematically
evaluate these limitations, we propose a novel technique, ObfusQAte and,
leveraging the same, introduce ObfusQA, a comprehensive, first of its kind,
framework with multi-tiered obfuscation levels designed to examine LLM
capabilities across three distinct dimensions: (i) Named-Entity Indirection,
(ii) Distractor Indirection, and (iii) Contextual Overload. By capturing these
fine-grained distinctions in language, ObfusQA provides a comprehensive
benchmark for evaluating LLM robustness and adaptability. Our study observes
that LLMs exhibit a tendency to fail or generate hallucinated responses when
confronted with these increasingly nuanced variations. To foster research in
this direction, we make ObfusQAte publicly available.