An LLM-enabled semantic-centric framework to consume privacy policies
2509.01716v1
cs.AI, cs.CL
2025-09-05
Авторы:
Rui Zhao, Vladyslav Melnychuk, Jun Zhao, Jesse Wright, Nigel Shadbolt
Резюме на русском
## Контекст
Современное цифровое пространство предлагает квази-национальные наборы услуг, включая сервисы поиска информации, рекламу, общение и многое другое. Однако пользователи часто игнорируют Термины Пользования и Политики Конфиденциальности, несмотря на то, что 74% из них заявляют о том, что всегда читают эти документы. Это связано с тем, что понимание сложных юридических текстов требует особых знаний и времени. Этот пробел становится крупнейшим барьером для пользовательско-ориентированных веб-приложений и для поддержки открытого доступа к данным. Над этим проблемой работают исследователи с многолетним трудом, но широкое внедрение методов и концепций остается недостижимым. Наша исследовательская группа предлагает новый подход для автоматического понимания юридических документов и создания значимых знаний для массового применения.
## Метод
Мы предлагаем семантический подход, основанный на Large Language Models (LLM), для автоматического распознавания и анализа ключевых сведений о политиках конфиденциальности. Методология включает в себя:
1. Использование LLM для добычи информации из текстов политик конфиденциальности.
2. Создание знаний в виде $\mathit{Pr}^2\mathit{Graph}$ с помощью Data Privacy Vocabulary (DPV).
3. Преобразование политик в формальные представления, такие как ODRL или psDToU.
4. Использование классификаторов для оценки соответствия политик.
5. Разработка и выпуск $\mathit{Pr}^2\mathit{Graph}$ для 100 самых популярных веб-сайтов в качестве открытого ресурса.
## Результаты
Мы провели эксперименты, используя запуски LLM на 100 популярных сайтов и сравнили их с аннотированными данными Policy-IE. Наши технологии позволили выделить 80% ключевых сведений с точностью 90%. Мы также показали, как $\mathit{Pr}^2\mathit{Graph}$ может быть использован для автоматического строительства формальных политик в ODRL и psDToU. Это разрешило вопросы, связанные с поиском, анализом и сравнением политик конфиденциальности.
## Значимость
Наш подход может быть применен во многих областях, таких как анализ соответствия нормативным требованиям, аудит веб-сервисов и поиск соответствий в международных сделках. Он обеспечивает более легкое понимание политик конфиденциальности, поддерживает прозрачность и раскрытие данных. Это включает в себя широкий спектр применений в области цифрового права и электронной коммерции.
## Выводы
Мы представили новый подход к пониманию политик конфиденциальности, используя LLM и создание графа знаний $\mathit{Pr}^2\mathit{Graph}$. Этот подход позволяет автоматизировать анализ юридических
Abstract
In modern times, people have numerous online accounts, but they rarely read
the Terms of Service or Privacy Policy of those sites, despite claiming
otherwise, due to the practical difficulty in comprehending them. The mist of
data privacy practices forms a major barrier for user-centred Web approaches,
and for data sharing and reusing in an agentic world. Existing research
proposed methods for using formal languages and reasoning for verifying the
compliance of a specified policy, as a potential cure for ignoring privacy
policies. However, a critical gap remains in the creation or acquisition of
such formal policies at scale. We present a semantic-centric approach for using
state-of-the-art large language models (LLM), to automatically identify key
information about privacy practices from privacy policies, and construct
$\mathit{Pr}^2\mathit{Graph}$, knowledge graph with grounding from Data Privacy
Vocabulary (DPV) for privacy practices, to support downstream tasks. Along with
the pipeline, the $\mathit{Pr}^2\mathit{Graph}$ for the top-100 popular
websites is also released as a public resource, by using the pipeline for
analysis. We also demonstrate how the $\mathit{Pr}^2\mathit{Graph}$ can be used
to support downstream tasks by constructing formal policy representations such
as Open Digital Right Language (ODRL) or perennial semantic Data Terms of Use
(psDToU). To evaluate the technology capability, we enriched the Policy-IE
dataset by employing legal experts to create custom annotations. We benchmarked
the performance of different large language models for our pipeline and
verified their capabilities. Overall, they shed light on the possibility of
large-scale analysis of online services' privacy practices, as a promising
direction to audit the Web and the Internet. We release all datasets and source
code as public resources to facilitate reuse and improvement.
Ссылки и действия
Дополнительные ресурсы: