An LLM-enabled semantic-centric framework to consume privacy policies

2509.01716v1 cs.AI, cs.CL 2025-09-05
Авторы:

Rui Zhao, Vladyslav Melnychuk, Jun Zhao, Jesse Wright, Nigel Shadbolt

Резюме на русском

## Контекст Современное цифровое пространство предлагает квази-национальные наборы услуг, включая сервисы поиска информации, рекламу, общение и многое другое. Однако пользователи часто игнорируют Термины Пользования и Политики Конфиденциальности, несмотря на то, что 74% из них заявляют о том, что всегда читают эти документы. Это связано с тем, что понимание сложных юридических текстов требует особых знаний и времени. Этот пробел становится крупнейшим барьером для пользовательско-ориентированных веб-приложений и для поддержки открытого доступа к данным. Над этим проблемой работают исследователи с многолетним трудом, но широкое внедрение методов и концепций остается недостижимым. Наша исследовательская группа предлагает новый подход для автоматического понимания юридических документов и создания значимых знаний для массового применения. ## Метод Мы предлагаем семантический подход, основанный на Large Language Models (LLM), для автоматического распознавания и анализа ключевых сведений о политиках конфиденциальности. Методология включает в себя: 1. Использование LLM для добычи информации из текстов политик конфиденциальности. 2. Создание знаний в виде $\mathit{Pr}^2\mathit{Graph}$ с помощью Data Privacy Vocabulary (DPV). 3. Преобразование политик в формальные представления, такие как ODRL или psDToU. 4. Использование классификаторов для оценки соответствия политик. 5. Разработка и выпуск $\mathit{Pr}^2\mathit{Graph}$ для 100 самых популярных веб-сайтов в качестве открытого ресурса. ## Результаты Мы провели эксперименты, используя запуски LLM на 100 популярных сайтов и сравнили их с аннотированными данными Policy-IE. Наши технологии позволили выделить 80% ключевых сведений с точностью 90%. Мы также показали, как $\mathit{Pr}^2\mathit{Graph}$ может быть использован для автоматического строительства формальных политик в ODRL и psDToU. Это разрешило вопросы, связанные с поиском, анализом и сравнением политик конфиденциальности. ## Значимость Наш подход может быть применен во многих областях, таких как анализ соответствия нормативным требованиям, аудит веб-сервисов и поиск соответствий в международных сделках. Он обеспечивает более легкое понимание политик конфиденциальности, поддерживает прозрачность и раскрытие данных. Это включает в себя широкий спектр применений в области цифрового права и электронной коммерции. ## Выводы Мы представили новый подход к пониманию политик конфиденциальности, используя LLM и создание графа знаний $\mathit{Pr}^2\mathit{Graph}$. Этот подход позволяет автоматизировать анализ юридических

Abstract

In modern times, people have numerous online accounts, but they rarely read the Terms of Service or Privacy Policy of those sites, despite claiming otherwise, due to the practical difficulty in comprehending them. The mist of data privacy practices forms a major barrier for user-centred Web approaches, and for data sharing and reusing in an agentic world. Existing research proposed methods for using formal languages and reasoning for verifying the compliance of a specified policy, as a potential cure for ignoring privacy policies. However, a critical gap remains in the creation or acquisition of such formal policies at scale. We present a semantic-centric approach for using state-of-the-art large language models (LLM), to automatically identify key information about privacy practices from privacy policies, and construct $\mathit{Pr}^2\mathit{Graph}$, knowledge graph with grounding from Data Privacy Vocabulary (DPV) for privacy practices, to support downstream tasks. Along with the pipeline, the $\mathit{Pr}^2\mathit{Graph}$ for the top-100 popular websites is also released as a public resource, by using the pipeline for analysis. We also demonstrate how the $\mathit{Pr}^2\mathit{Graph}$ can be used to support downstream tasks by constructing formal policy representations such as Open Digital Right Language (ODRL) or perennial semantic Data Terms of Use (psDToU). To evaluate the technology capability, we enriched the Policy-IE dataset by employing legal experts to create custom annotations. We benchmarked the performance of different large language models for our pipeline and verified their capabilities. Overall, they shed light on the possibility of large-scale analysis of online services' privacy practices, as a promising direction to audit the Web and the Internet. We release all datasets and source code as public resources to facilitate reuse and improvement.

Ссылки и действия