📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Differentially Private E-Values
2025-10-23Авторы:
Daniel Csillag, Diego Mesquita
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
E-values have gained prominence as flexible tools for statistical inference
and risk control, enabling anytime- and post-hoc-valid procedures under minimal
assumptions. However, many real-world applications fundamentally rely on
sensitive data, which can be leaked through e-values. To ensure their safe
release, we propose a general framework to transform non-private e-values into
differentially private ones. Towards this end, we develop a novel biased
multiplicative noise mechanism that ensures ...
Авторы:
Zhihao Yao, Yuxuan Gu, Xiachong Feng, Weitao Ma, Bo Li, Xiaocheng Feng
## Контекст
Сохранение приватности в постепенно развивающемся мире искусственного интеллекта является ключевым аспектом, особенно при развитии сложных технологий, таких как БоLТ (Retrieval-Augmented Generation). Однако существуют серьезные проблемы, такие как риск утечки корпоративных данных при использовании данных с рабочего стола. Многие ранее предложенные методы, такие как очистка данных, часто приводят к существенной потере качества модели и неэффективности в реальных сценариях. Добавляется к этому недостаток в общедоступных данных для отладки и оценки этих систем. Таким образом, есть необходимость в развитии новых подходов, которые могут эффективно обеспечить приватность без нарушения качества модели.
## Метод
Метод предложенной системы, названной ABack (Adaptive Backtracking), основывается на использовании Hidden State Model (HSM) для определения и корректировки выходных данных модели. Он осуществляется без необходимости переобучения модели. Благодаря этому, модель может эффективно предотвратить утечки данных, оставаясь эффективной в своих основных функциях. Также был разработан новый датасет PriGenQA, охватывающий сценарии применения в сферах здравоохранения и финансов. Для того чтобы оценивать показатели модели в условиях атак, был предложен новый сильный адаптивный атакующий алгоритм с использованием Group Relative Policy Optimization, который моделирует более реалистичные угрозы.
## Результаты
Используя PriGenQA, проведены ряд экспериментов, сравнивая ABack с другими популярными подходами, такими как sanitization методы. Результаты показали, что ABack достигает до 15% более высокого показателя privacy utility (по отношению к риску утечки данных), сравниваясь с базовыми методами, при этом не приводя к снижению качества модели. Кроме того, система продемонстрировала способность эффективно обнаруживать и корректировать утечки данных в различных контекстах, не теряя в целостности выполнения задач.
## Значимость
ABack может быть применен в широком спектре областей, где требуется обеспечение приватности данных, таких как здравоохранение, финансы и другие секретные области. Он предлагает значительные преимущества по сравнению с базовыми методами, особенно в тех случаях, когда требуется обеспечение приватности без значительного ущерба качеству модели. Это может привести к новым возможностям в развитии безопасных и эффективных моделей, использующих Retrieval-Augmented Generation.
## Выводы
ABack представляет собой прорыв в области приватности для моделей БоLТ, обеспечивая эффективное решение проблемы утечки данных без потерь в эффективности. Он открывает новые возможности для развития безопасных и приватных моделей, а также может стать базой для дальнейши
Annotation:
The preservation of privacy has emerged as a critical topic in the era of
artificial intelligence. However, current work focuses on user-oriented
privacy, overlooking severe enterprise data leakage risks exacerbated by the
Retrieval-Augmented Generation paradigm. To address this gap, our paper
introduces a novel objective: enterprise-oriented privacy concerns. Achieving
this objective requires overcoming two fundamental challenges: existing methods
such as data sanitization severely degrade mode...