📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Optimal Detection for Language Watermarks with Pseudorandom Collision

2025-10-29

Авторы:

T. Tony Cai, Xiang Li, Qi Long, Weijie J. Su, Garrett G. Wen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Text watermarking plays a crucial role in ensuring the traceability and accountability of large language model (LLM) outputs and mitigating misuse. While promising, most existing methods assume perfect pseudorandomness. In practice, repetition in generated text induces collisions that create structured dependence, compromising Type I error control and invalidating standard analyses. We introduce a statistical framework that captures this structure through a hierarchical two-layer partition. At...

ID: 2510.22007v1 cs.LG, cs.CL, cs.CR, math.ST, stat.ML, stat.TH

arXiv PDF

📄 Machine Unlearning Meets Adversarial Robustness via Constrained Interventions on LLMs

2025-10-08

Авторы:

Fatmazohra Rezkellah, Ramzi Dakhmouche

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

With the increasing adoption of Large Language Models (LLMs), more customization is needed to ensure privacy-preserving and safe generation. We address this objective from two critical aspects: unlearning of sensitive information and robustness to jail-breaking attacks. We investigate various constrained optimization formulations that address both aspects in a \emph{unified manner}, by finding the smallest possible interventions on LLM weights that either make a given vocabulary set unreachable ...

ID: 2510.03567v1 cs.LG, cs.CL, cs.CR, cs.CY, math.OC

arXiv PDF

📄 From Theory to Practice: Evaluating Data Poisoning Attacks and Defenses in In-Context Learning on Social Media Health Discourse

2025-10-08

Авторы:

Rabeya Amin Jhuma, Mostafa Mohaimen Akand Faisal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This study explored how in-context learning (ICL) in large language models can be disrupted by data poisoning attacks in the setting of public health sentiment analysis. Using tweets of Human Metapneumovirus (HMPV), small adversarial perturbations such as synonym replacement, negation insertion, and randomized perturbation were introduced into the support examples. Even these minor manipulations caused major disruptions, with sentiment labels flipping in up to 67% of cases. To address this, a Sp...

ID: 2510.03636v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Eyes-on-Me: Scalable RAG Poisoning through Transferable Attention-Steering Attractors

2025-10-04

Авторы:

Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing data poisoning attacks on retrieval-augmented generation (RAG) systems scale poorly because they require costly optimization of poisoned documents for each target phrase. We introduce Eyes-on-Me, a modular attack that decomposes an adversarial document into reusable Attention Attractors and Focus Regions. Attractors are optimized to direct attention to the Focus Region. Attackers can then insert semantic baits for the retriever or malicious instructions for the generator, adapting to ne...

ID: 2510.00586v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

2025-09-27

Авторы:

Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan

## Контекст Федеративное обучение (FL) является привлекательным подходом для обучения локальными данными больших языковых моделей (LLM), которые широко используются в сферах, требующих высокой конфиденциальности, таких как медицина и финансы. Организации часто не желают делиться своими данными, что делает централизованное обучение невозможным. Вместо этого FL позволяет клиентам совместно обучать модели, не раскрывая свои данные, используя только параметры модели для обучения. Хотя FL обеспечивает приватность, направленную на защиту локальных данных, оно не является иммунным к атакам. Целевой объект исследования заключается в оценке рисков для приватности при использовании FL для обучения LLM и разработке эффективных методов защиты. ## Метод Использовались стандартные метрики для оценки риска вытекающих данных (дата-ликиджинг), включая вероятность выдачи следующего токена и методы генерации текста. Набор экспериментов включал сравнение разных моделей FL, включая те, которые использовали безопасные методы обучения, такие как регуляризация и способы вывода неожиданности. Были изучены различные модели и наборы данных, включая наборы данных, предназначенные для секретного использования в бизнес-приложениях. Основным подходом была оценка степени утечки данных при использовании FL в защищенных сценариях обучения. ## Результаты Эксперименты показали, что атаки на FL могут успешно извлечь данные из глобального модели, даже без особых техник. Утечка данных увеличивается в зависимости от размера модели и числа клиентов в сети FL. Особенно эффективными оказались атаки, основанные на простой модели генерации текста, которая может декодировать входные данные из обучающей выборки. Добавление безопасных методов, таких как различная частота вывода и регуляризация, снижают утечку, но не полностью устраняют ее. Кроме того, применение безопасных моделей с адаптивным выводом существенно снижает риск, но не гарантирует полной защиты. ## Значимость Результаты имеют практическое значение для разработчиков, которые используют FL для обучения LLM. Они подчеркивают необходимость в разработке безопасных технологий для защиты конфиденциальных данных в процессе обучения. Выявленные утечки могут иметь серьезные последствия в сферах, где конфиденциальность критическа, таких как здравоохранение и финансы. Эта работа демонстрирует, что FL не является идеальным средством для защиты приватности в обучении LLM и подчеркивает важность продолжительных исследований в этой области. ## Выводы Несмотря на привлекательность FL для обучения LLM с локальными данными, оно не гарантирует за

Annotation:

Fine-tuning large language models (LLMs) with local data is a widely adopted approach for organizations seeking to adapt LLMs to their specific domains. Given the shared characteristics in data across different organizations, the idea of collaboratively fine-tuning an LLM using data from multiple sources presents an appealing opportunity. However, organizations are often reluctant to share local data, making centralized fine-tuning impractical. Federated learning (FL), a privacy-preserving frame...

ID: 2509.20680v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Privacy-Aware In-Context Learning for Large Language Models

2025-09-19

Авторы:

Bishnu Bhusal, Manoj Acharya, Ramneet Kaur, Colin Samplawski, Anirban Roy, Adam D. Cobb, Rohit Chadha, Susmit Jha

Резюме научной статьи ====================== ## Контекст Large language models (LLMs) являются мощными инструментами для обработки и генерации естественных языков, но при этом имеют серьезные проблемы в области личной информации. В современном мире, где секретность и защита данных являются критичными, выявлено, что эти модели могут разглашать конфиденциальную информацию, внедренную в свои выводы. Эта проблема, известная как "информационный вытекающий", возникает из-за того, что модели могут угадывать или даже извлекать конфиденциальные данные из входных запросов пользователей. Несмотря на то, что существуют методы, направленные на уменьшение этой проблемы, они часто требуют сложного тренировочного процесса или теряют качество в генерируемом тексте. Наша мотивация заключается в создании алгоритма, который обеспечит высокое качество вывода, сохранив при этом гарантии приватности. Это важно не только для пользователей, но и для организаций, которые используют LLMs в своих приложениях. ## Метод Мы предлагаем новую модель, основанную на фреймворке Differential Privacy (DP). Этот подход предполагает, что модель не использует никакие дополнительные данные для тренировки, чтобы избежать риска информационного вытекающего. Мы используем метод прогнозирования, в котором LLM выполняет запрос к одной записи за раз, а результаты объединяются в последовательность. Эта последовательность потом обрабатывается, чтобы обеспечить сглаживание и улучшение текста. Кроме того, мы вводим простую операцию смешивания, которая сочетает приватные и публичные выводы модели. Эта операция позволяет улучшить качество генерируемого текста, не уменьшая при этом приватности. Мы также используем эффективный метод для управления вероятностью вытекающего, чтобы гарантировать, что даже при максимальном риске, информация останется скрыта. ## Результаты Мы проверили нашу модель на различных примерах в контексте in-context learning (ICL), используя различные данные, включая корпусы, часто используемые в тестировании LLMs. Наши результаты показывают, что модель превосходит существующие методы как по качеству текста, так и по уровню защиты приватности. Например, наша модель показала значительный выигрыш в точности генерирования текста при одновременном сохранении гарантий приватности. Благодаря нашему подходу, мы можем генерировать длинные и когерентные тексты, не рискуя вытеканием конфиденциальной информации. Это имеет критическое значение для приложений, где гарантия конфиденциальности является критической, например, в области здравоохранения или финансов. ## Значимость Наш подход

Annotation:

Large language models (LLMs) have significantly transformed natural language understanding and generation, but they raise privacy concerns due to potential exposure of sensitive information. Studies have highlighted the risk of information leakage, where adversaries can extract sensitive information embedded in the prompts. In this work, we introduce a novel private prediction framework for generating high-quality synthetic text with strong privacy guarantees. Our approach leverages the Differen...

ID: 2509.13625v1 cs.LG, cs.CL, cs.CR

arXiv PDF