📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Randomized Masked Finetuning: An Efficient Way to Mitigate Memorization of PIIs in LLMs

2025-12-04

Авторы:

Kunj Joshi, David A. Smith

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The current literature on memorization in Natural Language Models, especially Large Language Models (LLMs), poses severe security and privacy risks, as models tend to memorize personally identifying information (PIIs) from training data. We introduce Randomized Masked Fine-Tuning (RMFT), a novel privacy-preserving fine-tuning technique that reduces PII memorization while minimizing performance impact. Using the Enron Email Dataset, we demonstrate that RMFT achieves an 80.81% reduction in Total E...

ID: 2512.03310v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 AdaptDel: Adaptable Deletion Rate Randomized Smoothing for Certified Robustness

2025-11-15

Авторы:

Zhuoqun Huang, Neil G. Marchant, Olga Ohrimenko, Benjamin I. P. Rubinstein

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We consider the problem of certified robustness for sequence classification against edit distance perturbations. Naturally occurring inputs of varying lengths (e.g., sentences in natural language processing tasks) present a challenge to current methods that employ fixed-rate deletion mechanisms and lead to suboptimal performance. To this end, we introduce AdaptDel methods with adaptable deletion rates that dynamically adjust based on input properties. We extend the theoretical framework of rando...

ID: 2511.09316v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis

2025-11-08

Авторы:

Ahmed Mostafa, Raisul Arefin Nahid, Samuel Mulder

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Tokenization is fundamental in assembly code analysis, impacting intrinsic characteristics like vocabulary size, semantic coverage, and extrinsic performance in downstream tasks. Despite its significance, tokenization in the context of assembly code remains an underexplored area. This study aims to address this gap by evaluating the intrinsic properties of Natural Language Processing (NLP) tokenization models and parameter choices, such as vocabulary size. We explore preprocessing customization ...

ID: 2511.03825v1 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 LLMs can hide text in other text of the same length

2025-10-27

Авторы:

Antonio Norelli, Michael Bronstein

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A meaningful text can be hidden inside another, completely different yet still coherent and plausible, text of the same length. For example, a tweet containing a harsh political critique could be embedded in a tweet that celebrates the same political leader, or an ordinary product review could conceal a secret manuscript. This uncanny state of affairs is now possible thanks to Large Language Models, and in this paper we present a simple and efficient protocol to achieve it. We show that even mod...

ID: 2510.20075v2 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 LLMs can hide text in other text of the same length.ipynb

2025-10-25

Авторы:

Antonio Norelli, Michael Bronstein

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.20075v1 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models

2025-10-01

Авторы:

Wenjie Fu, Huandong Wang, Junyao Gao, Guoan Wan, Tao Jiang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As Large Language Models (LLMs) achieve remarkable success across a wide range of applications, such as chatbots and code copilots, concerns surrounding the generation of harmful content have come increasingly into focus. Despite significant advances in aligning LLMs with safety and ethical standards, adversarial prompts can still be crafted to elicit undesirable responses. Existing mitigation strategies are predominantly based on post-hoc filtering, which introduces substantial latency or compu...

ID: 2509.24488v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs

2025-09-09

Авторы:

Brennen Hill, Surendra Parla, Venkata Abhijeeth Balabhadruni, Atharv Prajod Padmalayam, Sujay Chandra Shekara Sharma

## Контекст С возрастом технологий искусственного интеллекта появились новые виды угроз, которые могут использоваться для коварных атак на системы, основанные на Больших Лингвистических Моделях (LLMs). Эти модели, пользуясь их мощью и гибкостью, становятся добычей для злоумышленников, которые могут уклониться от защитных мер, превратив LLM в угрозу для пользователей. Такие атаки могут привести к утечке конфиденциальной информации, распространению ложной информации, а также повреждению доверия к системам. Защита таких моделей является ключевым вызовом для современных исследователей, который необходимо решить для стабильного развития интеллектуальных систем. ## Метод Для описания угроз и разработки защитных мер в работе используется программная модель, которая позволяет структурировать типы атак, а также анализировать результаты их попыток. Метод состоит в следующем: 1) описание различных типов атак, построенных на манипуляции свойств привлечения, 2) распределение этих типов в категории, 3) разработка мер защиты, которые могут снизить эффективность атак и обеспечить безопасность. Основной архитектуре способа является то, что она фокусируется на понимании и создании границ, ограничивающих возможные атаки. ## Результаты Работа включает в себя исследование различных типов атак на LLM, использующихся в разных сценариях. Для этого проводились эксперименты, в которых протестировались различные методы атак, в том числе информационно-привлекательные и масштабные атаки. Эксперименты были проведены на наборе данных, который включал различные типы текстов, в том числе новости, письма и социальные медиа материалы. В результате этих исследований был выявлен комплекс уязвимостей, которые могут быть использованы для атак. Также были определены меры защиты, которые способны снизить эффективность таких атак. ## Значимость Метод, разработанный в работе, может быть применен для защиты систем, использующих Большие Лингвистические Модели. Он может быть использован для повышения безопасности систем, которые работают с пользовательскими данными, включая информацию о финансовых операциях, личные данные, и другую конфиденциальную информацию. Помимо этого, метод может быть применен в сферах, где необходимо предотвратить распространение ложной информации, укрепить доверие пользователей к системам и уменьшить риски утечки информации. ## Выводы Работа позволяет выделить комплекс угроз, связанных с Большими Лингвистическими Моделями, и разработать защитные меры

Annotation:

The proliferation of Large Language Models (LLMs) has introduced critical security challenges, where adversarial actors can manipulate input prompts to cause significant harm and circumvent safety alignments. These prompt-based attacks exploit vulnerabilities in a model's design, training, and contextual understanding, leading to intellectual property theft, misinformation generation, and erosion of user trust. A systematic understanding of these attack vectors is the foundational step toward de...

ID: 2509.04615v1 cs.CL, cs.CR, cs.LG, 68T07, 68T50, I.2.7; I.2.6; K.6.5

arXiv PDF

📄 Training Language Model Agents to Find Vulnerabilities with CTF-Dojo

2025-08-28

Авторы:

Terry Yue Zhuo, Dingmin Wang, Hantian Ding, Varun Kumar, Zijian Wang

## Контекст Современные большие языковые модели (LLMs) продемонстрировали их великолепные возможности, особенно в сфере инженерии программного обеспечения, где они используют верифицированные обратные сигналы для обучения. Несмотря на это, высококачественные исполняемые среды для обучения таких моделей остаются редкостью. Это ограничивает возможности для развития мощных машинных обучаемых агентов. Одной из главных проблем является существующая систематическая сложность в создании и поддержании таких сред, что требует больших усилий и ресурсов. Мы предлагаем CTF-Dojo, первую уникальную платформу, созданную с целью обучения LLMs в исполняемых средах с поддержкой верифицированных обратных сигналов. Она включает 658 полностью функциональных задач в стиле Capture-The-Flag (CTF), контейнеризованных в Docker, с гарантированной повторяемостью. Эта платформа позволяет значительно упростить процесс развертывания интерактивных исполняемых сред в обучении LLMs, позволяя быстро и эффективно создавать новые среды. ## Метод CTF-Dojo базируется на архитектуре, которая сочетает в себе верифицированные задачи стиля CTF с инструментами автоматизации для создания исполняемых сред. Мы разработали CTF-Forge, автоматизированную систему, которая может принимать общедоступные данные и преобразовывать их в готовые к использованию среды за несколько минут. Это устраняет необходимость в ресурсоемкой и дорогостоящей конфигурации, которая, как правило, занимает несколько недель. Однако CTF-Dojo не только упрощает процесс, но и добавляет значительные возможности для выполнения сложных задач в стиле CTF. Это позволяет обучать модели не только с помощью традиционных методов, но и с использованием новых, более эффективных подходов. ## Результаты Мы провели исследования с использованием LLM-агентов, обученных на CTF-Dojo. Мы использовали 486 высококачественных, верифицированных структурных обучающих траекторий. Это привело к улучшению результатов на трех различных бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша модель 32B достигла доля 31.9% Pass@1, что является новым самым высоким результатом в открытом весовом классе. Этот результат находится на уровне с такими моделями, как DeepSeek-V3-0324 и Gemini-2.5-Flash. Эти результаты показывают, что интеллектуальные системы, обучаемые через исполняемые среды, могут достигать высоких результатов без необходимости использования дорогостоящих и закрытых систем. ## Значимость CTF-Dojo открывает новые возможности для обучения моделей с помощью исполняемых сред без необходимости использования дорогостоящих и

Annotation:

Large language models (LLMs) have demonstrated exceptional capabilities when trained within executable runtime environments, notably excelling at software engineering tasks through verified feedback loops. Yet, scalable and generalizable execution-grounded environments remain scarce, limiting progress in training more capable ML agents. We introduce CTF-Dojo, the first large-scale executable runtime tailored for training LLMs with verifiable feedback, featuring 658 fully functional Capture-The-F...

ID: 2508.18370v1 cs.SE, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 GRAID: Synthetic Data Generation with Geometric Constraints and Multi-Agentic Reflection for Harmful Content Detection

2025-08-27

Авторы:

Melissa Kazemi Rad, Alberto Purpura, Himanshu Kumar, Emily Chen, Mohammad Shahed Sorower

## Контекст В условиях внедрения интеллектуальных систем в широкие области применения, такие как социальные сети, мобильные приложения и машинное обучение, возрастает необходимость эффективных методов для обнаружения и отбора вредоносного контента. Несмотря на развитие методов машинного обучения, одной из основных проблем становится существенное недостатко данных для обучения моделей, особенно в сферах, где контент может быть не только вредоносным, но и защищенным законом. Это создает риск для моделей, которые могут оказаться неподготовленными к обнаружению высокоспецифичных видов вредоносного контента. Чтобы устранить это недостатки, необходимо развить методы синтетического пополнения данных, которые могут обеспечить широкое представление потенциального диапазона ситуаций. ## Метод GRAID (Geometric and Reflective AI-Driven Data Augmentation) — это новый подход к синтетическому пополнению данных, основанный на применении больших языковых моделей (LLMs). Он состоит из двух этапов. На первом этапе используется LLM с ограничениями, чтобы синтезировать новые примеры данных с учетом геометрических ограничений, таких как синтаксическая и семантическая корректность. На втором этапе используется многоагентный процесс отражения, который позволяет улучшить стилистическую разнообразие и откроет возможность для охвата крайних случаев. Эта стратегия обеспечивает охват входного пространства данных с одной стороны и позволяет углубиться в детали вредоносных ситуаций с другой. ## Результаты На двух наборах бенчмарк-данных, развернутых для обучения модели защиты от вредоносного контента, GRAID показал существенное улучшение в работе модели. Эксперименты показали, что добавление синтетических примеров, сгенерированных GRAID, позволяет увеличить точность и общую производительность модели. В частности, улучшение было наиболее заметно в случаях, когда модель должна была распознавать нестандартные виды вредоносного контента, для которых существует недостаток примеров в обучающей выборке. ## Значимость Помимо обнаружения вредоносного контента, GRAID может применяться в различных областях, таких как синтез данных для медицины, финансов и юридических систем. Основное преимущество этого подхода заключается в том, что он обеспечивает более широкое и детальное представление граничных случаев, что позволяет моделям быть более устойчивыми к немногочисленным, но важным для применения ситуациям. ## Выводы Выводы определили, что GRAID — это эффективный метод синтетического пополнения данных для обнаружения вредоносного контента. В будущем, GRAID может быть расширен для поддержки других сценариев, таких как синтез данных для защиты от мошенничества или определения пот

Annotation:

We address the problem of data scarcity in harmful text classification for guardrailing applications and introduce GRAID (Geometric and Reflective AI-Driven Data Augmentation), a novel pipeline that leverages Large Language Models (LLMs) for dataset augmentation. GRAID consists of two stages: (i) generation of geometrically controlled examples using a constrained LLM, and (ii) augmentation through a multi-agentic reflective process that promotes stylistic diversity and uncovers edge cases. This ...

ID: 2508.17057v1 cs.CL, cs.CR, cs.LG

arXiv PDF