📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis

2025-11-08

Авторы:

Ahmed Mostafa, Raisul Arefin Nahid, Samuel Mulder

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Tokenization is fundamental in assembly code analysis, impacting intrinsic characteristics like vocabulary size, semantic coverage, and extrinsic performance in downstream tasks. Despite its significance, tokenization in the context of assembly code remains an underexplored area. This study aims to address this gap by evaluating the intrinsic properties of Natural Language Processing (NLP) tokenization models and parameter choices, such as vocabulary size. We explore preprocessing customization ...

ID: 2511.03825v1 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 LLMs can hide text in other text of the same length

2025-10-27

Авторы:

Antonio Norelli, Michael Bronstein

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A meaningful text can be hidden inside another, completely different yet still coherent and plausible, text of the same length. For example, a tweet containing a harsh political critique could be embedded in a tweet that celebrates the same political leader, or an ordinary product review could conceal a secret manuscript. This uncanny state of affairs is now possible thanks to Large Language Models, and in this paper we present a simple and efficient protocol to achieve it. We show that even mod...

ID: 2510.20075v2 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 LLMs can hide text in other text of the same length.ipynb

2025-10-25

Авторы:

Antonio Norelli, Michael Bronstein

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.20075v1 cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF

📄 Membership Inference Attacks on LLM-based Recommender Systems

2025-08-28

Авторы:

Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen

## Контекст Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований. ## Метод Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде. ## Результаты Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные. ## Значимость Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз

Annotation:

Large language models (LLMs) based Recommender Systems (RecSys) can flexibly adapt recommendation systems to different domains. It utilizes in-context learning (ICL), i.e., the prompts, to customize the recommendation functions, which include sensitive historical user-specific item interactions, e.g., implicit feedback like clicked items or explicit product reviews. Such private information may be exposed to novel privacy attack. However, no study has been done on this important issue. We design...

ID: 2508.18665v1 cs.IR, cs.AI, cs.CL, cs.CR, cs.LG

arXiv PDF