📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 How Different Tokenization Algorithms Impact LLMs and Transformer Models for Binary Code Analysis
2025-11-08Авторы:
Ahmed Mostafa, Raisul Arefin Nahid, Samuel Mulder
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Tokenization is fundamental in assembly code analysis, impacting intrinsic
characteristics like vocabulary size, semantic coverage, and extrinsic
performance in downstream tasks. Despite its significance, tokenization in the
context of assembly code remains an underexplored area. This study aims to
address this gap by evaluating the intrinsic properties of Natural Language
Processing (NLP) tokenization models and parameter choices, such as vocabulary
size. We explore preprocessing customization ...
Авторы:
Antonio Norelli, Michael Bronstein
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
A meaningful text can be hidden inside another, completely different yet
still coherent and plausible, text of the same length. For example, a tweet
containing a harsh political critique could be embedded in a tweet that
celebrates the same political leader, or an ordinary product review could
conceal a secret manuscript. This uncanny state of affairs is now possible
thanks to Large Language Models, and in this paper we present a simple and
efficient protocol to achieve it. We show that even mod...
Авторы:
Antonio Norelli, Michael Bronstein
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
A meaningful text can be hidden inside another, completely different yet
still coherent and plausible, text of the same length. For example, a tweet
containing a harsh political critique could be embedded in a tweet that
celebrates the same political leader, or an ordinary product review could
conceal a secret manuscript. This uncanny state of affairs is now possible
thanks to Large Language Models, and in this paper we present a simple and
efficient protocol to achieve it. We show that even mod...
Авторы:
Jiajie He, Yuechun Gu, Min-Chun Chen, Keke Chen
## Контекст
Large language models (LLMs), внедренные в рекомендательные системы (RecSys), предлагают гибкий и эффективный подход к адаптации рекомендаций к различным доменам. Одним из ключевых инструментов является включение в контекстные запросы (in-context learning, ICL), позволяющий настраивать рекомендательные функции на основе пользовательских данных. Эти данные могут включать в себя такие конфиденциальные элементы, как история взаимодействия пользователя с элементами (например, клики или рецензии). Несмотря на важность этих данных, существующие исследования не рассматривали потенциальную угрозу, связанную с использованием таких данных в контекстном обучении. Кроме того, существуют угрозы, связанные с вытекающими из этих данных сведениями о личности пользователей. Этот аспект требует дополнительных исследований.
## Метод
Наше исследование состоит в разработке и оценке различных типов методов атак на конфиденциальность в LLM-based RecSys. Мы определили 4 типа атак: **прямая запросная атака (direct inquiry attack)**, **атака на основе вымышленности (hallucination attack)**, **атака на основе сходства (similarity attack)** и **атака с использованием вирусообразного вмешательства (poisoning attack)**. Каждый тип атаки использует уникальные особенности LLM и RecSys, чтобы выявить информацию о включении конкретных пользователей в системные модели. Мы также разработали экспериментальный план, включающий оценку на нескольких моделях LLM и двух бенчмарк-датасетах RecSys. Это позволило нам протестировать эффективность каждого типа атаки в реальной среде.
## Результаты
Наши эксперименты показали, что угроза со стороны MIA в LLM-based RecSys очень реальна. Типы атак, такие как **direct inquiry** и **poisoning attack**, демонстрируют высокую эффективность. Мы также выявили, что факторы, такие как количество системных примеров (shots) в контекстном запросе и позиция жертвы в этих примерах, могут значительно повлиять на результаты атак. Эти результаты подтверждают, что злоумышленники могут предсказать, включен ли конкретный пользователь в систему, лишь используя частичные данные.
## Значимость
Полученные результаты имеют большое значение для развития безопасных LLM-based RecSys. Мы продемонстрировали техническую возможность MIA в этой области и показали, каким образом эти угрозы могут быть эффективно использованы в практических ситуациях. Это открывает возможности для развития новых методов защиты, таких как шифрование данных и анонимность взаимодействия. Будущие исследования будут сфокусированы на создании эффективных методов защиты и обнаружения таких атак, а также на изучении эффективности различных стратегий атак в раз
Annotation:
Large language models (LLMs) based Recommender Systems (RecSys) can flexibly
adapt recommendation systems to different domains. It utilizes in-context
learning (ICL), i.e., the prompts, to customize the recommendation functions,
which include sensitive historical user-specific item interactions, e.g.,
implicit feedback like clicked items or explicit product reviews. Such private
information may be exposed to novel privacy attack. However, no study has been
done on this important issue. We design...