📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Scaling Patterns in Adversarial Alignment: Evidence from Multi-LLM Jailbreak Experiments

2025-11-19

Авторы:

Samuel Nathanson, Rebecca Williams, Cynthia Matuszek

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) increasingly operate in multi-agent and safety-critical settings, raising open questions about how their vulnerabilities scale when models interact adversarially. This study examines whether larger models can systematically jailbreak smaller ones - eliciting harmful or restricted behavior despite alignment safeguards. Using standardized adversarial tasks from JailbreakBench, we simulate over 6,000 multi-turn attacker-target exchanges across major LLM families and sca...

ID: 2511.13788v1 cs.LG, cs.AI, cs.CL, cs.CR, cs.MA

arXiv PDF

📄 Power to the Clients: Federated Learning in a Dictatorship Setting

2025-10-29

Авторы:

Mohammadsajad Alipour, Mohammad Mohammadi Amiri

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Federated learning (FL) has emerged as a promising paradigm for decentralized model training, enabling multiple clients to collaboratively learn a shared model without exchanging their local data. However, the decentralized nature of FL also introduces vulnerabilities, as malicious clients can compromise or manipulate the training process. In this work, we introduce dictator clients, a novel, well-defined, and analytically tractable class of malicious participants capable of entirely erasing the...

ID: 2510.22149v1 cs.LG, cs.AI, cs.CL, cs.CR, cs.CV, cs.DC

arXiv PDF

📄 Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers

2025-10-18

Авторы:

Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) systems now underpin everyday AI applications such as chatbots, computer-use assistants, and autonomous robots, where performance often depends on carefully designed prompts. LLM-based prompt optimizers reduce that effort by iteratively refining prompts from scored feedback, yet the security of this optimization stage remains underexamined. We present the first systematic analysis of poisoning risks in LLM-based prompt optimization. Using HarmBench, we find systems are...

ID: 2510.14381v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

2025-10-11

Авторы:

Weisen Jiang, Sinno Jialin Pan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces MetaDefense, a novel framework for defending against finetuning-based jailbreak attacks in large language models (LLMs). We observe that existing defense mechanisms fail to generalize to harmful queries disguised by unseen attack templates, despite LLMs being capable of distinguishing disguised harmful queries in the embedding space. Based on these insights, we propose a two-stage defense approach: (i) pre-generation defense that detects harmful queries before response gene...

ID: 2510.07835v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings

2025-10-01

Авторы:

Zhixin Zhang, Zeming Wei, Meng Sun

#### Контекст Catastrophic forgetting является ключевой проблемой в области последовательного обучения для больших языковых моделей (LLM). Эта проблема возникает при последовательном обучении модели на новых задачах, когда она постепенно забывает всё, что узнала ранее. Это особенно актуально при обучении без доступа к исходным данным, что становится типичным сценарием для применения LLMs в реальных ситуациях. Отсутствие эффективных методов для решения этой проблемы ставит под угрозу широкое применение LLMs в сценариях, где необходима стабильная память и результаты обучения. Многие существующие регуляризационные подходы стремятся сдерживать этот эффект, но часто оказываются недостаточно эффективными для долгосрочного обучения. #### Метод Мы предлагаем метод **Dynamic Orthogonal Continual (DOC)** fine-tuning, который адрессирует проблему непостоянства функциональных направлений во время обучения. Метод DOC отслеживает эти направления и динамически обновляет их во время обучения. Для того, чтобы уменьшить взаимодействие между новыми и старыми задачами, мы адаптируем градиенты новых задач так, чтобы они были ортогональны к уже отслеженным направлениям. Это позволяет минимизировать интерференцию и сохранить память о прошлых задачах. Метод DOC сочетает эффективность и простоту, используя ортогональность в качестве ключевого механизма для решения проблемы catastrophic forgetting. #### Результаты Мы проверили наш метод на нескольких LLM continual learning benchmark-результатах, включая широкий диапазон задач и наборов данных. Мы сравнили DOC с другими подходами, включая стандартные регуляризационные методы. Результаты показали, что DOC не только существенно снижает уровень catastrophic forgetting, но и показывает более высокую точность и гладкость результатов. Особенно заметны преимущества в ситуациях, когда данных для исходных задач недоступно. Это демонстрирует то, что DOC может обеспечить стабильность и эффективность в процессе последовательного обучения. #### Значимость Метод DOC может быть применен в различных областях применения LLMs, где необходимы стабильные результаты и модели должны постоянно обучаться на новых данных. Например, он может применяться в области NLP-сервисов, где нужно постоянно обновлять модели на базе новых данных, но при этом сохранять знания о предыдущих задачах. Также, он может быть применен в обучении моделей для большого количества данных, когда размер данных не позволяет хранить всю историю. Данный подход значительно увеличивает гибкость и эффективность последовательного обучения, обеспечивая более устойчивые и постоянные модели. #### Выводы DOC является эффективным подходом для уменьшения catastrophic forgetting в случае последовательного обучения LLMs. Он продемонстриро

Annotation:

Catastrophic forgetting remains a critical challenge in continual learning for large language models (LLMs), where models struggle to retain performance on historical tasks when fine-tuning on new sequential data without access to past datasets. In this paper, we first reveal that the drift of functional directions during the fine-tuning process is a key reason why existing regularization-based methods fail in long-term LLM continual learning. To address this, we propose Dynamic Orthogonal Conti...

ID: 2509.23893v1 cs.LG, cs.AI, cs.CL, cs.CR, math.OC

arXiv PDF

📄 ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

2025-09-11

Авторы:

Jeff Shen, Lindsay Smith

## Контекст В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости. ## Метод Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам. ## Результаты В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов. ## Значимость Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла

Annotation:

We present cryptogram solving as an ideal testbed for studying neural network generalization in combinatorially complex domains. In this task, models must decrypt text encoded with substitution ciphers, choosing from 26! possible mappings without explicit access to the cipher. We develop ALICE (an Architecture for Learning Interpretable Cryptogram dEcipherment): a simple encoder-only Transformer that sets a new state-of-the-art for both accuracy and speed on this decryption problem. Surprisingly...

ID: 2509.07282v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF