📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 From Theory to Practice: Evaluating Data Poisoning Attacks and Defenses in In-Context Learning on Social Media Health Discourse

2025-10-08

Авторы:

Rabeya Amin Jhuma, Mostafa Mohaimen Akand Faisal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This study explored how in-context learning (ICL) in large language models can be disrupted by data poisoning attacks in the setting of public health sentiment analysis. Using tweets of Human Metapneumovirus (HMPV), small adversarial perturbations such as synonym replacement, negation insertion, and randomized perturbation were introduced into the support examples. Even these minor manipulations caused major disruptions, with sentiment labels flipping in up to 67% of cases. To address this, a Sp...

ID: 2510.03636v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Backdoor Attacks Against Speech Language Models

2025-10-04

Авторы:

Alexandrine Fortier, Thomas Thebaud, Jesús Villalba, Najim Dehak, Patrick Cardinal

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) and their multimodal extensions are becoming increasingly popular. One common approach to enable multimodality is to cascade domain-specific encoders with an LLM, making the resulting model inherit vulnerabilities from all of its components. In this work, we present the first systematic study of audio backdoor attacks against speech language models. We demonstrate its effectiveness across four speech encoders and three datasets, covering four tasks: automatic speech ...

ID: 2510.01157v1 cs.CL, cs.CR, cs.SD

arXiv PDF

📄 Eyes-on-Me: Scalable RAG Poisoning through Transferable Attention-Steering Attractors

2025-10-04

Авторы:

Yen-Shan Chen, Sian-Yao Huang, Cheng-Lin Yang, Yun-Nung Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Existing data poisoning attacks on retrieval-augmented generation (RAG) systems scale poorly because they require costly optimization of poisoned documents for each target phrase. We introduce Eyes-on-Me, a modular attack that decomposes an adversarial document into reusable Attention Attractors and Focus Regions. Attractors are optimized to direct attention to the Focus Region. Attackers can then insert semantic baits for the retriever or malicious instructions for the generator, adapting to ne...

ID: 2510.00586v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

2025-10-04

Авторы:

Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmar...

ID: 2510.01670v1 cs.AI, cs.CL, cs.CR, cs.CY, cs.LG

arXiv PDF

📄 SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents

2025-10-02

Авторы:

Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Search agents connect LLMs to the Internet, enabling access to broader and more up-to-date information. However, unreliable search results may also pose safety threats to end users, establishing a new threat surface. In this work, we conduct two in-the-wild experiments to demonstrate both the prevalence of low-quality search results and their potential to misguide agent behaviors. To counter this threat, we introduce an automated red-teaming framework that is systematic, scalable, and cost-effic...

ID: 2509.23694v2 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Sanitize Your Responses: Mitigating Privacy Leakage in Large Language Models

2025-10-01

Авторы:

Wenjie Fu, Huandong Wang, Junyao Gao, Guoan Wan, Tao Jiang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As Large Language Models (LLMs) achieve remarkable success across a wide range of applications, such as chatbots and code copilots, concerns surrounding the generation of harmful content have come increasingly into focus. Despite significant advances in aligning LLMs with safety and ethical standards, adversarial prompts can still be crafted to elicit undesirable responses. Existing mitigation strategies are predominantly based on post-hoc filtering, which introduces substantial latency or compu...

ID: 2509.24488v1 cs.CL, cs.CR, cs.LG

arXiv PDF

📄 SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents

2025-10-01

Авторы:

Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu

## Контекст В последние годы искусственный интеллект (ИИ), изобретенный для улучшения жизни человека, приобрел новый уровень своего развития в виде люминных генеративных моделей. Интеллектуальные агенты с подключением к Интернету, основанные на технологии трансформации языка (LLM), широко используются в различных сферах, таких как поисковые системы и системы рекомендаций. Однако данное использование ИИ не без проблем. Например, недостаточное качество поисковых результатов может привести к неправильному восприятию информации, сказывающемуся на поведении пользователя. В этом решении мы рассматриваем новый подход для идентификации и устранения угроз для безопасности LLM-подобных поисковых агентов. ## Метод Методология, используемая в данном решении, включает в себя два основных элемента. Во-первых, мы разрабатываем автоматизированный ред-тиминг-автоматизированный тестирований информационных систем. Это позволяет проводить систематические, масштабируемые и стоимостно-эффективные оценки безопасности. Во-вторых, мы предлагаем концепцию бенчмарка SafeSearch, который состоит из 300 тестовых случаев, разделенных на 5 категорий рисков, включая ложную информацию и негативные последствия изменения структуры запроса с помощью индиректного вызова. ## Результаты Мы проводим эксперименты в "реальных условиях" для оценки безопасности LLM-подобных поисковых агентов. Наши результаты показывают, что многие существующие поисковые системы остаются ненадежными с целью исследования идеального поиска. Мы показываем, что риски, связанные с недостаточностью качества результатов поиска, могут привести к нежелательным последствиям для пользователей. Благодаря нашей модели, мы устанавливаем, что самая высокая производительность LLM-подобных поисковых агентов составляет 90,5% для GPT-4.1-mini, что демонстрирует важность этой проблемы. ## Значимость Выполняя роль автоматизированного тестирования безопасности, данный подход может быть применен в разных областях, включая ИИ-системы для поиска, рекомендации и обработки текста. Наша модель помогает обеспечить безопасность и надежность пользовательских интеллектуальных систем. Мы открываем новый уровень прозрачности в разработке поисковых агентов, что позволяет улучшить их качество и обеспечить лучший опыт использования пользователями. ## Выводы В итоге, мы разрабатываем масштабируемый и эффективный подход к тестированию безопасности LLM-подобных поисковых агентов. Мы устанавливаем значительные уязвимости в существующих системах и показываем, что наша

Annotation:

ID: 2509.23694v1 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings

2025-10-01

Авторы:

Zhixin Zhang, Zeming Wei, Meng Sun

#### Контекст Catastrophic forgetting является ключевой проблемой в области последовательного обучения для больших языковых моделей (LLM). Эта проблема возникает при последовательном обучении модели на новых задачах, когда она постепенно забывает всё, что узнала ранее. Это особенно актуально при обучении без доступа к исходным данным, что становится типичным сценарием для применения LLMs в реальных ситуациях. Отсутствие эффективных методов для решения этой проблемы ставит под угрозу широкое применение LLMs в сценариях, где необходима стабильная память и результаты обучения. Многие существующие регуляризационные подходы стремятся сдерживать этот эффект, но часто оказываются недостаточно эффективными для долгосрочного обучения. #### Метод Мы предлагаем метод **Dynamic Orthogonal Continual (DOC)** fine-tuning, который адрессирует проблему непостоянства функциональных направлений во время обучения. Метод DOC отслеживает эти направления и динамически обновляет их во время обучения. Для того, чтобы уменьшить взаимодействие между новыми и старыми задачами, мы адаптируем градиенты новых задач так, чтобы они были ортогональны к уже отслеженным направлениям. Это позволяет минимизировать интерференцию и сохранить память о прошлых задачах. Метод DOC сочетает эффективность и простоту, используя ортогональность в качестве ключевого механизма для решения проблемы catastrophic forgetting. #### Результаты Мы проверили наш метод на нескольких LLM continual learning benchmark-результатах, включая широкий диапазон задач и наборов данных. Мы сравнили DOC с другими подходами, включая стандартные регуляризационные методы. Результаты показали, что DOC не только существенно снижает уровень catastrophic forgetting, но и показывает более высокую точность и гладкость результатов. Особенно заметны преимущества в ситуациях, когда данных для исходных задач недоступно. Это демонстрирует то, что DOC может обеспечить стабильность и эффективность в процессе последовательного обучения. #### Значимость Метод DOC может быть применен в различных областях применения LLMs, где необходимы стабильные результаты и модели должны постоянно обучаться на новых данных. Например, он может применяться в области NLP-сервисов, где нужно постоянно обновлять модели на базе новых данных, но при этом сохранять знания о предыдущих задачах. Также, он может быть применен в обучении моделей для большого количества данных, когда размер данных не позволяет хранить всю историю. Данный подход значительно увеличивает гибкость и эффективность последовательного обучения, обеспечивая более устойчивые и постоянные модели. #### Выводы DOC является эффективным подходом для уменьшения catastrophic forgetting в случае последовательного обучения LLMs. Он продемонстриро

Annotation:

Catastrophic forgetting remains a critical challenge in continual learning for large language models (LLMs), where models struggle to retain performance on historical tasks when fine-tuning on new sequential data without access to past datasets. In this paper, we first reveal that the drift of functional directions during the fine-tuning process is a key reason why existing regularization-based methods fail in long-term LLM continual learning. To address this, we propose Dynamic Orthogonal Conti...

ID: 2509.23893v1 cs.LG, cs.AI, cs.CL, cs.CR, math.OC

arXiv PDF

📄 SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios

2025-09-30

Авторы:

Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo

#### Контекст Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях. #### Метод **SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок. #### Результаты Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов. #### Значимость **SecureAgentBench** может быть применен в различных областях, включая соз

Annotation:

Large language model (LLM) powered code agents are rapidly transforming software engineering by automating tasks such as testing, debugging, and repairing, yet the security risks of their generated code have become a critical concern. Existing benchmarks have offered valuable insights but remain insufficient: they often overlook the genuine context in which vulnerabilities were introduced or adopt narrow evaluation protocols that fail to capture either functional correctness or newly introduced ...

ID: 2509.22097v1 cs.SE, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Can Federated Learning Safeguard Private Data in LLM Training? Vulnerabilities, Attacks, and Defense Evaluation

2025-09-27

Авторы:

Wenkai Guo, Xuefeng Liu, Haolin Wang, Jianwei Niu, Shaojie Tang, Jing Yuan

## Контекст Федеративное обучение (FL) является привлекательным подходом для обучения локальными данными больших языковых моделей (LLM), которые широко используются в сферах, требующих высокой конфиденциальности, таких как медицина и финансы. Организации часто не желают делиться своими данными, что делает централизованное обучение невозможным. Вместо этого FL позволяет клиентам совместно обучать модели, не раскрывая свои данные, используя только параметры модели для обучения. Хотя FL обеспечивает приватность, направленную на защиту локальных данных, оно не является иммунным к атакам. Целевой объект исследования заключается в оценке рисков для приватности при использовании FL для обучения LLM и разработке эффективных методов защиты. ## Метод Использовались стандартные метрики для оценки риска вытекающих данных (дата-ликиджинг), включая вероятность выдачи следующего токена и методы генерации текста. Набор экспериментов включал сравнение разных моделей FL, включая те, которые использовали безопасные методы обучения, такие как регуляризация и способы вывода неожиданности. Были изучены различные модели и наборы данных, включая наборы данных, предназначенные для секретного использования в бизнес-приложениях. Основным подходом была оценка степени утечки данных при использовании FL в защищенных сценариях обучения. ## Результаты Эксперименты показали, что атаки на FL могут успешно извлечь данные из глобального модели, даже без особых техник. Утечка данных увеличивается в зависимости от размера модели и числа клиентов в сети FL. Особенно эффективными оказались атаки, основанные на простой модели генерации текста, которая может декодировать входные данные из обучающей выборки. Добавление безопасных методов, таких как различная частота вывода и регуляризация, снижают утечку, но не полностью устраняют ее. Кроме того, применение безопасных моделей с адаптивным выводом существенно снижает риск, но не гарантирует полной защиты. ## Значимость Результаты имеют практическое значение для разработчиков, которые используют FL для обучения LLM. Они подчеркивают необходимость в разработке безопасных технологий для защиты конфиденциальных данных в процессе обучения. Выявленные утечки могут иметь серьезные последствия в сферах, где конфиденциальность критическа, таких как здравоохранение и финансы. Эта работа демонстрирует, что FL не является идеальным средством для защиты приватности в обучении LLM и подчеркивает важность продолжительных исследований в этой области. ## Выводы Несмотря на привлекательность FL для обучения LLM с локальными данными, оно не гарантирует за

Annotation:

Fine-tuning large language models (LLMs) with local data is a widely adopted approach for organizations seeking to adapt LLMs to their specific domains. Given the shared characteristics in data across different organizations, the idea of collaboratively fine-tuning an LLM using data from multiple sources presents an appealing opportunity. However, organizations are often reluctant to share local data, making centralized fine-tuning impractical. Federated learning (FL), a privacy-preserving frame...

ID: 2509.20680v1 cs.LG, cs.CL, cs.CR

arXiv PDF

Показано 31 - 40 из 60 записей