📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Are My Optimized Prompts Compromised? Exploring Vulnerabilities of LLM-based Optimizers

2025-10-18

Авторы:

Andrew Zhao, Reshmi Ghosh, Vitor Carvalho, Emily Lawton, Keegan Hines, Gao Huang, Jack W. Stokes

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) systems now underpin everyday AI applications such as chatbots, computer-use assistants, and autonomous robots, where performance often depends on carefully designed prompts. LLM-based prompt optimizers reduce that effort by iteratively refining prompts from scored feedback, yet the security of this optimization stage remains underexamined. We present the first systematic analysis of poisoning risks in LLM-based prompt optimization. Using HarmBench, we find systems are...

ID: 2510.14381v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 TITAN: Graph-Executable Reasoning for Cyber Threat Intelligence

2025-10-18

Авторы:

Marco Simoni, Aleksandar Fontana, Andrea Saracino, Paolo Mori

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

TITAN (Threat Intelligence Through Automated Navigation) is a framework that connects natural-language cyber threat queries with executable reasoning over a structured knowledge graph. It integrates a path planner model, which predicts logical relation chains from text, and a graph executor that traverses the TITAN Ontology to retrieve factual answers and supporting evidence. Unlike traditional retrieval systems, TITAN operates on a typed, bidirectional graph derived from MITRE, allowing reasoni...

ID: 2510.14670v1 cs.AI, cs.CL, cs.CR, cs.IR

arXiv PDF

📄 MetaDefense: Defending Finetuning-based Jailbreak Attack Before and During Generation

2025-10-11

Авторы:

Weisen Jiang, Sinno Jialin Pan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

This paper introduces MetaDefense, a novel framework for defending against finetuning-based jailbreak attacks in large language models (LLMs). We observe that existing defense mechanisms fail to generalize to harmful queries disguised by unseen attack templates, despite LLMs being capable of distinguishing disguised harmful queries in the embedding space. Based on these insights, we propose a two-stage defense approach: (i) pre-generation defense that detects harmful queries before response gene...

ID: 2510.07835v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Just Do It!? Computer-Use Agents Exhibit Blind Goal-Directedness

2025-10-04

Авторы:

Erfan Shayegani, Keegan Hines, Yue Dong, Nael Abu-Ghazaleh, Roman Lutz, Spencer Whitehead, Vidhisha Balachandran, Besmira Nushi, Vibhav Vineet

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Computer-Use Agents (CUAs) are an increasingly deployed class of agents that take actions on GUIs to accomplish user goals. In this paper, we show that CUAs consistently exhibit Blind Goal-Directedness (BGD): a bias to pursue goals regardless of feasibility, safety, reliability, or context. We characterize three prevalent patterns of BGD: (i) lack of contextual reasoning, (ii) assumptions and decisions under ambiguity, and (iii) contradictory or infeasible goals. We develop BLIND-ACT, a benchmar...

ID: 2510.01670v1 cs.AI, cs.CL, cs.CR, cs.CY, cs.LG

arXiv PDF

📄 SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents

2025-10-02

Авторы:

Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Search agents connect LLMs to the Internet, enabling access to broader and more up-to-date information. However, unreliable search results may also pose safety threats to end users, establishing a new threat surface. In this work, we conduct two in-the-wild experiments to demonstrate both the prevalence of low-quality search results and their potential to misguide agent behaviors. To counter this threat, we introduce an automated red-teaming framework that is systematic, scalable, and cost-effic...

ID: 2509.23694v2 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 SafeSearch: Automated Red-Teaming for the Safety of LLM-Based Search Agents

2025-10-01

Авторы:

Jianshuo Dong, Sheng Guo, Hao Wang, Zhuotao Liu, Tianwei Zhang, Ke Xu, Minlie Huang, Han Qiu

## Контекст В последние годы искусственный интеллект (ИИ), изобретенный для улучшения жизни человека, приобрел новый уровень своего развития в виде люминных генеративных моделей. Интеллектуальные агенты с подключением к Интернету, основанные на технологии трансформации языка (LLM), широко используются в различных сферах, таких как поисковые системы и системы рекомендаций. Однако данное использование ИИ не без проблем. Например, недостаточное качество поисковых результатов может привести к неправильному восприятию информации, сказывающемуся на поведении пользователя. В этом решении мы рассматриваем новый подход для идентификации и устранения угроз для безопасности LLM-подобных поисковых агентов. ## Метод Методология, используемая в данном решении, включает в себя два основных элемента. Во-первых, мы разрабатываем автоматизированный ред-тиминг-автоматизированный тестирований информационных систем. Это позволяет проводить систематические, масштабируемые и стоимостно-эффективные оценки безопасности. Во-вторых, мы предлагаем концепцию бенчмарка SafeSearch, который состоит из 300 тестовых случаев, разделенных на 5 категорий рисков, включая ложную информацию и негативные последствия изменения структуры запроса с помощью индиректного вызова. ## Результаты Мы проводим эксперименты в "реальных условиях" для оценки безопасности LLM-подобных поисковых агентов. Наши результаты показывают, что многие существующие поисковые системы остаются ненадежными с целью исследования идеального поиска. Мы показываем, что риски, связанные с недостаточностью качества результатов поиска, могут привести к нежелательным последствиям для пользователей. Благодаря нашей модели, мы устанавливаем, что самая высокая производительность LLM-подобных поисковых агентов составляет 90,5% для GPT-4.1-mini, что демонстрирует важность этой проблемы. ## Значимость Выполняя роль автоматизированного тестирования безопасности, данный подход может быть применен в разных областях, включая ИИ-системы для поиска, рекомендации и обработки текста. Наша модель помогает обеспечить безопасность и надежность пользовательских интеллектуальных систем. Мы открываем новый уровень прозрачности в разработке поисковых агентов, что позволяет улучшить их качество и обеспечить лучший опыт использования пользователями. ## Выводы В итоге, мы разрабатываем масштабируемый и эффективный подход к тестированию безопасности LLM-подобных поисковых агентов. Мы устанавливаем значительные уязвимости в существующих системах и показываем, что наша

Annotation:

ID: 2509.23694v1 cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Dynamic Orthogonal Continual Fine-tuning for Mitigating Catastrophic Forgettings

2025-10-01

Авторы:

Zhixin Zhang, Zeming Wei, Meng Sun

#### Контекст Catastrophic forgetting является ключевой проблемой в области последовательного обучения для больших языковых моделей (LLM). Эта проблема возникает при последовательном обучении модели на новых задачах, когда она постепенно забывает всё, что узнала ранее. Это особенно актуально при обучении без доступа к исходным данным, что становится типичным сценарием для применения LLMs в реальных ситуациях. Отсутствие эффективных методов для решения этой проблемы ставит под угрозу широкое применение LLMs в сценариях, где необходима стабильная память и результаты обучения. Многие существующие регуляризационные подходы стремятся сдерживать этот эффект, но часто оказываются недостаточно эффективными для долгосрочного обучения. #### Метод Мы предлагаем метод **Dynamic Orthogonal Continual (DOC)** fine-tuning, который адрессирует проблему непостоянства функциональных направлений во время обучения. Метод DOC отслеживает эти направления и динамически обновляет их во время обучения. Для того, чтобы уменьшить взаимодействие между новыми и старыми задачами, мы адаптируем градиенты новых задач так, чтобы они были ортогональны к уже отслеженным направлениям. Это позволяет минимизировать интерференцию и сохранить память о прошлых задачах. Метод DOC сочетает эффективность и простоту, используя ортогональность в качестве ключевого механизма для решения проблемы catastrophic forgetting. #### Результаты Мы проверили наш метод на нескольких LLM continual learning benchmark-результатах, включая широкий диапазон задач и наборов данных. Мы сравнили DOC с другими подходами, включая стандартные регуляризационные методы. Результаты показали, что DOC не только существенно снижает уровень catastrophic forgetting, но и показывает более высокую точность и гладкость результатов. Особенно заметны преимущества в ситуациях, когда данных для исходных задач недоступно. Это демонстрирует то, что DOC может обеспечить стабильность и эффективность в процессе последовательного обучения. #### Значимость Метод DOC может быть применен в различных областях применения LLMs, где необходимы стабильные результаты и модели должны постоянно обучаться на новых данных. Например, он может применяться в области NLP-сервисов, где нужно постоянно обновлять модели на базе новых данных, но при этом сохранять знания о предыдущих задачах. Также, он может быть применен в обучении моделей для большого количества данных, когда размер данных не позволяет хранить всю историю. Данный подход значительно увеличивает гибкость и эффективность последовательного обучения, обеспечивая более устойчивые и постоянные модели. #### Выводы DOC является эффективным подходом для уменьшения catastrophic forgetting в случае последовательного обучения LLMs. Он продемонстриро

Annotation:

Catastrophic forgetting remains a critical challenge in continual learning for large language models (LLMs), where models struggle to retain performance on historical tasks when fine-tuning on new sequential data without access to past datasets. In this paper, we first reveal that the drift of functional directions during the fine-tuning process is a key reason why existing regularization-based methods fail in long-term LLM continual learning. To address this, we propose Dynamic Orthogonal Conti...

ID: 2509.23893v1 cs.LG, cs.AI, cs.CL, cs.CR, math.OC

arXiv PDF

📄 SecureAgentBench: Benchmarking Secure Code Generation under Realistic Vulnerability Scenarios

2025-09-30

Авторы:

Junkai Chen, Huihui Huang, Yunbo Lyu, Junwen An, Jieke Shi, Chengran Yang, Ting Zhang, Haoye Tian, Yikun Li, Zhenhao Li, Xin Zhou, Xing Hu, David Lo

#### Контекст Large language models (LLM), внедренные в код, провоцируют значительное изменение в сфере разработки программного обеспечения, автоматизируя такие задачи, как тестирование, отладка и исправление. Однако огромные возможности LLMs сопряжены с необходимостью решать проблему безопасности генерируемого ими кода. Небезопасный код может привести к значительным проблемам, таким как утечки данных, взломы и другие уязвимости. Существующие бенчмарки, ориентированные на проверку кода на безопасность, полезны, но имеют ограничения: они часто не учитывают контекст внедрения уязвимостей или используют тестовые протоколы, не полностью отражающие реальную сложность ситуаций. Из-за этого, оценка безопасности генерируемого кода остается недостаточно точной. Чтобы устранить эти проблемы, мы предлагаем **SecureAgentBench** – новый бенчмарк, содержащий 105 задач, который позволяет тщательно оценивать способность кода-агентов генерировать безопасный код в реальных условиях. #### Метод **SecureAgentBench** строится на основе 105 реалистичных задач, требующих редактирования нескольких файлов в больших репозиториях. Для каждой задачи мы вводим контекст, основанный на настоящих открытых исходных кодах, где были отслежены точки внедрения уязвимостей. Наша методика включает три ключевых аспекта: (i) **тестирование функциональности**, чтобы убедиться, что решение корректно выполняет задачу, (ii) **проверка уязвимостей** с помощью создания proof-of-concept exploits, и (iii) **детектирование новых уязвимостей**, внедренных агентом в код. Бенчмарк работает с тремя современными большими лингвистическими моделями (LLMs): Claude 3.7 Sonnet, GPT-4.1 и DeepSeek-V3.1. Эти модели были использованы для сгенерированного кода, который последующим образом проверялся на наличие уязвимостей и структурных ошибок. #### Результаты Наши эксперименты показали, что хотя LLM-агенты способны генерировать код, который функционирует правильно, они сильно страдают в безопасности. Наилучший результат показал SWE-agent, поддерживаемый DeepSeek-V3.1, который смог выполнить 15.2% задач, сочетающих безопасность и функциональность. Однако даже в этом случае некоторые функционально корректные решения все равно включали в себя новые, незарегистрированные ранее, уязвимости. Заметим, что простой добавлением инструкций по безопасному программированию нельзя полностью решить эту проблему. Эти результаты подтверждают необходимость дальнейшего исследования для создания безопасных кодогенерирующих агентов. #### Значимость **SecureAgentBench** может быть применен в различных областях, включая соз

Annotation:

Large language model (LLM) powered code agents are rapidly transforming software engineering by automating tasks such as testing, debugging, and repairing, yet the security risks of their generated code have become a critical concern. Existing benchmarks have offered valuable insights but remain insufficient: they often overlook the genuine context in which vulnerabilities were introduced or adopt narrow evaluation protocols that fail to capture either functional correctness or newly introduced ...

ID: 2509.22097v1 cs.SE, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Blueprints of Trust: AI System Cards for End to End Transparency and Governance

2025-09-26

Авторы:

Huzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

## Контекст В последние годы искусственный интеллект (ИИ) стал одной из самых важных технологий, влияющих на различные сферы человеческой деятельности. Однако с ростом использования ИИ возникают новые проблемы, связанные с прозрачностью, управлением и безопасностью. Особенно актуальной стала проблема недостатка в доступной информации для разработчиков и пользователей ИИ, что может привести к ошибкам, незаконному использованию и нехватке доверия к технологии. Необходима новая подходящая методология, которая позволила бы обеспечить транспарентность, управляемость и безопасность ИИ во всех стадиях его развития и применения. ## Метод В статье предлагается фреймворк Hazard-Aware System Card (HASC). Он основывается на существующих концепциях, таких как Model Cards и System Cards, но добавляет информацию о безопасности и безопасности системы. Фреймворк включает в себя стандартизованные идентификаторы, такие как AI Safety Hazard (ASH) ID, чтобы повысить четкость и согласованность в описании устраненных ошибок. Кроме того, HASC предлагает динамическую систему, которая позволяет прослеживать изменения в системе во время ее развития и развертывания. Это развитие позволяет разработчикам и другим участникам процесса принимать более обоснованные решения, учитывая безопасность и безопасность ИИ. ## Результаты Чтобы проверить эффективность HASC, авторы провели эксперименты, используя различные системы ИИ. Они сравнили результаты использования HASC с другими методами транспарентности, такими как Model Cards. Эксперименты показали, что HASC не только улучшает прозрачность, но и позволяет более точно оценивать безопасность системы, особенно в случаях, когда необходимо реагировать на появление новых угроз. Данные показали, что HASC может помочь разработчикам быстрее и эффективнее реагировать на проблемы, повышая уровень доверия к ИИ. ## Значимость HASC может применяться в различных областях, где ИИ играет ключевую роль, таких как медицина, финансы, робототехника и другие. Он обеспечивает более глубокую транспарентность и управляемость AI-систем, что позволяет увеличить доверие к ним и уменьшить риски, связанные с их использованием. Благодаря стандартизованным идентификаторам, HASC также облегчает общение между разработчиками, управляющими и пользователями, что увеличивает уровень ответственности в области ИИ. ## Выводы В результате, HASC представляет собой значительный шаг в области транспарентности и управляемости AI-систем. Он может быть использован для повышения доверия и безопасности в различных сферах применения ИИ. В буду

Annotation:

This paper introduces the Hazard-Aware System Card (HASC), a novel framework designed to enhance transparency and accountability in the development and deployment of AI systems. The HASC builds upon existing model card and system card concepts by integrating a comprehensive, dynamic record of an AI system's security and safety posture. The framework proposes a standardized system of identifiers, including a novel AI Safety Hazard (ASH) ID, to complement existing security identifiers like CVEs, a...

ID: 2509.20394v1 cs.CY, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

2025-09-11

Авторы:

Jeff Shen, Lindsay Smith

## Контекст В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости. ## Метод Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам. ## Результаты В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов. ## Значимость Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла

Annotation:

We present cryptogram solving as an ideal testbed for studying neural network generalization in combinatorially complex domains. In this task, models must decrypt text encoded with substitution ciphers, choosing from 26! possible mappings without explicit access to the cipher. We develop ALICE (an Architecture for Learning Interpretable Cryptogram dEcipherment): a simple encoder-only Transformer that sets a new state-of-the-art for both accuracy and speed on this decryption problem. Surprisingly...

ID: 2509.07282v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

Показано 11 - 20 из 23 записей