📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Countermind: A Multi-Layered Security Architecture for Large Language Models

2025-10-16

Авторы:

Dominik Schwarz

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The security of Large Language Model (LLM) applications is fundamentally challenged by "form-first" attacks like prompt injection and jailbreaking, where malicious instructions are embedded within user inputs. Conventional defenses, which rely on post hoc output filtering, are often brittle and fail to address the root cause: the model's inability to distinguish trusted instructions from untrusted data. This paper proposes Countermind, a multi-layered security architecture intended to shift defe...

ID: 2510.11837v1 cs.CR, cs.AI, K.6.5; I.2.7

arXiv PDF

📄 Send to which account? Evaluation of an LLM-based Scambaiting System

2025-09-12

Авторы:

Hossein Siadati, Haadi Jafarian, Sima Jafarikhah

## Контекст Современные технологии генерируемого искусственного интеллекта (GenAI) становятся популярнее среди скамеров, увеличивая риск финансовой мошенничества и замедляя уровень доверия к деятельности в Интернете. Несмотря на существующие меры защиты, такие как детекторы мошенничества, обучение пользователей, а также реактивные меры по удалению злонамеренных действий, эффективность этих подходов часто остается недостаточной. Особенно это актуально в отношении таких составляющих мошеннической инфраструктуры, как мулевые банковские счета и криптовалютные кошельки. Чтобы устранить этот пробел, развиваются проактивные методы, которые включают взаимодействие с мошенниками при помощи ценных интеллектуальных трубопроводов (conversational honeypots). Данная работа представляет первую серьезную, реальному миру относящуюся оценку такого системы, основанной на больших языковых моделях (LLMs). ## Метод Проведенные исследования основываются на оптимизированной лингвистической модели, которая имитирует естественное общение и может обмениваться данными с мошенниками. За период пяти месяцев система провела более 2 600 взаимодействий с мошенниками, получив более 18 700 сообщений. Главной метрикой стала информационная дискриминация (IDR), выражающая возможность системы вытащить приватную финансовую информацию, такую как мулевые счета. Также важной метрикой стала людская приемлемость (HAR), отражающая соответствие генерируемых ответов желаемого уровня качества. За основу работы была взята модель GPT-4 (языковая модель OpenAI), но модель была настроена специально для этого проекта. ## Результаты В результате работы системы было получено более 32% информационной дискриминации, что демонстрирует высокую эффективность в получении финансовых данных. Более того, система достигла 70% успеха в людской приемлемости, что указывает на высокую степерь совпадения генерируемых ответов с потребностями пользователей. Однако система сталкивалась с проблемой запуска взаимодействия: только 48.7% мошенников отвечали на инициализационное сообщение. Это подчеркивает необходимость улучшения стратегий для повышения контактной стадии. ## Значимость Система может применяться в области безопасности информации, контроля финансовой мошенничества, а также в области развития интеллектуальных технологий. Она предоставляет преимущества в скорости и точности получения сведений, что может повлиять на уровень защиты от мошенничества в будущем. Данный подход может быть использован для создания более эффективных механизмов защиты от

Annotation:

Scammers are increasingly harnessing generative AI(GenAI) technologies to produce convincing phishing content at scale, amplifying financial fraud and undermining public trust. While conventional defenses, such as detection algorithms, user training, and reactive takedown efforts remain important, they often fall short in dismantling the infrastructure scammers depend on, including mule bank accounts and cryptocurrency wallets. To bridge this gap, a proactive and emerging strategy involves using...

ID: 2509.08493v1 cs.CR, cs.AI, K.6.5; I.2.7

arXiv PDF