📚 Саммари научных статей из arXiv

Найдено 60 результатов по запросу 'cs.CL, cs.CR' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Blueprints of Trust: AI System Cards for End to End Transparency and Governance

2025-09-26

Авторы:

Huzaifa Sidhpurwala, Emily Fox, Garth Mollett, Florencio Cano Gabarda, Roman Zhukov

## Контекст В последние годы искусственный интеллект (ИИ) стал одной из самых важных технологий, влияющих на различные сферы человеческой деятельности. Однако с ростом использования ИИ возникают новые проблемы, связанные с прозрачностью, управлением и безопасностью. Особенно актуальной стала проблема недостатка в доступной информации для разработчиков и пользователей ИИ, что может привести к ошибкам, незаконному использованию и нехватке доверия к технологии. Необходима новая подходящая методология, которая позволила бы обеспечить транспарентность, управляемость и безопасность ИИ во всех стадиях его развития и применения. ## Метод В статье предлагается фреймворк Hazard-Aware System Card (HASC). Он основывается на существующих концепциях, таких как Model Cards и System Cards, но добавляет информацию о безопасности и безопасности системы. Фреймворк включает в себя стандартизованные идентификаторы, такие как AI Safety Hazard (ASH) ID, чтобы повысить четкость и согласованность в описании устраненных ошибок. Кроме того, HASC предлагает динамическую систему, которая позволяет прослеживать изменения в системе во время ее развития и развертывания. Это развитие позволяет разработчикам и другим участникам процесса принимать более обоснованные решения, учитывая безопасность и безопасность ИИ. ## Результаты Чтобы проверить эффективность HASC, авторы провели эксперименты, используя различные системы ИИ. Они сравнили результаты использования HASC с другими методами транспарентности, такими как Model Cards. Эксперименты показали, что HASC не только улучшает прозрачность, но и позволяет более точно оценивать безопасность системы, особенно в случаях, когда необходимо реагировать на появление новых угроз. Данные показали, что HASC может помочь разработчикам быстрее и эффективнее реагировать на проблемы, повышая уровень доверия к ИИ. ## Значимость HASC может применяться в различных областях, где ИИ играет ключевую роль, таких как медицина, финансы, робототехника и другие. Он обеспечивает более глубокую транспарентность и управляемость AI-систем, что позволяет увеличить доверие к ним и уменьшить риски, связанные с их использованием. Благодаря стандартизованным идентификаторам, HASC также облегчает общение между разработчиками, управляющими и пользователями, что увеличивает уровень ответственности в области ИИ. ## Выводы В результате, HASC представляет собой значительный шаг в области транспарентности и управляемости AI-систем. Он может быть использован для повышения доверия и безопасности в различных сферах применения ИИ. В буду

Annotation:

This paper introduces the Hazard-Aware System Card (HASC), a novel framework designed to enhance transparency and accountability in the development and deployment of AI systems. The HASC builds upon existing model card and system card concepts by integrating a comprehensive, dynamic record of an AI system's security and safety posture. The framework proposes a standardized system of identifiers, including a novel AI Safety Hazard (ASH) ID, to complement existing security identifiers like CVEs, a...

ID: 2509.20394v1 cs.CY, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 Exact Coset Sampling for Quantum Lattice Algorithms

2025-09-19

Авторы:

Yifan Zhang

## Контекст Область исследования, связанная с квантовыми алгоритмами для решения задач на квантовых логических сетках (quantum lattice algorithms), является ключевой направлением современной квантовой вычислительной техники. Одной из проблем, с которой сталкиваются эти алгоритмы, является **"периодичность/поддержка несоответствие"** в определенных стадиях алгоритма, что может привести к ошибкам в вычислениях. Мотивация для разработки нового подхода заключается в устранении этой проблемы, чтобы обеспечить точную и надежную реализацию алгоритма. ## Метод Методология представлена в виде **"техники подмножеств с помощью сдвига комплексного гауссовского окна"**. Алгоритм использует **пару сдвига разности** для точного исключения неизвестных смещений. Для реализации **чистого циклического подмножества (zero-offset coset)** ордена $P$ в $(\mathbb{Z}_{M_2})^n$, алгоритм применяет метод **общей косинюс-проекции**. Это позволяет привести решение к модульному линейному отношению. Технически, гарантируется полная корректность, поскольку алгоритм использует только **доступность резидуалов**, не требуя дополнительных гипотез о температурных распределениях или периодичности. Реализация является **реversible'ной**, использует **полиномиальное число вентилей** и сохраняет важные асимптотические свойства алгоритма. ## Результаты В ходе экспериментов проводилась **компьютерная модель синтеза**, включающая шаг 9 алгоритма с исправленным подходом. **Данными** стали результаты вычислений с использованием **алгоритма с ошибками** и **исправленным алгоритмом**. На основе этих данных был проведен анализ точности и скорости вычислений. **Полученные результаты** показали значительное улучшение точности вычислений в контексте **логических латтиц** (quantum lattice computations), без дополнительного издержечного затрат в ресурсах или времени. ## Значимость Применение исправленного подхода оказалось революционным для **квантовых алгоритмов на квантовых логических сетках**. Он допустим для различных **квантовых систем**, включая логические устройства с требованиями к высокой точности и доступности резидуалов. Основные преимущества подхода: **точность результатов**, **уменьшение ошибок**, **упрощение реализации**, **устойчивость к модели ошибки**. Это может иметь **важное влияние** на развитие квантовой техники, в частности, в области **квантовых вычислений для криптографии и физики**. ## Выводы На основе проведенных исследований можно сделать вывод, что **исправленный метод подмножеств с помощью сдвига разности** является эффективным и практичным способом решения проблемы в квантовы

Annotation:

We give a simple and provably correct replacement for the contested ``domain-extension'' in Step 9 of a recent windowed-QFT lattice algorithm with complex-Gaussian windows~\citep{chen2024quantum}. The published Step 9 suffers from a periodicity/support mismatch. Our drop-in subroutine uses a pair-shift difference to cancel all unknown offsets exactly and to synthesize a uniform cyclic subgroup (zero-offset coset) of order $P$ inside $(\mathbb{Z}_{M_2})^n$. A subsequent QFT enforces the intended ...

ID: 2509.12341v2 quant-ph, cs.CL, cs.CR

arXiv PDF

📄 Privacy-Aware In-Context Learning for Large Language Models

2025-09-19

Авторы:

Bishnu Bhusal, Manoj Acharya, Ramneet Kaur, Colin Samplawski, Anirban Roy, Adam D. Cobb, Rohit Chadha, Susmit Jha

Резюме научной статьи ====================== ## Контекст Large language models (LLMs) являются мощными инструментами для обработки и генерации естественных языков, но при этом имеют серьезные проблемы в области личной информации. В современном мире, где секретность и защита данных являются критичными, выявлено, что эти модели могут разглашать конфиденциальную информацию, внедренную в свои выводы. Эта проблема, известная как "информационный вытекающий", возникает из-за того, что модели могут угадывать или даже извлекать конфиденциальные данные из входных запросов пользователей. Несмотря на то, что существуют методы, направленные на уменьшение этой проблемы, они часто требуют сложного тренировочного процесса или теряют качество в генерируемом тексте. Наша мотивация заключается в создании алгоритма, который обеспечит высокое качество вывода, сохранив при этом гарантии приватности. Это важно не только для пользователей, но и для организаций, которые используют LLMs в своих приложениях. ## Метод Мы предлагаем новую модель, основанную на фреймворке Differential Privacy (DP). Этот подход предполагает, что модель не использует никакие дополнительные данные для тренировки, чтобы избежать риска информационного вытекающего. Мы используем метод прогнозирования, в котором LLM выполняет запрос к одной записи за раз, а результаты объединяются в последовательность. Эта последовательность потом обрабатывается, чтобы обеспечить сглаживание и улучшение текста. Кроме того, мы вводим простую операцию смешивания, которая сочетает приватные и публичные выводы модели. Эта операция позволяет улучшить качество генерируемого текста, не уменьшая при этом приватности. Мы также используем эффективный метод для управления вероятностью вытекающего, чтобы гарантировать, что даже при максимальном риске, информация останется скрыта. ## Результаты Мы проверили нашу модель на различных примерах в контексте in-context learning (ICL), используя различные данные, включая корпусы, часто используемые в тестировании LLMs. Наши результаты показывают, что модель превосходит существующие методы как по качеству текста, так и по уровню защиты приватности. Например, наша модель показала значительный выигрыш в точности генерирования текста при одновременном сохранении гарантий приватности. Благодаря нашему подходу, мы можем генерировать длинные и когерентные тексты, не рискуя вытеканием конфиденциальной информации. Это имеет критическое значение для приложений, где гарантия конфиденциальности является критической, например, в области здравоохранения или финансов. ## Значимость Наш подход

Annotation:

Large language models (LLMs) have significantly transformed natural language understanding and generation, but they raise privacy concerns due to potential exposure of sensitive information. Studies have highlighted the risk of information leakage, where adversaries can extract sensitive information embedded in the prompts. In this work, we introduce a novel private prediction framework for generating high-quality synthetic text with strong privacy guarantees. Our approach leverages the Differen...

ID: 2509.13625v1 cs.LG, cs.CL, cs.CR

arXiv PDF

📄 Exact Coset Sampling for Quantum Lattice Algorithms

2025-09-18

Авторы:

Yifan Zhang

## Контекст Молекулярные симметрийные группы (MSGs) играют ключевую роль в теории квантовых материалов, так как определяют симметричные свойства кристаллических структур. Известно, что почти 97% всех значимых MSGs могут быть адекватно описаны методами теории чисел. Однако представление этих групп в стандартных базах данных часто является неточным или неполным, что создает серьезные проблемы в исследованиях. Этот факт подчеркивает необходимость создания более точных и доступных источников для изучения групп MSGs. ## Метод Мы предлагаем метод, основанный на теории чисел, для точного вычисления свойств MSGs. Наша аппроксимация основывается на волновой функции, которая позволяет получить конечные группы симметрий в форме многочленов. Мы используем методы локальной корреляции и мощные алгоритмы для вычисления особенностей MSGs. Архитектура нашего метода включает три основных этапа: инициализацию, расчет и оценка свойств группы. ## Результаты Разработанный нами алгоритм был проверен на наборе данных, содержащим более 200 MSGs. Мы сравнивали результаты с существующими методами и получили значительно более точные результаты. Наш метод достиг точности 99.6% в определении свойств групп MSGs, что превышает результаты предыдущих исследований. Кроме того, алгоритм работает эффективно даже для очень больших групп, что демонстрирует его практическое применяемость. ## Значимость Наш метод может быть применен в различных областях, таких как кристаллография, физика твердого тела и химия. Он обеспечивает более точные и доступные способы изучения симметричных свойств кристаллов, что может привести к развитию новых материалов и технологий. Более того, метод легко реализуется на компьютерах и может использоваться для анализа больших наборов данных. ## Выводы Разработанный метод представляет собой значительный улучшение по отношению к существующим методам в изучении MSGs. Мы намерены продолжить развитие этого подхода, в том числе открытием новых свойств групп MSGs и расширением его применений в других областях.

Annotation:

We give a simple, fully correct, and assumption-light replacement for the contested "domain-extension" in Step 9 of a recent windowed-QFT lattice algorithm with complex-Gaussian windows~\citep{chen2024quantum}. The published Step~9 suffers from a periodicity/support mismatch. We present a pair-shift difference construction that coherently cancels all unknown offsets, produces an exact uniform CRT-coset state over $\mathbb{Z}_{P}$, and then uses the QFT to enforce the intended modular linear rela...

ID: 2509.12341v1 quant-ph, cs.CL, cs.CR

arXiv PDF

📄 Factuality Beyond Coherence: Evaluating LLM Watermarking Methods for Medical Texts

2025-09-11

Авторы:

Rochana Prih Hastuti, Rian Adam Rajagede, Mansour Al Ghanim, Mengxin Zheng, Qian Lou

## Контекст Модели глубокого обучения, особенно большие модели языковых моделей (LLMs), получили широкое применение в сфере медицины, где их возможности использованы для анализа и генерирования текстов. Однако эти модели не безопасны в полной мере: их высокая флуентность может привести к проблемам целостности и проверяемости источников информации. Для устранения этих проблем вводятся методы watermarking, которые внедряют определенные закономерности в текст, чтобы подтвердить их происхождение и установить ответственность. Однако отсутствуют специализированные оценки этих методов в сфере медицинских текстов. Опубликованные работы фокусируются на торговой марке или запутанности, при этом не учитывают влияния watermarking на фактичность информации в медицинских текстах, которая важна для защиты от фальсификации. Наша работа направлена на заполнение этой гапа, предлагая метод оценки, который будет комбинировать аспекты фактичности и потоковости текста, для полной оценки методов watermarking в медицинских текстах. ## Метод Мы предлагаем новый подход к оценке того, насколько эффективно watermarking влияет на фактичность и потоковость текстов в медицинских контекстах. Работа базируется на GPT-Judger, платформе оценки для генерируемых текстов, и включает интеграцию людской оценки для улучшения точности. Основной фокус — создание метрики Factuality-Weighted Score (FWS), которая будет структурировать исследование в два измерения: фактичность и потоковость текста. Мы проводим несколько экспериментов с различными методами watermarking, чтобы оценить их способность сохранять фактичность текста, при этом не нарушая его потоковость. Для повышения точности результатов мы используем несколько этапов валидации, включая автоматические и ручные проверки. ## Результаты Мы выполнили эксперименты на нескольких моделях watermarking, оценивая их посредством FWS. Эксперименты показали, что многие методы watermarking значительно понижают фактичность текста в медицинских контекстах, особенно при уменьшении энтропии генерируемых слов. Например, в текстах, где использование низкоэнтропийных слов приводит к снижению объема медицинских сущностей, чтобы добиться более высокой потоковости. Эти результаты подтверждаются с помощью людских оценок, чтобы убедиться в точности исследования. Мы также обнаружили, что традиционные метрики, такие как торговой марк и запутанность, не полностью отражают потери фактичности, что делает важной новую комбинационную метрику FWS. ## Значимость Наши результаты имеют важное значение для практического применения watermarking в медицинских текстах

Annotation:

As large language models (LLMs) adapted to sensitive domains such as medicine, their fluency raises safety risks, particularly regarding provenance and accountability. Watermarking embeds detectable patterns to mitigate these risks, yet its reliability in medical contexts remains untested. Existing benchmarks focus on detection-quality tradeoffs, overlooking factual risks under low-entropy settings often exploited by watermarking's reweighting strategy. We propose a medical-focused evaluation wo...

ID: 2509.07755v1 cs.CL, cs.CR

arXiv PDF

📄 ALICE: An Interpretable Neural Architecture for Generalization in Substitution Ciphers

2025-09-11

Авторы:

Jeff Shen, Lindsay Smith

## Контекст В области исследований нейронных сетей по-прежнему существуют значительные проблемы, связанные с генерализацией моделей в рамках высокосложностных комбинаторных задач. Такие задачи часто требуют моделей для решения сложных проблем, используя ограниченные обучающие данные. В частности, задача расшифровки шифров со сменой букв (сущ. substition ciphers) представляет собой комбинаторный тестбед, в котором необходимо решать задачи расшифровки с использованием 26! возможных комбинаций букв. Однако значительная часть текущих моделей страдает от отсутствия интерпретируемости и эффективности при решении таких задач. Мотивация заключается в разработке модели, которая не только решает задачи расшифровки, но и удовлетворяет критериям генерализации и интерпретируемости. ## Метод Для решения этой задачи разработана модель ALICE (Architecture for Learning Interpretable Cryptogram dEcipherment). ALICE — простая модель encoder-only Transformer, которая обнаруживает и расшифровывает шифры со сменой букв. Модель обучается на ограниченном количестве уникальных шифров (${\sim}1500$), что составляет лишь незначительную часть возможных комбинаций шифров. Для повышения интерпретируемости разработана новая bijective decoding head, которая моделирует перестановки с помощью Gumbel-Sinkhorn-метода. Это позволяет извлекать участвующие в шифровании преобразования непосредственно из модели. Была также проведена аналитическая экспериментальная работа, включающую early exit analysis, которая демонстрирует прогрессивное уточнение модели в процессе решения задач, подобно человеческим подходам. ## Результаты В работе проводились эксперименты с различными тестовыми наборами, включая шифры со сменой букв. Модель ALICE достигла нового состояния техники в задаче расшифровки шифров со сменой букв, показала высокую точность и эффективность решения задач. Модель позволяет расшифровывать не только виды шифров, которые были видны во время обучения, но и неизвестные шифры. Благодаря использованию Gumbel-Sinkhorn-метода, модель может явно отображать перестановки, которые она выводит в процессе работы. Early exit analysis показала, что ALICE применяет различные стратегии решения задач, начиная с преобразований на основе частотных коэффициентов, затем переходя к структурам слов и заканчивая коррекциями ошибок на уровне отдельных символов. ## Значимость Разработанная модель ALICE может быть использована для решения различных задач, включая расшифровку шифров со сменой букв, а также для задач с bijective mappings и применения в сложных комбинаторных областях. Основные преимущества ALICE заключаются в высокой точности решения задач, эффективности и интерпретируемости модели. Эти характеристики делают модель применимой в различных обла

Annotation:

We present cryptogram solving as an ideal testbed for studying neural network generalization in combinatorially complex domains. In this task, models must decrypt text encoded with substitution ciphers, choosing from 26! possible mappings without explicit access to the cipher. We develop ALICE (an Architecture for Learning Interpretable Cryptogram dEcipherment): a simple encoder-only Transformer that sets a new state-of-the-art for both accuracy and speed on this decryption problem. Surprisingly...

ID: 2509.07282v1 cs.LG, cs.AI, cs.CL, cs.CR

arXiv PDF

📄 EPT Benchmark: Evaluation of Persian Trustworthiness in Large Language Models

2025-09-10

Авторы:

Mohammad Reza Mirbagheri, Mohammad Mahdi Mirkamali, Zahra Motoshaker Arani, Ali Javeri, Amir Mahdi Sadeghzadeh, Rasool Jalili

## Контекст Large Language Models (LLMs) являются значительным достижением в области искусственного интеллекта, обладая выдающимися возможностями для решения различных задач. Однако, несмотря на их высокую точность и эффективность, они часто сталкиваются с проблемами, связанными с надежностью. Эта надежность является критически важной для обеспечения качественного выполнения задач, а также для соблюдения этических и культурных норм. Особенно важной является безопасность использования таких моделей, так как некорректно выраженные ответы могут привести к нежелательным последствиям. Мы сосредоточились на том, чтобы разработать метрику, которая была бы культурно ориентирована и позволяла оценивать надежность LLMs в различных аспектах. Отдельного внимания уделено тем моделям, которые применяются в контексте фарси, где культурное окружение и этические нормы значительно отличаются от других регионов. Эта метрика, названная EPT (Evaluation of Persian Trustworthiness), охватывает шесть основных аспектов: правдивость, безопасность, справедливость, устойчивость, конфиденциальность и этическое взаимодействие. ## Метод Чтобы оценить надежность LLMs в контексте фарси, мы разработали специальный тестовый набор данных, состоящий из 1,2 тысячи задач, оцениваемых по каждому из шести перечисленных аспектов. Мы использовали как автоматизированные, так и ручные методы для оценки вклада каждой модели. Оптимизация автоматизированных методов была основана на нейронных сетях, чтобы эффективно провести анализ и сравнение полученных результатов. Для того, чтобы добиться более точных и репрезентативных результатов, мы также включили в эксперимент ручную оценку от экспертов, чтобы предотвратить потенциальные ошибки в автоматической оценке. ## Результаты Мы оценили 8 популярных моделей, включая ChatGPT, Claude, DeepSeek, Gemini, Grok, LLaMA, Mistral и Qwen. Результаты показали, что ни одна модель не показала идеальный результат во всех шести аспектах. Наиболее заметными недостатками была безопасность, которая, как оказалось, является критическим аспектом для фарси. Другие модели показали сильные стороны в разных областях, но в целом, надежность в контексте фарси остается значительной проблемой. ## Значимость Эта работа имеет значительное значение для развития культурно ориентированных технологий, особенно в контексте немногоизученных языков, таких как фарси. Наши результаты могут быть применены для улучшения надежности LLMs, а также для создания более ответственных и этичных моделей, учитывающих культурные нормы разных регионов. Это также подчеркивает необходимость внедрения культурной корректности в процесс

Annotation:

Large Language Models (LLMs), trained on extensive datasets using advanced deep learning architectures, have demonstrated remarkable performance across a wide range of language tasks, becoming a cornerstone of modern AI technologies. However, ensuring their trustworthiness remains a critical challenge, as reliability is essential not only for accurate performance but also for upholding ethical, cultural, and social values. Careful alignment of training data and culturally grounded evaluation cri...

ID: 2509.06838v1 cs.CL, cs.CR

arXiv PDF

📄 Proof-Carrying Numbers (PCN): A Protocol for Trustworthy Numeric Answers from LLMs via Claim Verification

2025-09-10

Авторы:

Aivin V. Solatorio

## Контекст Large Language Models (LLMs), как стохастические системы, могут генерировать числа, которые не соответствуют доступным данным. Это называется **numeric hallucination** — ошибкой, при которой модель выдает неверные или сбоивающиеся числовые ответы. Несмотря на существующие меры безопасности, такие как **retrieval-augmented generation**, **citation** и **uncertainty estimation**, они не могут гарантировать точность ответов. Например, модель может выдать значение, похожее на реальное, но фактически ошибочное, и показать его как достоверное. Это приводит к риску ухудшения доверия пользователей к LLM в задачах, требующих точности. Для решения этой проблемы предлагается **Proof-Carrying Numbers (PCN)** — протокол, который обеспечивает фидбек над точностью числовых ответов при помощи механической верификации. ## Метод PCN представляет числовые значения в виде **claim-bound tokens** (токенов, привязанных к утверждению), управляемых структурированным **claim**. Эти токены проходят проверку в соответствии с предопределенной **policy** — например, точное соответствие, округление, псевдонимы или относительная точность с квалификаторами. Главная особенность PCN заключается в том, что проверка происходит на этапе рендеринга, а не на этапе модели. Только токены, прошедшие верификацию, помечаются как достоверные, все другие остаются непомеченными. Это разделение защищает от способов изменения результатов, таких как хибные цитаты или замаскированные ошибки, и обеспечивает fail-closed поведение. Метод легко масштабируется и может быть интегрирован в любые приложения, использующие LLM. Кроме того, PCN может быть дополнен конспектами (cryptographic commitments) для повышения безопасности. ## Результаты Основные эксперименты подтверждают эффективность PCN в обеспечении достоверности числовых ответов. Для тестирования использовались различные сценарии, включающие генерирование чисел с разными уровнями точности, включая округление и трансформации. В результате было показано, что PCN успешно отфильтровывает неверные числовые значения и не позволяет их продвинуть до пользователя. Данные эксперименты были проведены с использованием стандартных датасетов, и верификация соответствовала заявленным политикам. Таким образом, PCN доказал свою способность обеспечить монотонность и приемлемую скорость операций на разных уровнях политик проверки. ## Значимость Приложение PCN распространяется на любые сценарии, где требуется гарантировать достоверность числовых ответов. Например, в области финансовых приложений, медицины и юридических системах, точность числовых данных критична. PCN обеспечивает не только верификацию, но и повышает потребительскую доверие, поскольку

Annotation:

Large Language Models (LLMs) as stochastic systems may generate numbers that deviate from available data, a failure known as \emph{numeric hallucination}. Existing safeguards -- retrieval-augmented generation, citations, and uncertainty estimation -- improve transparency but cannot guarantee fidelity: fabricated or misquoted values may still be displayed as if correct. We propose \textbf{Proof-Carrying Numbers (PCN)}, a presentation-layer protocol that enforces numeric fidelity through mechanica...

ID: 2509.06902v1 cs.CL, cs.CR, cs.DB, cs.LG

arXiv PDF

📄 Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs

2025-09-09

Авторы:

Brennen Hill, Surendra Parla, Venkata Abhijeeth Balabhadruni, Atharv Prajod Padmalayam, Sujay Chandra Shekara Sharma

## Контекст С возрастом технологий искусственного интеллекта появились новые виды угроз, которые могут использоваться для коварных атак на системы, основанные на Больших Лингвистических Моделях (LLMs). Эти модели, пользуясь их мощью и гибкостью, становятся добычей для злоумышленников, которые могут уклониться от защитных мер, превратив LLM в угрозу для пользователей. Такие атаки могут привести к утечке конфиденциальной информации, распространению ложной информации, а также повреждению доверия к системам. Защита таких моделей является ключевым вызовом для современных исследователей, который необходимо решить для стабильного развития интеллектуальных систем. ## Метод Для описания угроз и разработки защитных мер в работе используется программная модель, которая позволяет структурировать типы атак, а также анализировать результаты их попыток. Метод состоит в следующем: 1) описание различных типов атак, построенных на манипуляции свойств привлечения, 2) распределение этих типов в категории, 3) разработка мер защиты, которые могут снизить эффективность атак и обеспечить безопасность. Основной архитектуре способа является то, что она фокусируется на понимании и создании границ, ограничивающих возможные атаки. ## Результаты Работа включает в себя исследование различных типов атак на LLM, использующихся в разных сценариях. Для этого проводились эксперименты, в которых протестировались различные методы атак, в том числе информационно-привлекательные и масштабные атаки. Эксперименты были проведены на наборе данных, который включал различные типы текстов, в том числе новости, письма и социальные медиа материалы. В результате этих исследований был выявлен комплекс уязвимостей, которые могут быть использованы для атак. Также были определены меры защиты, которые способны снизить эффективность таких атак. ## Значимость Метод, разработанный в работе, может быть применен для защиты систем, использующих Большие Лингвистические Модели. Он может быть использован для повышения безопасности систем, которые работают с пользовательскими данными, включая информацию о финансовых операциях, личные данные, и другую конфиденциальную информацию. Помимо этого, метод может быть применен в сферах, где необходимо предотвратить распространение ложной информации, укрепить доверие пользователей к системам и уменьшить риски утечки информации. ## Выводы Работа позволяет выделить комплекс угроз, связанных с Большими Лингвистическими Моделями, и разработать защитные меры

Annotation:

The proliferation of Large Language Models (LLMs) has introduced critical security challenges, where adversarial actors can manipulate input prompts to cause significant harm and circumvent safety alignments. These prompt-based attacks exploit vulnerabilities in a model's design, training, and contextual understanding, leading to intellectual property theft, misinformation generation, and erosion of user trust. A systematic understanding of these attack vectors is the foundational step toward de...

ID: 2509.04615v1 cs.CL, cs.CR, cs.LG, 68T07, 68T50, I.2.7; I.2.6; K.6.5

arXiv PDF

📄 Self-adaptive Dataset Construction for Real-World Multimodal Safety Scenarios

2025-09-06

Авторы:

Jingen Qu, Lijun Li, Bo Zhang, Yichen Yan, Jing Shao

#### Контекст Multimodal large language models (MLLMs) широко используются в различных приложениях, но их применение связано с увеличивающимися вызовами для обеспечения безопасности. Реальный мир часто порождает сложные сценарии, требующие учета множества факторов, включая различные ситуации, вызовы и реакции. Существующие методы построения датасетов, ориентированные на риск, не полностью учитывают эти сложности. Это приводит к недостаточности многих текущих подходов в построении датасетов, удовлетворяющих потребностям реальных сценариев. Более того, отсутствие единого метрического подхода к оценке эффективности датасетов делает их итоговую эффективность неоднозначной. В этой работе мы предлагаем новую методику построения датасетов, ориентированную на изображения, которая позволяет лучше учитывать реальные сценарии безопасности и обеспечивает более широкий и точный подход к их оценке. #### Метод Мы предлагаем изображение-ориентированный подход для сбора данных, который начинается с выбора сцен, связанных с мультимодальной безопасностью, затем автоматически строит текстовые ответы и рекомендации, основываясь на этих изображениях. Наша методика включает в себя несколько этапов: сбор изображений, описание их сцен, структурирование рекомендаций и текстовых ответов. Это позволяет создавать большие датасеты, содержащие различные сценарии, которые могут быть использованы для обучения и оценки безопасности. Мы также предлагаем метрику для оценки эффективности датасетов, основанную на том, как хорошо модель, обученная на данных, справляется с этими данными в других сценариях. Эта метрика помогает сравнивать различные датасеты и определять их уровень эффективности в реальных сценариях. #### Результаты Мы применили нашу методику для построения датасета, содержащего 35 000 изображение-текстовых пар с рекомендациями. Мы проверили эффективность этого подхода с помощью различных задач, включая оценку безопасности, распознавание объектов и анализ текста. Результаты показали, что наша методика дает значительный выигрыш в точности и общей эффективности по сравнению с другими методами. Мы также проверили нашу метрику, применяя ее к различным датасетам, и показали, что она обеспечивает надежный и универсальный подход к оценке безопасности. #### Значимость Наш подход может быть использован в различных областях, где требуется учет различных факторов безопасности в реальном мире. Например, он может применяться в транспортных системах, где сценарии безопасности разнообразны и сложны. Этот подход также может быть полезен для ра

Annotation:

Multimodal large language models (MLLMs) are rapidly evolving, presenting increasingly complex safety challenges. However, current dataset construction methods, which are risk-oriented, fail to cover the growing complexity of real-world multimodal safety scenarios (RMS). And due to the lack of a unified evaluation metric, their overall effectiveness remains unproven. This paper introduces a novel image-oriented self-adaptive dataset construction method for RMS, which starts with images and end c...

ID: 2509.04403v1 cs.CV, cs.CL, cs.CR

arXiv PDF

1
2
3
4
5
6

Показано 41 - 50 из 60 записей