📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mehdi Akbari Gurabi, Lasse Nitz, Radu-Mihai Castravet, Roman Matzutt, Avikarsha Mandal, Stefan Decker

**Резюме:** Существующие кибербезопастностные плейбуки часто представлены в неструктурированных, немашиночитаемых форматах, что ограничивает их автоматизацию и взаимодействие с платформами Security Orchestration, Automation, and Response (SOAR). Данная статья предлагает метод автоматического преобразования таких плейбуков в стандартизированный, машиночитаемый формат CACAO, используя большие языковые модели (LLM) и методы Prompt Engineering. Разработанный модульный пайплайн включает синтаксический анализатор для обеспечения корректности и итеративный механизм уточнения для уменьшения синтаксических ошибок. Исследование проведено на базе набора данных с разнообразными плейбуками и соответствующими ручными CACAO-спецификациями. Результаты показывают, что предложенный подход значительно улучшает точность преобразования, эффективно обрабатывает сложные структуры рабочих процессов и существенно сокращает ошибки, демонстрируя практическую применимость в автоматизации кибербезопасностных задач.
Annotation:
Existing cybersecurity playbooks are often written in heterogeneous, non-machine-readable formats, which limits their automation and interoperability across Security Orchestration, Automation, and Response platforms. This paper explores the suitability of Large Language Models, combined with Prompt Engineering, to automatically translate legacy incident response playbooks into the standardized, machine-readable CACAO format. We systematically examine various Prompt Engineering techniques and car...
ID: 2508.03342v1 cs.CR, cs.AI
Авторы:

Xingdan Wang, Jiayi He, Zhiqing Tang, Jianxiong Guo, Jiong Lou, Liping Qian, Tian Wang, Weijia Jia

**Резюме:** Распространение технологий типа ChatGPT и Claude порождает потребность в AI-агентах, способных обрабатывать задачи в реальном времени. Однако миграция данных интенсивных и многомодальных рабочих нагрузок на облачные центры обработки данных ведет к значительной задержке. Для решения этой проблемы предлагается развертывание AI-агентов на краевых устройствах, что повышает эффективность и снижает задержки. Тем не менее, краевые среды ограничены ресурсами и их гетерогенностью. Для обеспечения качества обслуживания (QoS) для мобильных пользователей необходима миграция агентов, которая становится сложной из-за сложности координации LLMs, планирования задач, памяти и внешних инструментов. В статье представлена первая систематическая методика для развертывания и управления AI-агентами на основе LLMs в динамических краевых средах. Авторы предложили новый адаптивный фреймворк для размещения и миграции агентов, основанный на алгоритмах муравьиной колонии и оптимизации LLMs. Этот фреймворк оптимизирует использование ресурсов и QoS, а также позволяет выполнять легковесную миграцию агентов путем переноса только необходимого состояния. Решение, реализованное на распределенной системе с использованием AgentScope и проверенное на глобально распределенных краевых серверах, значительно сокращает задержки развертывания и стоимость миграции.
Annotation:
The rise of LLMs such as ChatGPT and Claude fuels the need for AI agents capable of real-time task handling. However, migrating data-intensive, multi-modal edge workloads to cloud data centers, traditionally used for agent deployment, introduces significant latency. Deploying AI agents at the edge improves efficiency and reduces latency. However, edge environments present challenges due to limited and heterogeneous resources. Maintaining QoS for mobile users necessitates agent migration, which i...
ID: 2508.03345v1 cs.AI
Авторы:

Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu

**Резюме** Large Language Models (LLMs), основанные на Chain-of-Thought (CoT) prompting, эффективны в решении сложных задач, но генерируют громоздкие и избыточные последовательности рассуждений, что увеличивает затраты на вычисления и снижает эффективность. Для решения этой проблемы был предложен метод CoT-сжатия на основе понятия шагового энтропийного сжатия. Энтропия позволяет определить и устранить избыточные шаги рассуждений, сохраняя точность финального ответа. Эксперименты на математических бенчмарках показали, что 80% низкоэнтропийных шагов можно удалить без существенного ущерба для точности, в отличие от случайного или высокоэнтропийного удаления, которое сильно понижает производительность. Кроме того, была разработана двухэтапная стратегия обучения, которая включает Supervised Fine-Tuning (SFT) и Group Relative Policy Optimization (GRPO) для обучения LLMs генерировать сжатые CoT во время вывода. Этот подход значительно повышает эффективность вывода LLMs, сохраняя при этом высокую точность.
Annotation:
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at complex reasoning but generate verbose thought processes with considerable redundancy, leading to increased inference costs and reduced efficiency. We introduce a novel CoT compression framework based on step entropy, a metric that quantifies the informational contribution of individual reasoning steps to identify redundancy. Through theoretical analysis and extensive empirical validation on mathematical reasoning bench...
ID: 2508.03346v1 cs.AI
Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.
Annotation:
Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...
ID: 2508.03351v1 cs.CV, cs.AI, cs.CL
Авторы:

Feng Rui, Zhiyao Luo, Wei Wang, Yuting Song, Yong Liu, Tingting Zhu, Jianqing Li, Xingyao Wang

**Экстракт:** Автоматическая оценка когнитивного нарушения по сплошной речи является перспективным неинвазивным методом для раннего скрининга. Тем не менее, современные подходы часто ограничены в своей применимости из-за низкой универсальности при использовании в разных языковых и клинических контекстах. В данном исследовании авторы представляют CogBench — первую в своем роде систему тестирования для оценки кросс-лингвистической и межсайтовой генерализации больших языковых моделей (Large Language Models, LLMs) в задачах оценки когнитивного статуса на основе речи. Используя единый мультимодальный пайпейн, они проводят оценку на трех наборах данных (ADReSSo, NCMMSC2021-AD и CIR-E), представляющих английский и китайский языки. Результаты показывают, что традиционные модели глубокого обучения существенно теряют в эффективности при переносе между доменами. В отличие от них, LLMs, оснащенные методологией chain-of-thought prompting, демонстрируют более высокую адаптивность, хотя и остаются чувствительными к дизайну прикладного запроса. Кроме того, авторы показывают, что лёгкая файн-тюнинг-процедура LoRA (Low-Rank Adaptation) может значительно улучшить генерализацию LLMs в целевых доменах. Эти результаты открывают путь к созданию более универсальных и клинически применимых инструментов для оценки когнитивных нарушений на основе речи.
Annotation:
Automatic assessment of cognitive impairment from spontaneous speech offers a promising, non-invasive avenue for early cognitive screening. However, current approaches often lack generalizability when deployed across different languages and clinical settings, limiting their practical utility. In this study, we propose CogBench, the first benchmark designed to evaluate the cross-lingual and cross-site generalizability of large language models (LLMs) for speech-based cognitive impairment assessmen...
ID: 2508.03360v1 cs.AI
Авторы:

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

**Резюме:** С ростом интеграции больших языковых моделей в повседневную жизнь, аудио интерфейсы становятся ключевым элементом взаимодействия человека с ИИ. Однако этот контекст также создаёт новые угрозы, превращая аудио в потенциальную точку атаки. Исследование представляет WhisperInject — двухэтапный фреймворк для атак на аудио-языковые модели, способный вызывать вредоносные реакции, оставаясь незаметным для человеческого слушателя. На первом этапе, с помощью метода Reinforcement Learning with Projected Gradient Descent (RL-PGD), выполняется обход систем безопасности модели. На втором этапе, Payload Injection, используется Projected Gradient Descent (PGD) для внедрения тонких изменений в безопасные аудиозапросы, такие как погодные данные или приветствия. Результаты, проверенные на StrongREJECT, LlamaGuard и Human Evaluation, показывают успешность атак на модели Qwen2.5-Omni-3B, Qwen2.5-Omni-7B и Phi-4-Multimodal с проходной способностью более 86%. Эта работа выявляет практическую угрозу аудио-нативных атак, демонстрируя новый класс угроз для ИИ.
Annotation:
As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remai...
ID: 2508.03365v1 cs.SD, cs.AI, cs.CR, eess.AS
Авторы:

Michael K. Chen

Данная статья рассматривает проблему ограниченности текущих моделей глубокого обучения (LLMs) в области логического резонанса, особенно в контексте домен-агностических задач. Несмотря на недавний интерес к неуросимволическому AI, который интегрирует логические структуры в нейронные сети, многие модели не обладают достаточной интерпретируемостью и детерминированностью при решении задач логического вывода. Авторы определяют два основных подхода к этой проблеме: интегративный, где символический вывод встроен в нейронные сети, и гибридный, где символический вывод выполняется отдельным символическим решателем. Для сравнения этих подходов, авторы представляют две модели: Logic Neural Network (LNN) для интегративного подхода и LLM-Symbolic Solver (LLM-SS) для гибридного подхода. Исследование показывает, что гибридный подход является более перспективным для развития общего логического резонанса, благодаря более интерпретируемым логическим цепочкам и сохранению преимуществ существующих LLMs. Наконец, авторы предлагают общее, модульное и домен-агностическое фреймворк, основанное на LLM-SS, которое может быть использовано в будущих исследованиях.
Annotation:
General logical reasoning, defined as the ability to reason deductively on domain-agnostic tasks, continues to be a challenge for large language models (LLMs). Current LLMs fail to reason deterministically and are not interpretable. As such, there has been a recent surge in interest in neurosymbolic AI, which attempts to incorporate logic into neural networks. We first identify two main neurosymbolic approaches to improving logical reasoning: (i) the integrative approach comprising models where ...
ID: 2508.03366v1 cs.AI, cs.CL, cs.LG, cs.SC
Авторы:

Lucia Cipolina-Kun, Marianna Nezhurina, Jenia Jitsev

**Резюме:** В статье представлен фреймворк Board Game Arena, предназначенный для оценки способностей крупных языковых моделей (LLM) к стратегическому принятию решений через игры. Используя библиотеку Google OpenSpiel, фреймворк обеспечивает систематическое сравнение LLM-агентов с другими типами агентов (случайными, человеческими, обученными усилением) в различных типах игр. Он поддерживает интеграцию с API моделей через LiteLLM, локальную развёртку моделей с vLLM и распределённое выполнение задач через Ray. Также предлагаются инструменты для детального анализа процессов резонирования LLM. Результаты показывают, что фреймворк эффективен для эмпирической оценки способностей LLMs к логическому мышлению и игротеоретическому поведению, предоставляя солидную базу для дальнейшего исследования в этой области.
Annotation:
The Board Game Arena library provides a framework for evaluating the decision making abilities of large language models (LLMs) through strategic board games implemented in Google OpenSpiel library. The framework enables systematic comparisons between LLM based agents and other agents (random, human, reinforcement learning agents, etc.) in various game scenarios by wrapping multiple board and matrix games and supporting different agent types. It integrates API access to models via LiteLLM, local ...
ID: 2508.03368v1 cs.AI, cs.GT
Авторы:

Wenxin Mao, Zhitao Wang Long Wang, Sirong Chen, Cuiyun Gao, Luyang Cao, Ziming Liu, Qiming Zhang, Jun Zhou, Zhi Jin

**Резюме:** Люки языковых моделей (LLM) демонстрируют высокую эффективность в генерации кода из натуральных текстов. Однако текстовые описания часто недостаточно точны для представления сложных требований, таких как сложные поведения системы, условные логики и архитектурные ограничения. Особенно трудно обработать неявные зависимости данных в сервис-ориентированных архитектурах. Для решения этой проблемы, авторы предлагают новый фреймворк UML2Dep, основанный на формальных спецификациях. Они расширяют UML-диаграммы последовательностей, включая в них диаграммы решений и API-спецификации, что позволяет формализовать структурные отношения и бизнес-логику в сервисных взаимодействиях. Далее, они вводят задачу вывода зависимостей данных (DDI), которая строит явную графическую модель зависимостей перед генерацией кода. Задача DDI формализуется как задача решения математических ограничений, используя стратегии промптинга, что позволяет выявить зависимости данных более точно и эффективно. Дополнительная статическая обработка и очистка графа зависимостей снижает контекстную сложность и повышает точность вывода. Ключевым результатом работы является разработка метода, который позволяет генерировать код на основе более точных и формальных спецификаций, снимая неопределённость и повышая точность генерации кода.
Annotation:
Large language models (LLMs) excel at generating code from natural language (NL) descriptions. However, the plain textual descriptions are inherently ambiguous and often fail to capture complex requirements like intricate system behaviors, conditional logic, and architectural constraints; implicit data dependencies in service-oriented architectures are difficult to infer and handle correctly. To bridge this gap, we propose a novel step-by-step code generation framework named UML2Dep by leveragin...
ID: 2508.03379v1 cs.AI, cs.SE
Авторы:

Muhammad Zohaib, Muhammad Azeem Akbar, Sami Hyrynsalmi, Arif Ali Khan

**Резюме** Возникновение агентных систем ИИ в бизнесе программного обеспечения 6G открывает новые возможности для автономности, масштабируемости и интеллектуального принятия решений в распределенных средах. Однако их внедрение сталкивается с значительными вызовами, такими как техническая незрелость, сложность интеграции, готовность организаций и компромиссы между производительностью и затратами. В работе представлена предварительная тематическая картировка, основанная на многовольном обзоре литературы и целенаправленном исследовании. Идентифицированы 29 факторов, стимулирующих внедрение агентных систем, и 27 факторов, тормозящих его. Эти факторы сгруппированы в пять ключевых тем в каждой группе. Эта работа является начальным этапом более широкого исследования, направленного на разработку и валидацию сложной модели зрелости, основанной на модели CMMI и трех архитектурных измерениях: Данные, Бизнес-логика и Представление. Целью является создание практического фреймворка, помогающего организациям оценивать и развивать свои агентные возможности в соответствии с требованиями 6G.
Annotation:
The emergence of agentic AI systems in 6G software businesses presents both strategic opportunities and significant challenges. While such systems promise increased autonomy, scalability, and intelligent decision-making across distributed environments, their adoption raises concerns regarding technical immaturity, integration complexity, organizational readiness, and performance-cost trade-offs. In this study, we conducted a preliminary thematic mapping to identify factors influencing the adopti...
ID: 2508.03393v1 cs.SE, cs.AI
Показано 14371 - 14380 из 14425 записей