📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mari Ashiga, Vardan Voskanyan, Fateme Dinmohammadi, Jingzhi Gong, Paul Brookes, Matthew Truscott, Rafail Giavrimis, Mike Basios, Leslie Kanthan, Wei Jie

Недавние усовершенствования Large Language Models (LLM) открыли новые возможности для автоматизации кодовой оптимизации на промышленном уровне. Однако для организаций в регулируемых отраслях существуют строгие ограничения на использование коммерческих моделей из-за требований конфиденциальности данных и соответствия нормативным требованиям. Для решения этой проблемы предлагается подход Mixture-of-Agents (MoA), который использует несколько специализированных LLMs для синтеза кода. Метод был протестирован на реальных промышленных кодовых базах и сравнивался с Генетическим Алгоритмом (GA) и индивидуальными LLM-оптимизаторами. Результаты показали, что MoA позволяет достичь значительных экономий (14,3-22,2%) и увеличить скорость оптимизации (28,6-32,2%) в регулируемых средах. GA оказался более эффективен с коммерческими моделями, но оба подхода превосходят индивидуальные LLMs. Эксперименты на 50 фрагментах кода и семи комбинациях LLMs подтвердили эффективность подхода в реальных условиях.
Annotation:
Recent advancements in Large Language Models (LLMs) for code optimization have enabled industrial platforms to automate software performance engineering at unprecedented scale and speed. Yet, organizations in regulated industries face strict constraints on which LLMs they can use - many cannot utilize commercial models due to data privacy regulations and compliance requirements, creating a significant challenge for achieving high-quality code optimization while maintaining cost-effectiveness. We...
ID: 2508.03329v1 cs.SE, cs.AI
Авторы:

He Xiao, Qingyao Yang, Dirui Xie, Wendong Xu, Wenyong Zhou, Haobo Liu, Zhengwu Liu, Ngai Wong

В статье рассматривается проблема эффективности информационного контента слоев в малых языковых моделях, где многие слои не несут значительного уникального вклада, но существенно влияют на память и энергопотребление во время вычислений. Для решения этой проблемы предлагается метод LieQ — метрический подход к пост-тренировочной квантизации, направленный на поддержание точности моделей менее 7 миллиардов параметров при крайне низкой битовой глубине. Метод основан на трех диагностических показателях: Perplexity Drop, Representational Compactness и Top-k Energy Gain, которые позволяют определить оптимальное распределение битовых ширин слоев без необходимости обновления градиентов. Эксперименты показывают, что LieQ достигает нового уровня сжатия-точности: для модели Qwen3-4B восстанавливается 95,9% производительности FP16 при 2,05-битной квантизации, превосходя GPTQ и AWQ на 19,7% и 18,1% соответственно. Для LLaMA3.2-3B достигается 98,2% точности при 2,07-битной квантизации, обеспечивая снижение потребления памяти в 4 раза. Эти результаты открывают новые возможности для развертывания малых языковых моделей на ресурсоограниченных устройствах.
Annotation:
Large language models with billions of parameters are often over-provisioned: many layers contribute little unique information yet dominate the memory and energy footprint during inference. We present LieQ, a metric-driven post-training quantization framework that addresses the critical challenge of maintaining accuracy in sub-7B models under extreme low-bit compression. Our method introduces three complementary layer-wise diagnostics-Perplexity Drop, Representational Compactness, and Top-k Ener...
ID: 2508.03332v1 cs.LG, cs.AI
Авторы:

Zhende Song, Shengji Tang, Peng Ye, Jiayuan Fan, Tao Chen

**Резюме** Test-time scaling (TTS) является перспедвидной областью исследований, направленной на повышение эффективности больших языковых моделей (LLMs) без дополнительного обучения. Однако существующие подходы, такие как Best-of-N и Self-Consistency, ограничены моделью с одним агентом, взаимодействующим с моделью вознаграждения (SA-SR), что не позволяет полностью реализовать потенциал метода. Недавние исследования показывают, что методы, основанные на коллективных агентах, могут преодолевать пределы производительности одноагентных систем за счёт координации разнообразных моделей. В данной работе предлагается новый подход Collective Test-Time Scaling (CTTS), охватывающий три основных парадигмы взаимодействия: один агент с несколькими моделями вознаграждения (SA-MR), несколько агентов с одной моделью вознаграждения (MA-SR) и несколько агентов с несколькими моделями вознаграждения (MA-MR). Результаты экспериментов показывают, что MA-MR является наиболее эффективной парадигмой. На этой основе разработан новый фреймворк CTTS-MM, который объединяет совместную работу нескольких агентов (Agent Collaboration Search, ACS) и нескольких моделей вознаграждения (Mixture of Reward Models, MoR) для оптимизации вывода. Эксперименты на семи популярных бенчмарках подтверждают превосходство CTTS-MM.
Annotation:
Test-time scaling (TTS) has emerged as a promising research field for enhancing the effectiveness of large language models (LLMs) without extra training. However, most existing approaches, e.g., Best-of-N and Self-Consistency rely on a single agent interacting with a reward model (SA-SR), constrained by limited capabilities of a single test-time scaling (STTS) paradigm. On the other hand, recent works demonstrate that collective-agent methods can break through the upper bound of single-agent sys...
ID: 2508.03333v1 cs.CL, cs.AI
Авторы:

Jiayan Nan, Wenquan Ma, Wenlong Wu, Yize Chen

**Резюме:** В статье представлена архитектура Nemori — инновационная самоорганизующаяся система памяти для автономных агентов, вдохновленная принципами когнитивной науки. Существующие методы обработки памяти в моделях языка (LLMs) страдают от неспособности сохранять постоянную память в длинных контекстах и ограниченности пассивными, правилом управляемыми механизмами. Nemori решает эту проблему, используя два ключевых принципа: **Two-Step Alignment Principle**, основанный на Event Segmentation Theory, который разбивает неструктурированные диалоги на семантически единые эпизоды, и **Predict-Calibrate Principle**, вдохновленный Free-energy Principle, позволяющий агенту адаптивно обучаться из прогнозных разногласий. Эксперименты на LoCoMo и LongMemEval показывают, что Nemori значительно превосходит существующие системы, особенно в длинных контекстах, открывая путь к эффективным динамическим рабочим процессам автономных агентов.
Annotation:
Large Language Models (LLMs) demonstrate remarkable capabilities, yet their inability to maintain persistent memory in long contexts limits their effectiveness as autonomous agents in long-term interactions. While existing memory systems have made progress, their reliance on arbitrary granularity for defining the basic memory unit and passive, rule-based mechanisms for knowledge extraction limits their capacity for genuine learning and evolution. To address these foundational limitations, we pre...
ID: 2508.03341v1 cs.AI
Авторы:

Mehdi Akbari Gurabi, Lasse Nitz, Radu-Mihai Castravet, Roman Matzutt, Avikarsha Mandal, Stefan Decker

**Резюме:** Существующие кибербезопастностные плейбуки часто представлены в неструктурированных, немашиночитаемых форматах, что ограничивает их автоматизацию и взаимодействие с платформами Security Orchestration, Automation, and Response (SOAR). Данная статья предлагает метод автоматического преобразования таких плейбуков в стандартизированный, машиночитаемый формат CACAO, используя большие языковые модели (LLM) и методы Prompt Engineering. Разработанный модульный пайплайн включает синтаксический анализатор для обеспечения корректности и итеративный механизм уточнения для уменьшения синтаксических ошибок. Исследование проведено на базе набора данных с разнообразными плейбуками и соответствующими ручными CACAO-спецификациями. Результаты показывают, что предложенный подход значительно улучшает точность преобразования, эффективно обрабатывает сложные структуры рабочих процессов и существенно сокращает ошибки, демонстрируя практическую применимость в автоматизации кибербезопасностных задач.
Annotation:
Existing cybersecurity playbooks are often written in heterogeneous, non-machine-readable formats, which limits their automation and interoperability across Security Orchestration, Automation, and Response platforms. This paper explores the suitability of Large Language Models, combined with Prompt Engineering, to automatically translate legacy incident response playbooks into the standardized, machine-readable CACAO format. We systematically examine various Prompt Engineering techniques and car...
ID: 2508.03342v1 cs.CR, cs.AI
Авторы:

Xingdan Wang, Jiayi He, Zhiqing Tang, Jianxiong Guo, Jiong Lou, Liping Qian, Tian Wang, Weijia Jia

**Резюме:** Распространение технологий типа ChatGPT и Claude порождает потребность в AI-агентах, способных обрабатывать задачи в реальном времени. Однако миграция данных интенсивных и многомодальных рабочих нагрузок на облачные центры обработки данных ведет к значительной задержке. Для решения этой проблемы предлагается развертывание AI-агентов на краевых устройствах, что повышает эффективность и снижает задержки. Тем не менее, краевые среды ограничены ресурсами и их гетерогенностью. Для обеспечения качества обслуживания (QoS) для мобильных пользователей необходима миграция агентов, которая становится сложной из-за сложности координации LLMs, планирования задач, памяти и внешних инструментов. В статье представлена первая систематическая методика для развертывания и управления AI-агентами на основе LLMs в динамических краевых средах. Авторы предложили новый адаптивный фреймворк для размещения и миграции агентов, основанный на алгоритмах муравьиной колонии и оптимизации LLMs. Этот фреймворк оптимизирует использование ресурсов и QoS, а также позволяет выполнять легковесную миграцию агентов путем переноса только необходимого состояния. Решение, реализованное на распределенной системе с использованием AgentScope и проверенное на глобально распределенных краевых серверах, значительно сокращает задержки развертывания и стоимость миграции.
Annotation:
The rise of LLMs such as ChatGPT and Claude fuels the need for AI agents capable of real-time task handling. However, migrating data-intensive, multi-modal edge workloads to cloud data centers, traditionally used for agent deployment, introduces significant latency. Deploying AI agents at the edge improves efficiency and reduces latency. However, edge environments present challenges due to limited and heterogeneous resources. Maintaining QoS for mobile users necessitates agent migration, which i...
ID: 2508.03345v1 cs.AI
Авторы:

Zeju Li, Jianyuan Zhong, Ziyang Zheng, Xiangyu Wen, Zhijian Xu, Yingying Cheng, Fan Zhang, Qiang Xu

**Резюме** Large Language Models (LLMs), основанные на Chain-of-Thought (CoT) prompting, эффективны в решении сложных задач, но генерируют громоздкие и избыточные последовательности рассуждений, что увеличивает затраты на вычисления и снижает эффективность. Для решения этой проблемы был предложен метод CoT-сжатия на основе понятия шагового энтропийного сжатия. Энтропия позволяет определить и устранить избыточные шаги рассуждений, сохраняя точность финального ответа. Эксперименты на математических бенчмарках показали, что 80% низкоэнтропийных шагов можно удалить без существенного ущерба для точности, в отличие от случайного или высокоэнтропийного удаления, которое сильно понижает производительность. Кроме того, была разработана двухэтапная стратегия обучения, которая включает Supervised Fine-Tuning (SFT) и Group Relative Policy Optimization (GRPO) для обучения LLMs генерировать сжатые CoT во время вывода. Этот подход значительно повышает эффективность вывода LLMs, сохраняя при этом высокую точность.
Annotation:
Large Language Models (LLMs) using Chain-of-Thought (CoT) prompting excel at complex reasoning but generate verbose thought processes with considerable redundancy, leading to increased inference costs and reduced efficiency. We introduce a novel CoT compression framework based on step entropy, a metric that quantifies the informational contribution of individual reasoning steps to identify redundancy. Through theoretical analysis and extensive empirical validation on mathematical reasoning bench...
ID: 2508.03346v1 cs.AI
Авторы:

Yufei Xue, Yushi Huang, Jiawei Shao, Jun Zhang

**Резюме:** В статье представлен новый метод пост-тренировочной квантовки (PTQ) для эффективной компрессии крупных моделей визуально-языкового моделирования (VLM). Основная проблема заключается в несоответствии модальностей VLM: количество текстовых токенов ограничено, в то время как визуальные токены часто избыточны и излишне детализированы. Традиционные методы PTQ, основанные на гессиане и разработанные для крупных языковых моделей (LLM), не учитывают этот дисбаланс, что приводит к существенным потерям в производительности при применении к VLM. Для решения этой проблемы, авторы предложили VLMQ — фреймворк, оптимизированный для VLM. VLMQ использует объектив, учитывающий важность токенов, и вычисляет усиленный гессиан с токено-зависимыми факторами важности. Это позволяет сохранить эффективность параллелизируемых обновлений весов. Оптимизация выполняется через легковесный блочно-ориентированный бэкпроп, основанный на теоретической связи с токенно-уровневыми возмущениями. Эксперименты на 8 наборах данных показали, что VLMQ достигает нового уровня производительности, особенно при низкобитной квантовке. Например, под 2-битной квантовкой VLMQ показывает повышение производительности на **16.45%** на данных MME-RealWorld.
Annotation:
Post-training quantization (PTQ) has emerged as an effective approach for compressing large models and accelerating their inference without retraining. While PTQ has been extensively studied in the context of large language models (LLMs), its applicability to vision-language models (VLMs) remains underexplored. In this paper, we identify a modality discrepancy (\emph{i.e.}, limited text tokens \emph{vs.} excessive and redundant vision tokens) of VLMs. However, existing Hessian-based LLM PTQ meth...
ID: 2508.03351v1 cs.CV, cs.AI, cs.CL
Авторы:

Feng Rui, Zhiyao Luo, Wei Wang, Yuting Song, Yong Liu, Tingting Zhu, Jianqing Li, Xingyao Wang

**Экстракт:** Автоматическая оценка когнитивного нарушения по сплошной речи является перспективным неинвазивным методом для раннего скрининга. Тем не менее, современные подходы часто ограничены в своей применимости из-за низкой универсальности при использовании в разных языковых и клинических контекстах. В данном исследовании авторы представляют CogBench — первую в своем роде систему тестирования для оценки кросс-лингвистической и межсайтовой генерализации больших языковых моделей (Large Language Models, LLMs) в задачах оценки когнитивного статуса на основе речи. Используя единый мультимодальный пайпейн, они проводят оценку на трех наборах данных (ADReSSo, NCMMSC2021-AD и CIR-E), представляющих английский и китайский языки. Результаты показывают, что традиционные модели глубокого обучения существенно теряют в эффективности при переносе между доменами. В отличие от них, LLMs, оснащенные методологией chain-of-thought prompting, демонстрируют более высокую адаптивность, хотя и остаются чувствительными к дизайну прикладного запроса. Кроме того, авторы показывают, что лёгкая файн-тюнинг-процедура LoRA (Low-Rank Adaptation) может значительно улучшить генерализацию LLMs в целевых доменах. Эти результаты открывают путь к созданию более универсальных и клинически применимых инструментов для оценки когнитивных нарушений на основе речи.
Annotation:
Automatic assessment of cognitive impairment from spontaneous speech offers a promising, non-invasive avenue for early cognitive screening. However, current approaches often lack generalizability when deployed across different languages and clinical settings, limiting their practical utility. In this study, we propose CogBench, the first benchmark designed to evaluate the cross-lingual and cross-site generalizability of large language models (LLMs) for speech-based cognitive impairment assessmen...
ID: 2508.03360v1 cs.AI
Авторы:

Bodam Kim, Hiskias Dingeto, Taeyoun Kwon, Dasol Choi, DongGeon Lee, Haon Park, JaeHoon Lee, Jongho Shin

**Резюме:** С ростом интеграции больших языковых моделей в повседневную жизнь, аудио интерфейсы становятся ключевым элементом взаимодействия человека с ИИ. Однако этот контекст также создаёт новые угрозы, превращая аудио в потенциальную точку атаки. Исследование представляет WhisperInject — двухэтапный фреймворк для атак на аудио-языковые модели, способный вызывать вредоносные реакции, оставаясь незаметным для человеческого слушателя. На первом этапе, с помощью метода Reinforcement Learning with Projected Gradient Descent (RL-PGD), выполняется обход систем безопасности модели. На втором этапе, Payload Injection, используется Projected Gradient Descent (PGD) для внедрения тонких изменений в безопасные аудиозапросы, такие как погодные данные или приветствия. Результаты, проверенные на StrongREJECT, LlamaGuard и Human Evaluation, показывают успешность атак на модели Qwen2.5-Omni-3B, Qwen2.5-Omni-7B и Phi-4-Multimodal с проходной способностью более 86%. Эта работа выявляет практическую угрозу аудио-нативных атак, демонстрируя новый класс угроз для ИИ.
Annotation:
As large language models become increasingly integrated into daily life, audio has emerged as a key interface for human-AI interaction. However, this convenience also introduces new vulnerabilities, making audio a potential attack surface for adversaries. Our research introduces WhisperInject, a two-stage adversarial audio attack framework that can manipulate state-of-the-art audio language models to generate harmful content. Our method uses imperceptible perturbations in audio inputs that remai...
ID: 2508.03365v1 cs.SD, cs.AI, cs.CR, eess.AS
Показано 33961 - 33970 из 34022 записей