📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 AutoGuard: A Self-Healing Proactive Security Layer for DevSecOps Pipelines Using Reinforcement Learning

2025-12-05

Авторы:

Praveen Anugula, Avdhesh Kumar Bhardwaj, Navin Chhibber, Rohit Tewari, Sunil Khemka, Piyush Ranjan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Contemporary DevSecOps pipelines have to deal with the evolution of security in an ever-continuously integrated and deployed environment. Existing methods,such as rule-based intrusion detection and static vulnerability scanning, are inadequate and unreceptive to changes in the system, causing longer response times and organization needs exposure to emerging attack vectors. In light of the previous constraints, we introduce AutoGuard to the DevSecOps ecosystem, a reinforcement learning (RL)-power...

ID: 2512.04368v1 cs.CR, cs.AI, cs.LG, cs.PF

arXiv PDF

📄 Reducing Latency of LLM Search Agent via Speculation-based Algorithm-System Co-Design

2025-11-26

Авторы:

Zixiao Huang, Wen Zeng, Tianyu Fu, Tengxuan Liu, Yizhou Sun, Ke Hong, Xinhao Yang, Chengchun Liu, Yan Li, Quanlu Zhang, Guohao Dai, Zhenhua Zhu, Yu Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

LLM-based search agents achieve strong performance but suffer from severe latency, as each step requires serialized LLM reasoning followed by action of tool execution. We revisit this bottleneck through the lens of speculation. While traditional predict-verify speculation paradigm can break serial execution, its benefit remains limited, as it retains the full original workload and adds extra inference overhead. We observe that early agent steps often involve simple evidence-gathering, where corr...

ID: 2511.20048v1 cs.AI, cs.LG, cs.PF

arXiv PDF

📄 Efficient Chromosome Parallelization for Precision Medicine Genomic Workflows

2025-11-22

Авторы:

Daniel Mas Montserrat, Ray Verma, Míriam Barrabés, Francisco M. de la Vega, Carlos D. Bustamante, Alexander G. Ioannidis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large-scale genomic workflows used in precision medicine can process datasets spanning tens to hundreds of gigabytes per sample, leading to high memory spikes, intensive disk I/O, and task failures due to out-of-memory errors. Simple static resource allocation methods struggle to handle the variability in per-chromosome RAM demands, resulting in poor resource utilization and long runtimes. In this work, we propose multiple mechanisms for adaptive, RAM-efficient parallelization of chromosome-leve...

ID: 2511.15977v1 cs.DC, cs.AI, cs.LG, cs.PF, q-bio.GN

arXiv PDF

📄 Think-at-Hard: Selective Latent Iterations to Improve Reasoning Language Models

2025-11-15

Авторы:

Tianyu Fu, Yichen You, Zekai Chen, Guohao Dai, Huazhong Yang, Yu Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Improving reasoning capabilities of Large Language Models (LLMs), especially under parameter constraints, is crucial for real-world applications. Prior work proposes recurrent transformers, which allocate a fixed number of extra iterations per token to improve generation quality. After the first, standard forward pass, instead of verbalization, last-layer hidden states are fed back as inputs for additional iterations to refine token predictions. Yet we identify a latent overthinking phenomenon: ...

ID: 2511.08577v1 cs.CL, cs.AI, cs.LG, cs.PF

arXiv PDF

📄 OMPILOT: Harnessing Transformer Models for Auto Parallelization to Shared Memory Computing Paradigms

2025-11-08

Авторы:

Arijit Bhattacharjee, Ali TehraniJamsaz, Le Chen, Niranjan Hasabnis, Mihai Capota, Nesreen Ahmed, Ali Jannesari

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in large language models (LLMs) have significantly accelerated progress in code translation, enabling more accurate and efficient transformation across programming languages. While originally developed for natural language processing, LLMs have shown strong capabilities in modeling programming language syntax and semantics, outperforming traditional rule-based systems in both accuracy and flexibility. These models have streamlined cross-language conversion, reduced development ov...

ID: 2511.03866v1 cs.DC, cs.AI, cs.LG, cs.PF, cs.PL

arXiv PDF

📄 Multi-Dimensional Autoscaling of Stream Processing Services on Edge Devices

2025-10-10

Авторы:

Boris Sedlak, Philipp Raith, Andrea Morichetta, Víctor Casamayor Pujol, Schahram Dustdar

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Edge devices have limited resources, which inevitably leads to situations where stream processing services cannot satisfy their needs. While existing autoscaling mechanisms focus entirely on resource scaling, Edge devices require alternative ways to sustain the Service Level Objectives (SLOs) of competing services. To address these issues, we introduce a Multi-dimensional Autoscaling Platform (MUDAP) that supports fine-grained vertical scaling across both service- and resource-level dimensions. ...

ID: 2510.06882v1 cs.DC, cs.AI, cs.LG, cs.PF

arXiv PDF

📄 Regression Language Models for Code

2025-10-02

Авторы:

Yash Akhauri, Xingyou Song, Arissa Wongpanich, Bryan Lewandowski, Mohamed S. Abdelfattah

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We study code-to-metric regression: predicting numeric outcomes of code executions, a challenging task due to the open-ended nature of programming languages. While prior methods have resorted to heavy and domain-specific feature engineering, we show that a single unified Regression Language Model (RLM) can simultaneously predict directly from text, (i) the memory footprint of code across multiple high-level languages such as Python and C++, (ii) the latency of Triton GPU kernels, and (iii) the a...

ID: 2509.26476v1 cs.CL, cs.AI, cs.LG, cs.PF, cs.SE

arXiv PDF

📄 Fast-SEnSeI: Lightweight Sensor-Independent Cloud Masking for On-board Multispectral Sensors

2025-09-27

Авторы:

Jan Kněžík, Jonáš Herec, Rado Pitoňák

## Контекст Область исследования астрономии и космонавтики широко использует спутниковые данные для анализа земной поверхности и внеземных объектов. Одной из ключевых задач в этой области является обнаружение и исключение облаков из изображений, так как они могут серьезно затруднить выполнение таких задач, как картирование поверхности, измерение температурных параметров и другие. Несмотря на появление различных моделей глубокого обучения для облачного очистки, они часто сталкиваются с проблемами, связанными с необходимостью настройки для конкретных спутниковых сенсоров и их ограничениями по количеству спектральных каналов. Эта ситуация приводит к относительному ограничению гибкости и эффективности их применения в реальных условиях. В этом контексте было создано новое решение, Fast-SEnSeI, которое предлагает многоцелевой подход к облачному очистке, основанным на гибкой, сенсорно независимой архитектуре. ## Метод Fast-SEnSeI представляет собой новую модель, которая использует легковесную архитектуру предобработки для сенсорно независимого облачного очистки. Эта модель состоит из модуля Fast-SEnSeI-Encoder, который способен обрабатывать спектральные данные многоканальных сенсоров, независимо от их конфигурации. Используя усовершенствованный спектральный дескриптор, новая модель может обрабатывать данные с различными частотными диапазонами, включая нестандартные варианты. Для финальной сегментации облаков используется компактная модель сегментации на основе модифицированного U-Net, которая оптимизирована для работы на FPGA. Модель весьма эффективна и может быть развернута на пространственно-квалифицированном оборудовании. Для повышения эффективности, Fast-SEnSeI применяет аппаратно-программную архитектуру, в которой модуль обработки данных работает на CPU, а модель сегментации запускается на FPGA, обеспечивая высокую производительность и низкий потребление энергии. ## Результаты Для оценки эффективности Fast-SEnSeI проводились эксперименты на двух наборах данных: Sentinel-2 и Landsat 8. Эти данные отличаются различными конфигурациями спектральных каналов и различными условиями облачности. Результаты показали, что модель Fast-SEnSeI демонстрирует высокую точность разделения облаков, независимо от конфигурации сенсора, и показывает высокую скорость работы на эмбеддденных процессорах. Также было проверено, что модель хорошо справляется с разными условиями облачности, включая сложные сцены с миксем облаков и земной поверхности. ## Значимость Результаты Fast-SEnSeI могут быть применены в различных сферах, таких как картирование земли, измерение температурных параметров, изучение природных ресурсо

Annotation:

Cloud segmentation is a critical preprocessing step for many Earth observation tasks, yet most models are tightly coupled to specific sensor configurations and rely on ground-based processing. In this work, we propose Fast-SEnSeI, a lightweight, sensor-independent encoder module that enables flexible, on-board cloud segmentation across multispectral sensors with varying band configurations. Building upon SEnSeI-v2, Fast-SEnSeI integrates an improved spectral descriptor, lightweight architecture,...

ID: 2509.20991v1 cs.CV, cs.AI, cs.LG, cs.PF

arXiv PDF

📄 Pushing the Envelope of LLM Inference on AI-PC

2025-08-13

Авторы:

Evangelos Georganas, Dhiraj Kalamkar, Alexander Heinecke

## Контекст Сложность и высокая стоимость работы с традиционными трансформационными моделями языков (LLM) ограничивают их приложения в ресурс-критических средах, таких как edge devices и AI PCs. Однако недавние достижения в области quantization (сжатия моделей), позволяющие создавать ultra-low-bit LLM с точностью и end-task performance, приближающейся к full-precision моделям, открывают новые пути к интересующим средам. Тем не менее, текущие state-of-the-art (SOTA) inference runtimes для таких моделей недостаточно эффективны, что ограничивает потенциал таких разработок в средах с ограниченными ресурсами. В настоящей работе рассматривается стремление к оптимизации этих технологий, чтобы раскрыть их потенциал в реальной среде. ## Метод Мы реализуем 1- и 2-bit microkernels, оптимизированные для современных CPU, чтобы добиться максимальной вычислительной эффективности. Эти микроядра интегрируются в SOTA LLM inference framework PyTorch-TPP. Используя модели с 2-битным сжатием, мы сравниваем их производительность с 16-битными и SOTA runtime bitnet.cpp. Этот подход позволяет экспериментировать с различными CPU-платформами и обеспечивает полное оценивание интересующих нас результатов. ## Результаты Наши 1- и 2-bit microkernels показали значительные выигрыши в производительности по сравнению с 16-битными моделями и SOTA runtime bitnet.cpp. Мы достигли скорости выполнения (speedup) до 7x в сравнении с 16-битными моделями и до 2.2x по сравнению с bitnet.cpp. Эти результаты достигаются благодаря оптимизированному процессу quantization и микроядерной оптимизации, которые особенно эффективны на ресурс-критичных системах. ## Значимость Наш подход открывает новые возможности для эффективного использования ultra-low-bit LLM на edge devices и AI PCs. Значительное увеличение скорости и энергоэффективности делает такие модели более доступными для реализации в реальных средах. Это может привести к новым приложениям в области языковых моделей, таких как встраиваемые системы, видеонаблюдение и другие AI-enabled системы. ## Выводы Мы показали, что с помощью оптимизированного microkernel design и SOTA framework PyTorch-TPP можно достичь высокой производительности для ultra-low-bit LLM на AI PCs и edge devices. Это работа открывает новые пути для будущих исследований в области эффективного LLM inference в ресурс-критичных средах.

Annotation:

The advent of ultra-low-bit LLM models (1/1.58/2-bit), which match the perplexity and end-task performance of their full-precision counterparts using the same model size, is ushering in a new era of LLM inference for resource-constrained environments such as edge devices and AI PCs. While these quantization advances promise models that are more cost-effective in terms of latency, memory, throughput, and energy consumption, the computational efficiency of state-of-the-art (SOTA) inference runtime...

ID: 2508.06753v1 cs.AI, cs.LG, cs.PF

arXiv PDF