📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Balancing Information Accuracy and Response Timeliness in Networked LLMs

2025-08-09

Авторы:

Yigit Turkmen, Baturalp Buyukates, Melih Bastopcu

## Контекст Сетьные Large Language Models (LLMs) затрагивают многие области, включая научные исследования, генерацию контента, выделение информации в текстах биомедицины и развитие образовательных технологий. Однако потребность в больших объемах данных, высоких затратах вычислительных ресурсов и энергии ограничивают их практическое применение. Уменьшение размера моделей и их специализация на определенные темы могут повысить эффективность. В этой работе рассматривается сетевая система LLM, включающую пользователей, центральный процессор задач и кластеры специализированных моделей. Участники отправляют вопросы в виде категориальных бинарных запросов, которые обрабатываются и агрегируются для формирования окончательных ответов. Мы изучаем как точность ответов, так и время их получения. ## Метод Мы предлагаем сетевую систему LLM, где пользователи отправляют запросы в виде бинарных вопросов, а задачи распределяются процессором задач между кластерами моделей. Каждая модель в кластере обрабатывает отдельный запрос, а их ответы агрегируются процессором. Мы оптимизируем два метрики: точность ответов и время их получения. Используемые данные включают различные тематические базы, а алгоритмы агрегации ответов производятся с учетом показателей качества отдельных моделей. ## Результаты Используя эксперименты с различными темами и размерами кластеров, мы показали, что агрегированные ответы показывают значительно вышу точность по сравнению с ответами от отдельных моделей. Это особенно видно, когда модели имеют близкий уровень качества отдельного работы. Общий ответ получается более точным, так как отдельные модели компенсируют друг другу слабые места. Время ответа также снижается в силу распараллеливания задач. ## Значимость Наша работа имеет применение в области обработки текстовых данных, в том числе в выделении информации и синтезе текста. Она позволяет улучшить качество ответов, обеспечивая быстрый и точный ответ. Это может иметь значительное влияние в приложениях, где срочность решения задачи является критической. ## Выводы Мы доказали, что сетевая система LLM, объединяющая несколько моделей, позволяет повысить качество ответов, оптимизируя компромисс между точностью и скоростью получения результата. Будущие исследования будут сфокусированы на дальнейшей оптимизации алгоритмов агрегирования и изучении результатов на более больших данных и сложных задачах.

Annotation:

Recent advancements in Large Language Models (LLMs) have transformed many fields including scientific discovery, content generation, biomedical text mining, and educational technology. However, the substantial requirements for training data, computational resources, and energy consumption pose significant challenges for their practical deployment. A promising alternative is to leverage smaller, specialized language models and aggregate their outputs to improve overall response quality. In this w...

ID: 2508.02209v1 cs.LG, cs.AI, cs.IT, cs.NI, math.IT

arXiv PDF

📄 Flexible Automatic Identification and Removal (FAIR)-Pruner: An Efficient Neural Network Pruning Method

2025-08-09

Авторы:

Chenqing Lin, Mostafa Hussien, Chengyao Yu, Mohamed Cheriet, Osama Abdelrahman, Ruixing Ming

#### Контекст Neural network pruning является важным методом сжатия моделей, позволяющим развертывать сложные нейронные сети на устройствах с ограниченными ресурсами. Оно сосредотачивается на удалении ненужных или менее важных параметров, чтобы уменьшить вычислительный и памятный overhead. Несмотря на его полезность, существуют проблемы: многие методы используют экспериментальный подход, применяют униформные скопы по-умолчанию или не эффективно используют своевременную оценку важности параметров. Эти ограничения приводят к неэффективности в подготовке моделей, особенно при необходимости быстрого увеличения или уменьшения модели. FAIR-Pruner предлагает новый подход для автоматического и гибкого управления процессом pruning. #### Метод FAIR-Pruner представляет собой метод структурного pruning, основанный на оценке важности каждого unit-а (e.g., neuron или channel) с помощью Utilization Score, рассчитываемого по мерельшей Уотерштейна. Для оценки потерь после удаления этого unit-a, метод использует Reconstruction Error, рассчитываемый через Тейлоровую разложение функции потерь. Наконец, FAIR-Pruner определяет те units, которые могут быть удалены без существенного влияния на модель, с помощью Tolerance of Difference. Основное преимущество FAIR-Pruner заключается в том, что он автоматически определяет слой-вести pruning rate, что позволяет получать эффективные subnetworks без ручного настройки. Кроме того, он достигает высокой одношаговой эффективности, не требуя последующего fine-tuning. #### Результаты Эксперименты проводились на разных бенчмарк-данных, таких как ImageNet, и различных архитектурах нейронных сетей, включая VGG. Результаты показали, что FAIR-Pruner достигает значительных улучшений в сжатии моделей, сохраняя высокую точность. Например, при pruning rate 0.5, FAIR-Pruner поддерживает более 90% точности на VGG-16 на ImageNet. Он также доказал эффективность при различных pruning ratios и способность получать pruned models в отличие от многих других методов, не требуя дополнительного fine-tuning. #### Значимость FAIR-Pruner может применяться в различных областях, таких как mobile edge computing, IoT-устройства и системы с низким потреблением энергии. Он предлагает преимущества в гибкости и эффективности, позволяя подготавливать модели, которые лучше подходят для реальных устройств. Этот подход также может использоваться для улучшения того, как модели обрабатывают данные в реальном времени. #### Выводы FAIR-Pruner предлагает новый гибкий и эффективный подход к pruning, который может быть применен в различных сценариях. Он доказал высокую точность при сжатии моделей при различных pruning ratios. Будущие исследования будут сфокусированы на расширении применения этого подхода к другим моделям и данным, а также на улуч

Annotation:

Neural network pruning is a critical compression technique that facilitates the deployment of large-scale neural networks on resource-constrained edge devices, typically by identifying and eliminating redundant or insignificant parameters to reduce computational and memory overhead. This paper proposes the Flexible Automatic Identification and Removal (FAIR)-Pruner, a novel method for neural network structured pruning. Specifically, FAIR-Pruner first evaluates the importance of each unit (e.g., ...

ID: 2508.02291v1 cs.LG, cs.AI

arXiv PDF

📄 MolReasoner: Toward Effective and Interpretable Reasoning for Molecular LLMs

2025-08-09

Авторы:

Guojiang Zhao, Sihang Li, Zixiang Lu, Zheng Cheng, Haitao Lin, Lirong Wu, Hanchen Xia, Hengxing Cai, Wentao Guo, Hongshuai Wang, Mingjun Xu, Siyu Zhu, Guolin Ke, Linfeng Zhang, Zhifeng Gao

Многозначные языковые модели (LLMs) доказали свою эффективность во многих областях, но в молекулярной рассуждательной задаче их потенциал остается недостаточно использованным. Основные проблемы — это недостаток доменной специфичности при обучении и недостаток транспарентности в процессе рассуждения. Мы предлагаем MolReasoner — двухступенчатый подход, превращающий LLM из модели меморизации в модель молекулярного рассуждения. В первой стадии Mol-SFT использует синтетические Chain-of-Thought (CoT) примеры, созданные GPT-4o и проверенные на молекулярную точность. Во второй стадии Mol-RL расширяет модель с помощью усовершенствованных функций наград, чтобы усилить логику и улучшить проникновение в молекулярные структуры. Эксперименты показали, что MolReasoner значительно повышает точность и интерпретируемость результатов в сравнении с другими методами, превращая LLM в эффективный инструмент для молекулярной рассуждательной задачи.

Annotation:

Large Language Models(LLMs) have demonstrated remarkable performance across various domains, yet their capabilities in molecular reasoning remain insufficiently explored. Current approaches tend to rely heavily on general-purpose prompting, which lacks domain-specific molecular semantics, while those that use fine-tuning strategies often face challenges with interpretability and reasoning depth. To address these issues, we introduce MolReasoner, a two-stage framework designed to transition LLMs ...

ID: 2508.02066v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

2025-08-09

Авторы:

Xiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Статья предлагает CRINN (Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search) — новую подходящую для распределительных систем, таких как Retrieval-Augmented Generation (RAG) и Agent-Based Large Language Models (LLM), алгоритм для решения задачи оптимизации Approximate Nearest Neighbor Search (ANNS). Авторы относят ANNS к задачам об ускорении работы, трактуя её как задачу обучения с подкреплением (RL), где скорость выполнения является сигналом вознаграждения. Таким образом, CRINN автоматически генерирует ANNS-решения, обеспечивая быстродействие и сохраняя точность. Экспериментальные результаты показали, что CRINN превосходит существующие решения на трёх из шести бенчмарков данных, сравнявшись с ними на двух. Это доказывает, что LLMs, оснащённые RL, могут эффективно автоматизировать алгоритмическую оптимизацию, требующую специализированных знаний и трудоёмких работ. Доступен код на GitHub: https://github.com/deepreinforce-ai/CRINN.

Annotation:

Approximate nearest-neighbor search (ANNS) algorithms have become increasingly critical for recent AI applications, particularly in retrieval-augmented generation (RAG) and agent-based LLM applications. In this paper, we present CRINN, a new paradigm for ANNS algorithms. CRINN treats ANNS optimization as a reinforcement learning problem where execution speed serves as the reward signal. This approach enables the automatic generation of progressively faster ANNS implementations while maintaining ...

ID: 2508.02091v1 cs.LG, cs.AI, cs.CL, cs.DB

arXiv PDF

📄 LeanK: Learnable K Cache Channel Pruning for Efficient Decoding

2025-08-09

Авторы:

Yike Zhang, Zhiyuan He, Huiqiang Jiang, Chengruidong Zhang, Yuqing Yang, Jianyong Wang, Lili Qiu

Large language models (LLMs) обеспечивают высокую эффективность для задач с длинным контекстом, однако сталкиваются с проблемами эффективности в связи с быстрым увеличением размера ключ-значение (KV) кэша. Предлагаемое решение — LeanK: Learnable K Cache Channel Pruning — — метод, основанный на технике канальной сжатия KV-кэша, использующий новшество двухэтапной обучаемой сжимаемости. LeanK удаляет незначительные канали K-кэша с помощью чистого обучения и удовлетворяет требованиям к статической сжимаемости и аппаратной алгоритмичности. Для повышения производительности включена пользовательская шина аттенции, которая обеспечивает до 70% снижения размера K-кэша и ускорение обработки в 1,3 раза. На основе экспериментов показано, что LeanK эффективно улучшает время выполнения LLM в задачах с длинным контекстом, не приводя к потере точности. Анализ также дает понимание влияния подхода на модельные каналы и заголовки аттенции во время работы с длинным контекстом. Детали реализации доступны по адресу https://aka.ms/LeanK.

Annotation:

Large language models (LLMs) enable long-context tasks but face efficiency challenges due to the growing key-value (KV) cache. We propose LeanK, a learning-based method that prunes unimportant key (K) cache channels by leveraging static channel sparsity. With a novel two-stage training process, LeanK learns channel-wise static mask that could satisfy specific sparsity ratio and hardware alignment requirement. LeanK reduces GPU memory and accelerates decoding without sacrificing accuracy. Experim...

ID: 2508.02215v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 CellForge: Agentic Design of Virtual Cell Models

2025-08-09

Авторы:

Xiangru Tang, Zhuoyun Yu, Jiapeng Chen, Yan Cui, Daniel Shao, Weixu Wang, Fang Wu, Yuchen Zhuang, Wenqi Shi, Zhi Huang, Arman Cohan, Xihong Lin, Fabian Theis, Smita Krishnaswamy, Mark Gerstein

Ограниченность получения точных выводов в биологии часто связана с нехваткой доступных моделей, адаптированных для конкретных задач. Мы предлагаем CellForge, систему, которая автоматически генерирует модели для виртуальных клеток, используя мультиагентный подход. Учитывая только сырые данные одноклеточных мультиомис и задачи, CellForge выдает оптимизированное моделирование и код для его выполнения. Фреймворк включает три модуля: анализ задач для исследования данных и поиска литературы, коллективное разработки моделей специализированными агентами, и автоматический код-генератор. Агенты-эксперты дискутируют решения с модератором для достижения сбалансированных решений. Демонстрируя это на сценариях подвижности клетки при генной модификации, лекарственных воздействиях и инфекциях, мы показали, что CellForge превосходит состояние технологий задач. Этот подход показывает, что совместная работа многообразных агентов может лучше решать сложные задачи моделирования, чем однозначный подход.

Annotation:

Virtual cell modeling represents an emerging frontier at the intersection of artificial intelligence and biology, aiming to predict quantities such as responses to diverse perturbations quantitatively. However, autonomously building computational models for virtual cells is challenging due to the complexity of biological systems, the heterogeneity of data modalities, and the need for domain-specific expertise across multiple disciplines. Here, we introduce CellForge, an agentic system that lever...

ID: 2508.02276v1 cs.LG, cs.AI, cs.CL, q-bio.QM

arXiv PDF

📄 CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment

2025-08-09

Авторы:

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

**Резюме** В статье предлагается CAPO (Credit Assignment Policy Optimization) — метод, улучшающий точность подкрепленного обучения с верифицируемыми наградами (RLVR) для бо LLM. Проблема заключается в том, что традиционные методы RLVR назначают одинаковый вес всем токенам ответа, что затрудняет точное присвоение кредита за успех или неудачу каждого токена. Разработанный CAPO использует общецелевую обработку естественных языков для построения шаг за шагом критики ответа, что позволяет назначить точные, проверяемые награды на уровне токенов. Для повышения точности используется механизм голосования, основанный на нескольких генерируемых критиках. Эксперименты показали, что CAPO превосходит супервизированные и другие RL-методы на математических и других бенчмарках, подтверждая его эффективность в улучшении точности и эффективности обучения бол LLMs.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of Large Language Models (LLMs) by using rule-based binary feedback, helping to mitigate reward hacking. However, current RLVR methods typically treat whole responses as single actions, assigning the same reward to every token. This coarse-grained feedback hampers precise credit assignment, making it hard for models to identify which reasoning steps lead to success or failure, and often results in suboptim...

ID: 2508.02298v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MicroMix: Efficient Mixed-Precision Quantization with Microscaling Formats for Large Language Models

2025-08-09

Авторы:

Wenyuan Liu, Haoqian Meng, Yilun Luo, Peng Zhang, Xindian Ma

Отрицательный воздействие нежелательных нишей в регулируемых рынках цены сильно влияет на эффективность рыночного механизма. Одним из ключевых направлений выявления таких ниш является оценка степени аномалий в ценовых динамиках. В статье предложен метод, основанный на машинном обучении, позволяющий определять аномалии в ценовых данных и выделять ниши, которые могут привести к неэффективности рынка. В качестве основных показателей используются разброс цен, темпы изменения и дисперсия. Результаты применения метода к реальным данным показали, что он эффективно выделяет ниши и определяет их влияние на рыночную эффективность. Этот подход может быть применен для мониторинга рыночных условий, определения неоптимальных ниш и регулирования цен.

Annotation:

Quantization significantly accelerates inference in large language models (LLMs) by replacing original high-precision matrices with low-precision counterparts. Recent advances in weight-activation quantization have primarily focused on mapping both weights and activations to the INT4 format. Although the new FP4 Tensor Cores in NVIDIA's Blackwell architecture offer up to 4x speedup over FP16, existing INT4-based kernels fail to fully exploit this capability due to mismatched data formats. To bri...

ID: 2508.02343v1 cs.LG, cs.AI

arXiv PDF

📄 What are you sinking? A geometric approach on attention sink

2025-08-09

Авторы:

Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri

**Резюме** В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.

Annotation:

Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized,...

ID: 2508.02546v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Dynamic Feature Selection based on Rule-based Learning for Explainable Classification with Uncertainty Quantification

2025-08-09

Авторы:

Javier Fumanal-Idocin, Raquel Fernandez-Peralta, Javier Andreu-Perez

В современных классификационных задачах часто возникает потребность в прозрачности и уточнении принятых решений, особенно в критичных сферах, таких как медицина. Динамическая селекция признаков (DFS) позволяет адаптировать выбор признаков к каждому отдельному случаю, обеспечивая более гибкий и интуитивный подход по сравнению с традиционными статическими методами. Тем не менее, многие DFS-решения оперируют скрытыми моделями, что снижает их значимость в реальных применениях. В данной работе предлагается новая DFS-методика, основанная на правильной системе, что обеспечивает более понятный для пользователя процесс принятия решений. Метод также дает возможность оценивать неопределенность на каждом этапе выбора признаков и сокращает вычислительные затраты за счет ограничения поискового пространства. Авторы показали, что их подход демонстрирует соревновательную производительность по сравнению с градиентными и глубокоучитывающими методами, являющимися более непрозрачными. Это делает DFS-систему правильной более пригодной для использования в реальной жизни, особенно где прозрачность критична.

Annotation:

Dynamic feature selection (DFS) offers a compelling alternative to traditional, static feature selection by adapting the selected features to each individual sample. Unlike classical methods that apply a uniform feature set, DFS customizes feature selection per sample, providing insight into the decision-making process for each case. DFS is especially significant in settings where decision transparency is key, i.e., clinical decisions; however, existing methods use opaque models, which hinder th...

ID: 2508.02566v1 cs.LG, cs.AI

arXiv PDF

Показано 2811 - 2820 из 2901 записей