📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 PHM-Bench: A Domain-Specific Benchmarking Framework for Systematic Evaluation of Large Models in Prognostics and Health Management

2025-08-09

Авторы:

Puyu Yang, Laifa Tao, Zijian Huang, Haifei Liu, Wenyan Cao, Hao Ji, Jianan Qiu, Qixuan Huang, Xuanyuan Su, Yuhang Xie, Jun Zhang, Shangyu Li, Chen Lu, Zhixuan Lian

**Резюме** В статье предлагается PHM-Bench — инновационный фреймворк для оценки бо LLM в области Prognostics and Health Management (PHM). Несмотря на рост синергии между LLMs и PHM, существующие методологии оценки остаются недостаточно глубокими и структурированными, что не позволяет полностью использовать модели в этой области. PHM-Bench определяет трехмерную оценочную модель, охватывающую фундаментальные возможности, ядерные задачи и целый жизненный цикл PHM-систем. Метрики разработаны для таких задач, как мониторинг условий, диагностика неисправностей, прогноз ресурса до конца жизненного цикла и решения по техническому обслуживанию. Фреймворк основывается на структурированных данных из промышленных систем и позволяет оценивать как общего назначения, так и доменно-специальные модели. Результаты показывают, что PHM-Bench является методологической основой для структурированного исследования возможностей LLMs в PHM и обеспечивает референсную базу для перехода от универсальных моделей к индустриально-ориентированным.

Annotation:

With the rapid advancement of generative artificial intelligence, large language models (LLMs) are increasingly adopted in industrial domains, offering new opportunities for Prognostics and Health Management (PHM). These models help address challenges such as high development costs, long deployment cycles, and limited generalizability. However, despite the growing synergy between PHM and LLMs, existing evaluation methodologies often fall short in structural completeness, dimensional comprehensiv...

ID: 2508.02490v1 cs.AI

arXiv PDF

📄 OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling

2025-08-09

Авторы:

Maxime Bouscary, Saurabh Amin

Оптимизационные задачи часто требуют надежных систем, но LLM-based solvers, несмотря на их перспективы, часто оставляют желать лучшего из-за высокой задержки и неустойчивости результатов. Мы предлагаем OptiHive — рамформу, которая включает в себя LLM для генерации солверов для задач оптимизации на основе естественного языка. Отличительная черта OptiHive заключается в использовании единого пакетного запроса для генерации разнообразных компонентов (солверов, задач и валидационных тестов), а также в использовании статистической модели для оценки их достоверности. Это позволяет существенно повысить точность и доверие к результатам, даже при несовершенстве генерируемых компонентов. На различных типах задач оптимизации, включая разновидности Multi-Depot Vehicle Routing Problem, OptiHive показала значительное превосходство над базовыми алгоритмами, увеличив оптимальность решений от 5% до 92% в самых сложных случаях.

Annotation:

LLM-based solvers have emerged as a promising means of automating problem modeling and solving. However, they remain unreliable and often depend on iterative repair loops that result in significant latency. We introduce OptiHive, an LLM-based framework that produces high-quality solvers for optimization problems from natural-language descriptions without iterative self-correction. OptiHive uses a single batched LLM query to generate diverse components (solvers, problem instances, and validation ...

ID: 2508.02503v1 cs.AI, cs.CL

arXiv PDF

📄 Decomposed Reasoning with Reinforcement Learning for Relevance Assessment in UGC Platforms

2025-08-09

Авторы:

Xiaowei Yuan, Lei Jin, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Ziyang Huang, Jun Zhao, Kang Liu

В современных UGC-платформах, где используется объединение восстановления и генерации (RAG) для поиска, точность анализа взаимосвязи запроса и документа является ключевым фактором успешной работы. Однако существуют две основные проблемы: неполный пользовательский отзыв и значительное количество шума в неструктурированных данных. Для решения этих задач предложен модельный подход Reinforced Reasoning Model for Relevance Assessment (R3A), который представляет собой разделенное обучение с подкреплением для достижения более точной оценки соответствия. R3A использует высокоспорядные документы для интерпретации потенциального пользовательского запроса и экстракции связанных фрагментов для подтверждения релевантности. Этот подход уменьшает ошибки, вызванные непонятностью и неструктурированностью данных. Исследовательские эксперименты показали, что R3A превосходит другие модели по метрикам релевантности в оффлайн- и онлайн-тестировании.

Annotation:

Retrieval-augmented generation (RAG) plays a critical role in user-generated content (UGC) platforms, but its effectiveness depends heavily on accurate relevance assessment of query-document pairs. Despite recent advances in applying large language models (LLMs) to relevance modeling, UGC platforms present unique challenges: 1) ambiguous user intent due to sparse user feedback in RAG scenarios, and 2) substantial noise introduced by informal and unstructured language. To address these issues, we...

ID: 2508.02506v1 cs.IR, cs.AI

arXiv PDF

📄 Test-time Prompt Intervention

2025-08-09

Авторы:

Chenxu Yang, Qingyi Si, Mz Dai, Dingyu Yao, Mingyu Zheng, Minghui Chen, Zheng Lin, Weiping Wang

**Резюме** Проблема: Многие современные л LLM, особенно те, что используют длинные цепочки мышления (CoTs) для улучшения логических выводов, страдают от избыточной реплитации и непоследовательности в цепочках принятия решений. Это возникает из-за ориентации на пост-тренировочные модели, сконцентрированных на получении высокого награды в итоге, а не на оптимизации процесса мышления. Данные для регулирования промежуточных шагов малоизвестны и сложно получить в масштабе. Решение: Мы предлагаем Test-time Prompt Intervention (PI), новую архитектуру для динамического управления принятием решений во время выполнения. Она включает три модуля: когда (When), как (How) и что (Which). Эти модули позволяют взаимодействовать с моделью во время работы, управляя процессом уточняющими интервенциями и улучшая контролируемость и прозрачность. Основные выводы: Тестирование показало, что PI существенно сокращает длину CoTs, уменьшает ошибки при семантическом разборе и повышает надежность моделей. Это новая шаг в практическом интегрировании экспертных принципов логического мышления в традиционные л LLM.

Annotation:

Test-time compute has led to remarkable success in the large language model (LLM) community, particularly for complex tasks, where longer chains of thought (CoTs) are generated to enhance reasoning capabilities. However, growing evidence reveals that such reasoning models often produce CoTs plagued by excessive redundancy, including unnecessary verification steps and repetitive reasoning shifts. The root cause lies in post-training of them that overly rely on outcome reward paradigms, as the dat...

ID: 2508.02511v1 cs.AI, cs.CL

arXiv PDF

📄 Modular Arithmetic: Language Models Solve Math Digit by Digit

2025-08-09

Авторы:

Tanja Baeumel, Daniil Gurgurov, Yusser al Ghussin, Josef van Genabith, Simon Ostermann

Научная статья **"Modular Arithmetic: Language Models Solve Math Digit by Digit"** рассматривает проблему того, каким образом Large Language Models (LLMs) решают простые арифметические задачи. Несмотря на то, что ранее были выявлены некоторые стратегии LLMs для таких задач, полное понимание их механизмов остается неизвестным. Авторы показывают, что LLMs представляют числа по дизициям и используют отдельные подгруппы нейронов модульного слоя (MLP) для обработки каждой цифры в числе. Эти подгруппы независимо взаимодействуют с разными дизициями (единицы, десятки, сотни), независимо от размера модели и токенизационной стратегии (для чисел, записанных целиком или по дизициям). Используя методы Feature Importance и Causal Interventions, авторы выяснили, что эти подгруппы нейронов являются ключевыми для решения задач арифметики. Таким образом, статья демонстрирует, что LLMs решают математические задачи с помощью последовательной обработки каждой цифры.

Annotation:

While recent work has begun to uncover the internal strategies that Large Language Models (LLMs) employ for simple arithmetic tasks, a unified understanding of their underlying mechanisms is still lacking. We extend recent findings showing that LLMs represent numbers in a digit-wise manner and present evidence for the existence of digit-position-specific circuits that LLMs use to perform simple arithmetic tasks, i.e. modular subgroups of MLP neurons that operate independently on different digit ...

ID: 2508.02513v1 cs.CL, cs.AI

arXiv PDF

📄 Accurate and Interpretable Postmenstrual Age Prediction via Multimodal Large Language Model

2025-08-09

Авторы:

Qifan Chen, Jin Cui, Cindy Duan, Yushuo Han, Yifei Shi

Определение постменструального возраста (PMA) присутствии новорожденного является критическим для оценки развития и здоровья новорожденного. Несмотря на высокую точность существующих нейронных сетей в предсказании PMA на основе МРТ мозга, эти модели часто остаются "черными ящиками", ограничивая их клиническую значимость. В данной работе предлагается адаптировать многомодальную большую модель языка (MLLM) для точного предсказания PMA и создания понятных клиническим специалистам выводов. Используется параметрно-эффективная методика оптимизации (PEFT), включающая инструкционное тюнинг и Low-Rank Adaptation (LoRA), примененные к модели Qwen2.5-VL-7B. Модель обучается на четырех 2D картах поверхностного слоя мозга из МРТ новорожденных. Она обеспечивает точность предсказания PMA с надежностью 95% в пределах 0,78–1,52 недель, при этом формируя информативные и понятные выводы, опирающиеся на развивающиеся особенности. Это решение повышает прозрачность и доверие AI-систем в области нейронаук.

Annotation:

Accurate estimation of postmenstrual age (PMA) at scan is crucial for assessing neonatal development and health. While deep learning models have achieved high accuracy in predicting PMA from brain MRI, they often function as black boxes, offering limited transparency and interpretability in clinical decision support. In this work, we address the dual challenge of accuracy and interpretability by adapting a multimodal large language model (MLLM) to perform both precise PMA prediction and clinical...

ID: 2508.02525v1 cs.AI

arXiv PDF

📄 Web3 x AI Agents: Landscape, Integrations, and Foundational Challenges

2025-08-09

Авторы:

Yiming Shen, Jiashuo Zhang, Zhenzhe Shao, Wenxuan Luo, Yanlin Wang, Ting Chen, Zibin Zheng, Jiachi Chen

**Резюме** Статья представляет первую подробную исследовательскую работу, изучающую взаимодействие Web3 технологий и AI агентов. Она охватывает пять ключевых аспектов: рыночную структуру, экономику, управление, безопасность и механизмы доверия. Исследователи проанализировали 133 проектов и развили таксономию, показав распределение и капитализацию проектов. Далее, они рассмотрели четыре ключевые интеграции: участие AI агентов в оптимизации DeFi, улучшение управления Web3, интеллектуальную защиту от уязвимостей и аудит контрактов, а также формирование надежных рамк для AI-операций с использованием Web3. Основные выводы: интеграция Web3 и AI агентов имеет важное значение для развития уверенных и удобных децентрализованных систем. Существуют вызовы в сфере масштабируемости, безопасности и этики, которые требуют дополнительного исследования. Работа дает базу для будущих исследований в этой области.

Annotation:

The convergence of Web3 technologies and AI agents represents a rapidly evolving frontier poised to reshape decentralized ecosystems. This paper presents the first and most comprehensive analysis of the intersection between Web3 and AI agents, examining five critical dimensions: landscape, economics, governance, security, and trust mechanisms. Through an analysis of 133 existing projects, we first develop a taxonomy and systematically map the current market landscape (RQ1), identifying distinct ...

ID: 2508.02773v1 cs.CY, cs.AI, econ.GN, q-fin.EC

arXiv PDF

📄 Automatic Identification of Machine Learning-Specific Code Smells

2025-08-09

Авторы:

Peter Hamfelt, Ricardo Britto, Lincoln Rocha, Camilo Almendra

Увеличивающийся интерес к машинному обучению (ML) приводит к появлению новых типов кодовых запутанностей, которые могут повлиять на качество и эффективность ML-систем. Однако существуют недостаточно исследований и инструментов, посвященных идентификации и оценке таких ML-специфических кодовых запутанностей. В данной работе предлагается инструмент MLpylint, основанный на гуманных критериях кодовых запутанностей, для статического анализа ML-кода. Инструмент разработан с использованием Design Science Methodology, включая литературный обзор, консультации с экспертами и оценку на данных из 160 открытых ML-проектов. Экспертные оценки подтвердили эффективность MLpylint. Результаты указывают на возможность интеграции инструмента в разработческий процесс, что может повысить качество ML-систем и улучшить производительность разработчиков.

Annotation:

Machine learning (ML) has rapidly grown in popularity, becoming vital to many industries. Currently, the research on code smells in ML applications lacks tools and studies that address the identification and validity of ML-specific code smells. This work investigates suitable methods and tools to design and develop a static code analysis tool (MLpylint) based on code smell criteria. This research employed the Design Science Methodology. In the problem identification phase, a literature review wa...

ID: 2508.02541v1 cs.SE, cs.AI

arXiv PDF

📄 What are you sinking? A geometric approach on attention sink

2025-08-09

Авторы:

Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri

**Резюме** В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.

Annotation:

Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized,...

ID: 2508.02546v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 The KG-ER Conceptual Schema Language

2025-08-09

Авторы:

Enrico Franconi, Benoît Groz, Jan Hidders, Nina Pardal, Sławek Staworko, Jan Van den Bussche, Piotr Wieczorek

**Резюме** В статье предлагается KG-ER, новая концептуальная схема для описания знаний в знанийных графах. Эта схема не зависит от формата хранения знаний (реляционные базы данных, property graphs, RDF) и позволяет лучше выразить семантику хранимых данных. Традиционные подходы часто привязаны к конкретным представлениям знаний, что ограничивает их применение в многомодельных системах. KG-ER предлагает универсальный инструмент для описания структуры и смысла данных, усиливая гибкость и поддерживая многообразие представлений. Основным выводом является, что KG-ER обеспечивает более точное и гибкое описание знаний, способствует интеграции различных форматов хранения и позволяет эффективнее использовать знания в многомодельных средах AI. Такой подход может стать ключевым для развития систем семантического поиска и машинного обучения.

Annotation:

We propose KG-ER, a conceptual schema language for knowledge graphs that describes the structure of knowledge graphs independently of their representation (relational databases, property graphs, RDF) while helping to capture the semantics of the information stored in a knowledge graph.

ID: 2508.02548v1 cs.DB, cs.AI, 68P15

arXiv PDF

1
2
3362
3363
3364
3365
3366
3412
3413

Показано 33631 - 33640 из 34123 записей