📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 More Than a Score: Probing the Impact of Prompt Specificity on LLM Code Generation

2025-08-09

Авторы:

Yangtian Zi, Harshitha Menon, Arjun Guha

**Резюме** Современные горячие языковые модели (LLMs) показывают высокую эффективность на общих тестах, таких как HumanEval, но слабо выполняются на специализированных задачах, таких как ParEval. Данная статья рассматривает, является ли это ограничением в достаточности доменных знаний LLMs или недостаточностью детализации запросов (prompts). Для этого авторы представляют PartialOrderEval — метод, который добавляет полю тестирования новый аспект: прослеживание изменения производительности (pass@1) при увеличении детализации запросов, от минимального до максимального. Эксперименты проводились на HumanEval, а также на подвыборках ParEval (серийные и OpenMP). Результаты с LLMs типа Llama-3.x и Qwen2.5-Coder показали различия в чувствительности к детализации запросов в зависимости от типа задачи. Квалитиативный анализ выявил, что ключевые факторы, влияющие на улучшение производительности, являются четкое указание ввода-вывода, тестирование на крайних случаях и разбиение задачи на пошаговые этапы.

Annotation:

State-of-the-art Large Language Models (LLMs) achieve high pass@1 on general benchmarks like HumanEval but underperform on specialized suites such as ParEval. Is this due to LLMs missing domain knowledge or insufficient prompt detail is given? To answer this, we introduce PartialOrderEval, which augments any code generation benchmark with a partial order of prompts from minimal to maximally detailed. Applying it to HumanEval and both serial and OpenMP subsets of ParEval, we measure how pass@1 sc...

ID: 2508.03678v1 cs.CL, cs.LG, cs.PL

arXiv PDF

📄 ASTRA: Autonomous Spatial-Temporal Red-teaming for AI Software Assistants

2025-08-09

Авторы:

Xiangzhe Xu, Guangyu Shen, Zian Su, Siyuan Cheng, Hanxi Guo, Lu Yan, Xuan Chen, Jiasheng Jiang, Xiaolong Jin, Chengpeng Wang, Zhuo Zhang, Xiangyu Zhang

Развитие AI-драйвенных кодинг-ассистентов, таких как GitHub Copilot, достигает новых высот, но их безопасность в высокорисковых сферах, таких как кибербезопасность, остается нерешительной. Большинство существующих средств red-teaming ограничены фиксированными бенчмарками или артефактами, не отражающими реальных сценариев использования. Мы представляем ASTRA — систему автоматизированных агентов, разработанную для точечного выявления уязвимостей в AI-системах кода и рекомендаций по безопасности. ASTRA работает в трех этапах: строит доменно-специфические знаний-графы для моделирования задач и известных уязвимостей, проводит онлайн-выявление уязвимостей через спациальную и темпоральную проверку взаимодействия модели, и генерирует реалистичные, воздействующие на эффективность тестовые случаи. В отличие от предыдущих подходов, ASTRA использует реалистичные запросы разработчиков и оптимизирует знаний-графы в реальном времени. Оно выявило 11–66% больше уязвимостей по сравнению с конкурентами и улучшило обучение модели на 17%, демонстрируя свою практическую значимость для улучшения безопасности AI-систем.

Annotation:

AI coding assistants like GitHub Copilot are rapidly transforming software development, but their safety remains deeply uncertain-especially in high-stakes domains like cybersecurity. Current red-teaming tools often rely on fixed benchmarks or unrealistic prompts, missing many real-world vulnerabilities. We present ASTRA, an automated agent system designed to systematically uncover safety flaws in AI-driven code generation and security guidance systems. ASTRA works in three stages: (1) it builds...

ID: 2508.03936v1 cs.CR, cs.CL, cs.LG, cs.SE

arXiv PDF

📄 Efficient Strategy for Improving Large Language Model (LLM) Capabilities

2025-08-09

Авторы:

Julián Camilo Velandia Gutiérrez

Большие языковые модели (LLMs) являются мощными инструментами в AI, но их развертывание сталкивается с ограничениями при ресурсах и ограниченных знаниях. Данная работа предлагает стратегию для улучшения эффективности LLMs с помощью оптимизации данных, обучения и моделирования. Основываясь на магистерской работе, автор определил критерии для сбора надежных данных, проверил различные конфигурации и методы обучения, а также измерил результаты по критериям качества, скорости ответа и безопасности. Эксперименты показали, что сочетание стратегического датасета с уточненными методами моделирования позволяет повысить эффективность LLMs в ресурсозависимых средах и в условиях ограниченных знаний. Эти результаты подтверждают возможность создания более эффективных и безопасных моделей с помощью целенаправленного подхода.

Annotation:

Large Language Models (LLMs) have become a milestone in the field of artificial intelligence and natural language processing. However, their large-scale deployment remains constrained by the need for significant computational resources. This work proposes starting from a base model to explore and combine data processing and careful data selection techniques, training strategies, and architectural adjustments to improve the efficiency of LLMs in resource-constrained environments and within a deli...

ID: 2508.04073v1 cs.CL, cs.LG, I.2.7; I.2.6; I.5.1

arXiv PDF

📄 The State Of TTS: A Case Study with Human Fooling Rates

2025-08-09

Авторы:

Praveen Srinivasa Varadhan, Sherry Thomas, Sai Teja M. S., Suvrat Bhooshan, Mitesh M. Khapra

**Резюме** В статье предлагается Human Fooling Rate (HFR) — метрика, оценивающая вероятность того, что машинно-генерируемое речью может быть путана с речью человека. Авторы проводят широкомасштабное тестирование открытых и коммерческих TTS-систем и выявляют ключевые проблемы: (i) теории о «человеческом качестве», основанных на CMOS, часто не проходят человеческий тест на обман, (ii) для точного бенчмаркинга TTS следует использовать данные, где звучание человека достигает высокого HFR, так как сравнение с маловыразительными референсами снижает степень требований, (iii) коммерческие модели подходят к человеческому уровню в zero-shot сценариях, в то время как открытые системы сложностями страдают при работе с естественным разговорным языком, (iv) тестирование на высококачественных данных улучшает реализм, но не полностью приближает результаты к уровню человеческого. Основной вывод — необходимо развивать более реалистичные, человеко-центричные методы оценки в дополнение к субъективным тестам.

Annotation:

While subjective evaluations in recent years indicate rapid progress in TTS, can current TTS systems truly pass a human deception test in a Turing-like evaluation? We introduce Human Fooling Rate (HFR), a metric that directly measures how often machine-generated speech is mistaken for human. Our large-scale evaluation of open-source and commercial TTS models reveals critical insights: (i) CMOS-based claims of human parity often fail under deception testing, (ii) TTS progress should be benchmarke...

ID: 2508.04179v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Hierarchical Text Classification Using Black Box Large Language Models

2025-08-09

Авторы:

Kosuke Yoshimura, Hisashi Kashima

**Резюме** В статье рассматривается задача хиерархической классификации текстов (HTC), связанная с проблемами нехватки данных и высокой сложности моделей. Предлагается использовать блэк-боксные Large Language Models (LLMs), доступные через API, в качестве альтернативы стандартным методам машинного обучения, требующим больших объемов меток и вычислительных ресурсов. Авторы экспериментировали с тремя стратегиями подсказок (prompting): Direct Leaf Label Prediction (DL), Direct Hierarchical Label Prediction (DH) и Top-down Multi-step Hierarchical Label Prediction (TMH) в zero-shot и few-shot режимах. Результаты на двух наборах данных показали, что few-shot повышает точность классификации по сравнению с zero-shot. Хотя традиционные методы классификации показали высокую точность на данных с широкой легкодоступной иерархией, LLMs, особенно с DH, показали лучшие результаты на глубокой иерархии. Однако API-затраты на DH высоки из-за большого количества токенов. Таким образом, авторы выделяют торговление между улучшением точности и трудоемкостью выполнения. Наблюдается перспектива LLMs в HTC, но требуется оптимальный выбор стратегий для баланса точности и затрат.

Annotation:

Hierarchical Text Classification (HTC) aims to assign texts to structured label hierarchies; however, it faces challenges due to data scarcity and model complexity. This study explores the feasibility of using black box Large Language Models (LLMs) accessed via APIs for HTC, as an alternative to traditional machine learning methods that require extensive labeled data and computational resources. We evaluate three prompting strategies -- Direct Leaf Label Prediction (DL), Direct Hierarchical Labe...

ID: 2508.04219v1 cs.CL, cs.LG

arXiv PDF

📄 Do Recommender Systems Really Leverage Multimodal Content? A Comprehensive Analysis on Multimodal Representations for Recommendation

2025-08-09

Авторы:

Claudio Pomo, Matteo Attimonelli, Danilo Danese, Fedelucio Narducci, Tommaso Di Noia

**Резюме** В статье рассматривается проблема эффективности мультимодальных рекомендательных систем, которые используют различные типы содержимого (например, текст и изображения) для повышения точности рекомендаций. Авторы задают вопрос: природа получаемого выигрыша заключается лишь в усложнении модели или в истинном понимании мультимодальности? Для разрешения этой проблемы предлагается использовать Large Vision-Language Models (LVLMs), которые генерируют эмбеддинги, разработанные специально для мультимодальных задач. Эти эмбеддинги обеспечивают семантическую целостность и взаимное выравнивание между модальностями без необходимости дополнительных стратегий объединения. Эксперименты показали, что LVLMs не только улучшают точность рекомендаций, но и демонстрируют способность создавать понятные для людей структурированные тексты, демонстрирующие мультимодальное понимание системы. Этот подход устанавливает новый акцент на семантические репрезентации в рекомендательных системах и демонстрирует перспективу LVLMs в качестве основы для создания более значимых и эффективных мультимодальных моделей.

Annotation:

Multimodal Recommender Systems aim to improve recommendation accuracy by integrating heterogeneous content, such as images and textual metadata. While effective, it remains unclear whether their gains stem from true multimodal understanding or increased model complexity. This work investigates the role of multimodal item embeddings, emphasizing the semantic informativeness of the representations. Initial experiments reveal that embeddings from standard extractors (e.g., ResNet50, Sentence-Bert) ...

ID: 2508.04571v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Understanding and Mitigating Errors of LLM-Generated RTL Code

2025-08-09

Авторы:

Jiazheng Zhang, Cheng Liu, Huawei Li

**Резюме** Статья рассматривает проблемы, возникающие при генерации RTL-кода с использованием БОЛЬШИХ языковых моделей (LLM), а именно несоответствие результатов предсказаний к задаче и недостаточный уровень знаний в области RTL-программирования. Авторы проводят подробный анализ ошибок и выделяют их основные причины: недостаточное знание RTL-программирования, непонимание понятий цифровых схем, неясность в описании дизайна и неверное восприятие мультимодальных входных данных. Чтобы улучшить качество генерации, предлагается использовать методы вспомогательной генерации (RAG), основанные на дополнительных знаниях RTL-программирования, нормализации входных данных с помощью специальных правил редактирования и использованием инструментов для преобразования мультимодальных данных в удобный для модели формат. Для оставшихся ошибок предлагается использовать итеративное дебагирование (симуляция, локализация и исправление ошибок). Основным выводом является, что внедрение этих технологий в LLM-фреймворк улучшает точность генерации RTL-кода до 91.0% на VerilogEval, что значительно превышает базовую модель. Это подтверждает эффективность предложенных методов.

Annotation:

Despite the promising potential of large language model (LLM) based register-transfer-level (RTL) code generation, the overall success rate remains unsatisfactory. Errors arise from various factors, with limited understanding of specific failure causes hindering improvement. To address this, we conduct a comprehensive error analysis and manual categorization. Our findings reveal that most errors stem not from LLM reasoning limitations, but from insufficient RTL programming knowledge, poor unders...

ID: 2508.05266v1 cs.AR, cs.CL, cs.LG

arXiv PDF

📄 HealthFlow: A Self-Evolving AI Agent with Meta Planning for Autonomous Healthcare Research

2025-08-09

Авторы:

Yinghao Zhu, Yifan Qi, Zixiang Wang, Lei Gu, Dehao Sui, Haoran Hu, Xichen Zhang, Ziyi He, Liantao Ma, Lequan Yu

**Резюме** В статье представлена HealthFlow — самоэволюционная AI-система с метапланированием, разработанная для решения проблем статических, предопределенных стратегий в AI-агентах, применяемых в сложных областях, таких как здравоохранение. Агенты, ориентированные на использование инструментов, способны улучшаться в работе с конкретными задачами, но не обладают возможностью адаптировать свои высокоуровневые подходы к решению задач. HealthFlow решает эту проблему, автоматически оптимизируя свои стратегии на базе процедурных успехов и неудач, формируя терминологическую базу для последующих задач. Для изучения и оценки производительности HealthFlow был разработан бенчмарк EHRFlowBench, имитирующий реальные задачи анализа клинических данных. Исследование показало, что HealthFlow превосходит современные AI-фреймворки в сфере здравоохранения, демонстрируя высокую эффективность в самоэволюции. Это работа устанавливает новый подход к AI, перейдя от создания улучшенных инструментов к разработке самоэволюционных систем, способных управлять задачами самостоятельно и эффективно.

Annotation:

The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...

ID: 2508.02621v1 cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Unified Tool Integration for LLMs: A Protocol-Agnostic Approach to Function Calling

2025-08-09

Авторы:

Peng Ding, Rick Stevens

**Резюме** Проблема: Развитие tool-augmented Large Language Models (LLMs) привело к фрагментации экосистемы, требуя от разработчиков умения взаимодействовать с различными протоколами, определять схемы вручную и управлять сложными рабочими процессами. Решение: Мы предлагаем протокол-агностичный подход к интеграции инструментов, абстрагирующийся от протоколов, чтобы оптимизировать выполнение задач. Наше решение включает автоматическое генерирование схем, двойной режим эксплуатации, позволяющий одновременно использовать различные инструменты, и упрощенный менеджмент множества источников. Выводы: Эксперименты показали снижение объема кода при интеграции в 60–80%, увеличение производительности до 3.1 раз благодаря оптимизации конкурентности, и полную совместимость с существующими стандартами функционального вызова. Этот подход обеспечивает эффективные и простой в использовании решения для разработки LLM-приложений.

Annotation:

The proliferation of tool-augmented Large Language Models (LLMs) has created a fragmented ecosystem where developers must navigate multiple protocols, manual schema definitions, and complex execution workflows. We address this challenge by proposing a unified approach to tool integration that abstracts protocol differences while optimizing execution performance. Our solution demonstrates how protocol-agnostic design principles can significantly reduce development overhead through automated schem...

ID: 2508.02979v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Fine-Tuning Small Language Models (SLMs) for Autonomous Web-based Geographical Information Systems (AWebGIS)

2025-08-09

Авторы:

Mahdi Nazari Ashani, Ali Asghar Alesheikh, Saba Kazemi, Kimya Kheirkhah, Yasin Mohammadi, Fatemeh Rezaie, Amir Mahdi Manafi, Hedieh Zarkesh

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные веб-ориентированные географические информационные системы (WebGIS) стремятся к максимальной автоматизации и упрощению взаимодействия с пользователем. Традиционные интерфейсы WebGIS требуют от пользователя знания специализированных инструментов и терминологии, что существенно ограничивает доступность систем для широкой аудитории. В ответ на эту проблему развивается новое направление — автономные веб-ориентированные географические информационные системы (AWebGIS), способные выполнять геопространственные операции на основе естественно-языковых запросов. Основная проблема, стоящая перед разработчиками AWebGIS, заключается в необходимости обеспечить точное понимание и исполнение сложных пространственных запросов в условиях ограниченных вычислительных ресурсов. Большинство современных решений полагаются на облачные большие языковые модели (LLM), которые, несмотря на высокую точность, имеют ряд критических недостатков. Во-первых, они требуют постоянного подключения к интернету, что делает невозможным работу в офлайн-режиме. Во-вторых, централизованная обработка на серверах создает серьезные проблемы масштабируемости при увеличении числа пользователей. В-третьих, передача персональных данных и геолокационной информации в облако вызывает обоснованные опасения относительно конфиденциальности пользователей. Существующие offline-решения, основанные на классических алгоритмах машинного обучения, демонстрируют недостаточную точность интерпретации сложных пространственных запросов и не способны адаптироваться к новым типам задач без переобучения. Это создает технологический разрыв между потребностями пользователей в интуитивном и приватном взаимодействии с геоинформационными системами и возможностями существующих технологий. Необходимость разработки эффективного решения, способного работать локально без потери функциональности и точности, стала ключевым мотиватором проведенного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают революционный подход к созданию AWebGIS, основанный на использовании мелких языковых моделей (SLM), специально обученных для обработки геопространственных запросов в браузерной среде. В качестве базовой модели выбран T5-small — компактная версия архитектуры Text-to-Text Transfer Transformer, отличающаяся оптимальным соотношением между размером модели (60 миллионов параметров) и качеством обработки естественного языка. Процесс fine-tuning включал несколько этапов. На первом этапе был создан обширный датасет из 50 тысяч примеров естественно-языковых запросов и соответствующих им пространственных операций на языке SQL-геозапросов. Датасет охватывал разнообразные типы операций: фильтрацию по местоположению, расчет расстояний, определение пересечений, буферизацию, пространственные соединения и агрегацию данных. Каждый пример прошел ручную валидацию экспертами в области ГИС для исключения ошибок и неоднозначностей. На втором этапе модель была адаптирована под специфику геопространственного домена через технику instruction tuning. Добавлены специальные токены для обозначения типов геометрий (точка, линия, полигон), координатных систем и пространственных отношений. Архитектура модели была модифицирована для работы в браузерной среде через WebAssembly и TensorFlow.js. Для оптимизации производительности применены техники квантования (8-битное целочисленное представление весов) и последовательного выполнения операций для минимизации использования оперативной памяти. Третий этап включал интеграцию скриптов пред-обработки запросов для нормализации географических названий через локальный геокодер и обработку неоднозначностей в запросах. Модель также обучена генерировать не только SQL-запросы, но и метаданные о типе ожидаемого результата (карта, таблица, график), что позволяет системе автоматически выбирать оптимальный способ визуализации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода была разработана комплексная экспериментальная методология, включающая сравнение трех подходов к реализации AWebGIS. Первый подход представлял собой полностью автоматизированную онлайн-систему с использованием облачной LLM Cohere Command. Второй подход использовал офлайн-классификаторы на основе SVM и Random Forest для отображения естественно-языковых запросов в пространствен

Annotation:

Autonomous web-based geographical information systems (AWebGIS) aim to perform geospatial operations from natural language input, providing intuitive, intelligent, and hands-free interaction. However, most current solutions rely on cloud-based large language models (LLMs), which require continuous internet access and raise users' privacy and scalability issues due to centralized server processing. This study compares three approaches to enabling AWebGIS: (1) a fully-automated online method using...

ID: 2508.04846v1 cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 561 - 570 из 573 записей