📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Position: Intelligent Coding Systems Should Write Programs with Justifications

2025-08-12

Авторы:

Xiangzhe Xu, Shiwei Feng, Zian Su, Chengpeng Wang, Xiangyu Zhang

## Контекст Современные интеллектуальные системы кодирования (Intelligent Coding Systems, ICS) представляют собой мощные инструменты, позволяющие пользователям определять поведение программ при помощи естественного языка. Эти системы обеспечивают удобство использования и эффективность разработки, но при этом имеют значительные недостатки. Одной из основных проблем является непрозрачность решений, принятых системой, которая может вызвать недоверие у пользователей, особенно если они не обладают глубокими знаниями программирования. Несомненно, лучшие результаты получаются, когда пользователь может понять, как и почему система пришла к определенному решению. В настоящее время актуальной является проблема недостатка надежности в системах кодирования, поскольку часто невозможно проверить точность решений, особенно при работе с различными сценариями. Это вызывает затруднения в понимании пользователями того, что происходит внутри систем, что, в свою очередь, может привести к ошибкам в процессе разработки и уменьшить эффективность работы. Одним из решений могут быть ясные, понятные пользователю, причины и логика программ, которые бы служили визуальным инструментом для проверки и понимания решений системы. ## Метод Для решения этой проблемы в статье предлагается использовать нейро-символьные методы (Neuro-Symbolic Approaches), которые объединяют нейронные и символьные подходы в одной системе. За основу взят подход, где символьные правила и контрольные механизмы используются для улучшения понимания и структуры программ, а нейронные модели используются для повышения точности, адаптивности и скорости выполнения. Символьные подходы включают традиционные методы проверки и анализа программ, такие как статический анализ и проверка типов, которые позволяют обеспечить целостность программного кода. Нейронные модели, в свою очередь, позволяют строить более точные и природно понятные решения, которые будут оптимизированы для решения конкретных задач. ## Результаты В рамках исследования был проведен набор экспериментов, в которых были использованы различные наборы данных для проверки работы интеллектуальных систем кодирования. В ходе эксперимента было проанализировано, насколько эффективны нейро-символьные подходы для улучшения понимания пользователями. Было показано, что системы, включающие в себя нейро-символьные методы, показали значительно лучшие результаты в сравнении с методами, основанными только на нейронных моделях. В результате экспериментов было показано, что нейро-символьные модели могут генерировать более точные и понятные программы, что позволяет улучшить понимание пользователями решений, а также уменьшить потенциальные ошибки в про

Annotation:

Intelligent coding systems are transforming software development by enabling users to specify code behavior in natural language. However, the opaque decision-making of AI-driven coders raises trust and usability concerns, particularly for non-expert users who cannot inspect low-level implementations. We argue that these systems should not only generate code but also produce clear, consistent justifications that bridge model reasoning and user understanding. To this end, we identify two critical ...

ID: 2508.06017v1 cs.SE, cs.CL, cs.LG

arXiv PDF

📄 Efficient Knowledge Probing of Large Language Models by Adapting Pre-trained Embeddings

2025-08-12

Авторы:

Kartik Sharma, Yiqiao Jin, Rakshit Trivedi, Srijan Kumar

## Контекст Большие языковые модели (LLMs) обладают широкими возможностями для получения и обработки знаний в различных областях, таких как наука, история и география. Однако их стохастический характер делает прогнозирование того, что знают они, непростой задачей. Исследователи ранее развили методы, включающие рассмотрение скрытых представлений, создание специальных задач, сбор представительных образцов и оценку неуверенности. Однако эти методы требуют нескольких проходов через модель, что делает процесс дорогостоящим и трудоемким. Напротив, наша работа предлагает новый подход, который использует предварительно обученные модели эмбеддингов для предсказания знаний LLMs, сделав процесс быстрым и эффективным. ## Метод Мы предлагаем метод $\textbf{PEEK}$ (Proxy Embeddings to Estimate Knowledge), который использует предварительно обученные модели эмбеддингов для проверки знаний LLMs. Мы запускаем эмбеддинговую модель на проверку знаний, адаптировав её с помощью линейного декодерного слоя, чтобы она могла предсказывать выводы LLMs. Эта модель обучается на выборке из фактов, известных LLMs, используя различные пробивные стратегии. Мы выбираем три датасета, построенные на основе Википедии, проверяем семь эмбеддинговых моделей и четыре LLMs. Эксперименты показали, что наш подход достигает до 90% точности при предсказании знаний LLMs. ## Результаты Мы провели тщательные эксперименты с $3$ Wikipedia-derived datasets, $4$ LLMs и $7$ embedding models. Наши результаты показали, что модели сентенций эмбеддингов дают лучший результат в предсказании знаний LLMs, получив до 90% точности. Мы также обнаружили, что эмбеддинговые модели выполняются гораздо эффективнее, чем модели графов, что позволяет понять, как LLMs хранят знания. Наши результаты подчеркивают возможность использования эмбеддингов для оценки и выявления пробелов в знаниях LLMs. ## Значимость Мы рассмотрели применение нашего подхода в следующих областях: сравнение LLMs, выявление пробелов в их знаниях и получение более глубоких познаний о внутренней структуре LLMs. Наш подход обладает огромным потенциалом, так как он предлагает быстрый, эффективный и точный способ оценки LLMs. Мы видим возможности использовать нашу работу для улучшения текущих моделей и для получения более глубоких представлений о том, как LLMs обрабатывают знания. ## Выводы Мы предложили новый подход к оценке знаний LLMs, используя предварительно обученные модели эмбеддингов. Мы показали, что наш метод дает высокую точность при предсказании знаний LLMs на новых данных. Мы также отметили, что модели сентенций эмбеддингов даю

Annotation:

Large language models (LLMs) acquire knowledge across diverse domains such as science, history, and geography encountered during generative pre-training. However, due to their stochasticity, it is difficult to predict what LLMs have acquired. Prior work has developed different ways to probe this knowledge by investigating the hidden representations, crafting specific task prompts, curating representative samples, and estimating their uncertainty. However, these methods require making forward pas...

ID: 2508.06030v1 cs.CL, cs.LG

arXiv PDF

📄 Large Language Model Data Generation for Enhanced Intent Recognition in German Speech

2025-08-12

Авторы:

Theresa Pekarek Rosin, Burak Can Kaplan, Stefan Wermter

## Контекст **Область исследования и существующие проблемы** Intent recognition (IR) является ключевым компонентом систем артифициального интеллекта (AI), особенно для ассистентов с речевыми командами. Однако существующие подходы, большая часть которых разработана для английского языка, сталкиваются с ограничениями при работе с другими языками и специфическими стилями речи, такими как речь старших людей. Эти ограничения сильно сказываются на качестве распознавания интентов в речи германского языка, особенно для поддержки старшего поколения. Этот геограмфический и гендерный дискриминационный аспект требует конкретного анализа и решения. **Мотивация** Ключевой мотивацией является улучшение моделей IR для речи старших людей на германском языке. Это нужно для повышения точности распознавания и лучшего взаимодействия с AI-системами. Недостаток данных в этой сфере ограничивает развитие AI-систем, а наша методика предлагает эффективное решение этой проблемы. ## Метод **Методология и технические решения** Мы предлагаем сочетание нескольких технических подходов. Во-первых, мы использовали адаптированный Whisper ASR (Automatic Speech Recognition) модель, которая была приспособлена для работы с германским языком, особенно с речью старшего поколения (SVC-de). Во-вторых, мы использовали трансформер-базированные языковые модели (LLMs), такие как LeoLM, Llama3 и ChatGPT, для генерации синтетических данных для обучения. Эти модели были запущены на созданных специально для этой задачи синтетических текстовых данных. **Архитектура** Мы объединили эти модели в интегрированную архитектуру. Адаптированная Whisper ASR модель служит для распознавания речи. Затем, генерируемые данные от LLMs проходят через модель IR, которая учится классифицировать интенты. Мы также проводим cross-dataset testing для оценки устойчивости наших моделей к разным стилям речи и невиденному лексикону. ## Результаты **Эксперименты и используемые данные** Мы проводили тщательные эксперименты на разных наборах данных. Эталонные данные были сгенерированы с помощью SVC-de, а синтетические данные — с помощью LLMs. Мы провели несколько тестов, включая cross-dataset testing, чтобы оценить качество распознавания интентов. Одним из основных результатов является устойчивость наших моделей к разным стилям речи и невиденному лексикону. **Полученные результаты** Основным положительным результатом является повышение точности классификации интентов в речи старших людей. Мы также обнаружили, что синтетические данные, генерируемые с помощью LLMs, значительно улучшают производительность моделей IR. Наши результаты показы

Annotation:

Intent recognition (IR) for speech commands is essential for artificial intelligence (AI) assistant systems; however, most existing approaches are limited to short commands and are predominantly developed for English. This paper addresses these limitations by focusing on IR from speech by elderly German speakers. We propose a novel approach that combines an adapted Whisper ASR model, fine-tuned on elderly German speech (SVC-de), with Transformer-based language models trained on synthetic text da...

ID: 2508.06277v1 cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Prompting Large Language Models to Detect Dementia Family Caregivers

2025-08-09

Авторы:

Md Badsha Biswas, Özlem Uzuner

**Резюме** В статье рассматривается задача идентификации твитов, написанных семейными гуманными помощниками, заботившимися о близких с диагнозом деменции. Эта задача представлена в виде бинарной классификации, которая отличает твиты, где упоминается диагноз в контексте семейного члена, от остальных. Авторы предлагают решение, основанное на применении методов подсказок (prompting) для глубоких языковых моделей (LLMs). Использование небольшого количества тренировочных данных позволило использовать простую zero-shot подсказку (zero-shot prompting), которая дала лучший результат по метрике макро-F1-меры (0.95) на валидационной и тестовой выборке. Исходный код решения доступен на GitHub. Основные выводы: zero-shot prompting оказался эффективным для этой задачи, позволив достичь высокой точности с минимальными ресурсами.

Annotation:

Social media, such as Twitter, provides opportunities for caregivers of dementia patients to share their experiences and seek support for a variety of reasons. Availability of this information online also paves the way for the development of internet-based interventions in their support. However, for this purpose, tweets written by caregivers of dementia patients must first be identified. This paper demonstrates our system for the SMM4H 2025 shared task 3, which focuses on detecting tweets poste...

ID: 2508.01999v1 cs.CL, cs.LG

arXiv PDF

📄 ProCut: LLM Prompt Compression via Attribution Estimation

2025-08-09

Авторы:

Zhentao Xu, Fengyi Li, Albert Chen, Xiaofeng Wang

**Резюме** В крупномасштабных системах с LLM, шаблоны запросов часто растягиваются до тысяч токенов, включая инструкции по задаче, примеры для нескольких попыток и правила оптимизации. Это приводит к громоздкости шаблонов, усложнению их поддержки и повышению задержек вывода. Для решения этой проблемы предлагается ProCut — гибкий, агностический к LLM, автономный по отношению к обучению фреймворк. Он структурирует шаблоны запросов, оценивает их вклад в результат задачи и удаляет менее важные элементы. На экспериментальных данных из пяти общедоступных наборов данных и реальных промышленных шаблонах, ProCut снизил размер шаблонов до 78%, сохранив или даже улучшив производительность (до 62% лучше альтернативных методов). Был предложен LLM-драйвенный алгоритм для эффективной оценки вклада, что снизил задержки при сжатии до 50%. Таким образом, ProCut позволяет создавать компактные, эффективные и производительные шаблоны запросов.

Annotation:

In large-scale industrial LLM systems, prompt templates often expand to thousands of tokens as teams iteratively incorporate sections such as task instructions, few-shot examples, and heuristic rules to enhance robustness and coverage. This expansion leads to bloated prompts that are difficult to maintain and incur significant inference latency and serving costs. To address this, we introduce Prompt Compression via Attribution Estimation (ProCut), a flexible, LLM-agnostic, training-free framewor...

ID: 2508.02053v1 cs.CL, cs.LG

arXiv PDF

📄 The SMeL Test: A simple benchmark for media literacy in language models

2025-08-09

Авторы:

Gustaf Ahdritz, Anat Kleiman

Увеличение доступности информации в интернете породило проблему недостоверного или якобы злонамеренного контента. Опытные исследователи применяют различные жидкие трюки, чтобы отфильтровать такой контент, но неясно, насколько эффективно такие методы поняты и реализованы языковыми моделями. В статье предлагается SMeL Test — минимальный бенчмарк для оценки возможностей LLMs в активном отборе недостоверных сведений. Он отражает реальные задачи, с которыми сталкиваются исследователи при работе с ненадёжными источниками. Модели, включая те, специализирующиеся на рассуждении, показывают низкие результаты: даже лучший API модель спутал до 70% случаев. Несовпадение моделей большого размера с меньшими без очевидных причин также выявлено. Этот результат подчёркивает необходимость дальнейшего исследования взаимоотношений между моделями разных размеров и выделения методов, способных лучше удерживать ненадёжность в ненадёжных источниках.

Annotation:

The internet is rife with unattributed, deliberately misleading, or otherwise untrustworthy content. Though large language models (LLMs) are often tasked with autonomous web browsing, the extent to which they have learned the simple heuristics human researchers use to navigate this noisy environment is not currently known. In this paper, we introduce the Synthetic Media Literacy Test (SMeL Test), a minimal benchmark that tests the ability of language models to actively filter out untrustworthy i...

ID: 2508.02074v2 cs.CL, cs.LG

arXiv PDF

📄 Trainable Dynamic Mask Sparse Attention

2025-08-09

Авторы:

Jingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo

Большие языковые модели сталкиваются с проблемой моделирования длинных контекстов из-за квадратичной сложности стандартного self-attention механизма. Для решения этой проблемы предложен механизм Dynamic Mask Attention (DMA), который эффективно использует две формы спарсинга: содержательно-ориентированную (content-aware) и позиционно-ориентированную (position-aware). DMA динамически генерирует маски для валидных позиций, адаптируясь к контексту, и оптимизирует вычисления, пропуская ненужные регионы. Этот подход эффективно сочетает высокую эффективность и поддержание точности. Исследования показали, что DMA превосходит множественный self-attention, скользящее окно и другие способы в задачах предсказания языка (perplexity) и многозадачных задачах, таких как associative recall. Эксперименты в 1.7B параметров подтвердили, что DMA обеспечивает значительное улучшение в производительности и моделировании длинных контекстов, делая его привлекательным решением для современных моделей.

Annotation:

In large language models, the demand for modeling long contexts is constantly increasing, but the quadratic complexity of the standard self-attention mechanism often becomes a bottleneck. Although existing sparse attention mechanisms have improved efficiency, they may still encounter issues such as static patterns or information loss. We introduce a trainable dynamic mask sparse attention mechanism, Dynamic Mask Attention, which effectively utilizes content-aware and position-aware sparsity. DMA...

ID: 2508.02124v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

2025-08-09

Авторы:

Yuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

**Резюме** В статье представлен Seed Diffusion Preview — большой языковой модель на основе диффузионного принципа с дискретными состояниями, которая обеспечивает высокую скорость осуществления. Несостоятельность последовательного генерирования, присущая традиционным токен-бай-токен алгоритмам, приводит к заметному замедлению работы. Дискретные модели диффузии устраняют эту проблему, обеспечивая параллельное генерирование, а Seed Diffusion Preview улучшает эти возможности. Она достигает скорости 2,146 токенов/с на GPU H20, оставаясь конкурентоспособной по результатам эвалидации на классических кодевалле-бенчмарках. Это значительно превосходит Mercury и Gemini Diffusion, устанавливая новый рекорд по скорости-качеству на спектре текущих моделей. Таким образом, Seed Diffusion Preview демонстрирует передовой подход к решению проблемы производительности в моделях языкового понимания.

Annotation:

We present Seed Diffusion Preview, a large-scale language model based on discrete-state diffusion, offering remarkably fast inference speed. Thanks to non-sequential, parallel generation, discrete diffusion models provide a notable speedup to mitigate the inherent latency of token-by-token decoding, as demonstrated recently (e.g., Mercury Coder, Gemini Diffusion). Seed Diffusion Preview achieves an inference speed of 2,146 token/s over H20 GPUs while maintaining competitive performance across a ...

ID: 2508.02193v1 cs.CL, cs.LG

arXiv PDF

📄 CAMERA: Multi-Matrix Joint Compression for MoE Models via Micro-Expert Redundancy Analysis

2025-08-09

Авторы:

Yuzhuang Xu, Xu Han, Yuanchi Zhang, Yixuan Wang, Yijun Liu, Shiyu Ji, Qingfu Zhu, Wanxiang Che

**Резюме** Large Language Models (LLMs) с Mixture-of-Experts (MoE) архитектурой характеризуются высокой производительностью при увеличении параметров, но столкнуются с высокими затратами на вычисления и хранение. Однако повышение производительности с ростом числа экспертов не пропорционально, что создает проблему эффективности. В данной работе мы предлагаем CAMERA — новую технику, основанную на анализе микро-экспертов, которые представляют собой более тонкую единицу сжатия, распространяющуюся на несколько матриц. Мы разработали CAMERA-P — фреймворк для удаления микро-экспертов, а также CAMERA-Q — метод смешанного типа для эффективного представления микро-экспертов. Наши эксперименты показали, что CAMERA-P превосходит существующие подходы в сжатии при разных отношениях удаления экспертов, а CAMERA-Q демонстрирует эффективность при существенном уменьшении точности. Наши результаты подтверждают то, что CAMERA может эффективно анализировать и сжимать модели, такие как Qwen2-57B-A14B, в значительно меньшем времени по сравнению с предыдущими методами.

Annotation:

Large Language Models (LLMs) with Mixture-of-Experts (MoE) architectures are distinguished by their strong performance scaling with increasing parameters across a wide range of tasks, yet they also suffer from substantial computational and storage overheads. Notably, the performance gains of MoE models do not scale proportionally with the growth in expert parameters. While prior works attempt to reduce parameters via expert-level pruning, merging, or decomposition, they still suffer from challen...

ID: 2508.02322v1 cs.CL, cs.LG

arXiv PDF

📄 Learning to Evolve: Bayesian-Guided Continual Knowledge Graph Embedding

2025-08-09

Авторы:

Linyu Li, Zhi Jin, Yuanpeng He, Dongming Jin, Yichi Zhang, Haoran Duan, Nyima Tash

**Резюме** Современные знания остаются в динамическом состоянии и постоянно изменяются, что приводит к необходимости создания моделей, которые могут эффективно обрабатывать эти изменения. Одной из таких проблем является "забывание" (catastrophic forgetting) в контексте постоянно изменяющихся знаний, когда модели не могут сохранять прошлые знания при выучении новых. Для решения этой проблемы введена новая модель CKGE с использованием принципа постоянства Байеса (BAKE). Эта модель рассматривает каждый новый батч данных как постоянный принцип Байеса, что позволяет лучше сохранять знания прошлых моментов временной истории. Кроме того, включена новая методика постоянного кластеризации, которая ограничивает изменения между старыми и новыми знаниями, чтобы предотвратить их забывание. На нескольких датасетах были проведены эксперименты, и результаты показали, что модель BAKE значительно превосходит другие модели в этой области.

Annotation:

Since knowledge graphs (KG) will continue to evolve in real scenarios, traditional KGE models are only suitable for static knowledge graphs. Therefore, continual knowledge graph embedding (CKGE) has attracted the attention of researchers. Currently, a key challenge facing CKGE is that the model is prone to "catastrophic forgetting", resulting in the loss of previously learned knowledge. In order to effectively alleviate this problem, we propose a new CKGE model BAKE. First, we note that the Baye...

ID: 2508.02426v1 cs.CL, cs.LG

arXiv PDF

Показано 541 - 550 из 573 записей