📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Sparse-dLLM: Accelerating Diffusion LLMs with Dynamic Cache Eviction

2025-08-09

Авторы:

Yuerong Song, Xiaoran Liu, Ruixiao Li, Zhigeng Liu, Zengfeng Huang, Qipeng Guo, Ziwei He, Xipeng Qiu

Diffusion Large Language Models (dLLMs) обеспечивают значительные успехи в области рассуждений и параллельного декодирования, однако их вычислительная сложность и памятная нагрузка в разумении достигают заметных проблем. Основной причиной является квадратичный рост сложности при операции сохранения всех полных слоев состояний. Для устранения этой проблемы, авторы предложили **Sparse-dLLM** — новую методологию, основанную на динамической вытеснении кэша и спарсинге в ходе расчетов. Основа нового подхода — исследование паттернов внимания в dLLMs, открывающее существующую спарсингную структуру, при этом ключевые токены сохраняются в процессе уменьшения памятных нагрузок. Исследования показали, что Sparse-dLLM обеспечивает до 10-кратного увеличения пропускной способности по сравнению с обычным dLLM, сохраняя показатели качества и оптимальные затраты памяти. Это демонстрирует эффективность нового подхода в решении проблемы в параллельных декодированиях.

Annotation:

Diffusion Large Language Models (dLLMs) enable breakthroughs in reasoning and parallel decoding but suffer from prohibitive quadratic computational complexity and memory overhead during inference. Current caching techniques accelerate decoding by storing full-layer states, yet impose substantial memory usage that limit long-context applications. Our analysis of attention patterns in dLLMs reveals persistent cross-layer sparsity, with pivotal tokens remaining salient across decoding steps and low...

ID: 2508.02558v1 cs.CL

arXiv PDF

📄 Guess or Recall? Training CNNs to Classify and Localize Memorization in LLMs

2025-08-09

Авторы:

Jérémie Dentan, Davide Buscaldi, Sonia Vanier

Задача определения и разбора вербатим-меморизации в больших лингвистических моделях (LLM) остается вызовом из-за неточности используемых категорий в существующих методиках. Авторы предлагают новую методику, основанную на обучении сверточных нейронных сетей (CNN) на весах атенции LLM. Эта методика разделяет меморизацию на три вида: использование модельных способностей в говорении (guessed), вытекающую из частых повторов в обучающем корпусе (recalled), и немеморизированные образцы. Исследование показало, что существующая категоризация плохо отражает реальные механизмы внимательных блоков модели. Также выяснилось, что многие "extractable" примеры являются просто угаданными моделью и не являются подтверждением вербатим-меморизации. Новый подход также включает в себя технику визуализации, позволяющую локализовать внимательные регионы, ответственные за различные виды меморизации. Вывод: новая категоризация дает более точное понимание процессов внутри модели и позволяет эффективнее интерпретировать её поведение.

Annotation:

Verbatim memorization in Large Language Models (LLMs) is a multifaceted phenomenon involving distinct underlying mechanisms. We introduce a novel method to analyze the different forms of memorization described by the existing taxonomy. Specifically, we train Convolutional Neural Networks (CNNs) on the attention weights of the LLM and evaluate the alignment between this taxonomy and the attention weights involved in decoding. We find that the existing taxonomy performs poorly and fails to refle...

ID: 2508.02573v1 cs.CL

arXiv PDF

📄 CharBench: Evaluating the Role of Tokenization in Character-Level Tasks

2025-08-09

Авторы:

Omri Uzan, Yuval Pinter

Многие современные языковые модели сталкиваются с трудностями при выполнении задач, требующих разумавания на уровне символов, таких как подсчет или расположение символов в словах. Основной причиной этого считается то, что эти модели основываются на подходе к токенизации на основе подслов, а не на символьных уровнях. Однако ранее проведенные исследования дают неоднозначные результаты, что затрудняет определение фактического влияния токенизации на эффективность моделей в таких задачах. Чтобы разрешить этот вопрос, ученые представили CharBench — большую по объёму б BENCHMARK для оценки способности моделей выполнять характеристические задачи. Исследование показало, что CharBench представляет собой серьёзную проблему для современных моделей, с малым успехом (средняя точность — 43,6% и 32,3% на некоторых задачах). Анализ показал, что для задач, требующих подсчета, длина токенов и длина слова важнее токенизации. Для задач, требующих расположения внутри слова, длина токена, содержащего символ, снижает точность моделей. Эти выводы могут помочь в развитии моделей, улучшении их способности к работе с символьными задачами.

Annotation:

Tasks that require character-level reasoning, such as counting or locating characters within words, remain challenging for contemporary language models. A common conjecture is that language models' reliance on subword units, rather than characters, contributes to their struggles with character-level tasks, yet recent studies offer conflicting conclusions about the role of tokenization, leaving its impact unclear. To address this gap, we introduce CharBench, a comprehensive benchmark of character...

ID: 2508.02591v2 cs.CL

arXiv PDF

📄 Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation

2025-08-09

Авторы:

Jianxiang Zang, Meiling Ning, Shihan Dou, Jiazheng Zhang, Tao Gui, Qi Zhang, Xuanjing Huang

Научная статья **"Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation"** адресует проблему недостаточной точности вознаграждений в моделировании предпочтений (preference modeling) в reinforcement learning from human feedback (RLHF) для тренировки больших лингвистических моделей (LLMs). Основные ограничения в текущих моделях заключаются в том, что однонаправленный секвенциальный взгляд (forward-decaying attention) decoder-only архитектур и отсутствие токен-уровня взаимодействия между выбранными и отклоненными последовательностями приводят к уязвимости знаков вознаграждения от ложных сигналов акцента. Работа предлагает **"Interaction Distillation"**, новую структуру тренировки, включающую интерактивное естественное понимание (natural language understanding) в качестве учительской модели, которая обеспечивает расширенные межтокенные взаимодействия через полный аттенцион. Эта система учитель-ученик оптимизирует точность взаимодействий в модели предпочтений. Исследования показали, что данный подход обеспечивает более стабильные и обобщаемые вознаграждения, более эффективно решая основные ограничения в моделях предпочтений, чем существующие методы, которые стремятся устранить шум в данных.

Annotation:

The reward model (RM), as the core component of reinforcement learning from human feedback (RLHF) for large language models (LLMs), responsible for providing reward signals to generated responses. However, mainstream preference modeling in RM is inadequate in terms of token-level interaction, making its judgment signals vulnerable to being hacked by misallocated attention to context. This stems from two fundamental limitations: (1) Current preference modeling employs decoder-only architectures, ...

ID: 2508.02618v1 cs.CL

arXiv PDF

📄 Pointer: Linear-Complexity Long-Range Modeling without Pre-training

2025-08-09

Авторы:

Zixi Li

В статье представлена Pointer — новая модель для долгосрочной последовательностной обработки, которая обеспечивает линейную сложность $O(NK)$, не требуя предварительного обучения. Отличаясь от стандартных аутентичных механизмов, оперирующих $O(N^2)$ парными взаимодействиями, Pointer использует цепочки указателей (pointer chaining), где выбор указателей каждого слоя зависит от позиций указателей предыдущих слоев. Это позволяет формировать явные длинные связи в последовательности. Авторы показали, что Pointer обеспечивает скоростный прирост в $2$--$10$ раз по сравнению с трансформерами при работе с длинными последовательностями, сохраняет высокую точность (>95%) на задачах копирования с дистанцией до 2048 токенов и вырабатывает интерпретируемые указательные шаблоны, отражающие зависимости в данных. Эксперименты показали, что Pointer является эффективным инструментом для сценариев долгосрочной моделирования без необходимости предварительного обучения.

Annotation:

We introduce Pointer, a novel architecture that achieves linear $O(NK)$ complexity for long-range sequence modeling while maintaining superior performance without requiring pre-training. Unlike standard attention mechanisms that compute $O(N^2)$ pairwise interactions, our approach uses layer-wise pointer chaining where each layer's pointer selection depends on previous layer's pointer positions, creating explicit long-distance connections through pointer chains. We demonstrate that this architec...

ID: 2508.02631v1 cs.CL

arXiv PDF

📄 Test Set Quality in Multilingual LLM Evaluation

2025-08-09

Авторы:

Kranti Chalamalasetti, Gabriel Bernier-Colborne, Yvan Gauthier, Sowmya Vajjala

**Резюме** В статье рассматривается проблема качества test set'ов в оценке многоязычных моделей текстового понимания (LLM). Авторы анализируют несколько многоязычных датасетов, сформированных семи-автоматически, и выявляют ошибки в них, в том числе в наборах для языков французский и телугу. Они проводят сравнение результатов LLM с оригинальными и версиями с исправленными ошибками, отмечая заметные различия (до 10%) в различных условиях. Основываясь на этих находках, авторы предлагают, чтобы test set'ы не считались неизменными, а должны были быть пересматриваемыми и очищаемыми. Они также рекомендуют разработчикам датасетов и их потребителям принять меры для улучшения качества датасетов. Эти выводы подчеркивают важность внимания к качеству датасетов в многоязычной оценке моделей, чтобы гарантировать более точные и надежные результаты.

Annotation:

Several multilingual benchmark datasets have been developed in a semi-automatic manner in the recent past to measure progress and understand the state-of-the-art in the multilingual capabilities of Large Language Models. However, there is not a lot of attention paid to the quality of the datasets themselves, despite the existence of previous work in identifying errors in even fully human-annotated test sets. In this paper, we manually analyze recent multilingual evaluation sets in two languages ...

ID: 2508.02635v1 cs.CL

arXiv PDF

📄 Modeling Annotator Disagreement with Demographic-Aware Experts and Synthetic Perspectives

2025-08-09

Авторы:

Yinuo Xu, Veronica Derricks, Allison Earl, David Jurgens

Мы предлагаем модель DEM-MoE (Demographic-Aware Mixture of Experts) для моделирования аннотаторского диспута в субъективных NLP-задачах. Модель использует архитектуру Mixture of Experts, в которой входные данные являются группами аннотаторов, определяемых их демографическими признаками. Это позволяет более точно представлять структурированные различия между группами. Модель показала высокую эффективность на датасетах с высоким диспутом между аннотаторами. Также мы исследовали использование синтетических аннотаций, генерируемых трансформерами с нулевым выстрелом, чтобы компенсировать нехватку демографического покрытия. Оказалось, что эти синтетические данные могут значительно улучшить модель, особенно при оптимальном структурировании микширования реальных и синтетических данных. Эти результаты демонстрируют, что модель DEM-MoE может значительно улучшить представление разногодичности в NLP.

Annotation:

We present an approach to modeling annotator disagreement in subjective NLP tasks through both architectural and data-centric innovations. Our model, DEM-MoE (Demographic-Aware Mixture of Experts), routes inputs to expert subnetworks based on annotator demographics, enabling it to better represent structured, group-level variation compared to prior models. DEM-MoE consistently performs competitively across demographic groups, and shows especially strong results on datasets with high annotator di...

ID: 2508.02853v1 cs.CL

arXiv PDF

📄 Highlight & Summarize: RAG without the jailbreaks

2025-08-09

Авторы:

Giovanni Cherubin, Andrew Paverd

Нарушения безопасности в Large Language Models (LLMs), такие как jailbreaking и model hijacking, остаются значительной проблемой при использовании таких систем, особенно в контексте бесед с чатботами. Обычные методы, такие как усиление системных промптов или обучение классификаторов нежелательных выходов, часто оказываются недостаточно эффективными ввиду огромного количества возможных входных данных и нежелательных результатов. В статье предлагается новая модель Highlight & Summarize (H&S) для Retrieval-Augmented Generation (RAG), которая устраняет эти проблемы за счет изменения принципов работы генерирующей LLM. В H&S-модели генеративный LLM не имеет прямого доступа к самим вопросам пользователя, а вместо этого работает с выделенными ("highlighted") подборками документов, которые затем обрабатываются в цельную всё понятную ответ. Авторы оценили несколько инстанций H&S, показав, что ответы этой модели чаще всего лучше по качеству и отдалённости от нежелательных задач, чем ответы стандартного RAG-принципа. Это указывает на сильное потенциал H&S в обеспечении безопасности и эффективности в RAG-системах.

Annotation:

Preventing jailbreaking and model hijacking of Large Language Models (LLMs) is an important yet challenging task. For example, when interacting with a chatbot, malicious users can input specially crafted prompts to cause the LLM to generate undesirable content or perform a completely different task from its intended purpose. Existing mitigations for such attacks typically rely on hardening the LLM's system prompt or using a content classifier trained to detect undesirable content or off-topic co...

ID: 2508.02872v1 cs.CL, cs.LG

arXiv PDF

📄 Merge-based syntax is mediated by distinct neurocognitive mechanisms: A clustering analysis of comprehension abilities in 84,000 individuals with language deficits across nine languages

2025-08-09

Авторы:

Elliot Murphy, Rohan Venkatesh, Edward Khokhlovich, Andrey Vyshedskiy

Работа изучает различные типы синтаксических конструкций, основанных на операции Merge, и их нейрокогнитивные механизмы, используя анализ понимания предложений у 84 000 участников с языковыми нарушениями из 9 языков. Основная проблема заключается в том, что, несмотря на распространенное мнение о том, что Merge — единственное, неделимое синтаксическое построение, развитие синтаксиса может быть связано с развитием разных типов объектов Merge, которые могут быть подвержены различным импаирам. Работа предлагает кластеризационный анализ, выявляющий три различных типа синтаксических конструкций, связанных с разными уровнями синтаксической сложности. Основные выводы заключаются в том, что, несмотря на то, что Merge мог возникнуть в эволюции сразу, разные типы Merge-based структур обрабатываются разными нейрокогнитивными механизмами, что может отражать развитие синтаксиса в разных стадиях.

Annotation:

In the modern language sciences, the core computational operation of syntax, 'Merge', is defined as an operation that combines two linguistic units (e.g., 'brown', 'cat') to form a categorized structure ('brown cat', a Noun Phrase). This can then be further combined with additional linguistic units based on this categorial information, respecting non-associativity such that abstract grouping is respected. Some linguists have embraced the view that Merge is an elementary, indivisible operation th...

ID: 2508.02885v1 cs.CL

arXiv PDF

📄 Coherent Multimodal Reasoning with Iterative Self-Evaluation for Vision-Language Models

2025-08-09

Авторы:

Wenjie Luo, Ruocheng Li, Shanshan Zhu, Julian Perry

Данная работа адресует проблему недостаточной степени логического и когнитивного мышления у современных языковых и визуально-языковых моделей. Их ответы часто основываются на простых ассоциациях, а не на глубоких инерционных выводах, особенно при работе с суперпозицией визуальных данных и абстрактных понятий. Разработанное решение — Coherent Multimodal Reasoning Framework (CMRF) — предлагает систему итеративной самопроверки рассуждений. Она декомпозирует сложные задачи на подзадачи, создает шаг за шагом выводы и корректирует ошибки. CMRF включает три модуля: Reasoning Decomposition Unit, Contextual Inference Engine и Coherence Assessment Module, обеспечивающих логическую консистентность и уверенность решения. Обученная на MDAR-датасете модель LLaVA-1.6-34B демонстрирует состояние технологии на VCR, A-OKVQA и DailyLife-MRC, улучшая базовую модель на 2.4%, особенно в сложных сценариях. Апдейты подтверждают эффективность CMRF в расширении возможностей многомодального рассуждения.

Annotation:

Despite significant advancements, current large language models (LLMs) and vision-language models (LVLMs) continue to struggle with complex, multi-step, cross-modal common sense reasoning tasks, often exhibiting a lack of "deliberative thinking." They tend to rely on superficial associations rather than deep, chained inference, particularly when integrating visual information with abstract concepts. To address this, we propose the Coherent Multimodal Reasoning Framework (CMRF), a novel approach ...

ID: 2508.02886v1 cs.CL

arXiv PDF

Показано 7261 - 7270 из 7506 записей