📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models

2025-11-11

Авторы:

Chandra Vamsi Krishna Alla, Harish Naidu Gaddam, Manohar Kommi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) face significant computational and memory constraints when processing long contexts, despite growing demand for applications requiring reasoning over extensive documents, multi-session dialogues, and book length texts. While recent advances have extended context windows to 100K-1M tokens, such approaches incur prohibitive costs for resource constrained deployments. We propose BudgetMem, a novel memory augmented architecture that learns what to remember rather than re...

ID: 2511.04919v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3

arXiv PDF

📄 The Limits of Obliviate: Evaluating Unlearning in LLMs via Stimulus-Knowledge Entanglement-Behavior Framework

2025-10-31

Авторы:

Aakriti Shah, Thai Le

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Unlearning in large language models (LLMs) is crucial for managing sensitive data and correcting misinformation, yet evaluating its effectiveness remains an open problem. We investigate whether persuasive prompting can recall factual knowledge from deliberately unlearned LLMs across models ranging from 2.7B to 13B parameters (OPT-2.7B, LLaMA-2-7B, LLaMA-3.1-8B, LLaMA-2-13B). Drawing from ACT-R and Hebbian theory (spreading activation theories), as well as communication principles, we introduce S...

ID: 2510.25732v1 cs.CL, cs.AI, I.2.7; I.2.6; I.2.4; G.2.2

arXiv PDF

📄 Shallow Robustness, Deep Vulnerabilities: Multi-Turn Evaluation of Medical LLMs

2025-10-16

Авторы:

Blazej Manczak, Eric Lin, Francisco Eiras, James O' Neill, Vaikkunth Mugunthan

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) are rapidly transitioning into medical clinical use, yet their reliability under realistic, multi-turn interactions remains poorly understood. Existing evaluation frameworks typically assess single-turn question answering under idealized conditions, overlooking the complexities of medical consultations where conflicting input, misleading context, and authority influence are common. We introduce MedQA-Followup, a framework for systematically evaluating multi-turn robu...

ID: 2510.12255v1 cs.CL, cs.AI, I.2.7; I.2.6; J.3

arXiv PDF

📄 Evaluating Large Language Models for IUCN Red List Species Information

2025-10-07

Авторы:

Shinya Uryu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) are rapidly being adopted in conservation to address the biodiversity crisis, yet their reliability for species evaluation is uncertain. This study systematically validates five leading models on 21,955 species across four core IUCN Red List assessment components: taxonomy, conservation status, distribution, and threats. A critical paradox was revealed: models excelled at taxonomic classification (94.9%) but consistently failed at conservation reasoning (27.2% for st...

ID: 2510.02830v1 cs.CL, cs.AI, I.2.7; I.2.6; J.3

arXiv PDF

📄 Let LLMs Speak Embedding Languages: Generative Text Embeddings via Iterative Contrastive Refinement

2025-10-01

Авторы:

Yu-Che Tsai, Kuan-Yu Chen, Yuan-Chi Li, Yuan-Hao Chen, Ching-Yu Tsai, Shou-De Lin

## Контекст В последние годы становится все более очевидным, что классические подходы к представлению текстовых данных, основанные на кодировании (encoding), недостаточно эффективны для передачи семантических отсутствует текстовые научного стиля. Эти методы ограничиваются статичным извлечением признаков и часто пропускают богатые семантические связи в тексте. Это приводит к ограниченной точности и слабому пониманию контекста. Большинство текущих подходов, основанные на использовании больших языковых моделей (LLM), стремятся улучшить представление текстов, однако полагаются только на кодирование входных данных. Эти методы либо игнорируют, либо недостаточно эффективно используют генеративные силы LLMs, которые могут быть использованы для более точного понимания и представления текста. В этой статье предлагается новый подход, который использует генеративные свойства LLMs для более точного и семантически богатого представления текстов. Этот подход не только улучшает характеристики текстовых представлений, но и использует технологии итеративного рефинейма, чтобы добиться более высокого качества и глубины представления. ## Метод Предлагаемый подход, **GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings)**, представляет собой инновационный подход к генерации представлений текстов. В отличие от традиционных подходов, GIRCSE не ограничивается только выводом признаков, но и реализует итеративный процесс, в котором генеративная модель стремится к постоянному улучшению представлений текстов. Главная идея заключается в том, чтобы использовать самостоятельно генерируемые последовательности токенов, которые будут использованы для рефинейма (оптимизации) семантических описаний. Этот процесс осуществляется в цикле, где каждый шаг улучшает качество представления, используя процедуру **contrastive refinement**. Это означает, что каждый новый шаг генерации позволяет модели учитывать более широкий контекст и повышать точность представления. **Главные технические решения:** 1. **Iterative Contrastive Refinement (ICR) Objective**: Этот метод состоит в том, что каждый шаг генерации стремится минимизировать расстояние между представлением текста и его контекстной целью в пространстве семантики. 2. **Autoregressive Generation**: Используется для того, чтобы модель могла последовательно генерировать новые токены, чтобы улучшить представление, минимизируя потери в пространстве вариантов. 3. **Soft Token Optimization**: Генерируемые токены не являются фиксированными, а являются "мягкими", что позволяет модели более тонко управлять потоком информации и улучшать представление. В этом подходе используется **Модель Большо

Annotation:

Existing large language model (LLM)-based embeddings typically adopt an encoder-only paradigm, treating LLMs as static feature extractors and overlooking their core generative strengths. We introduce GIRCSE (Generative Iterative Refinement for Contrastive Sentence Embeddings), a novel framework that leverages autoregressive generation to iteratively refine semantic representations. By producing sequences of soft tokens optimized under contrastive objective, GIRCSE captures latent concepts and im...

ID: 2509.24291v1 cs.CL, cs.AI, I.2.7; I.2.6

arXiv PDF

📄 Hierarchical Error Correction for Large Language Models: A Systematic Framework for Domain-Specific AI Quality Enhancement

2025-10-01

Авторы:

Zhilong Zhao, Yindi Liu

#### Контекст Large Language Models (LLMs) широко используются в различных областях, но сталкиваются с проблемами в специализированных областях, где наблюдается недостаточная точность. Например, в области медицинского кодирования, самые современные модели показывают только 45.9% точности. Эти ограничения могут привести к неточностям в принятии решений, что является критическим для областей, требующих высокой точности, таких как медицина, право и финансы. Мотивацией для данного исследования является развитие систематического подхода к исправлению ошибок в LLMs, который мог бы улучшить их производительность в специализированных областях. #### Метод Для устранения ошибок в LLMs предлагается метод Hierarchical Error Correction (HEC), основанный на детальном анализе и идентификации типов ошибок. Этот подход включает в себя три этапа: 1. **Анализ знаний** – определяет ошибки, связанные с неверным пониманием данных. 2. **Разумный анализ** – адрессирует ошибки, связанные с недостаточным пониманием контекста или неверным выводом. 3. **Сложность** – решает проблемы, связанные с высокой степенью сложности задачи. Фреймворк использует предварительно обученные модели для каждого этапа и применяет их в зависимости от типа ошибки. Эта систематическая модель позволяет сосредоточиться на наиболее важных ошибках и улучшить общую точность. #### Результаты Для исследования эффективности HEC были проведены эксперименты на четырёх специализированных областях: - **Медицинская транскрипция** (4,921 случаев) - **Юридическое документирование** (1,000 случаев) - **Обнаружение политической биаса** (645 случаев) - **Юридическое разумение** (1,000 случаев) На каждой области были проанализированы результаты, использовав сравнительные модели, включая LLM-архитектуры, такие как BERT и RoBERTa. Результаты показали увеличение точности на 11.2 процентных экземпляров по сравнению с базовыми моделями. Однако в случаях с высокими базовыми результатами (выше 75%), HEC не всегда демонстрирует значительные улучшения, что может быть связано с влиянием на процессы разума. #### Значимость Проведенные исследования открывают новые возможности для улучшения точности LLMs в специализированных областях. Этот подход может быть применен в медицине, юриспруденции и других отраслях, где точность критически важна. Основные преимущества HEC заключаются в систематичности анализа ошибок и целенаправленном исправлении. Однако, есть ограничения, такие как неэффективность на высоких базах точности, что может потребовать дополнительной работы над моделью. #### Выводы В результате данного исследовани

Annotation:

Large Language Models face significant performance challenges in specialized domains, with state-of-the-art models achieving only 45.9% accuracy on medical coding tasks. This study proposes a Hierarchical Error Correction (HEC) framework that addresses domain-specific AI limitations through systematic error analysis and targeted intervention strategies. We analyze error patterns across four specialized domains and find that AI errors follow consistent hierarchical structures: Knowledge-layer e...

ID: 2509.24841v1 cs.CL, cs.AI, I.2.7; I.2.6

arXiv PDF

📄 MoVoC: Morphology-Aware Subword Construction for Geez Script Languages

2025-09-12

Авторы:

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

#### Контекст Область исследования сосредотачивается на развитии эффективных методов токенизации для низкоресурсных языков, особенно тех, которые используют геезский алфавит. Такие языки чертятся высоким уровнем морфологической сложности, что создает специфические проблемы для существующих систем токенизации. Основными проблемами являются несохранение морфологических границ при разбиении слов и неэффективность работы существующих методов в условиях ограниченных данных. Данные проблемы сильно сказываются на качестве трансляции и интерпретации текстов. Мотивация заключается в разработке метода, который сохранит морфологическую целостность при эффективном использовании ресурсов. #### Метод Метод, предложенный в работе, называется MoVoC (Morpheme-aware Subword Vocabulary Construction). Он сочетает морфологический анализ и Byte Pair Encoding (BPE) для построения токенов. Морфологический анализ используется для сохранения морфологических границ, а BPE обеспечивает эффективное представление лексического материала. Для обучения и тестирования токенизатора был создан новый набор данных, подготовленный вручную, включающий в себя морфологические морфологические данные для 4 языков, использующих геезский алфавит. Метод также включает в себя морфологический счетчик MorphoScore и метрику Boundary Precision для оценки качества. #### Результаты Проведенные эксперименты показали, что MoVoC-Tok предоставляет важные преимущества в части сохранения морфологии в токенах. Он существенно улучшает MorphoScore и Boundary Precision по сравнению с традиционными методами токенизации, такими как SentencePiece. Однако значительные улучшения в качестве автоматической трансляции не были выявлены, что может быть связано с ограниченным размером выборки и высокой сложностью языка. Тем не менее, результаты демонстрируют, что MoVoC-Tok эффективно работает в условиях ограниченных ресурсов, когда требуется точное разделение морфологических единиц. #### Значимость Метод MoVoC имеет широкие перспективы в области низкоресурсных морфологически сложных языков. Он может применяться в системах машинного перевода, синтеза речи и анализа текстов в геезских языках. Одним из основных преимуществ является более точный токенизатор, который сохраняет значимость морфологических границ. Это влияет на качество трансляции, обеспечивает лучшую лексическую и морфологическую точность. Будущие исследования будут сконцентрированы на увеличении размера данных и расширении применимости метода к другим геезским языкам. #### Выводы Предложенный в работе MoVoC является значитель

Annotation:

Subword-based tokenization methods often fail to preserve morphological boundaries, a limitation especially pronounced in low-resource, morphologically complex languages such as those written in the Geez script. To address this, we present MoVoC (Morpheme-aware Subword Vocabulary Construction) and train MoVoC-Tok, a tokenizer that integrates supervised morphological analysis into the subword vocabulary. This hybrid segmentation approach combines morpheme-based and Byte Pair Encoding (BPE) tokens...

ID: 2509.08812v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3

arXiv PDF