📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Chandra Vamsi Krishna Alla, Harish Naidu Gaddam, Manohar Kommi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large Language Models (LLMs) face significant computational and memory constraints when processing long contexts, despite growing demand for applications requiring reasoning over extensive documents, multi-session dialogues, and book length texts. While recent advances have extended context windows to 100K-1M tokens, such approaches incur prohibitive costs for resource constrained deployments. We propose BudgetMem, a novel memory augmented architecture that learns what to remember rather than re...
ID: 2511.04919v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3
Авторы:

Hailay Kidu Teklehaymanot, Dren Fazlija, Wolfgang Nejdl

#### Контекст Область исследования сосредотачивается на развитии эффективных методов токенизации для низкоресурсных языков, особенно тех, которые используют геезский алфавит. Такие языки чертятся высоким уровнем морфологической сложности, что создает специфические проблемы для существующих систем токенизации. Основными проблемами являются несохранение морфологических границ при разбиении слов и неэффективность работы существующих методов в условиях ограниченных данных. Данные проблемы сильно сказываются на качестве трансляции и интерпретации текстов. Мотивация заключается в разработке метода, который сохранит морфологическую целостность при эффективном использовании ресурсов. #### Метод Метод, предложенный в работе, называется MoVoC (Morpheme-aware Subword Vocabulary Construction). Он сочетает морфологический анализ и Byte Pair Encoding (BPE) для построения токенов. Морфологический анализ используется для сохранения морфологических границ, а BPE обеспечивает эффективное представление лексического материала. Для обучения и тестирования токенизатора был создан новый набор данных, подготовленный вручную, включающий в себя морфологические морфологические данные для 4 языков, использующих геезский алфавит. Метод также включает в себя морфологический счетчик MorphoScore и метрику Boundary Precision для оценки качества. #### Результаты Проведенные эксперименты показали, что MoVoC-Tok предоставляет важные преимущества в части сохранения морфологии в токенах. Он существенно улучшает MorphoScore и Boundary Precision по сравнению с традиционными методами токенизации, такими как SentencePiece. Однако значительные улучшения в качестве автоматической трансляции не были выявлены, что может быть связано с ограниченным размером выборки и высокой сложностью языка. Тем не менее, результаты демонстрируют, что MoVoC-Tok эффективно работает в условиях ограниченных ресурсов, когда требуется точное разделение морфологических единиц. #### Значимость Метод MoVoC имеет широкие перспективы в области низкоресурсных морфологически сложных языков. Он может применяться в системах машинного перевода, синтеза речи и анализа текстов в геезских языках. Одним из основных преимуществ является более точный токенизатор, который сохраняет значимость морфологических границ. Это влияет на качество трансляции, обеспечивает лучшую лексическую и морфологическую точность. Будущие исследования будут сконцентрированы на увеличении размера данных и расширении применимости метода к другим геезским языкам. #### Выводы Предложенный в работе MoVoC является значитель
Annotation:
Subword-based tokenization methods often fail to preserve morphological boundaries, a limitation especially pronounced in low-resource, morphologically complex languages such as those written in the Geez script. To address this, we present MoVoC (Morpheme-aware Subword Vocabulary Construction) and train MoVoC-Tok, a tokenizer that integrates supervised morphological analysis into the subword vocabulary. This hybrid segmentation approach combines morpheme-based and Byte Pair Encoding (BPE) tokens...
ID: 2509.08812v1 cs.CL, cs.AI, I.2.7; I.2.6; H.3.3