📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Testing the assumptions about the geometry of sentence embedding spaces: the cosine measure need not apply

2025-09-05

Авторы:

Vivi Nastase, Paola Merlo

## Контекст Основной контекст данного исследования заключается в оценке предположений о геометрии пространств слов и предложений, в частности, вопросе о том, может ли косинусная мера подходить для оценки их отношений. Мотивация для исследования лежит в том, что модели Transformer, такие как BERT, преобразуют текст в контекстные токенные представления. Эти представления используются в многих лингвистических задачах, но модели не всегда становятся понятными на уровне геометрии пространств. Авторы задаются вопросом о том, можно ли иметь вообще грубое представление о том, как выполняется это преобразование, если речь идет о некоторых лингвистических свойствах. Таким образом, основной вопрос, который рассматривается в работе, — как геометрия пространств предложений отражается на их поведении на различных лингвистических задачах, и можно ли определить какие-либо общие паттерны. ## Метод Для решения этой проблемы авторы представляют три основных метода, которые использовались для вычисления слов в пространстве слов: 1) усреднение токена, 2) использование специального токена [CLS] и 3) выбор случайного токена из предложения. Для оценки пространств предложений, авторы использовали косинусную меру, которая рассматривает лишь те структуры, которые есть на очень высоком уровне. Они исследуют, возможно ли использовать этот подход для поиска схожих свойств между предложениями, а также оценивают геометрические свойства, включая расстояния между токенами. Таким образом, основная теория, которую исследуют, заключается в том, можно ли добиться хорошей корреляции между расстоянием в пространстве слов и их лингвистическим смыслом, а также отношением к задачам. ## Результаты Результаты исследования показали, что косинусная мера, на самом деле, несет в себе лишь ограниченную информацию, не отражающую полноценные свойства предложений. В частности, авторы отмечают, что расстояние между словами или предложениями в пространстве не всегда сигнализирует о том, как они связаны в плане лингвистической семантики. Таким образом, как выяснилось в результатах, косинусная мера может давать некорректные выводы, когда речь идет о том, какие предложения принадлежат к той же группе с точки зрения лингвистики. Основной вывод заключается в том, что косинусная мера не может гарантировать достоверную корреляцию между расстоянием в пространстве и фактическим лингвистическим смыслом. ## Значимость Изучение геометрии пространств слов и предложений имеет реальную значимость в области применения моделей NLP. Данные результаты могут быть применены в техническо

Annotation:

Transformer models learn to encode and decode an input text, and produce contextual token embeddings as a side-effect. The mapping from language into the embedding space maps words expressing similar concepts onto points that are close in the space. In practice, the reverse implication is also assumed: words corresponding to close points in this space are similar or related, those that are further are not. Does closeness in the embedding space extend to shared properties for sentence embedding...

ID: 2509.01606v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Tokens with Meaning: A Hybrid Tokenization Approach for NLP

2025-08-22

Авторы:

M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Sercan Karakaş, Banu Diri, Savaş Yıldırım, Demircan Çelik

## Контекст Современные языковые модели требуют эффективных методов токенизации для того, чтобы правильно обрабатывать текст. Однако существующие подходы, такие как Byte Pair Encoding (BPE) и WordPiece, часто сталкиваются с проблемами при обработке языков с богатым морфологическим строением, таких как турецкий. Эти языки часто требуют токенизации, учитывающей морфологические структуры, чтобы сохранить значимость и точность. В статье предлагается новый подход, который сочетает правила морфологического анализа с статистическим подходом, чтобы улучшить токенизацию в таких языках. ## Метод Предложенный подход сочетает правила морфологического анализа с статистическим подходом. Фреймворк включает в себя нормализацию фонетики, использование словарей корней и суффиксов, а также новый алгоритм, который сбалансированно учитывает уровень поддержания морфологических структур и эффективность во входном словаре. Он также учитывает специальные контексты, такие как пробелы и регистр. BPE используется в качестве дополнения, чтобы охватить нестандартные случаи вне обычных морфологических структур. ## Результаты Использовав этот подход на турецком языке, токенизатор показал высокую эффективность. Он достиг 90.29% турецкого токен-процента и 85.8% чистого токен-процента на TR-MMLU бенчмарке. Эта метрика показывает, что токены являются более значимыми и логичными для турецкого языка. Кроме того, сравнение с другими токенизаторами из систем LLaMA, Gemma и GPT показало, что этот подход приносит более логичные токенизационные решения для турецкого языка. ## Значимость Предложенный метод может быть использован не только для турецкого, но и для других языков с богатым морфологическим строением. Он обеспечивает более точное понимание текстов и повышает эффективность в обучении языковых моделей. Это может привести к улучшению результатов моделей в таких областях, как машинное обучение, перевод и анализ текста. ## Выводы Предложенный токенизатор показал свою эффективность для турецкого языка и может быть широко применен в других языках с богатым морфологическим строением. Этот подход может быть расширен в будущих исследованиях, чтобы улучшить токенизацию для многоязычных языковых моделей.

Annotation:

Tokenization plays a pivotal role in natural language processing (NLP), shaping how text is segmented and interpreted by language models. While subword methods such as Byte Pair Encoding (BPE) and WordPiece have been effective, they often struggle with morphologically rich and agglutinative languages because they rely on frequency rather than linguistic structure. We introduce a hybrid tokenization framework that combines rule-based morphological analysis with statistical subword segmentation. T...

ID: 2508.14292v1 cs.CL, 68T50, I.2.7; I.2.6; H.3.1

arXiv PDF

📄 Büyük Dil Modelleri için TR-MMLU Benchmarkı: Performans Değerlendirmesi, Zorluklar ve İyileştirme Fırsatları

2025-08-20

Авторы:

M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Banu Diri, Savaş Yıldırım, Öner Aytaş

#### Контекст Language models (LLMs) показали впечатляющие результаты в области понимания и генерации текстов на естественном языке. Однако, их эффективность часто определяется не только техническими возможностями, но и предоставленными данными. Для ресурсо-ограниченных языков, таких как турецкий, эта проблема значительно усиливается. Ограниченное количество ресурсов и недостаток высококачественных бенчмарков затрудняют сравнительный анализ и развитие NLP-решений на турецком языке. Для решения этой проблемы, предложен TR-MMLU (Turkish MMLU) benchmark, созданный для эффективного и стандартизированного оценивания LLMs на турецком языке. #### Метод Такие языковые модели, как GPT-3, T5, и BERT, подвергались тестированию на TR-MMLU. Методология основывается на качественно подготовленном наборе данных, состоящем из 6,200 многовыборочных вопросов, разделенных на 62 категории. Эти категории отражают различные сферы знаний, включая литературу, историю, математику и др. Эксперименты проводились в условиях изолированной оценки, чтобы избежать предтечной информации. Архитектура TR-MMLU основывается на тестировании моделей в условиях, адаптированных для турецкого языка, чтобы проверить их моделирование языковой и концептуальной логики. #### Результаты Проведенные эксперименты показали, что хотя LLMs достаточно хорошо справляются с простыми задачами, они сталкиваются с значительными трудностями при работе с более сложными кейсами. Модели с лучшими результатами показали долю правильных ответов в пределах 40-60%, что указывает на необходимость улучшения моделей для более точного моделирования турецкого языка. Отрицательные результаты, такие как сильная зависимость от контекста и проблемы обработки специфического турецкого текста, также были отмечены. #### Значимость TR-MMLU может использоваться в различных областях, включая образовательные технологии, автоматизацию перевода и анализ текста. Он предоставляет стандартную платформу для сравнения LLMs, позволяя исследователям улучшать их в соответствии с конкретными потребностями турецкого языка. Благодаря этому, TR-MMLU может способствовать развитию турецкого NLP, повышению качества моделей и расширению их применений. #### Выводы TR-MMLU устанавливает новый аргумент для развития NLP на турецком языке. Он открывает новые пути для инноваций в области моделей языков и приложений. Будущие исследования будут сконцентрированы на улучшении точности моделей, развитии методов моделирования турецкого языка и расширении TR-MMLU для поддержки других ресурсо-ограниченных

Annotation:

Language models have made significant advancements in understanding and generating human language, achieving remarkable success in various applications. However, evaluating these models remains a challenge, particularly for resource-limited languages like Turkish. To address this issue, we introduce the Turkish MMLU (TR-MMLU) benchmark, a comprehensive evaluation framework designed to assess the linguistic and conceptual capabilities of large language models (LLMs) in Turkish. TR-MMLU is based o...

ID: 2508.13044v1 cs.CL, 68T50, I.2.7; I.2.6

arXiv PDF

📄 Doğal Dil İşlemede Tokenizasyon Standartları ve Ölçümü: Türkçe Üzerinden Büyük Dil Modellerinin Karşılaştırmalı Analizi

2025-08-20

Авторы:

M. Ali Bayram, Ali Arda Fincan, Ahmet Semih Gümüş, Sercan Karakaş, Banu Diri, Savaş Yıldırım

## Контекст Научное исследование рассматривает область естественного языкового обработки (Natural Language Processing, NLP), специфичную для морфологически-богатых и мало-ресурсных языков, таких как турецкий. Данная область является ключевой для современного NLP, поскольку морфологическая сложность турецкого языка требует специализированных подходов для эффективного обработки и анализа текста. Существующие проблемы включают недостаток правильного разбиения слов, связанные с множественным присутствием контекстуальных форм. Это подрывает точность и качество моделей естественного языка. Мотивация заключается в создании метода, который учитывает уникальные характеристики турецкого языка и повышает точность используемых в NLP моделей. ## Метод Исследование вводит новую оценочную модель для технологий tokenization (разбиения на токены), которая применяется к турецкому языку. Работа основывается на датасете Turkish MMLU (TR-MMLU), состоящем из 6,200 многовыборочных вопросов, извлеченных из турецкой системы образования. Метод оценивает tokenizers с помощью новых метрик, таких как: - **Vocabulary Size**: Общее количество уникальных токенов. - **Token Count**: Количество токенов в тексте. - **Processing Time**: Время, затраченное на обработку текста. - **%TR**: Процент турецких токенов. - **%Pure**: Точность токенов, измеряющая насколько токены соответствуют естественным границам слов. Эти новые метрики позволяют оценивать, насколько эффективно tokenizer сохраняет турецкие языковые структуры. ## Результаты Исследование вы mostró, что **%TR** имеет сильныей корреляцию с даунстрим-перформансом (например, MMLU-тестами), чем **%Pure**. Это показывает, что сохранение естественных границ слов важнее чистой формы токенов. Более того, простое увеличение модели параметров не гарантирует лучшую языковую производительность. Это подчеркивает значимость использования точечных, направленных на язык, подходов к tokenization. ## Значимость Результаты имеют важное значение для NLP в турецком языке и похожих морфологически-богатых языках. Метод предоставляет новый стандарт для токенизации, который может быть использован для улучшения точности других моделей естественного языка. Эта работа подчеркивает значение индивидуализированных подходов для морфологически сложных языков и может быть применена в системах обучения машин, рекомендательных системах и других NLP-приложениях. ## Выводы Исследование устанавливает новый стандарт для токенизации турецкого языка, основанный на новых метриках %TR и %Pure. Оно демонстрирует, что эффективная токенизация играет ключе

Annotation:

Tokenization is a fundamental preprocessing step in Natural Language Processing (NLP), significantly impacting the capability of large language models (LLMs) to capture linguistic and semantic nuances. This study introduces a novel evaluation framework addressing tokenization challenges specific to morphologically-rich and low-resource languages such as Turkish. Utilizing the Turkish MMLU (TR-MMLU) dataset, comprising 6,200 multiple-choice questions from the Turkish education system, we assessed...

ID: 2508.13058v1 cs.CL, 68T50, I.2.7; I.2.6

arXiv PDF

📄 Shaping Event Backstories to Estimate Potential Emotion Contexts

2025-08-15

Авторы:

Johannes Schäfer, Roman Klinger

#### Контекст Анализ эмоций является нерешительной задачей, которая часто подвержена несогласию между разными аннотаторами. Обычно предполагается, что этот несогласию могут объяснять различия в свойствах аннотаторов или их подходах к анализу. Однако подобные различия могут быть вызваны отсутствием достаточного контекста для понимания событий. Мы предлагаем новую методику, которая добавляет разумные контексты к описаниям событий, чтобы улучшить понимание эмоций в конкретных ситуациях. Целью нашей работы является определение того, возможно ли улучшить консистентность и точность эмоционального анализа, используя дополнительные контексты. #### Метод Мы разработали метод, который устанавливает различные контексты для целевых событий, основываясь на разных эмоциональных сценариях. Наш алгоритм генерирует несколько комбинаций событий, которые могут вызвать различные эмоции. Эти генерируемые цепочки событий создаются с помощью технологий генерируемого текста, которые строят контекстные наборы. Мы сформировали специализированный набор данных, который позволяет проводить систематический анализ эмоциональных контекстов. Метод сочетает подходы из генеративной литературы и технологий контролируемой генерации текста. #### Результаты Мы провели серию экспериментов, используя нашу специально созданную выборку для проверки того, насколько добавление контекстных наборов влияет на качество анализа эмоций. Мы провели когнитивное и автоматическое тестирование, чтобы оценить, насколько предоставление контекста помогает аннотаторам сделать более точные и консистентные оценки эмоций. Эксперименты показали, что добавление контекста улучшает консистентность и понимание эмоций. #### Значимость Наша работа может быть применена в сфере анализа эмоций в текстах, где необходимо учитывать различные контексты для получения более точных оценок. Она может быть полезна в области компьютерного зрения, социальных сетей и других областях, где эмоциональный анализ играет ключевую роль. Наш подход расширяет возможности технологий эмоционального анализа, делая их более точными и контекстуально ориентированными. #### Выводы Наши результаты показали, что добавление контекста к описаниям событий может значительно улучшить качество эмоционального анализа. Мы также выявили, что различные контексты могут повлиять на то, как наблюдатели понимают и оценивают эмоции. Мы будем продолжать работу над повышением конкретности и точности методов контекстуализации в анализе эмоций.

Annotation:

Emotion analysis is an inherently ambiguous task. Previous work studied annotator properties to explain disagreement, but this overlooks the possibility that ambiguity may stem from missing information about the context of events. In this paper, we propose a novel approach that adds reasonable contexts to event descriptions, which may better explain a particular situation. Our goal is to understand whether these enriched contexts enable human annotators to annotate emotions more reliably. We dis...

ID: 2508.09954v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Optimizing Retrieval-Augmented Generation (RAG) for Colloquial Cantonese: A LoRA-Based Systematic Review

2025-08-14

Авторы:

David Santandreu Calonge, Linda Smail

## Контекст Область исследования сосредоточена на оптимизации Retrieval-Augmented Generation (RAG) систем, применяемых для понимания и генерации говорения в коллоквиальном кантонском языке. Данные системы обладают значительным потенциалом в области естественного языкового обработки, однако сталкиваются с вызовами, связанными с ограниченным количеством точно отмеченных данных и высокой языковой широтой. Ключевые проблемы включают несовершенство в понимании и генерировании тонкостей коллоквиального кантонского языка, недостаточную гибкость и склонность к ошибкам в мелких языковых нюансах. Мотивация заключается в поиске эффективных методов, позволяющих улучшить точность, семантическую верность и специфичность языка в таких системах, а также в оценке степени их пригодности для решения задач, связанных с коллоквиальным языком. ## Метод Исследование основывается на низкоранговой адаптации (LoRA) как основной методологии для оптимизации RAG-систем. Архитектура LoRA интегрируется в фреймворки, такие как Qwen3, DeepSeek и Kimi, для достижения лучшей эффективности и точности во взаимодействии с данными, ограниченными по объему. Методология включает в себя эксперименты с различными вариациями LoRA, включая синтетическое генерирование данных, интеграцию пользовательского фидбека и динамическую адаптацию параметров. Данные, использованные в исследовании, были сборены из различных источников, включая кантонские коллоквиальные тексты, сингапурские и гонконгские данные. Методы оценки включали в себя метрики точности для оценки результатов понимания и генерирования, а также тестирование на новых данных для проверки устойчивости. ## Результаты Эксперименты показали, что LoRA-based RAG-системы, особенно с динамическими и параметрическими адаптациями, эффективны в сокращении требуемых ресурсов при сохранении высокого уровня точности в преобразовании и генерировании. Особенно выдающимися результатами показались методы с использованием synthetic data generation и adaptive LoRA, которые уменьшили объем обучаемых параметров без существенных потерь в языковой натуре и точности. Однако, некоторые проблемы остались, особенно в области сохранения тонкостей языка в условиях ограниченных данных. Например, системы иногда не удавалось правильно отразить некоторые коллоквиальные нюансы, что могло привести к неточности в генерации. ## Значимость Полученные результаты могут быть применены в различных сферах, таких как машинное обучение для коллоквиальных языков, системы рекомендаций, автоматическая транскрипция говорения и др. Эффективные LoRA-адаптации

Annotation:

This review examines recent advances in Parameter-Efficient Fine-Tuning (PEFT), with a focus on Low-Rank Adaptation (LoRA), to optimize Retrieval-Augmented Generation (RAG) systems like Qwen3, DeepSeek, and Kimi. These systems face challenges in understanding and generating authentic Cantonese colloquial expressions due to limited annotated data and linguistic variability. The review evaluates the integration of LoRA within RAG frameworks, benchmarks PEFT methods for retrieval and generation acc...

ID: 2508.08610v1 cs.CL, 68T50, I.2.7; I.2.6; H.3.3

arXiv PDF

📄 Omni-SafetyBench: A Benchmark for Safety Evaluation of Audio-Visual Large Language Models

2025-08-13

Авторы:

Leyi Pan, Zheyu Fu, Yunpeng Zhai, Shuchang Tao, Sheng Guan, Shiyu Huang, Lingzhe Zhang, Zhaoyang Liu, Bolin Ding, Felix Henry, Lijie Wen, Aiwei Liu

## Контекст Omni-modal Large Language Models (OLLMs), которые объединяют в себе обработку текстовых, аудио и визуальных данных, приобретают все большую популярность. Однако это создает серьезные безопасности вопросы, так как непредвиденные или вредоносные выходы могут возникнуть в результате неверного понимания значительного объема входных данных. Несмотря на существование бенчмарков для обычных текстовых LLM, нет конкретных методologi для оценки безопасности OLLMs в условиях аудио-визуальных входных данных. Это мотивирует развитие бенчмарка Omni-SafetyBench, первого подобного направлении, для эффективной оценки безопасности OLLMs. ## Метод Omni-SafetyBench включает 24 различных модальных комбинаций с 972 семплами каждого. Он поддерживает аудио-визуальные сценарии, включая специфические эксперименты на вредоносные входы. Для оценки безопасности OLLMs вводятся две новые метрики: Safety-score, основанный на показателе успешности атаки (C-ASR) и отказа (C-RR), чтобы рассмотреть возможность недоумия модели, и Cross-Modal Safety Consistency Score (CMSC-score), чтобы измерить согласованность в работе модели по разным модальностям. ## Результаты Оценка 6 открытых и 4 закрытых OLLM показала существующие проблемы: ни одна модель не показывает высокую производительность в обеих метриках, и только три модели достигли оценки выше 0.6 в каждой. Общая безопасность особенно страдает при аудио-визуальных входах. Некоторые модели показывают очень низкие результаты на определенных модальностях, достигая значений 0.14. ## Значимость Omni-SafetyBench оказывается важной инструментой для изучения проблем безопасности OLLM. Он может применяться в сферах, где возникают риски моделей, и предоставляет новые возможности для создания безопасных моделей. Результаты опытов показывают, что нужны улучшения в области оценки безопасности OLLM, а также в самих моделях, которые должны быть более состоятельными и надёжными в работе с аудио-визуальными входами. ## Выводы Omni-SafetyBench демонстрирует критические уязвимости OLLM в сфере безопасности и выделяет важность дальнейших работ по улучшению метрик, моделей и методологий для безопасного использования OLLM в сложных аудио-визуальных условиях.

Annotation:

The rise of Omni-modal Large Language Models (OLLMs), which integrate visual and auditory processing with text, necessitates robust safety evaluations to mitigate harmful outputs. However, no dedicated benchmarks currently exist for OLLMs, and prior benchmarks designed for other LLMs lack the ability to assess safety performance under audio-visual joint inputs or cross-modal safety consistency. To fill this gap, we introduce Omni-SafetyBench, the first comprehensive parallel benchmark for OLLM s...

ID: 2508.07173v1 cs.CL, 68T50, I.2.7

arXiv PDF

Показано 11 - 17 из 17 записей