📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 PoeTone: A Framework for Constrained Generation of Structured Chinese Songci with LLMs

2025-08-09

Авторы:

Zhan Qu, Shuzhou Yuan, Michael Färber

Исследователи изучили потенциал крупных лингвистических моделей (LLMs) для генерирования классического китайского паоши (Songci), характерного строгими структурными, тональными и рифмовыми ограничениями. Для этого разработано систематическое оценивающее рамфармевое, включающее формальную соответствие, лингвистический тестировании посредством LLMs, гуманное оценивание и пробные задачи классификации. Оценивались 18 моделей (3 коммерческие и 15 открытые), используя пять стратегий подсказок: zero-shot, one-shot, completion-based, instruction-tuned и chain-of-thought. Оказалось, что модели с тренировкой под конкретные задачи показали лучшие результаты. Для повышения качества генерации предложен архитектура Generate-Critic, в которой функционирует критическая система оценки, используемая для подкрепленного обучения (SFT), что привело к улучшению соответствия до 5.88%. Результаты демонстрируют сложность генерирования паоши и эффективность развитых методов для такой культурно-значимой и строго ограниченной текстовой генерирования.

Annotation:

This paper presents a systematic investigation into the constrained generation capabilities of large language models (LLMs) in producing Songci, a classical Chinese poetry form characterized by strict structural, tonal, and rhyme constraints defined by Cipai templates. We first develop a comprehensive, multi-faceted evaluation framework that includes: (i) a formal conformity score, (ii) automated quality assessment using LLMs, (iii) human evaluation, and (iv) classification-based probing tasks. ...

ID: 2508.02515v1 cs.CL, cs.LG

arXiv PDF

📄 I Have No Mouth, and I Must Rhyme: Uncovering Internal Phonetic Representations in LLaMA 3.2

2025-08-09

Авторы:

Jack Merullo, Arjun Khurana, Oliver McLaughlin

Ларже лангудже модели, несмотря на отсутствие прямого звукового обогащения, показывают хорошую производительность на гармонических задачах, таких как согласование. В данной работе рассматривается механизм, с помощью которого LLaMA 3.2-1B-Instruct обрабатывает такие задачи. Мы выяснили, что модель основывается на богатом внутреннем моделировании фонемов, чтобы выполнять эти задачи. В латентном пространстве LLaMA обнаруживается организованная система представления фонемов, а также выделяется "phoneme mover head", который активно участвует в выполнении задач согласования. Мы также отобразили выходное пространство этого узла и обнаружили, что LLaMA самостоятельно вырабатывает модель гласных, которая, несмотря на отсутствие прямого вдохновения, тесно напоминает традиционную ИПА-карту гласных. Эти результаты облегчают понимание латентных процессов в моделях текстового понимания.

Annotation:

Large language models demonstrate proficiency on phonetic tasks, such as rhyming, without explicit phonetic or auditory grounding. In this work, we investigate how \verb|Llama-3.2-1B-Instruct| represents token-level phonetic information. Our results suggest that Llama uses a rich internal model of phonemes to complete phonetic tasks. We provide evidence for high-level organization of phoneme representations in its latent space. In doing so, we also identify a ``phoneme mover head" which promotes...

ID: 2508.02527v1 cs.CL, cs.LG

arXiv PDF

📄 Contextual Graph Transformer: A Small Language Model for Enhanced Engineering Document Information Extraction

2025-08-09

Авторы:

Karan Reddy, Mayukha Pal

Технические документы часто содержат сложные синтаксические структуры и сложносвязанные сущности, что создает сложности для стандартных трансформерных моделей. Мы предлагаем Contextual Graph Transformer (CGT) — гибридную модель, объединяющую Graph Neural Networks (GNNs) и Transformer для эффективного справки в доменах с особыми требованиями. CGT строит динамическую графовую структуру над токенами, используя последовательные, skip-gram и семантические связи, а затем эти структуры обрабатываются GATv2Conv-слоями для извлечения локальных структур. Обобщенные эмбеддинги передаются в Transformer-энкодер для построения глобальных зависимостей. CGT эффективнее базовых моделей, таких как GPT-2 и BERT, с меньшим количеством параметров и лучшим адаптированным к техническим документам подходом. Модель протестирована в контексте Retrieval-Augmented Generation (RAG) и показала себя эффективнее, повысив точность на 24.7% с меньшим потреблением ресурсов. Это подтверждает её подходительность для решения задач восстановления информации в технических документах.

Annotation:

Standard transformer-based language models, while powerful for general text, often struggle with the fine-grained syntax and entity relationships in complex technical, engineering documents. To address this, we propose the Contextual Graph Transformer (CGT), a hybrid neural architecture that combines Graph Neural Networks (GNNs) and Transformers for domain-specific question answering. CGT constructs a dynamic graph over input tokens using sequential, skip-gram, and semantic similarity edges, whi...

ID: 2508.02532v1 cs.CL, cs.LG

arXiv PDF

📄 Automated SNOMED CT Concept Annotation in Clinical Text Using Bi-GRU Neural Networks

2025-08-09

Авторы:

Ali Noori, Pratik Devkota, Somya Mohanty, Prashanti Manda

Задача автоматического аннотирования клинических текстов стандартизированными медицинскими понятиями SNOMED CT является важной для обеспечения структурированного извлечения данных и поддержки принятия решений в сфере медицины. Однако ручной аннотирование текстов является затратным и неэффективным. В статье предлагается новая модель на основе Bidirectional GRU для автоматического распознавания SNOMED CT-концептов. Модель обучалась на сгенерированных данных от MIMIC-IV, обрабатывая текст с использованием SpaCy и SciBERT для токенизации и предобработки. Эта модель показала высокую точность с F1-мерой 90% на валидационном наборе данных, превосходя традиционные правила и другие нервные модели. Анализ показал, что модель эффективно обрабатывает амбигуозные термины и опечатки. Этот подход подтверждает, что легкие RNN-архитектуры могут обеспечить высокое качество аннотаций с меньшими затратами ресурсов, чем модели на transformer.

Annotation:

Automated annotation of clinical text with standardized medical concepts is critical for enabling structured data extraction and decision support. SNOMED CT provides a rich ontology for labeling clinical entities, but manual annotation is labor-intensive and impractical at scale. This study introduces a neural sequence labeling approach for SNOMED CT concept recognition using a Bidirectional GRU model. Leveraging a subset of MIMIC-IV, we preprocess text with domain-adapted SpaCy and SciBERT-base...

ID: 2508.02556v1 cs.CL, cs.LG

arXiv PDF

📄 Highlight & Summarize: RAG without the jailbreaks

2025-08-09

Авторы:

Giovanni Cherubin, Andrew Paverd

Нарушения безопасности в Large Language Models (LLMs), такие как jailbreaking и model hijacking, остаются значительной проблемой при использовании таких систем, особенно в контексте бесед с чатботами. Обычные методы, такие как усиление системных промптов или обучение классификаторов нежелательных выходов, часто оказываются недостаточно эффективными ввиду огромного количества возможных входных данных и нежелательных результатов. В статье предлагается новая модель Highlight & Summarize (H&S) для Retrieval-Augmented Generation (RAG), которая устраняет эти проблемы за счет изменения принципов работы генерирующей LLM. В H&S-модели генеративный LLM не имеет прямого доступа к самим вопросам пользователя, а вместо этого работает с выделенными ("highlighted") подборками документов, которые затем обрабатываются в цельную всё понятную ответ. Авторы оценили несколько инстанций H&S, показав, что ответы этой модели чаще всего лучше по качеству и отдалённости от нежелательных задач, чем ответы стандартного RAG-принципа. Это указывает на сильное потенциал H&S в обеспечении безопасности и эффективности в RAG-системах.

Annotation:

Preventing jailbreaking and model hijacking of Large Language Models (LLMs) is an important yet challenging task. For example, when interacting with a chatbot, malicious users can input specially crafted prompts to cause the LLM to generate undesirable content or perform a completely different task from its intended purpose. Existing mitigations for such attacks typically rely on hardening the LLM's system prompt or using a content classifier trained to detect undesirable content or off-topic co...

ID: 2508.02872v1 cs.CL, cs.LG

arXiv PDF

📄 Analyzing German Parliamentary Speeches: A Machine Learning Approach for Topic and Sentiment Classification

2025-08-09

Авторы:

Lukas Pätz, Moritz Beyer, Jannik Späth, Lasse Bohlen, Patrick Zschech, Mathias Kraus, Julian Rosenberger

Научная статья рассматривает анализ политического дискурса в германском парламенте, Бундестаг, с помощью машинного обучения. Исследование основывается на анализе 28 000 речей, полученных за последние пять лет. Разработаны и обучены два модели для классификации тем и оттенков сентимента. Исследование показало высокую точность моделей: AUROC 0.94 для классификации тем и 0.89 для классификации оттенков сентимента. Модели использовались для оценки тематических трендов и динамики оттенков сентимента в зависимости от политических партий и времени. Наблюдаются значительные отличия в стиле речи между партиями в зависимости от их роли в парламенте. Так, партии, переходящие из правительства в оппозицию, проявляют изменение в своем дискурсивном подходе. Изучение дискурса помогает понять тенденции в развитии тем, сентиментальные динамики и стратегии дискурса различных политических партий.

Annotation:

This study investigates political discourse in the German parliament, the Bundestag, by analyzing approximately 28,000 parliamentary speeches from the last five years. Two machine learning models for topic and sentiment classification were developed and trained on a manually labeled dataset. The models showed strong classification performance, achieving an area under the receiver operating characteristic curve (AUROC) of 0.94 for topic classification (average across topics) and 0.89 for sentimen...

ID: 2508.03181v1 cs.CL, cs.LG

arXiv PDF

📄 Towards Trustworthy Multimodal Moderation via Policy-Aligned Reasoning and Hierarchical Labeling

2025-08-09

Авторы:

Anqi Li, Wenwei Jin, Jintao Tong, Pengda Qin, Weijia Li, Guo Lu

Многие социальные платформы сталкиваются с проблемой распространения вредоносного и несоответствующего политикам контента. Традиционные модели модерации слишком нацелены на эффективность и часто производят неточные и непонятные решения, что затрудняет их контроль людьми. В статье предлагается фреймворк **Hi-Guard**, решающий эти проблемы за счет интеграции политико-ориентированного рассуждения и гибридной моделирования. Он включает две стадии модерации: первичную бинарную фильтрацию и вторичную тонкослойную классификацию с использованием гибридной техники path-based classification. Модель интегрирует определения политик непосредственно в процесс рассуждения, что обеспечивает лучшую адаптацию к изменяющимся политикам. Для повышения качества предсказаний и интерпретабельности был введен Group Relative Policy Optimization (GRPO), который устраняет семантически близкие ошибки. Исследования показали, что Hi-Guard превосходит существующие модели по точности классификации, общей универсальности и четкости выводов, делая модерацию более надежной и прозрачной.

Annotation:

Social platforms have revolutionized information sharing, but also accelerated the dissemination of harmful and policy-violating content. To ensure safety and compliance at scale, moderation systems must go beyond efficiency and offer accuracy and interpretability. However, current approaches largely rely on noisy, label-driven learning, lacking alignment with moderation rules and producing opaque decisions that hinder human review. Therefore, we propose Hierarchical Guard (Hi-Guard), a multimod...

ID: 2508.03296v1 cs.CL, cs.LG

arXiv PDF

📄 Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings

2025-08-09

Авторы:

Rita González-Márquez, Philipp Berens, Dmitry Kobak

Текстовые представления (embeddings) целых текстов широко используются в таких областях, как визуализация данных, кластеризация, анализ тональности и вспомогательная генерация текста. Несмотря на их важность, достижение высокого качества этих представлений часто требует трудоемкого и дорогостоящего супервизованного тренирования. В статье «Cropping outperforms dropout as an augmentation strategy for training self-supervised text embeddings» авторы исследуют альтернативный подход, основанный на самостоятельном (self-supervised) обучении, использующем методы аугментации текстов. Они сравнивают две популярные стратегии: посредством подрезания (cropping) и dropout. Результаты показывают, что cropping выдает значительно лучшие результаты в обучении на основе отрицательных пар (contrastive learning). Хотя внедоменные тесты показывают, что self-supervised модели еще не достигают качества супервизованных моделей, в доменных задачах они демонстрируют высокую качественность уже после короткого тренировочного процесса. Особый интерес представляет тот факт, что глубина представлений возрастает в последних слоях модели, где происходит самая сильная перестройка, и что только эти слои требуются для достижения нужного качества.

Annotation:

Text embeddings, i.e. vector representations of entire texts, play an important role in many NLP applications, such as retrieval-augmented generation, sentiment analysis, clustering, or visualizing collections of texts for data exploration. Currently, top-performing embedding models are derived from pre-trained language models via extensive supervised fine-tuning using curated text pairs. This contrasts with computer vision, where self-supervised training based on data augmentations has demonstr...

ID: 2508.03453v1 cs.CL, cs.LG

arXiv PDF

📄 UPLME: Uncertainty-Aware Probabilistic Language Modelling for Robust Empathy Regression

2025-08-09

Авторы:

Md Rakibul Hasan, Md Zakir Hossain, Aneesh Krishna, Shafin Rahman, Tom Gedeon

**Резюме** В статье предлагается UPLME — модель нейронной сети, ориентированная на решение проблемы регрессии эмпатии в условиях шумных самооценочных оценок. Шумные данные становится сложнее обрабатывать в задачах регрессии по сравнению с задачами классификации. Разработанная модель UPLME решает эту проблему с помощью семантического моделирования с учетом неопределенности, используя пробаболистическую модель языка, которая предсказывает не только эмпатию, но и уровень неопределенности в этом предсказании. Для обучения вводятся два новых компонента потерь: один подавляет дегенерацию уточнения неопределенности, а другой важает схожесть между входными парами, для которых предсказывается эмпатия. Модель показывает лучшие результаты по двум открытым бенчмаркам с шумом в метках: улучшает показатели Pearson Correlation Coefficient (PCC) на $0.022$ и $0.005$, а также снижает ошибку калибровки на $0.2$ в сравнении со стандартными методами регрессии с учетом неопределенности. Это демонстрирует эффективность UPLME в обработке шумных данных и в точном выявлении шумовых и чистых примеров.

Annotation:

Supervised learning for empathy regression is challenged by noisy self-reported empathy scores. While many algorithms have been proposed for learning with noisy labels in textual classification problems, the regression counterpart is relatively under-explored. We propose UPLME, an uncertainty-aware probabilistic language modelling framework to capture label noise in the regression setting of empathy detection. UPLME includes a probabilistic language model that predicts both empathy score and het...

ID: 2508.03520v1 cs.CL, cs.LG

arXiv PDF

📄 Tackling Distribution Shift in LLM via KILO: Knowledge-Instructed Learning for Continual Adaptation

2025-08-09

Авторы:

Iing Muttakhiroh, Thomas Fevens

**Резюме** Проблема: Large Language Models (LLMs) часто сталкиваются с ухудшением производительности при выполнении задач в новых доменах из-за проблемы катастрофического забывания (catastrophic forgetting). Решение: В статье предложена методика KILO (Knowledge-Instructed Learning for Continual Adaptation), которая интегрирует динамические знания из графов знаний (knowledge graphs) с инструкционным обучением (instruction tuning). Метод KILO использует во время обучения внешние знания, полученные с помощью восстановления, как дополнительный стимул для модели. Эта модель была протестирована на последовательном адаптировании к четырём разным доменам: BioASQ, SciQ, TweetEval и MIND. Результаты: Модель KILO показала лучшие результаты по сравнению с основными базовыми моделями, в том числе ERNIE 2.0 и CPT, в плане производительности, эффективности обучения и способности сохранить данные из предыдущих доменов. Вывод: Объединение внешних знаний с инструкционным обучением даёт эффективный метод для преодоления проблемы катастрофического забывания в LLMs при адаптации к новым доменам.

Annotation:

Large Language Models (LLMs) often suffer from performance degradation when faced with domain shifts, primarily due to catastrophic forgetting. In this work, we propose KILO (Knowledge-Instructed Learning for Continual Adaptation), a novel continual learning framework that integrates dynamic knowledge graphs with instruction tuning. By leveraging retrieved domain-specific knowledge as guidance during training, KILO enhances both adaptability to new domains and retention of previously acquired kn...

ID: 2508.03571v1 cs.CL, cs.LG

arXiv PDF

Показано 551 - 560 из 573 записей