📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Adaptive Testing for Segmenting Watermarked Texts From Language Models

2025-11-15

Авторы:

Xingchi Li, Xiaochi Liu, Guanxun Li

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The rapid adoption of large language models (LLMs), such as GPT-4 and Claude 3.5, underscores the need to distinguish LLM-generated text from human-written content to mitigate the spread of misinformation and misuse in education. One promising approach to address this issue is the watermark technique, which embeds subtle statistical signals into LLM-generated text to enable reliable identification. In this paper, we first generalize the likelihood-based LLM detection method of a previous study b...

ID: 2511.06645v1 stat.ML, cs.CL, cs.LG

arXiv PDF

📄 Hybrid Topic-Semantic Labeling and Graph Embeddings for Unsupervised Legal Document Clustering

2025-09-05

Авторы:

Deepak Bastola, Woohyeok Choi

#### Контекст Область юридического текстового анализа становится все более важной в свете роста количества юридических документов, необходимости упрощения процессов и улучшения точности анализа. Однако юридические тексты имеют уникальные особенности: ограниченный объем меток, специфическая лексика и высокая степень специфичности. Эти факторы ограничивают эффективность существующих методов классификации и кластеризации. Необходимо разработать методы, которые могут эффективно обрабатывать такие тексты, учитывая их специфику. В данной работе предлагается гибридный подход, который объединяет семантическую обработку текстов с техниками графовых представлений для улучшения кластеризации юридических документов. #### Метод Методология основывается на двух основных компонентах: обучению семантических представлений документов с помощью Top2Vec и извлечении структурных представлений с помощью Node2Vec. Top2Vec обнаруживает подчиненные темы в текстах, а Node2Vec позволяет выделять связи между документами в графе, основываясь на бипартийном графе документов. Эти два представления комбинируются с помощью алгоритма KMeans для кластеризации. Важным аспектом является то, что модель не требует меток во время обучения, что делает ее пригодной для обработки больших объемов юридических документов. Архитектура подхода включает в себя несколько шагов: инициализация тем, их автоматическое выявление, построение графа документов и вычисление графовых представлений с использованием Node2Vec. #### Результаты На юридической базе данных была проведена серия экспериментов, сравнивая результаты кластеризации с использованием только семантических представлений (Top2Vec), только графовых представлений (Node2Vec) и их совместного использования. Была оценена точность кластеризации, а также проведена анализ чувствительности к параметрам, таким как число кластеров и размерность представлений. Результаты показали, что гибридный подход демонстрирует лучшую точность кластеризации по сравнению с отдельными моделями. Особенно выдачными были результаты в случае достаточного числа кластеров и оптимальной размерности представления, что указывает на эффективность комбинации семантических и графовых представлений. #### Значимость Предложенный подход может быть применен в различных задачах, связанных с анализом юридических текстов, таких как классификация, кластеризация, определение важности документов и экспертная оценка. Он привносит улучшение в точность и качество анализа, учитывая специфику юридического языка. Его применение может стать предпосылкой для дальнейше

Annotation:

Legal documents pose unique challenges for text classification due to their domain-specific language and often limited labeled data. This paper proposes a hybrid approach for classifying legal texts by combining unsupervised topic and graph embeddings with a supervised model. We employ Top2Vec to learn semantic document embeddings and automatically discover latent topics, and Node2Vec to capture structural relationships via a bipartite graph of legal documents. The embeddings are combined and cl...

ID: 2509.00990v1 stat.ML, cs.CL, cs.LG

arXiv PDF