📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Xingchi Li, Xiaochi Liu, Guanxun Li
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The rapid adoption of large language models (LLMs), such as GPT-4 and Claude 3.5, underscores the need to distinguish LLM-generated text from human-written content to mitigate the spread of misinformation and misuse in education. One promising approach to address this issue is the watermark technique, which embeds subtle statistical signals into LLM-generated text to enable reliable identification. In this paper, we first generalize the likelihood-based LLM detection method of a previous study b...
📄 Hybrid Topic-Semantic Labeling and Graph Embeddings for Unsupervised Legal Document Clustering
2025-09-05Авторы:
Deepak Bastola, Woohyeok Choi
#### Контекст
Область юридического текстового анализа становится все более важной в свете роста количества юридических документов, необходимости упрощения процессов и улучшения точности анализа. Однако юридические тексты имеют уникальные особенности: ограниченный объем меток, специфическая лексика и высокая степень специфичности. Эти факторы ограничивают эффективность существующих методов классификации и кластеризации. Необходимо разработать методы, которые могут эффективно обрабатывать такие тексты, учитывая их специфику. В данной работе предлагается гибридный подход, который объединяет семантическую обработку текстов с техниками графовых представлений для улучшения кластеризации юридических документов.
#### Метод
Методология основывается на двух основных компонентах: обучению семантических представлений документов с помощью Top2Vec и извлечении структурных представлений с помощью Node2Vec. Top2Vec обнаруживает подчиненные темы в текстах, а Node2Vec позволяет выделять связи между документами в графе, основываясь на бипартийном графе документов. Эти два представления комбинируются с помощью алгоритма KMeans для кластеризации. Важным аспектом является то, что модель не требует меток во время обучения, что делает ее пригодной для обработки больших объемов юридических документов. Архитектура подхода включает в себя несколько шагов: инициализация тем, их автоматическое выявление, построение графа документов и вычисление графовых представлений с использованием Node2Vec.
#### Результаты
На юридической базе данных была проведена серия экспериментов, сравнивая результаты кластеризации с использованием только семантических представлений (Top2Vec), только графовых представлений (Node2Vec) и их совместного использования. Была оценена точность кластеризации, а также проведена анализ чувствительности к параметрам, таким как число кластеров и размерность представлений. Результаты показали, что гибридный подход демонстрирует лучшую точность кластеризации по сравнению с отдельными моделями. Особенно выдачными были результаты в случае достаточного числа кластеров и оптимальной размерности представления, что указывает на эффективность комбинации семантических и графовых представлений.
#### Значимость
Предложенный подход может быть применен в различных задачах, связанных с анализом юридических текстов, таких как классификация, кластеризация, определение важности документов и экспертная оценка. Он привносит улучшение в точность и качество анализа, учитывая специфику юридического языка. Его применение может стать предпосылкой для дальнейше
Annotation:
Legal documents pose unique challenges for text classification due to their
domain-specific language and often limited labeled data. This paper proposes a
hybrid approach for classifying legal texts by combining unsupervised topic and
graph embeddings with a supervised model. We employ Top2Vec to learn semantic
document embeddings and automatically discover latent topics, and Node2Vec to
capture structural relationships via a bipartite graph of legal documents. The
embeddings are combined and cl...