📊 Статистика дайджестов

Всего дайджестов: 34607 Добавлено сегодня: 484

Последнее обновление: сегодня

📄 Fine-tuning of Large Language Models for Constituency Parsing Using a Sequence to Sequence Approach

2025-10-22

Авторы:

Francisco Jose Cortes Delgado, Eduardo Martinez Gracia, Rafael Valencia Garcia

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent advances in natural language processing with large neural models have opened new possibilities for syntactic analysis based on machine learning. This work explores a novel approach to phrase-structure analysis by fine-tuning large language models (LLMs) to translate an input sentence into its corresponding syntactic structure. The main objective is to extend the capabilities of MiSintaxis, a tool designed for teaching Spanish syntax. Several models from the Hugging Face repository were fi...

ID: 2510.16604v1 cs.CL, 68T50, I.2.7; I.2.6

arXiv PDF

📄 ENIGMA: The Geometry of Reasoning and Alignment in Large-Language Models

2025-10-18

Авторы:

Gareth Seneque, Lap-Hang Ho, Nafise Erfanian Saeedi, Jeffrey Molendijk, Ariel Kuperman, Tim Elson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

We present Entropic Mutual-Information Geometry Large-Language Model Alignment (ENIGMA), a novel approach to Large-Language Model (LLM) training that jointly improves reasoning, alignment and robustness by treating an organisation's policies/principles as directions to move on a model's information manifold. Our single-loop trainer combines Group-Relative Policy Optimisation (GRPO), an on-policy, critic-free RL method with Chain-of-Thought (CoT)-format only rewards; a Self-Supervised Alignment w...

ID: 2510.11278v2 cs.LG, cs.AI, cs.CL, 68T50, I.2.7

arXiv PDF

📄 The Personalization Trap: How User Memory Alters Emotional Reasoning in LLMs

2025-10-15

Авторы:

Xi Fang, Weijie Xu, Yuchong Zhang, Stephanie Eckman, Scott Nickleach, Chandan K. Reddy

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

When an AI assistant remembers that Sarah is a single mother working two jobs, does it interpret her stress differently than if she were a wealthy executive? As personalized AI systems increasingly incorporate long-term user memory, understanding how this memory shapes emotional reasoning is critical. We investigate how user memory affects emotional intelligence in large language models (LLMs) by evaluating 15 models on human validated emotional intelligence tests. We find that identical scenari...

ID: 2510.09905v1 cs.AI, cs.CL, 68T50, I.2.7

arXiv PDF

📄 ENIGMA: The Geometry of Reasoning and Alignment in Large-Language Models

2025-10-15

Авторы:

Gareth Seneque, Lap-Hang Ho, Nafise Erfanian Saeedi, Jeffrey Molendijk, Ariel Kupermann, Tim Elson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

ID: 2510.11278v1 cs.LG, cs.AI, cs.CL, 68T50, I.2.7

arXiv PDF

📄 Thinking Longer, Not Always Smarter: Evaluating LLM Capabilities in Hierarchical Legal Reasoning

2025-10-14

Авторы:

Li Zhang, Matthias Grabmair, Morgan Gray, Kevin Ashley

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Case-based reasoning is a cornerstone of U.S. legal practice, requiring professionals to argue about a current case by drawing analogies to and distinguishing from past precedents. While Large Language Models (LLMs) have shown remarkable capabilities, their proficiency in this complex, nuanced form of reasoning needs further investigation. We propose a formal framework that decomposes the process of identifying significant distinctions between cases into three-stage reasoning tasks. Our framewor...

ID: 2510.08710v1 cs.CL, 68T50, I.2.7; I.2.4

arXiv PDF

📄 When Retrieval Succeeds and Fails: Rethinking Retrieval-Augmented Generation for LLMs

2025-10-14

Авторы:

Yongjie Wang, Yue Yu, Kaisong Song, Jun Lin, Zhiqi Shen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) have enabled a wide range of applications through their powerful capabilities in language understanding and generation. However, as LLMs are trained on static corpora, they face difficulties in addressing rapidly evolving information or domain-specific queries. Retrieval-Augmented Generation (RAG) was developed to overcome this limitation by integrating LLMs with external retrieval mechanisms, allowing them to access up-to-date and contextually relevant knowledge. Ho...

ID: 2510.09106v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Prior-based Noisy Text Data Filtering: Fast and Strong Alternative For Perplexity

2025-09-25

Авторы:

Yeongbin Seo, Gayoung Kim, Jaehyung Kim, Jinyoung Yeo

------------------------------------------------------ ## Контекст ------------------------------------------------------ Обучение больших языковых моделей (LLMs) основывается на масштабных текстовых корпусах, но не все тексты в таких корпусах полезны для эффективного обучения. Большинство существующих методов фильтрации данных, таких как фильтрация по perplexity (PPL), требуют долгого моделирования для оценки качества текстов. Несмотря на то, что PPL показывает высокую точность, он лишен серьезных недостатков — высокая стоимость вычислений и недостаточная надежность при работе с шумными или выбросовыми данными. Таким образом, есть необходимость в разработке более быстрой и надежной альтернативы для фильтрации текстов. ------------------------------------------------------ ## Метод ------------------------------------------------------ Метод, предложенный в работе, основывается на оценке лексической плотности текста с помощью статистических признаков, взятых из корпуса. Авторы предлагают использовать среднюю и дисперсию частот лексических единиц (токенов) в документе в качестве признаков для фильтрации. Эти признаки логически связаны с языковыми признаками, такими как грамматическая целостность и семантическая глубина текста. Оценка лексической плотности работает быстрее, чем PPL, и не требует моделирования, что делает процесс фильтрации более эффективным. Также, при построении метода использовались языковые признаки, вдохновленные лингвистическими теориями о ролях слов в языке. ------------------------------------------------------ ## Результаты ------------------------------------------------------ Авторы провели эксперименты на 20 различных нишевых датасетах, сравнивая свою предложенную модель с PPL-фильтром. Удивительно, но предложенный подход показал себя лучше во всех конфигурациях, существенно превосходя PPL-фильтр по признаку точности и эффективности. Благодаря статистической природе фильтрации, время работы модели сократилось на 1000 раз по сравнению с PPL-фильтром. Были проведены эксперименты на различных типах текстов, включая коды и тексты математического характера, где утверждена высокая эффективность инструмента. Наконец, авторы продемонстрировали модель на многоязычных данных, показав её адаптивность и безучительность. ------------------------------------------------------ ## Значимость ------------------------------------------------------ Предложенный подход может быть применён в различных областях, где требуется быстрая и надежная фильтрация текстовых данных. Например, он может использоваться при обучении LLMs, фильтрации текстов в технических или специализированных языковых корпусах, а также при работе с многоязычными данными. Одним из основных преимуществ является очень высокая скорость обработки, что экономит вычислительные ресурсы. Более того, предложенный метод демонстрирует высокую надежность в работе с шумовыми и выбросовыми данны

Annotation:

As large language models (LLMs) are pretrained on massive web corpora, careful selection of data becomes essential to ensure effective and efficient learning. While perplexity (PPL)-based filtering has shown strong performance, it suffers from drawbacks: substantial time costs and inherent unreliability of the model when handling noisy or out-of-distribution samples. In this work, we propose a simple yet powerful alternative: a prior-based data filtering method that estimates token priors using ...

ID: 2509.18577v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Charting a Decade of Computational Linguistics in Italy: The CLiC-it Corpus

2025-09-25

Авторы:

Chiara Alzetta, Serena Auriemma, Alessandro Bondielli, Luca Dini, Chiara Fazzone, Alessio Miaschi, Martina Miliani, Marta Sartor

## Контекст Область исследования, известная как Computational Linguistics (CL) или языковой моделирование, занимается разработкой методов и алгоритмов для обработки и анализа естественных языков с помощью компьютеров. Эта область имеет решающее значение в развитии технологий, таких как Natural Language Processing (NLP), машинный перевод, распознавание речи и другие. За последнее десятилетие, CL и NLP получили огромный уклад, в основном благодаря появлению трансформерных больших языковых моделей (LLMs). Национальные сообщества в этой области также отражают эти изменения. В частности, сборники тезисов и докладов, подготовленные для ключевых международных и локальных конференций, стали ценными источниками для изучения этих изменений. В данной работе анализируется российское сообщество CL, а именно исследования, представленные на международной конференции CLiC-it за первые 10 лет её существования. ## Метод Для данного исследования был создан CLiC-it Corpus, содержащий все процесинги конференций CLiC-it за период с 2014 по 2024 год. Этот корпус включает в себя метаданные, такие как авторские происхождения, пол (пол), факультеты и другие, и содержание докладов, адресованных различным тематикам. Исследователи составили подробный справочник по метаданным и оценили тематики докладов, выявляя тенденции и направления в развитии CL и NLP в Италии. Методология исследования включала в себя обработку текстов, автоматическую классификацию статей, а также статистический анализ данных. ## Результаты Результаты исследования показали, что CLiC-it Corpus состоит из более чем 1000 докладов, составивших общую массу работ, представленных на конференции за первые 10 лет. Изучение метаданных позволило выявить тенденции в появлении новых авторов, росте интернационализации и изменении приоритетов в исследованиях. Тематический анализ показал, что в начале периода преобладали работы по Lexical and Semantic Resources, но в последние годы стало появляться больше работ, связанных с Language Modelling и Multimodality. Эти изменения отражают глобальный тренд в NLP. ## Значимость Результаты исследования подтверждают роль CLiC-it как важного мероприятия для развития CL в Италии. Изучение тенденций позволяет понять, как сообщество CLiC-it адаптировалось к новым технологиям и изменениям в области естественных языков. Этот корпус может быть полезен для других исследователей, желающих изучить тенденции и проблемы в области CL и NLP, а также для подготовки будущих исследований. Данные, собранные в этом исследовании, также могут помочь определить новые направления для развития технологий естественных языков в Итали

Annotation:

Over the past decade, Computational Linguistics (CL) and Natural Language Processing (NLP) have evolved rapidly, especially with the advent of Transformer-based Large Language Models (LLMs). This shift has transformed research goals and priorities, from Lexical and Semantic Resources to Language Modelling and Multimodality. In this study, we track the research trends of the Italian CL and NLP community through an analysis of the contributions to CLiC-it, arguably the leading Italian conference i...

ID: 2509.19033v2 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Quantifying Self-Awareness of Knowledge in Large Language Models

2025-09-23

Авторы:

Yeongbin Seo, Dongha Lee, Jinyoung Yeo

## Контекст Современные большие языковые модели (LLMs) представляют собой мощные инструменты, способные выполнять широкий спектр задач, от генерации текста до ответа на запросы. Однако они часто сталкиваются с проблемой **hallucination** — генерации неверной или недостоверной информации, которая может быть представлена как уверенность в знании. Эта ситуация поднимает вопрос о самосознании моделей. Насколько LLMs понимают свои ограничения и достоверность своих ответов? Этот вопрос приобретает важность в свет роста зависимости от технологий, использующих LLMs в решении реальных проблем. Необходимо развить методы, позволяющие лучше понять и оценить самосознание моделей. ## Метод Мы предлагаем два совершенно разных подхода для измерения и улучшения самосознания LLMs: 1. **Approximate Question-side Effect (AQE)**: Это метод, который позволяет выделить и измерить вклад в процесс ответа, д Driven by question-side сигналов (например, сложные запросы могут вызвать высшую вероятность верного ответа независимо от модели). AQE определяет, насколько ответ модели зависит от этих сигналов, а не от действительного мышления. 2. **Semantic Compression by Answering in One Word (SCAO)**: SCAO — это метод, который улучшает модельную самоосознательность, сжимая ответы до одного смыслового слова. Это позволяет избегать слишком широких или неоднозначных ответов и подчеркивает модельное понимание конкретного вопроса. ## Результаты Мы провели ряд экспериментов с LLMs на различных данных, включая стандартные наборы данных для оценки самосознания и холлюцинаций. Результаты показывают, что: - AQE выявляет существенный вклад в ответы LLMs, который происходит из-за зависимости от входных запросов, а не из-за реального самосознания модели. - SCAO позволяет LLMs фокусироваться на модельных сигналах, улучшая самосознательность в условиях, где вопрос-сторонние сигналы значительно снижены. ## Значимость 1. **Практическое применение**: Наша работа помогает улучшить способность LLMs к самосознанию, что имеет значение для уменьшения риска холлюцинаций и повышения доверия в их ответах. 2. **Преимущества**: Методы AQE и SCAO демонстрируют свою эффективность в различных условиях и позволяют лучше разделять глубокое понимание от глупых ловушек вопросов. 3. **Потенциальное влияние**: Эти разработки могут привести к более уверенным и надежным LLMs, которые могут использоваться в критически важных задачах, таких как клиническая диагностика, финансовая аналитика и т.д. ## Выводы Мы показали, что многие из показателей "самосознания" LLMs на самом деле связаны с ловушками в вопросах, а не с их модельным мышлением.

Annotation:

Hallucination prediction in large language models (LLMs) is often interpreted as a sign of self-awareness. However, we argue that such performance can arise from question-side shortcuts rather than true model-side introspection. To disentangle these factors, we propose the Approximate Question-side Effect (AQE), which quantifies the contribution of question-awareness. Our analysis across multiple datasets reveals that much of the reported success stems from exploiting superficial patterns in que...

ID: 2509.15339v1 cs.CL, 68T50, I.2.7

arXiv PDF

📄 Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal

2025-09-05

Авторы:

Markus Oehri, Giulia Conti, Kaviraj Pather, Alexandre Rossi, Laia Serra, Adrian Parody, Rogvi Johannesen, Aviaja Petersen, Arben Krasniqi

## Контекст В современном мире развитие интеллектуальных технологий приводит к появлению моделей языка, которые становятся все более надежными и мощными. Однако существуют серьезные проблемы, связанные с отсутствием доверия к решениям моделей в ситуациях неопределенности. Это приводит к ошибочным выводам и ухудшению удовлетворенности пользователей. Большинство существующих подходов к управлению неопределенностью в текстовых моделях ориентированы на выбор между ответом и отказом, но не обеспечивают гарантий качества или не учитывают разнообразия источников неопределенности. Необходимо разработать новую методологию, которая объединит различные источники неопределенности и обеспечит качественные решения в любых ситуациях. ## Метод Разработанный UniCR-фреймворк (Unified Confidence and Refusal) предлагает совместить различные источники неопределенности, такие как последовательность вероятностей, дисперсия самоконсистентности, совместимость с поиском и отзывы инструментов или верификации, в единую модель. Метод использует легковесную модель калибровки, основанную на температурном масштабировании, для преобразования неопределенности в классификатор вероятности. Он поддерживает API-только модели через черно-блочные признаки и обеспечивает эффективную обработку неопределенности, используя строгие гарантии соответствия. Для улучшения качества ответов в задачах долгого текста, таких как расширенный поиск, фреймворк вырабатывает гибкую стратегию сбора доказательств для вычисления вероятности того, что ответ верен. ## Результаты Запущенные эксперименты покрыли три области: короткие запросы к знаниям, генерацию кода с возможностью выполнения и расширенный рассуждающий поиск с использованием инструментов. Модель UniCR показала значительные улучшения по метрикам калибровки, снизив значение "положительной" ошибки (ответ на неверный вопрос) до 12%, что значительно превышает показатели других подходов, таких как логит-пороги или пост-хок-калибровщики. Благодаря инновационной стратегии объединения различных источников неопределенности модель обеспечивает высокую точность и качественное управление риском в различных сценариях. ## Значимость Разработанный подход может быть применен в различных областях, где важно управление неопределенностью, например, в работе с юридическими документами, медицинским анализом или управлении рисками в финансовых системах. UniCR обеспечивает пользователям высокую достоверность, снижает риск ошибок и в то же время позволяет полностью использовать мощь моделей языка. Его универсальная архитектура поз

Annotation:

Deployed language models must decide not only what to answer but also when not to answer. We present UniCR, a unified framework that turns heterogeneous uncertainty evidence including sequence likelihoods, self-consistency dispersion, retrieval compatibility, and tool or verifier feedback into a calibrated probability of correctness and then enforces a user-specified error budget via principled refusal. UniCR learns a lightweight calibration head with temperature scaling and proper scoring, supp...

ID: 2509.01455v1 cs.CL, 68T50, I.2.7

arXiv PDF

Показано 1 - 10 из 17 записей