📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Trained on Tokens, Calibrated on Concepts: The Emergence of Semantic Calibration in LLMs

2025-11-11

Авторы:

Preetum Nakkiran, Arwen Bradley, Adam Goliński, Eugene Ndiaye, Michael Kirchhof, Sinead Williamson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) often lack meaningful confidence estimates for their outputs. While base LLMs are known to exhibit next-token calibration, it remains unclear whether they can assess confidence in the actual meaning of their responses beyond the token level. We find that, when using a certain sampling-based notion of semantic calibration, base LLMs are remarkably well-calibrated: they can meaningfully assess confidence in open-domain question-answering tasks, despite not being explic...

ID: 2511.04869v1 cs.CL, cs.LG, stat.ML

arXiv PDF

📄 The Hidden Cost of Modeling P(X): Vulnerability to Membership Inference Attacks in Generative Text Classifiers

2025-10-22

Авторы:

Owais Makroo, Siva Rajesh Kasa, Sumegh Roychowdhury, Karan Gupta, Nikhil Pattisapu, Santhosh Kasa, Sumit Negi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Membership Inference Attacks (MIAs) pose a critical privacy threat by enabling adversaries to determine whether a specific sample was included in a model's training dataset. Despite extensive research on MIAs, systematic comparisons between generative and discriminative classifiers remain limited. This work addresses this gap by first providing theoretical motivation for why generative classifiers exhibit heightened susceptibility to MIAs, then validating these insights through comprehensive emp...

ID: 2510.16122v1 cs.CR, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 Benefits and Pitfalls of Reinforcement Learning for Language Model Planning: A Theoretical Perspective

2025-09-30

Авторы:

Siwei Wang, Yifei Shen, Haoran Sun, Shi Feng, Shang-Hua Teng, Li Dong, Yaru Hao, Wei Chen

## Контекст Недавние развития в области глубокого обучения и реинфорсментного обучения (RL) позволили значительно улучшить планировочные возможности больших языковых моделей (LLM). Однако теоретическая природа этих улучшений остается не полностью понятной. В данной работе мы проводим исследование преимуществ и ограничений RL с помощью графовой абстракции, которая позволяет изучить ситуации, где RL может быть эффективным, а также где могут возникнуть проблемы. Эта модель позволяет сравнивать методы RL, таких как policy gradient (PG) и Q-learning, с другими моделями, такими как предварительно приточенные (supervised fine-tuned, SFT) модели, и выявлять преимущества и недостатки каждого подхода. ## Метод В этой работе используется графовая абстракция, которая представляет задачи планирования в виде состояний и действий на графе. Мы изучаем, как RL-методы, такие как PG и Q-learning, взаимодействуют с этой абстракцией и как они могут решать задачи планирования. Мы также проводим сравнение с SFT-моделями, которые обучаются с помощью Supervised Learning. Затем мы проводим эксперименты, используя реальные задачи планирования, такие как Blocksworld, в которых мы можем сравнить результаты настоящих данных с теоретическими выводами. ## Результаты Наши эксперименты показали, что SFT может привести к проблеме спуруосных решений, которые возникают из-за взаимосвязи входных данных, но не всегда корректно решают задачу планирования. RL, в свою очередь, более эффективно решает эти задачи, особенно благодаря эксплорерским поведениям, которые позволяют RL-системам улучшать свою общезначимость. Однако мы также выявили, что PG может привести к "уплотнению диверсификации" (diversity collapse), когда диверсификация решений уменьшается на протяжении обучения, даже если система достигает идеальной точности. Мы также показали, как Q-learning может стать более диверсифицированной, но только при условии правильного дизайна наград. ## Значимость Наши результаты имеют значительное значение для развития RL в области планирования языковых моделей. Мы показали, что RL может быть эффективным для решения задач планирования, но необходимо внимательно проектировать наградные функции для избежания проблем, таких как "уплотнение диверсификации". Мы также показали, что Q-learning может показаться более гибким и диверсифицированным в контексте RL. Эти результаты могут быть применены в различных областях, где требуется планирование и проектирование решений, таких как машинное обучение, игровые системы и управление. ## Выводы Мы получили значительные теоретические и практические выводы о преимуществах и ограничениях RL в задачах планирования. Мы выявили, что RL мо

Annotation:

Recent reinforcement learning (RL) methods have substantially enhanced the planning capabilities of Large Language Models (LLMs), yet the theoretical basis for their effectiveness remains elusive. In this work, we investigate RL's benefits and limitations through a tractable graph-based abstraction, focusing on policy gradient (PG) and Q-learning methods. Our theoretical analyses reveal that supervised fine-tuning (SFT) may introduce co-occurrence-based spurious solutions, whereas RL achieves co...

ID: 2509.22613v1 cs.AI, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 Hierarchical Retrieval: The Geometry and a Pretrain-Finetune Recipe

2025-09-24

Авторы:

Chong You, Rajesh Jayaram, Ananda Theertha Suresh, Robin Nittka, Felix Yu, Sanjiv Kumar

#### Контекст Дуальные энкодеры (DE) — модели, сопоставляющие входные запросы и документы с помощью векторных представлений, широко используются в области информационного поиска из-за их простоты и масштабируемости. Однако ограничения римановой геометрии, в которой эти модели работают, приводят к потере точности в задачах, требующих высокой точности в выборке. Одна из таких задач — hierarchical retrieval (HR), в которой документы имеют иерархическую структуру, и для каждого запроса требуется найти все документы, входящие в его иерархию. В этой работе рассматривается возможность применения дуальных энкодеров в таких задачах и изучается их ограниченная эффективность при работе с документами, находящимися далеко в иерархии. #### Метод Мы исследуем свойства DE-моделей в HR и устанавливаем теоретические ограничения на их работу в зависимости от глубины иерархии и количества документов. Для решения недостатка точности в работе с документами далекого уровня иерархии предлагается метод, состоящий из двух этапов: предварительного обучения (pretraining) и особый рецепт файна-тюнинга (finetune). Эта модель называется **Hierarchical Retriever**. На основе её архитектуры мы стараемся повысить качество работы DE-моделей в задачах HR, когда необходимо выбрать документы, находящиеся глубоко в иерархии. #### Результаты Мы проводим эксперименты на данных организованных в иерархической структуре (WordNet). Мы показываем, что при использовании DE-моделей без рецепта pretrain-finetune, точность задачи HR падает при работе с документами, находящимися далеко в иерархии. Однако при использовании нашего рецепта, точность возврата документов далекого уровня увеличивается с 19% до 76%, не ухудшаясь для ближних документов. Также мы проводим эксперименты на данных релевантности поиска продуктов в интернет-магазине и показываем, что наш метод добавляет качеству работы DE-моделей при выборе подходящего документа. #### Значимость Наш метод может быть применен в различных приложениях, где необходима высокая точность в выборе документов в иерархических структурах, таких как веб-поиск, вопрос-ответ-системы и рекомендательные системы. Одна из ключевых преимуществ — улучшение точности при выборе документов далекого уровня в иерархии. Мы показываем, что наша модель не только повышает качество работы, но и может использоваться в реальной жизни для решения задач в области поиска и рекомендаций. #### Выводы Мы проанализировали ограничения дуальных энкодеров в задачах HR и предложили решение, позволяющее увеличить точность работы этих моделей на документах, находящихся далеко в иерархии. Наши эксперименты показали, что наш метод существенно повышает точность задачи с примен

Annotation:

Dual encoder (DE) models, where a pair of matching query and document are embedded into similar vector representations, are widely used in information retrieval due to their simplicity and scalability. However, the Euclidean geometry of the embedding space limits the expressive power of DEs, which may compromise their quality. This paper investigates such limitations in the context of hierarchical retrieval (HR), where the document set has a hierarchical structure and the matching documents for ...

ID: 2509.16411v1 cs.IR, cs.CL, cs.LG, stat.ML

arXiv PDF

📄 Improving Detection of Watermarked Language Models

2025-08-20

Авторы:

Dara Bahri, John Wieting

#### Контекст Детектирование генерируемых текстов вероятностными языковыми моделями (LLMs) становится все более важной проблемой в постепенном расширении их применения в реальной жизни. Одним из популярных способов обнаружения таких текстов является использование водяных знаков, но этот метод имеет определенные ограничения. Факторы, такие как ограниченная энтропия в моделях с постучиной обучением (например, RLHF), сокращают доступную информацию для детектирования. Таким образом, существует необходимость в развитии более эффективных способов обнаружения генерируемых текстов. В данной работе мы исследуем возможность улучшения детектирования с помощью комбинирования различных классов детекторов. #### Метод Мы обобщаем информацию, полученную из водяных знаков, интерполируя ее с данными, полученными с помощью неводяных детекторов. Проведенные эксперименты включают широкий класс моделей и наборов данных. Мы исследуем два класса метрик: одна опирается на характеристики генерируемого текста, а другая — на статистических характеристиках генератора. Кроме того, мы разрабатываем алгоритм, который учитывает вариации в энтропии моделей и их температуры генерации. Это позволяет регулировать точность и чувствительность детекторов в зависимости от условий. #### Результаты Мы провели ряд экспериментов на двух популярных моделях LLMs. Наши результаты показали, что гибридные схемы детектирования приводят к увеличению точности и менее чувствительности к изменениям в энтропии и температуре генерации. Например, одна из схем, включающая интерполяцию между водяными знаками и статистическими характеристиками, повысила точность с 75% до 85% при определенных условиях. Эти результаты демонстрируют, что комбинирование различных классов детекторов позволяет улучшить производительность даже в низкоэнтропийных условиях. #### Значимость Наши результаты имеют значительное значение для области машинного обучения и анализа текстов. Изменяющиеся требования к достоверности генерируемого текста, такие как в ситуациях, когда требуется обнаружение текстов, созданных моделями с низкой энтропией, могут быть удовлетворены с помощью данного подхода. Это также открывает новые возможности для улучшения технологий мониторинга генерируемого контента в Интернете, что может положительно сказаться на безопасности и честности цифровых интерфейсов. #### Выводы Наши исследования показали, что комбинирование различных классов детекторов является эффективным способом улучшения детектирова

Annotation:

Watermarking has recently emerged as an effective strategy for detecting the generations of large language models (LLMs). The strength of a watermark typically depends strongly on the entropy afforded by the language model and the set of input prompts. However, entropy can be quite limited in practice, especially for models that are post-trained, for example via instruction tuning or reinforcement learning from human feedback (RLHF), which makes detection based on watermarking alone challenging....

ID: 2508.13131v1 cs.CL, cs.LG, stat.ML

arXiv PDF