📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 REMIND: Input Loss Landscapes Reveal Residual Memorization in Post-Unlearning LLMs

2025-11-08

Авторы:

Liran Cohen, Yaniv Nemcovesky, Avi Mendelson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Machine unlearning aims to remove the influence of specific training data from a model without requiring full retraining. This capability is crucial for ensuring privacy, safety, and regulatory compliance. Therefore, verifying whether a model has truly forgotten target data is essential for maintaining reliability and trustworthiness. However, existing evaluation methods often assess forgetting at the level of individual inputs. This approach may overlook residual influence present in semantical...

ID: 2511.04228v1 cs.CL, cs.LG, I.2.7; I.2.6; K.4.1

arXiv PDF

📄 RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models

2025-10-31

Авторы:

Tianqianjin Lin, Xi Zhao, Xingyao Zhang, Rujiao Long, Yi Xu, Zhuoren Jiang, Wenbo Su, Bo Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reinforcement learning (RL) can refine the reasoning abilities of large language models (LLMs), but critically depends on a key prerequisite: the LLM can already generate high-utility reasoning paths with non-negligible probability. For tasks beyond the LLM's current competence, such reasoning path can be hard to sample, and learning risks reinforcing familiar but suboptimal reasoning. We are motivated by the insight from cognitive science that Why is this the answer is often an easier question ...

ID: 2510.25206v1 cs.AI, cs.CL, cs.LG, I.2.7

arXiv PDF

📄 Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

2025-10-29

Авторы:

Pavlos Ntais

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific proces...

ID: 2510.22085v1 cs.CR, cs.AI, cs.CL, cs.LG, I.2.7; I.2.0; K.6.5

arXiv PDF

📄 From Facts to Folklore: Evaluating Large Language Models on Bengali Cultural Knowledge

2025-10-25

Авторы:

Nafis Chowdhury, Moinul Haque, Anika Ahmed, Nazia Tasnim, Md. Istiak Hossain Shihab, Sajjadur Rahman, Farig Sadeque

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Recent progress in NLP research has demonstrated remarkable capabilities of large language models (LLMs) across a wide range of tasks. While recent multilingual benchmarks have advanced cultural evaluation for LLMs, critical gaps remain in capturing the nuances of low-resource cultures. Our work addresses these limitations through a Bengali Language Cultural Knowledge (BLanCK) dataset including folk traditions, culinary arts, and regional dialects. Our investigation of several multilingual langu...

ID: 2510.20043v1 cs.CL, cs.LG, I.2.7

arXiv PDF

📄 Constraint-Driven Small Language Models Based on Agent and OpenAlex Knowledge Graph: Mining Conceptual Pathways and Discovering Innovation Points in Academic Papers

2025-10-18

Авторы:

Ziye Xia, Sergei S. Ospichev

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

In recent years, the rapid increase in academic publications across various fields has posed severe challenges for academic paper analysis: scientists struggle to timely and comprehensively track the latest research findings and methodologies. Key concept extraction has proven to be an effective analytical paradigm, and its automation has been achieved with the widespread application of language models in industrial and scientific domains. However, existing paper databases are mostly limited to ...

ID: 2510.14303v1 cs.CL, cs.LG, I.2.7

arXiv PDF

📄 Navigating the Synchrony-Stability Frontier in Adaptive Chatbots

2025-10-04

Авторы:

T. James Brandt

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adaptive chatbots that mimic a user's linguistic style can build rapport and engagement, yet unconstrained mimicry risks an agent that feels unstable or sycophantic. We present a computational evaluation framework that makes the core design tension explicit: balancing moment-to-moment linguistic synchrony against long-term persona stability. Using an 8-dimensional style vector and a closed-loop "base+delta" prompting architecture, we simulate and compare explicit adaptation policies - Uncapped, ...

ID: 2510.00339v1 cs.HC, cs.AI, cs.CL, cs.LG, I.2.7; H.5.2

arXiv PDF

📄 Extreme Self-Preference in Language Models

2025-10-02

Авторы:

Steven A. Lehr, Mary Cipperman, Mahzarin R. Banaji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A preference for oneself (self-love) is a fundamental feature of biological organisms, with evidence in humans often bordering on the comedic. Since large language models (LLMs) lack sentience - and themselves disclaim having selfhood or identity - one anticipated benefit is that they will be protected from, and in turn protect us from, distortions in our decisions. Yet, across 5 studies and ~20,000 queries, we discovered massive self-preferences in four widely used LLMs. In word-association tas...

ID: 2509.26464v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6; K.4.2

arXiv PDF

📄 Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning

2025-09-26

Авторы:

Sai Teja Reddy Adapala

## Контекст Проблема стохастической природы вывода текста существующих Лангид (LLM, Large Language Models), даже при использовании очень высококачественных данных, является одной из ключевых проблем в области ИИ. Хотя Лангиды показали свою эффективность в многих задачах, их работа под влиянием высокой нагрузки на кеш-мент (Context Saturation) и переключениях задач (Attentional Residue) остается недостаточно раскрытой. Особенно это актуально при работе с задачами многошагового рассуждения (multi-hop reasoning). Этот рабочий процесс подчеркивает необходимость разработки более тщательных методов оценки и моделирования выполняемых задач Лангидов. ## Метод В данной работе рассматривается новая методология, основанная на формальной теории компьютерной нагрузки (computational cognitive load), которая позволяет определить уровень выполнения задач в условиях сильной нагрузки. Методом бенчмаркинга (benchmarking) использовалась интерактивная оценка (Interleaved Cognitive Evaluation, ICE), которая позволяет по одному шагу систематически увеличивать нагрузку на модель, используя различные варианты многошаговых задач. Это позволяет оценить точность работы моделей при возрастающей степени нагрузки. Для экспериментов использовались данные из различных источников, включая стандартные тестовые наборы, а также новые адаптированные наборы данных, созданные специально для этого исследования. ## Результаты На основе экспериментов была проведена систематическая оценка того, как различные Лангиды справляются с задачами многошагового рассуждения, при увеличивающейся нагрузке. Были проанализированы результаты работы пяти моделей, включая Лангиды с открытым исходным кодом и сильно улучшенные модели с лучшим обучением. Наиболее высококачественные модели с повышенным общим ресурсом (например, Gemini-2.0-Flash-001), показали более высокую устойчивость к нагрузке, однако и у них были заметные погрешности при высоком уровне контекстной нагрузки. Более слабые модели, такие как Llama-3-8B-Instruct и Mistral-7B-Instruct-v0.2, показали значительные проблемы в производительности, даже при минимальной нагрузке. ## Значимость Результаты экспериментов демонстрируют, что Лангиды, хотя и могут проявлять высокую точность в статичных задачах, в более сложных задачах требуют большего внимания к учету когнитивной нагрузки. Это важно для адаптации моделей к реальному миру, где задачи часто требуют выполнения в условиях высокой нагрузки. Эти результаты могут быть применены в развитии более надежных методов тестирования и моделирования выполняемых задач. Также, полученные результаты могут способствовать развитию новых архитектур Лангидов, которые будут более усто

Annotation:

The scaling of Large Language Models (LLMs) has exposed a critical gap between their performance on static benchmarks and their fragility in dynamic, information-rich environments. While models excel at isolated tasks, the computational limits that govern their reasoning under cognitive load remain poorly understood. In this work, we introduce a formal theory of computational cognitive load, positing that extraneous, task-irrelevant information (Context Saturation) and interference from task-swi...

ID: 2509.19517v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6

arXiv PDF

📄 Sycophancy as compositions of Atomic Psychometric Traits

2025-08-29

Авторы:

Shreyans Jain, Alexandra Yost, Amirali Abdullah

## Контекст Синдром сикофантизма (sycophancy), характеризующийся подчинением индивида к власти, представляет одной из ключевых проблем в общении со вспомогательными языковыми моделями (LLMs). Несмотря на то, что сикофантизм часто рассматривается как автономный недостаток, возникающий из-за одного причинного механизма, работа <<Sycophancy as compositions of Atomic Psychometric Traits>> предлагает новую точку зрения. Авторы подходят к нему как к комбинации геометрических и касуальных компонентов психометрических характеристик, таких как эмоциональность, открытость, и согласованность. Данный подход аналогичен факторной декомпозиции в психометрических моделях. ## Метод Для моделирования сикофантизма в работе используется метод Contrastive Activation Addition (CAA). Это метод, который позволяет проанализировать как взаимосвязь между активациями нейронов модели, так и их связь с психометрическими характеристиками. Авторы предлагают разбить активационные векторы модели на компоненты, соответствующие каждой из психометрических характеристик, и изучать, какие комбинации этих компонентов приводят к сикофантизму. Например, высокая экстраверсия в сочетании с низкой согласованностью может вызывать поведение, характеризующееся сикофантизмом. ## Результаты Для проверки гипотезы, авторы использовали данные, собранные из целенаправленных экспериментов с LLM. Данные включали в себя различные проявления сикофантизма, а также комбинации психометрических характеристик. Они применяли метод CAA для изучения того, как различные комбинации этих характеристик влияют на выражение сикофантизма. Результаты показали, что сикофантизм может быть эффективно рассмотрен с точки зрения композиций этих компонентов. Это дало возможность разработать векторные интервенции для минимизации сикофантизма. ## Значимость Работа имеет большое значение для области безопасности и этики в искусственном интеллекте. Она предлагает новую модель понимания и контроля сикофантизма, которая может быть применена для предотвращения нежелательных поведенческих тенденций в LLM. Данный подход также может быть использован для обучения моделей, которые будут более совместимы с ценностными ориентированными подходами к интеллектуальной безопасности. ## Выводы Результаты работы показывают, что сикофантизм может быть рассмотрен как композиция психометрических характеристик, что дает новый подход к моделированию и контролю этого поведенческого риска. Будущие исследования будут сконцентрированы на расширении данной модели для других психометрических характеристик и на из

Annotation:

Sycophancy is a key behavioral risk in LLMs, yet is often treated as an isolated failure mode that occurs via a single causal mechanism. We instead propose modeling it as geometric and causal compositions of psychometric traits such as emotionality, openness, and agreeableness - similar to factor decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we map activation directions to these factors and study how different combinations may give rise to sycophancy (e.g., high ex...

ID: 2508.19316v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.4

arXiv PDF

📄 Influence-driven Curriculum Learning for Pre-training on Limited Data

2025-08-23

Авторы:

Loris Schoenegger, Lukas Thoma, Terra Blevins, Benjamin Roth

ряд трудностей. Однако, более частые появления текста являются более вероятными. Без явного указания возможности последовательности явного включения подробностей в тексте, работа не включает в себя точные параметры текста, которые могут быть восприняты как определенные. Таким образом, резюме не должно становиться фактическим текстом, но должно характеризоваться возможностью включить в текст подробные описания, которые могут быть включены в работу. Информация о структуре должна быть приведена в полном объеме, позволяя включение в текст, который может быть включен в работу. ## Контекст На данный момент существуют различные методы, позволяющие оптимизировать сложность моделей глубокого обучения. Однако, в условиях ограниченных данных, становится необходимым применение новых подходов, которые могут обеспечить эффективное обучение моделей. Эффективность обучения зависит от того, как данные используются в процессе обучения. Классический подход к обучению с использованием данных заключается в том, чтобы оптимизировать порядок обработки данных. Однако, в случае с малоизвестными данными, необходимо применение новых методов, которые позволят улучшить процесс обучения. Таким методом является curriculum learning, который предлагает использовать порядок обработки данных, основываясь на их сложности. Однако, применение этого подхода к предварительной подготовке моделей языкового моделирования имеет ограниченную эффективность. В данной работе рассматривается вопрос о том, может ли curriculum learning стать эффективным подходом для предварительной подготовки моделей глубокого обучения, если для определения сложности примеров используется более точный, соответствующий модели, подход, а именно, использование метрики влияния примеров на модель. ## Метод В данной работе рассматривается метод, основанный на метрике влияния примеров на модель. Эта метрика позволяет определить степень влияния каждого примера тренировочных данных на модель. Тренировочные примеры сортируются по метрике влияния, позволяя построить порядок обработки данных, который более соответствует сложности для модели. Была разработана архитектура, позволяющая реализовать данный подход. Метод основывается на алгоритме, который позволяет определить порядок обработки данных, строящийся на основе влияния каждого примера на модель. Эта методика позволяет эффективно использовать ограниченные тренировочные данные, увеличивая эффективность обучения. ## Результаты В ходе экспериментов были проведены сравнительные исследования моделей, обученных с использованием различных подходов. Была проанализирована эффективность curriculum learning в случае ис

Annotation:

Curriculum learning, a training technique where data is presented to the model in order of example difficulty (e.g., from simpler to more complex documents), has shown limited success for pre-training language models. In this work, we investigate whether curriculum learning becomes competitive if we replace conventional human-centered difficulty metrics with one that more closely corresponds to example difficulty as observed during model training. Specifically, we experiment with sorting trainin...

ID: 2508.15475v1 cs.CL, cs.LG, I.2.7

arXiv PDF

Показано 1 - 10 из 12 записей