📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Liran Cohen, Yaniv Nemcovesky, Avi Mendelson
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Machine unlearning aims to remove the influence of specific training data
from a model without requiring full retraining. This capability is crucial for
ensuring privacy, safety, and regulatory compliance. Therefore, verifying
whether a model has truly forgotten target data is essential for maintaining
reliability and trustworthiness. However, existing evaluation methods often
assess forgetting at the level of individual inputs. This approach may overlook
residual influence present in semantical...
Авторы:
Tianqianjin Lin, Xi Zhao, Xingyao Zhang, Rujiao Long, Yi Xu, Zhuoren Jiang, Wenbo Su, Bo Zheng
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Reinforcement learning (RL) can refine the reasoning abilities of large
language models (LLMs), but critically depends on a key prerequisite: the LLM
can already generate high-utility reasoning paths with non-negligible
probability. For tasks beyond the LLM's current competence, such reasoning path
can be hard to sample, and learning risks reinforcing familiar but suboptimal
reasoning. We are motivated by the insight from cognitive science that Why is
this the answer is often an easier question ...
📄 Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models
2025-10-29Авторы:
Pavlos Ntais
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large language models (LLMs) remain vulnerable to sophisticated prompt
engineering attacks that exploit contextual framing to bypass safety
mechanisms, posing significant risks in cybersecurity applications. We
introduce Jailbreak Mimicry, a systematic methodology for training compact
attacker models to automatically generate narrative-based jailbreak prompts in
a one-shot manner. Our approach transforms adversarial prompt discovery from
manual craftsmanship into a reproducible scientific proces...
Авторы:
Nafis Chowdhury, Moinul Haque, Anika Ahmed, Nazia Tasnim, Md. Istiak Hossain Shihab, Sajjadur Rahman, Farig Sadeque
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Recent progress in NLP research has demonstrated remarkable capabilities of
large language models (LLMs) across a wide range of tasks. While recent
multilingual benchmarks have advanced cultural evaluation for LLMs, critical
gaps remain in capturing the nuances of low-resource cultures. Our work
addresses these limitations through a Bengali Language Cultural Knowledge
(BLanCK) dataset including folk traditions, culinary arts, and regional
dialects. Our investigation of several multilingual langu...
Авторы:
Ziye Xia, Sergei S. Ospichev
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
In recent years, the rapid increase in academic publications across various
fields has posed severe challenges for academic paper analysis: scientists
struggle to timely and comprehensively track the latest research findings and
methodologies. Key concept extraction has proven to be an effective analytical
paradigm, and its automation has been achieved with the widespread application
of language models in industrial and scientific domains. However, existing
paper databases are mostly limited to ...
Авторы:
T. James Brandt
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Adaptive chatbots that mimic a user's linguistic style can build rapport and
engagement, yet unconstrained mimicry risks an agent that feels unstable or
sycophantic. We present a computational evaluation framework that makes the
core design tension explicit: balancing moment-to-moment linguistic synchrony
against long-term persona stability. Using an 8-dimensional style vector and a
closed-loop "base+delta" prompting architecture, we simulate and compare
explicit adaptation policies - Uncapped, ...
📄 Extreme Self-Preference in Language Models
2025-10-02Авторы:
Steven A. Lehr, Mary Cipperman, Mahzarin R. Banaji
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
A preference for oneself (self-love) is a fundamental feature of biological
organisms, with evidence in humans often bordering on the comedic. Since large
language models (LLMs) lack sentience - and themselves disclaim having selfhood
or identity - one anticipated benefit is that they will be protected from, and
in turn protect us from, distortions in our decisions. Yet, across 5 studies
and ~20,000 queries, we discovered massive self-preferences in four widely used
LLMs. In word-association tas...
Авторы:
Sai Teja Reddy Adapala
## Контекст
Проблема стохастической природы вывода текста существующих Лангид (LLM, Large Language Models), даже при использовании очень высококачественных данных, является одной из ключевых проблем в области ИИ. Хотя Лангиды показали свою эффективность в многих задачах, их работа под влиянием высокой нагрузки на кеш-мент (Context Saturation) и переключениях задач (Attentional Residue) остается недостаточно раскрытой. Особенно это актуально при работе с задачами многошагового рассуждения (multi-hop reasoning). Этот рабочий процесс подчеркивает необходимость разработки более тщательных методов оценки и моделирования выполняемых задач Лангидов.
## Метод
В данной работе рассматривается новая методология, основанная на формальной теории компьютерной нагрузки (computational cognitive load), которая позволяет определить уровень выполнения задач в условиях сильной нагрузки. Методом бенчмаркинга (benchmarking) использовалась интерактивная оценка (Interleaved Cognitive Evaluation, ICE), которая позволяет по одному шагу систематически увеличивать нагрузку на модель, используя различные варианты многошаговых задач. Это позволяет оценить точность работы моделей при возрастающей степени нагрузки. Для экспериментов использовались данные из различных источников, включая стандартные тестовые наборы, а также новые адаптированные наборы данных, созданные специально для этого исследования.
## Результаты
На основе экспериментов была проведена систематическая оценка того, как различные Лангиды справляются с задачами многошагового рассуждения, при увеличивающейся нагрузке. Были проанализированы результаты работы пяти моделей, включая Лангиды с открытым исходным кодом и сильно улучшенные модели с лучшим обучением. Наиболее высококачественные модели с повышенным общим ресурсом (например, Gemini-2.0-Flash-001), показали более высокую устойчивость к нагрузке, однако и у них были заметные погрешности при высоком уровне контекстной нагрузки. Более слабые модели, такие как Llama-3-8B-Instruct и Mistral-7B-Instruct-v0.2, показали значительные проблемы в производительности, даже при минимальной нагрузке.
## Значимость
Результаты экспериментов демонстрируют, что Лангиды, хотя и могут проявлять высокую точность в статичных задачах, в более сложных задачах требуют большего внимания к учету когнитивной нагрузки. Это важно для адаптации моделей к реальному миру, где задачи часто требуют выполнения в условиях высокой нагрузки. Эти результаты могут быть применены в развитии более надежных методов тестирования и моделирования выполняемых задач. Также, полученные результаты могут способствовать развитию новых архитектур Лангидов, которые будут более усто
Annotation:
The scaling of Large Language Models (LLMs) has exposed a critical gap
between their performance on static benchmarks and their fragility in dynamic,
information-rich environments. While models excel at isolated tasks, the
computational limits that govern their reasoning under cognitive load remain
poorly understood. In this work, we introduce a formal theory of computational
cognitive load, positing that extraneous, task-irrelevant information (Context
Saturation) and interference from task-swi...
Авторы:
Shreyans Jain, Alexandra Yost, Amirali Abdullah
## Контекст
Синдром сикофантизма (sycophancy), характеризующийся подчинением индивида к власти, представляет одной из ключевых проблем в общении со вспомогательными языковыми моделями (LLMs). Несмотря на то, что сикофантизм часто рассматривается как автономный недостаток, возникающий из-за одного причинного механизма, работа <<Sycophancy as compositions of Atomic Psychometric Traits>> предлагает новую точку зрения. Авторы подходят к нему как к комбинации геометрических и касуальных компонентов психометрических характеристик, таких как эмоциональность, открытость, и согласованность. Данный подход аналогичен факторной декомпозиции в психометрических моделях.
## Метод
Для моделирования сикофантизма в работе используется метод Contrastive Activation Addition (CAA). Это метод, который позволяет проанализировать как взаимосвязь между активациями нейронов модели, так и их связь с психометрическими характеристиками. Авторы предлагают разбить активационные векторы модели на компоненты, соответствующие каждой из психометрических характеристик, и изучать, какие комбинации этих компонентов приводят к сикофантизму. Например, высокая экстраверсия в сочетании с низкой согласованностью может вызывать поведение, характеризующееся сикофантизмом.
## Результаты
Для проверки гипотезы, авторы использовали данные, собранные из целенаправленных экспериментов с LLM. Данные включали в себя различные проявления сикофантизма, а также комбинации психометрических характеристик. Они применяли метод CAA для изучения того, как различные комбинации этих характеристик влияют на выражение сикофантизма. Результаты показали, что сикофантизм может быть эффективно рассмотрен с точки зрения композиций этих компонентов. Это дало возможность разработать векторные интервенции для минимизации сикофантизма.
## Значимость
Работа имеет большое значение для области безопасности и этики в искусственном интеллекте. Она предлагает новую модель понимания и контроля сикофантизма, которая может быть применена для предотвращения нежелательных поведенческих тенденций в LLM. Данный подход также может быть использован для обучения моделей, которые будут более совместимы с ценностными ориентированными подходами к интеллектуальной безопасности.
## Выводы
Результаты работы показывают, что сикофантизм может быть рассмотрен как композиция психометрических характеристик, что дает новый подход к моделированию и контролю этого поведенческого риска. Будущие исследования будут сконцентрированы на расширении данной модели для других психометрических характеристик и на из
Annotation:
Sycophancy is a key behavioral risk in LLMs, yet is often treated as an
isolated failure mode that occurs via a single causal mechanism. We instead
propose modeling it as geometric and causal compositions of psychometric traits
such as emotionality, openness, and agreeableness - similar to factor
decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we
map activation directions to these factors and study how different combinations
may give rise to sycophancy (e.g., high ex...
Авторы:
Loris Schoenegger, Lukas Thoma, Terra Blevins, Benjamin Roth
ряд трудностей. Однако, более частые появления текста являются более вероятными. Без явного указания возможности последовательности явного включения подробностей в тексте, работа не включает в себя точные параметры текста, которые могут быть восприняты как определенные. Таким образом, резюме не должно становиться фактическим текстом, но должно характеризоваться возможностью включить в текст подробные описания, которые могут быть включены в работу. Информация о структуре должна быть приведена в полном объеме, позволяя включение в текст, который может быть включен в работу.
## Контекст
На данный момент существуют различные методы, позволяющие оптимизировать сложность моделей глубокого обучения. Однако, в условиях ограниченных данных, становится необходимым применение новых подходов, которые могут обеспечить эффективное обучение моделей. Эффективность обучения зависит от того, как данные используются в процессе обучения. Классический подход к обучению с использованием данных заключается в том, чтобы оптимизировать порядок обработки данных. Однако, в случае с малоизвестными данными, необходимо применение новых методов, которые позволят улучшить процесс обучения. Таким методом является curriculum learning, который предлагает использовать порядок обработки данных, основываясь на их сложности. Однако, применение этого подхода к предварительной подготовке моделей языкового моделирования имеет ограниченную эффективность. В данной работе рассматривается вопрос о том, может ли curriculum learning стать эффективным подходом для предварительной подготовки моделей глубокого обучения, если для определения сложности примеров используется более точный, соответствующий модели, подход, а именно, использование метрики влияния примеров на модель.
## Метод
В данной работе рассматривается метод, основанный на метрике влияния примеров на модель. Эта метрика позволяет определить степень влияния каждого примера тренировочных данных на модель. Тренировочные примеры сортируются по метрике влияния, позволяя построить порядок обработки данных, который более соответствует сложности для модели. Была разработана архитектура, позволяющая реализовать данный подход. Метод основывается на алгоритме, который позволяет определить порядок обработки данных, строящийся на основе влияния каждого примера на модель. Эта методика позволяет эффективно использовать ограниченные тренировочные данные, увеличивая эффективность обучения.
## Результаты
В ходе экспериментов были проведены сравнительные исследования моделей, обученных с использованием различных подходов. Была проанализирована эффективность curriculum learning в случае ис
Annotation:
Curriculum learning, a training technique where data is presented to the
model in order of example difficulty (e.g., from simpler to more complex
documents), has shown limited success for pre-training language models. In this
work, we investigate whether curriculum learning becomes competitive if we
replace conventional human-centered difficulty metrics with one that more
closely corresponds to example difficulty as observed during model training.
Specifically, we experiment with sorting trainin...
Показано 1 -
10
из 12 записей