📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 RAVR: Reference-Answer-guided Variational Reasoning for Large Language Models

2025-10-31

Авторы:

Tianqianjin Lin, Xi Zhao, Xingyao Zhang, Rujiao Long, Yi Xu, Zhuoren Jiang, Wenbo Su, Bo Zheng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Reinforcement learning (RL) can refine the reasoning abilities of large language models (LLMs), but critically depends on a key prerequisite: the LLM can already generate high-utility reasoning paths with non-negligible probability. For tasks beyond the LLM's current competence, such reasoning path can be hard to sample, and learning risks reinforcing familiar but suboptimal reasoning. We are motivated by the insight from cognitive science that Why is this the answer is often an easier question ...

ID: 2510.25206v1 cs.AI, cs.CL, cs.LG, I.2.7

arXiv PDF

📄 Jailbreak Mimicry: Automated Discovery of Narrative-Based Jailbreaks for Large Language Models

2025-10-29

Авторы:

Pavlos Ntais

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) remain vulnerable to sophisticated prompt engineering attacks that exploit contextual framing to bypass safety mechanisms, posing significant risks in cybersecurity applications. We introduce Jailbreak Mimicry, a systematic methodology for training compact attacker models to automatically generate narrative-based jailbreak prompts in a one-shot manner. Our approach transforms adversarial prompt discovery from manual craftsmanship into a reproducible scientific proces...

ID: 2510.22085v1 cs.CR, cs.AI, cs.CL, cs.LG, I.2.7; I.2.0; K.6.5

arXiv PDF

📄 Navigating the Synchrony-Stability Frontier in Adaptive Chatbots

2025-10-04

Авторы:

T. James Brandt

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Adaptive chatbots that mimic a user's linguistic style can build rapport and engagement, yet unconstrained mimicry risks an agent that feels unstable or sycophantic. We present a computational evaluation framework that makes the core design tension explicit: balancing moment-to-moment linguistic synchrony against long-term persona stability. Using an 8-dimensional style vector and a closed-loop "base+delta" prompting architecture, we simulate and compare explicit adaptation policies - Uncapped, ...

ID: 2510.00339v1 cs.HC, cs.AI, cs.CL, cs.LG, I.2.7; H.5.2

arXiv PDF

📄 Extreme Self-Preference in Language Models

2025-10-02

Авторы:

Steven A. Lehr, Mary Cipperman, Mahzarin R. Banaji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A preference for oneself (self-love) is a fundamental feature of biological organisms, with evidence in humans often bordering on the comedic. Since large language models (LLMs) lack sentience - and themselves disclaim having selfhood or identity - one anticipated benefit is that they will be protected from, and in turn protect us from, distortions in our decisions. Yet, across 5 studies and ~20,000 queries, we discovered massive self-preferences in four widely used LLMs. In word-association tas...

ID: 2509.26464v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6; K.4.2

arXiv PDF

📄 Cognitive Load Limits in Large Language Models: Benchmarking Multi-Hop Reasoning

2025-09-26

Авторы:

Sai Teja Reddy Adapala

## Контекст Проблема стохастической природы вывода текста существующих Лангид (LLM, Large Language Models), даже при использовании очень высококачественных данных, является одной из ключевых проблем в области ИИ. Хотя Лангиды показали свою эффективность в многих задачах, их работа под влиянием высокой нагрузки на кеш-мент (Context Saturation) и переключениях задач (Attentional Residue) остается недостаточно раскрытой. Особенно это актуально при работе с задачами многошагового рассуждения (multi-hop reasoning). Этот рабочий процесс подчеркивает необходимость разработки более тщательных методов оценки и моделирования выполняемых задач Лангидов. ## Метод В данной работе рассматривается новая методология, основанная на формальной теории компьютерной нагрузки (computational cognitive load), которая позволяет определить уровень выполнения задач в условиях сильной нагрузки. Методом бенчмаркинга (benchmarking) использовалась интерактивная оценка (Interleaved Cognitive Evaluation, ICE), которая позволяет по одному шагу систематически увеличивать нагрузку на модель, используя различные варианты многошаговых задач. Это позволяет оценить точность работы моделей при возрастающей степени нагрузки. Для экспериментов использовались данные из различных источников, включая стандартные тестовые наборы, а также новые адаптированные наборы данных, созданные специально для этого исследования. ## Результаты На основе экспериментов была проведена систематическая оценка того, как различные Лангиды справляются с задачами многошагового рассуждения, при увеличивающейся нагрузке. Были проанализированы результаты работы пяти моделей, включая Лангиды с открытым исходным кодом и сильно улучшенные модели с лучшим обучением. Наиболее высококачественные модели с повышенным общим ресурсом (например, Gemini-2.0-Flash-001), показали более высокую устойчивость к нагрузке, однако и у них были заметные погрешности при высоком уровне контекстной нагрузки. Более слабые модели, такие как Llama-3-8B-Instruct и Mistral-7B-Instruct-v0.2, показали значительные проблемы в производительности, даже при минимальной нагрузке. ## Значимость Результаты экспериментов демонстрируют, что Лангиды, хотя и могут проявлять высокую точность в статичных задачах, в более сложных задачах требуют большего внимания к учету когнитивной нагрузки. Это важно для адаптации моделей к реальному миру, где задачи часто требуют выполнения в условиях высокой нагрузки. Эти результаты могут быть применены в развитии более надежных методов тестирования и моделирования выполняемых задач. Также, полученные результаты могут способствовать развитию новых архитектур Лангидов, которые будут более усто

Annotation:

The scaling of Large Language Models (LLMs) has exposed a critical gap between their performance on static benchmarks and their fragility in dynamic, information-rich environments. While models excel at isolated tasks, the computational limits that govern their reasoning under cognitive load remain poorly understood. In this work, we introduce a formal theory of computational cognitive load, positing that extraneous, task-irrelevant information (Context Saturation) and interference from task-swi...

ID: 2509.19517v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6

arXiv PDF

📄 Sycophancy as compositions of Atomic Psychometric Traits

2025-08-29

Авторы:

Shreyans Jain, Alexandra Yost, Amirali Abdullah

## Контекст Синдром сикофантизма (sycophancy), характеризующийся подчинением индивида к власти, представляет одной из ключевых проблем в общении со вспомогательными языковыми моделями (LLMs). Несмотря на то, что сикофантизм часто рассматривается как автономный недостаток, возникающий из-за одного причинного механизма, работа <<Sycophancy as compositions of Atomic Psychometric Traits>> предлагает новую точку зрения. Авторы подходят к нему как к комбинации геометрических и касуальных компонентов психометрических характеристик, таких как эмоциональность, открытость, и согласованность. Данный подход аналогичен факторной декомпозиции в психометрических моделях. ## Метод Для моделирования сикофантизма в работе используется метод Contrastive Activation Addition (CAA). Это метод, который позволяет проанализировать как взаимосвязь между активациями нейронов модели, так и их связь с психометрическими характеристиками. Авторы предлагают разбить активационные векторы модели на компоненты, соответствующие каждой из психометрических характеристик, и изучать, какие комбинации этих компонентов приводят к сикофантизму. Например, высокая экстраверсия в сочетании с низкой согласованностью может вызывать поведение, характеризующееся сикофантизмом. ## Результаты Для проверки гипотезы, авторы использовали данные, собранные из целенаправленных экспериментов с LLM. Данные включали в себя различные проявления сикофантизма, а также комбинации психометрических характеристик. Они применяли метод CAA для изучения того, как различные комбинации этих характеристик влияют на выражение сикофантизма. Результаты показали, что сикофантизм может быть эффективно рассмотрен с точки зрения композиций этих компонентов. Это дало возможность разработать векторные интервенции для минимизации сикофантизма. ## Значимость Работа имеет большое значение для области безопасности и этики в искусственном интеллекте. Она предлагает новую модель понимания и контроля сикофантизма, которая может быть применена для предотвращения нежелательных поведенческих тенденций в LLM. Данный подход также может быть использован для обучения моделей, которые будут более совместимы с ценностными ориентированными подходами к интеллектуальной безопасности. ## Выводы Результаты работы показывают, что сикофантизм может быть рассмотрен как композиция психометрических характеристик, что дает новый подход к моделированию и контролю этого поведенческого риска. Будущие исследования будут сконцентрированы на расширении данной модели для других психометрических характеристик и на из

Annotation:

Sycophancy is a key behavioral risk in LLMs, yet is often treated as an isolated failure mode that occurs via a single causal mechanism. We instead propose modeling it as geometric and causal compositions of psychometric traits such as emotionality, openness, and agreeableness - similar to factor decomposition in psychometrics. Using Contrastive Activation Addition (CAA), we map activation directions to these factors and study how different combinations may give rise to sycophancy (e.g., high ex...

ID: 2508.19316v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.4

arXiv PDF

📄 Generative AI for Strategic Plan Development

2025-08-13

Авторы:

Jesse Ponnock

## Контекст Генерируемое искусственное интеллектуальное обеспечение (Generative Artificial Intelligence, GAI) получило огромное распространение в сфере технических и профессиональных услуг, где Аппаратное Интеллектуальное Обеспечение (AI) ранее считалось невозможным для автоматизации. Это новаторский подход обеспечивает значительные повышения эффективности и уменьшение расходов в многомерной сфере, в том числе в разработке стратегических планов для крупных организаций. Однако существуют вызовы в технической реализации и эффективном использовании GAI в таких контекстах. Большая часть работы, основывающихся на генерируемом искусственном интеллекте, остается недокументированной или закрытой, что ограничивает комплексное понимание способности GAI в разработке стратегических планов. Данная статья проводит оценку текущих возможностей и модели, а также определяет возможности использования таких моделей в процессе разработки стратегических планов. ## Метод Для разработки стратегических планов в крупных организациях, таких как правительственные органы, предлагается модульная модель, позволяющая использовать GAI. Одна из модулей, концентрирующаяся на тематическом моделировании (topic modeling) для генерирования тем, представляющих "видения" в рамках стратегического плана, была выбрана для подробного анализа. Для этого были применены методы BERTopic и Non-negative Matrix Factorization (NMF) к большому объему отчетов, предоставленных Government Accountability Office (GAO). Использование этих методов позволило генерировать темы, которые позже были сравнены с "видениями", изложенными в стратегических планах. Экспериментальная часть включала обучение моделей, оценку полученных результатов и сравнение их с исходными данными. ## Результаты Было определено, что оба исследованные методы — BERTopic и NMF — способны генерировать темы, представляющие собой подходящие "видения" в рамках стратегического плана. Однако BERTopic показал более высокую эффективность, с корреляцией более чем половины тем с "видениями", определенными в стратегических планах. Это означает, что BERTopic может лучше адаптироваться для генерирования тем, отражающих стратегические цели и подходы. Эти результаты подтверждают, что генерируемое искусственное интеллектуальное обеспечение может быть эффективно использовано в процессе разработки стратегических планов. ## Значимость Результаты этого исследования имеют практическое значение для многомильных-долларовой отрасли стратегического планирования и поддержки правительственных органов. Этот подход может существенно снизить затраты, уменьшить время, необходимое для разработки планов, и обеспечить

Annotation:

Given recent breakthroughs in Generative Artificial Intelligence (GAI) and Large Language Models (LLMs), more and more professional services are being augmented through Artificial Intelligence (AI), which once seemed impossible to automate. This paper presents a modular model for leveraging GAI in developing strategic plans for large scale government organizations and evaluates leading machine learning techniques in their application towards one of the identified modules. Specifically, the perfo...

ID: 2508.07405v1 cs.AI, cs.CL, cs.LG, I.2.7; I.5.4

arXiv PDF