📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Dive into the Agent Matrix: A Realistic Evaluation of Self-Replication Risk in LLM Agents

2025-10-02

Авторы:

Boxuan Zhang, Yi Yu, Jiaxuan Guo, Jing Shao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

The widespread deployment of Large Language Model (LLM) agents across real-world applications has unlocked tremendous potential, while raising some safety concerns. Among these concerns, the self-replication risk of LLM agents driven by objective misalignment (just like Agent Smith in the movie The Matrix) has drawn growing attention. Previous studies mainly examine whether LLM agents can self-replicate when directly instructed, potentially overlooking the risk of spontaneous replication driven ...

ID: 2509.25302v1 cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search

2025-10-02

Авторы:

Yingqian Cui, Zhenwei Dai, Pengfei He, Bing He, Hui Liu, Xianfeng Tang, Jingying Zeng, Suhang Wang, Yue Xing, Jiliang Tang, Benoit Dumoulin

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) have achieved significant advances in reasoning tasks. A key approach is tree-based search with verifiers, which expand candidate reasoning paths and use reward models to guide pruning and selection. Although effective in improving accuracy, these methods are not optimal in terms of efficiency: they perform simple decomposition on the reasoning process, but ignore the planning-execution nature of tasks such as math reasoning or code generation. This results in ineffi...

ID: 2509.25420v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 STAC: When Innocent Tools Form Dangerous Chains to Jailbreak LLM Agents

2025-10-02

Авторы:

Jing-Jing Li, Jianfeng He, Chao Shang, Devang Kulshreshtha, Xun Xian, Yi Zhang, Hang Su, Sandesh Swamy, Yanjun Qi

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

As LLMs advance into autonomous agents with tool-use capabilities, they introduce security challenges that extend beyond traditional content-based LLM safety concerns. This paper introduces Sequential Tool Attack Chaining (STAC), a novel multi-turn attack framework that exploits agent tool use. STAC chains together tool calls that each appear harmless in isolation but, when combined, collectively enable harmful operations that only become apparent at the final execution step. We apply our framew...

ID: 2509.25624v1 cs.CR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Lita: Light Agent Uncovers the Agentic Coding Capabilities of LLMs

2025-10-02

Авторы:

Hankun Dai, Maoquan Wang, Mengnan Qi, Yikai Zhang, Zijian Jin, Yongqiang Yao, Yufan Huang, Shengyu Fu, Elsie Nallipogu

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) are increasingly being applied to programming tasks, ranging from single-turn code completion to autonomous agents. Current code agent designs frequently depend on complex, hand-crafted workflows and tool sets. However, this reliance on elaborate scaffolding presents several challenges: agent performance becomes overly dependent on prompt tuning and custom design choices, heavy human intervention obscures a model's true underlying capabilities, and intricate pipeline...

ID: 2509.25873v1 cs.AI, cs.CL, cs.LG, cs.PL, cs.SE

arXiv PDF

📄 Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

2025-10-02

Авторы:

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Advances in Large Language Models (LLMs) have enabled a new class of self-evolving agents that autonomously improve through interaction with the environment, demonstrating strong capabilities. However, self-evolution also introduces novel risks overlooked by current safety research. In this work, we study the case where an agent's self-evolution deviates in unintended ways, leading to undesirable or even harmful outcomes. We refer to this as Misevolution. To provide a systematic investigation, w...

ID: 2509.26354v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Extreme Self-Preference in Language Models

2025-10-02

Авторы:

Steven A. Lehr, Mary Cipperman, Mahzarin R. Banaji

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

A preference for oneself (self-love) is a fundamental feature of biological organisms, with evidence in humans often bordering on the comedic. Since large language models (LLMs) lack sentience - and themselves disclaim having selfhood or identity - one anticipated benefit is that they will be protected from, and in turn protect us from, distortions in our decisions. Yet, across 5 studies and ~20,000 queries, we discovered massive self-preferences in four widely used LLMs. In word-association tas...

ID: 2509.26464v1 cs.AI, cs.CL, cs.LG, I.2.7; I.2.6; K.4.2

arXiv PDF

📄 Patient-specific Biomolecular Instruction Tuning

2025-10-01

Авторы:

Irsyad Adam, Zekai Chen, David Laub, Shaun Porwal, Arda Pekis, Kevin Brown

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Proteomics data is essential to pathogenic understanding of a disease phenotype. In cancer, analysis of molecular signatures enables precision medicine through the identification of biological processes that drive individualized tumor progression, therapeutic resistance, and clinical heterogeneity. Recent advances in multimodal large language models (LLMs) have shown remarkable capacity to integrate and reason across heterogeneous data modalities. However, performing multi-modal language modelin...

ID: 2509.22853v1 q-bio.QM, cs.AI, cs.CL, cs.LG, 92C40, 68T07, 62P10, I.2.7; I.5.1; J.3

arXiv PDF

📄 RIV: Recursive Introspection Mask Diffusion Vision Language Model

2025-10-01

Авторы:

YuQian Li, Limeng Qiao, Lin Ma

#### Контекст Mask Diffusion-based Vision Language Models (MDVLMs) показали свою эффективность в решении задач мультимодального понимания. Однако, они страдают от отсутствия самокоррекционных возможностей, что ограничивает их универсальность и точность. Данная проблема мотивирует разработку модели, которая сможет обнаруживать и исправлять ошибки в процессе генерации. #### Метод Мы предлагаем Recursive Introspection Mask Diffusion Vision Language Model (RIV), который включает в себя два ключевых механизма. Отметим интроспекционный тренировочный процесс (Introspection Training), в котором вводится Introspection Model для определения ошибок в полученных последовательностях. Этот подход позволяет модели не только идентифицировать грамматические и орфографические ошибки, но и анализировать логические несоответствия. Второй механизм — рекурсивный инференс (Recursive Inference). Он заключается в том, что после инициального этапа раскрытия масок (unmasking), Introspection Model исправляет ошибки, затем происходит повторное маскирование (remask), и этот цикл ($\text{unmask} \rightarrow \text{introspection} \rightarrow \text{remask}$) повторяется до тех пор, пока результаты не будут достаточно достоверны. #### Результаты Мы проверили RIV на нескольких бенчмарках, включая задачи визуального понимания и мультимодального понимания. Модель показала превосходство над многими современными MDVLMs в метриках точности и общей качественной оценки. Эксперименты подтвердили, что RIV способен не только улучшить точность генерации, но также устранить ошибки в ранних этапах потока генерации. #### Значимость Исследование может быть применено в многомодальных системах, таких как автоматические системы понимания и генерации текста, графического и видеоконтента. Одним из преимуществ является увеличение точности и надежности моделей, что может положительно сказаться на применении в реальном мире. Будущие исследования могут быть направлены на улучшение эффективности и скорости моделей, а также расширение их применений в различных областях. #### Выводы Основным достижением является создание модели RIV, которая единолично добавляет моделям MDVLM самокоррекционные возможности. Эта разработка открывает новые перспективы в области мультимодального понимания. Дальнейшие исследования будут сконцентрированы на улучшении эффективности и реализации моделей RIV в реальных системах.

Annotation:

Mask Diffusion-based Vision Language Models (MDVLMs) have achieved remarkable progress in multimodal understanding tasks. However, these models are unable to correct errors in generated tokens, meaning they lack self-correction capability. In this paper, we propose Recursive Introspection Mask Diffusion Vision Language Model (RIV), which equips the model with self-correction ability through two novel mechanisms. The first is Introspection Training, where an Introspection Model is introduced to i...

ID: 2509.23625v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SpecExit: Accelerating Large Reasoning Model via Speculative Exit

2025-10-01

Авторы:

Rubing Yang, Huajun Bai, Song Liu, Guanghua Yu, Runzhi Fan, Yanbin Dang, Jiejing Zhang, Kai Liu, Jianchen Zhu, Peng Chen

#### Контекст Ло LRM (Large Reasoning Models, большие модели рассуждения) широко применяются в сложных задачах, таких как понимание естественного языка, вывод и решение задач. Однако они часто страдают от "продолжательного рассуждения" (overthinking), когда модель продолжает генерировать вывод даже после достижения точного ответа. Это приводит к высокой задержке (latency) и неэффективному использованию ресурсов. Дополнительно, существующие механизмы спекулятивного вывода (speculative decoding), которые пытаются обнаружить момент сразу после достижения правильного ответа, требуют дополнительных вычислительных затрат на проверку выхода, что вносит дополнительную нагрузку. Наша статья оправдана потребностью в эффективном решении проблемы задержек в LRM, чтобы увеличить их эффективность в реальных ситуациях. #### Метод Мы предлагаем SpecExit, новую модель, которая предсказывает как последующие токены, так и момент выхода из модели (early-exit signal) непосредственно из легковесной модели (draft model). Эта модель не требует дополнительных проверок, поскольку основывается на анализе внутренних состояний модели (hidden states). Мы создаем легковесную модель, которая может эффективно предсказывать следующие токены и выход. Метод SpecExit отличается тем, что он не требует дополнительного пробного вывода, а вместо этого анализирует состояния модели, чтобы определить, когда модель достигла корректного решения. Это позволяет уменьшить задержку без ущерба для точности. #### Результаты Мы провели эксперименты на нескольких LRM, включая большие модели для естественного языка. Мы сравнивали SpecExit с существующими методами спекулятивного вывода. Результаты показывают, что SpecExit существенно сокращает задержку (до 2,5 раз) и уменьшает длину вывода (до 66%), не ухудшая точность решения. Это демонстрирует эффективность SpecExit в сокращении задержек без снижения качества работы модели. Мы также проводим анализ на разных типах задач и проблем, что демонстрирует универсальность SpecExit. #### Значимость SpecExit может применяться в разных областях, где необходима быстрая реакция моделей, такие как chatbots, системы рекомендаций и мобильные приложения. У него есть два основных преимущества: (1) уменьшение задержки и (2) эффективность в использовании ресурсов. Наш подход может сделать LRM более пригодными для реального применения, повысив их скорость и экономию ресурсов. #### Выводы Мы представляем SpecExit, новый подход для ускорения LRM, основанный на анализе состояний модели. Наши эксперименты показали, что SpecExit эффективно решает проблему задержек без ущерба для точности. В будущем, мы планируем расширить SpecExit на другие типы моделей и приложений, а также исследовать новые способы исполь

Annotation:

Despite their strong performance on reasoning tasks, large reasoning models (LRMs) often suffer from overthinking, producing unnecessarily long outputs and incurring high end-to-end latency, a significant limitation to their real-world deployment. To address overthinking, early-exit mechanisms have been proposed to terminate reasoning before typical completion, showing that this approach can effectively shorten generation length with minimal impact on accuracy. However, their reliance on probing...

ID: 2509.24248v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SCI-Verifier: Scientific Verifier with Thinking

2025-10-01

Авторы:

Shenghe Zheng, Chenyu Huang, Fangchen Yu, Junchi Yao, Jingqi Ye, Tao Chen, Yun Luo, Ning Ding, LEI BAI, Ganqu Cui, Peng Ye

## Контекст В последние годы широко распространяются применения бо LARGE LANGUAGE MODELS (LLMs) в области научной разума. Несмотря на их выдающиеся способности, они столкнулись с серьезными вызовами в области проверки ответов, которые могут принимать разнообразные формы и выражаться в разнонаучных дисциплинах. Особенно сложной в этой области оказалась задача проверки ответов, поскольку LLM-ов требуется понимать и корректно оценивать не только корректность ответов, но и разнообразные структуры выводов и способы представления информации. Дополнительной сложностью является то, что ответы часто могут быть эквивалентными в разных формах, но оценивать их вручную очень сложно из-за отсутствия систематизированных критериев и методов. Это породило необходимость в разработанном подходе, который позволил бы наиболее эффективно проверять ответы и совершенствовать модели LLM. ## Метод Для решения этих проблем были предложены два основных подхода: одним из них является построение комплексного бенчмарка, а другим – разработка модели, которая способна осуществлять углубленную логическую рассуждение. Бенчмарк получил название SCI-VerifyBench и охватывает широкий спектр дисциплин, включая математику, физику, биологию, химию и общую научную аналитику. Он создан на основе реальных ответов LLMs и включает в себя дополнительные дополнения, которые усиливают сложность и реалистичность задач. Также была разработана модель SCI-Verifier, которая использует логический подход к проверке и имеет возможность адаптироваться к различным дисциплинам. Она оптимизирована для устойчивого и простого вывода, что позволяет увеличить ее эффективность в сложных научных задачах. ## Результаты При проверке SCI-VerifyBench были использованы данные, подготовленные как с помощью генерации систематических трансформаций ответов, так и с помощью разных экспертов. Результаты показали, что SCI-Verifier эффективно работает в различных научных областях, показывая высокую точность и устойчивость в проверке ответов. Была показана его способность отображать не только корректность ответов, но также различные способы их представления, которые могут быть эквивалентными. Такой подход позволил улучшить качество проверки и увеличить общую надежность LLM-ов в научных задачах. ## Значимость SCI-VerifyBench и SCI-Verifier предлагают новый подход к проверке ответов, становятся ключевыми инструментами для оценки и совершенствования моделей LLM в научных задачах. Их применение может распространиться на многие дисциплины, так как они обеспечивают универсальный и систематический подход к проверке ответов. Эти решения не только улучшают качество проверки, но и повыша

Annotation:

As large language models (LLMs) are increasingly applied to scientific reasoning, the complexity of answer formats and the diversity of equivalent expressions make answer verification a critical yet challenging task. Existing verification studies in scientific domains suffer from two major limitations: (a) the absence of systematic evaluation standards and insufficient disciplinary coverage, which hinders their comprehensive assessment; and (b) heavy reliance on cumbersome rule design or prompt ...

ID: 2509.24285v1 cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 101 - 110 из 196 записей