📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment

2025-08-09

Авторы:

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

**Резюме** В статье предлагается CAPO (Credit Assignment Policy Optimization) — метод, улучшающий точность подкрепленного обучения с верифицируемыми наградами (RLVR) для бо LLM. Проблема заключается в том, что традиционные методы RLVR назначают одинаковый вес всем токенам ответа, что затрудняет точное присвоение кредита за успех или неудачу каждого токена. Разработанный CAPO использует общецелевую обработку естественных языков для построения шаг за шагом критики ответа, что позволяет назначить точные, проверяемые награды на уровне токенов. Для повышения точности используется механизм голосования, основанный на нескольких генерируемых критиках. Эксперименты показали, что CAPO превосходит супервизированные и другие RL-методы на математических и других бенчмарках, подтверждая его эффективность в улучшении точности и эффективности обучения бол LLMs.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of Large Language Models (LLMs) by using rule-based binary feedback, helping to mitigate reward hacking. However, current RLVR methods typically treat whole responses as single actions, assigning the same reward to every token. This coarse-grained feedback hampers precise credit assignment, making it hard for models to identify which reasoning steps lead to success or failure, and often results in suboptim...

ID: 2508.02298v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 AIAP: A No-Code Workflow Builder for Non-Experts with Natural Language and Multi-Agent Collaboration

2025-08-09

Авторы:

Hyunjn An, Yongwon Kim, Wonduk Seo, Joonil Park, Daye Kang, Changhoon Oh, Dokyun Kim, Seunghyun Lee

**Резюме** Возникновение AIAP (AI Assistance Platform) ставится перед проблемой непосредственного взаимодействия между неэкспертными пользователями и сложными системами AI. Несмотря на многочисленные инструменты для проектирования AI, неэкспертные пользователи часто сталкиваются с трудностями в конкретном выражении своей интенции и управлении сложностью системы. Исследование показывает, что AIAP — это новое, нетехническое решение, которое использует ввод в естественной речи и визуальные рабочие процессы, объединенные с системой многоагентного взаимодействия. AIAP декомпозирует неясные пользовательские инструкции в модульные, действительные шаги, недоступные для пользователя, но управляемые через прозрачный интерфейс. Исследование с 32 участниками демонстрирует, что AIAP's АI-генерируемые рекомендации, модульные рабочие процессы и автоматическое определение данных, действий и контекста значительно упрощают процесс создания AI-сервисов, делая его более интуитивным. Эти результаты подтверждают, что новый подход, основанный на естественной речи и визуальном программировании, значительно снижает барьеры для неэкспертных пользователей и повышает их удобство при проектировании AI-сервисов.

Annotation:

While many tools are available for designing AI, non-experts still face challenges in clearly expressing their intent and managing system complexity. We introduce AIAP, a no-code platform that integrates natural language input with visual workflows. AIAP leverages a coordinated multi-agent system to decompose ambiguous user instructions into modular, actionable steps, hidden from users behind a unified interface. A user study involving 32 participants showed that AIAP's AI-generated suggestions,...

ID: 2508.02470v1 cs.HC, cs.AI, cs.CL, cs.MA, cs.SE

arXiv PDF

📄 OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling

2025-08-09

Авторы:

Maxime Bouscary, Saurabh Amin

Оптимизационные задачи часто требуют надежных систем, но LLM-based solvers, несмотря на их перспективы, часто оставляют желать лучшего из-за высокой задержки и неустойчивости результатов. Мы предлагаем OptiHive — рамформу, которая включает в себя LLM для генерации солверов для задач оптимизации на основе естественного языка. Отличительная черта OptiHive заключается в использовании единого пакетного запроса для генерации разнообразных компонентов (солверов, задач и валидационных тестов), а также в использовании статистической модели для оценки их достоверности. Это позволяет существенно повысить точность и доверие к результатам, даже при несовершенстве генерируемых компонентов. На различных типах задач оптимизации, включая разновидности Multi-Depot Vehicle Routing Problem, OptiHive показала значительное превосходство над базовыми алгоритмами, увеличив оптимальность решений от 5% до 92% в самых сложных случаях.

Annotation:

LLM-based solvers have emerged as a promising means of automating problem modeling and solving. However, they remain unreliable and often depend on iterative repair loops that result in significant latency. We introduce OptiHive, an LLM-based framework that produces high-quality solvers for optimization problems from natural-language descriptions without iterative self-correction. OptiHive uses a single batched LLM query to generate diverse components (solvers, problem instances, and validation ...

ID: 2508.02503v1 cs.AI, cs.CL

arXiv PDF

📄 Test-time Prompt Intervention

2025-08-09

Авторы:

Chenxu Yang, Qingyi Si, Mz Dai, Dingyu Yao, Mingyu Zheng, Minghui Chen, Zheng Lin, Weiping Wang

**Резюме** Проблема: Многие современные л LLM, особенно те, что используют длинные цепочки мышления (CoTs) для улучшения логических выводов, страдают от избыточной реплитации и непоследовательности в цепочках принятия решений. Это возникает из-за ориентации на пост-тренировочные модели, сконцентрированных на получении высокого награды в итоге, а не на оптимизации процесса мышления. Данные для регулирования промежуточных шагов малоизвестны и сложно получить в масштабе. Решение: Мы предлагаем Test-time Prompt Intervention (PI), новую архитектуру для динамического управления принятием решений во время выполнения. Она включает три модуля: когда (When), как (How) и что (Which). Эти модули позволяют взаимодействовать с моделью во время работы, управляя процессом уточняющими интервенциями и улучшая контролируемость и прозрачность. Основные выводы: Тестирование показало, что PI существенно сокращает длину CoTs, уменьшает ошибки при семантическом разборе и повышает надежность моделей. Это новая шаг в практическом интегрировании экспертных принципов логического мышления в традиционные л LLM.

Annotation:

Test-time compute has led to remarkable success in the large language model (LLM) community, particularly for complex tasks, where longer chains of thought (CoTs) are generated to enhance reasoning capabilities. However, growing evidence reveals that such reasoning models often produce CoTs plagued by excessive redundancy, including unnecessary verification steps and repetitive reasoning shifts. The root cause lies in post-training of them that overly rely on outcome reward paradigms, as the dat...

ID: 2508.02511v1 cs.AI, cs.CL

arXiv PDF

📄 What are you sinking? A geometric approach on attention sink

2025-08-09

Авторы:

Valeria Ruscio, Umberto Nanni, Fabrizio Silvestri

**Резюме** В статье анализируется признак "attention sink" (AS) — постоянный узкий пик в transformer attention maps, когда токены (особенно специальные или позиционные) привлекают существенно больше внимания, чем другие. Авторы показывают, что AS не является просто особенностью архитектуры, а является результатом основного геометрического принципа: установки ссылочных систем в высокомерных пространствах. Они выявляют три типа ссылочных систем — централизованные, распределенные и бинаризационные — которые соответствуют AS и возникают в ранних этапах обучения как эффективные решения для установки стабильных систем координат. Авторы также изучают, как различные компоненты архитектуры, особенно реализации позиционных кодировок, влияют на тип ссылочной системы. Это новое представление transformer attention механизмов обеспечивает понимание AS и помогает в дизайне моделей и анализе этого явления.

Annotation:

Attention sink (AS) is a consistent pattern in transformer attention maps where certain tokens (often special tokens or positional anchors) disproportionately attract attention from other tokens. We show that in transformers, AS is not an architectural artifact, but it is the manifestation of a fundamental geometric principle: the establishment of reference frames that anchor representational spaces. We analyze several architectures and identify three distinct reference frame types, centralized,...

ID: 2508.02546v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Parameter-Efficient Routed Fine-Tuning: Mixture-of-Experts Demands Mixture of Adaptation Modules

2025-08-09

Авторы:

Yilun Liu, Yunpu Ma, Yuetian Lu, Shuo Chen, Zifeng Ding, Volker Tresp

Многоэкспертные модели (MoE) используют динамический механизм маршрутизации для распределения задач между специализированными экспертами, что позволяет эффективно оптимизировать их обучение и использование. Однако существующие стратегии Parameter-Efficient Fine-Tuning (PEFT) не учитывают этот аспект, что приводит к потерям в эффективности. В статье рассматривается вопрос о том, должны ли модули подготовки включать в себя механизмы маршрутизации, чтобы лучше адаптироваться к архитектуре MoE. Описывается анализ динамики PEFT при использовании в моделях MoE и изучаются различные стратегии маршрутизации. Исследования проводились на моделях OLMoE-1B-7B и Mixtral-8x7B, адаптированных к задачам смыслового понимания и математического рассуждения. На основе экспериментов доказано, что маршрутизируемые модули позволяют достичь более высокой эффективности и точности. На основе этих результатов даны рекомендации по оптимальной конфигурации для различных сценариев и применения MoE в реальных задачах.

Annotation:

Mixture-of-Experts (MoE) benefits from a dynamic routing mechanism among their specialized experts, which existing Parameter- Efficient Fine-Tuning (PEFT) strategies fail to leverage. This motivates us to investigate whether adaptation modules themselves should incorporate routing mechanisms to align with MoE's multi-expert architecture. We analyze dynamics of core components when applying PEFT to MoE language models and examine how different routing strategies affect adaptation effectiveness. E...

ID: 2508.02587v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 HealthFlow: A Self-Evolving AI Agent with Meta Planning for Autonomous Healthcare Research

2025-08-09

Авторы:

Yinghao Zhu, Yifan Qi, Zixiang Wang, Lei Gu, Dehao Sui, Haoran Hu, Xichen Zhang, Ziyi He, Liantao Ma, Lequan Yu

**Резюме** В статье представлена HealthFlow — самоэволюционная AI-система с метапланированием, разработанная для решения проблем статических, предопределенных стратегий в AI-агентах, применяемых в сложных областях, таких как здравоохранение. Агенты, ориентированные на использование инструментов, способны улучшаться в работе с конкретными задачами, но не обладают возможностью адаптировать свои высокоуровневые подходы к решению задач. HealthFlow решает эту проблему, автоматически оптимизируя свои стратегии на базе процедурных успехов и неудач, формируя терминологическую базу для последующих задач. Для изучения и оценки производительности HealthFlow был разработан бенчмарк EHRFlowBench, имитирующий реальные задачи анализа клинических данных. Исследование показало, что HealthFlow превосходит современные AI-фреймворки в сфере здравоохранения, демонстрируя высокую эффективность в самоэволюции. Это работа устанавливает новый подход к AI, перейдя от создания улучшенных инструментов к разработке самоэволюционных систем, способных управлять задачами самостоятельно и эффективно.

Annotation:

The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...

ID: 2508.02621v1 cs.AI, cs.CL, cs.LG, cs.MA

arXiv PDF

📄 Noosemia: toward a Cognitive and Phenomenological Account of Intentionality Attribution in Human-Generative AI Interaction

2025-08-09

Авторы:

Enrico De Santis, Antonello Rizzi

**Резюме** В статье представляется понятие **Noosemia** — новый когнитивно-феноменологический феномен, возникающий при взаимодействии человека с генерирующимися системами с поддержкой диалога и многомодальности. Авторы выявляют, что пользователи могут атрибутировать целенаправленность, агентность и даже внутренность этим системам, не следуя при этом механически к физическому описанию. Основные причины этого — речевая производительность, эпистемическая неопределенность и технологическая сложность. На основе концепции LLMs Contextual Cognitive Field авторы показывают, как системы строят значение связанной с контекстом и как возникает видимая агентность в человеко-системных взаимодействиях. Noosemia сравнивается с пареидолией, анимизмом и чудовищным лавочником, но выделяются свои особенности. Также введено понятие **a-noosemia** — отказа от таких проекций. Основные выводы посвящены разрешению вопросов философских, эпистемологических и социальных импликаций Noosemia, а также направлениям будущих исследований в этой области.

Annotation:

This paper introduces and formalizes Noosemia, a novel cognitive-phenomenological phenomenon emerging from human interaction with generative AI systems, particularly those enabling dialogic or multimodal exchanges. We propose a multidisciplinary framework to explain how, under certain conditions, users attribute intentionality, agency, and even interiority to these systems - a process grounded not in physical resemblance, but in linguistic performance, epistemic opacity, and emergent technologic...

ID: 2508.02622v1 cs.AI, cs.CL, cs.CY

arXiv PDF

📄 HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

2025-08-09

Авторы:

Yibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Недавние достижения в области multimodal large language models (MLLMs) обеспечили богатый perceptual grounding для generation code policies в embodied agents. Однако, существующие системы часто не имеют эффективных механизмов для адаптивного мониторинга исполнения политик и исправления кода при выполнении задач. В данной работе мы предлагаем HyCodePolicy — гибридную языковую систему управления, которая систематически объединяет code synthesis, geometric grounding, perceptual monitoring и iterative repair в замкнутый цикл программирования для embodied agents. HyCodePolicy декомпозирует натуральные языковые инструкции на subgoals и генерирует исполняемый program, границы которого определяются object-centric geometric primitives. В ходе выполнения в simulation, vision-language model (VLM) идентифицирует и локализует execution failures, интерпретируя их причины. Объединение structured execution traces и VLM-based perceptual feedback позволяет HyCodePolicy исправлять program с минимальным human supervision. Наши результаты показывают, что HyCodePolicy существенно улучшает robustness и sample efficiency manipulation policies, предлагая scalable аппроксимацию multimodal reasoning в autonomous decision-making pipelines.

Annotation:

Recent advances in multimodal large language models (MLLMs) have enabled richer perceptual grounding for code policy generation in embodied agents. However, most existing systems lack effective mechanisms to adaptively monitor policy execution and repair codes during task completion. In this work, we introduce HyCodePolicy, a hybrid language-based control framework that systematically integrates code synthesis, geometric grounding, perceptual monitoring, and iterative repair into a closed-loop p...

ID: 2508.02629v2 cs.RO, cs.AI, cs.CL

arXiv PDF

📄 SecoustiCodec: Cross-Modal Aligned Streaming Single-Codecbook Speech Codec

2025-08-09

Авторы:

Chunyu Qiang, Haoyu Wang, Cheng Gong, Tianrui Wang, Ruibo Fu, Tao Wang, Ruilong Chen, Jiangyan Yi, Zhengqi Wen, Chen Zhang, Longbiao Wang, Jianwu Dang, Jianhua Tao

**Резюме** В статье предлагается SecoustiCodec — новый потоковый кодек речи с низким битрейтом, который решает ключевые проблемы существующих кодеков. Он способен разделять семантическую и паралингвистическую информацию в едином кодеконе, что позволяет избежать нежелательных эффектов, таких как остаточная паралингвистическая информация (например, тон и эмоция). Для улучшения реконструкции и компактности текстового семантического кодирования используется метод эффективной шкальной квантизации, основанный на VAE и FSQ, что решает проблему длинного хвоста распределения токенов. Для улучшения многомодального выравнивания сложности используется метод обучения с подкреплением, что делает модель более устойчивой. Опытные результаты показали, что SecoustiCodec достигает высокого качества реконструкции (PESQ) — 1.77 при 0.27 кбит/с и 2.58 при 1 кбит/с. Это продвижение в области кодеков речи открывает новые горизонты для совместного использования речи и текста в AI-системах.

Annotation:

Speech codecs serve as a crucial bridge in unifying speech and text language models. Existing codec methods face several challenges in semantic encoding, such as residual paralinguistic information (e.g., timbre, emotion), insufficient semantic completeness, limited reconstruction capability, and lack of support for streaming. To address these challenges, we propose SecoustiCodec, a cross-modal aligned low-bitrate streaming speech codec that disentangles semantic and paralinguistic information i...

ID: 2508.02849v1 eess.AS, cs.AI, cs.CL, cs.SD

arXiv PDF

Показано 1241 - 1250 из 1292 записей