📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience

2025-08-08

Авторы:

Zeyi Sun, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiaoyi Dong, Tong Wu, Dahua Lin, Jiaqi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время репурпозинг (переиспользование) больших моделей визуально-языкового типа (Large Vision-Language Models, LVLMs) в качестве компьютерных управляющих агентов (Computer Use Agents, CUAs) привел к значительным успехам, особенно благодаря использованию человеческих аннотаций. Однако эти модели сталкиваются с серьезными трудностями при работе с новыми и специализированными программными средами, где отсутствуют человеческие аннотации. Такие сценарии требуют более адаптивных и самообучающихся подходов, так как традиционные модели не могут эффективно масштабироваться на незнакомые задачи. Данная проблематика актуальна для области компьютерных агентов, которые должны быть в состоянии самостоятельно осваивать новые среды и приложения, не требуя постоянного человеческого вмешательства. Традиционные подходы, основанные на предварительной подготовке и ручном маркировании данных, ограничивают возможности агентов в динамических и нестандартных средах. Это вызывает потребность в разработке агентов, способных автоматически адаптироваться и эволюционировать через интерактивное обучение. Таким образом, целью данного исследования является создание фреймворка, позволяющего агентам не только функционировать в незнакомых средах, но и продолжать свое развитие и улучшение без необходимости ручного вмешательства. Такой подход может существенно расширить применимость CUAs в реальных условиях использования, где программное обеспечение часто меняется или новое. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанной проблемы, авторы предлагают SEAgent – фреймворк для автономного обучения и эволюции компьютерных управляющих агентов. Основная идея заключается в том, что агенту предоставляется возможность самостоятельно изучать новые программные среды через интерактивное обучение, основанное на экспериментальном опыте. SEAgent состоит из нескольких ключевых компонентов. Первым из них является **World State Model**, который оценивает шаговые траектории агента в процессе его взаимодействия с новой средой. Этот модуль позволяет агенту постепенно оценивать свои действия и корректировать свою политику действий на основе полученных результатов. Второй компонент – **Curriculum Generator**, который генерирует задания для агента с возрастающей сложностью. Это позволяет агенту начинать с простых задач, постепенно продвигаясь к более сложным, что обеспечивает более эффективное обучение. Третьим ключевым элементом является метод обучения **Group Relative Policy Optimization (GRPO)**, который используется для обновления политики агента на основе успешных действий. Дополнительно, агент обучается через **адверсарное имитационное обучение** (adversarial imitation), где он анализирует и избегает неудачных действий. Наконец, SEAgent использует стратегию обучения **specialist-to-generalist**, где специализированные агенты (specialist agents) объединяют свои знания для формирования более универсального (generalist) агента. Этот универсальный агент способен эволюционировать и адаптироваться к новым средам без необходимости дополнительных аннотаций. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели серию экспериментов в пяти различных новых программных средах в рамках симуляционной среды OS-World. Для сравнения, был использован конкурентный открытый фреймворк UI-TARS, который также предназначен для управления компьютерными средами. Результаты показали, что SEAgent достиг результата в 34.5% успешных выполнений задач, что значительно превосходит 11.3% успешности UI-TARS. Это представляет собой улучшение в 23.2%, что демонстрирует высокую эффективность подхода SEAgent при работе в незнакомых средах. Кроме того, SEAgent показал лучшие результаты по сравнению с энсемблом из специализированных агентов, что подтверждает преимущества его универсального подхода к обучению. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SEAgent имеет широкий спектр практических применений. Он может быть использован для создания компьютерных агентов, способных автоматически осваивать новые программные среды без необходимости предварительного ручного описания. Это может быть полезно в различных областях, таких как автоматизация рабочего места, управление компьютерными системами и автоматизация рутинных задач. Одним из ключевых преимуществ SEAgent является его способность адаптироваться к нестандартным и непредвиденным ситуациям, что делает его особенно полезным в динамических средах, где программное обеспечение может часто обновляться или изменяться. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, SEAgent представляет собой значительный шаг вперед в области компьютерных агентов, способных автоматически осваивать незнакомые программные среды. Данный фреймворк показал значительное улучшение по сравнению с существующими методами, особенно в сценариях, где человеческие аннотации отсутствуют. В будущем, авторы планируют расширить данный подход для работы в более сложных и реальных средах, а также исследовать возможности интеграции SEAgent с другими технологиями, такими как глубокое обучение и автоматическое планирование задач. Это может открыть новые возможности для создания более универсальных и адаптивных компьютерных агентов.

Annotation:

Repurposing large vision-language models (LVLMs) as computer use agents (CUAs) has led to substantial breakthroughs, primarily driven by human-labeled data. However, these models often struggle with novel and specialized software, particularly in scenarios lacking human annotations. To address this challenge, we propose SEAgent, an agentic self-evolving framework enabling CUAs to autonomously evolve through interactions with unfamiliar software. Specifically, SEAgent empowers computer-use agents...

ID: 2508.04700v1 cs.AI, cs.CL, cs.CV, cs.LG, cs.MA, cs.MM

arXiv PDF

📄 Exploring Layer-wise Information Effectiveness for Post-Training Quantization in Small Language Models

2025-08-06

Авторы:

He Xiao, Qingyao Yang, Dirui Xie, Wendong Xu, Wenyong Zhou, Haobo Liu, Zhengwu Liu, Ngai Wong

В статье рассматривается проблема эффективности информационного контента слоев в малых языковых моделях, где многие слои не несут значительного уникального вклада, но существенно влияют на память и энергопотребление во время вычислений. Для решения этой проблемы предлагается метод LieQ — метрический подход к пост-тренировочной квантизации, направленный на поддержание точности моделей менее 7 миллиардов параметров при крайне низкой битовой глубине. Метод основан на трех диагностических показателях: Perplexity Drop, Representational Compactness и Top-k Energy Gain, которые позволяют определить оптимальное распределение битовых ширин слоев без необходимости обновления градиентов. Эксперименты показывают, что LieQ достигает нового уровня сжатия-точности: для модели Qwen3-4B восстанавливается 95,9% производительности FP16 при 2,05-битной квантизации, превосходя GPTQ и AWQ на 19,7% и 18,1% соответственно. Для LLaMA3.2-3B достигается 98,2% точности при 2,07-битной квантизации, обеспечивая снижение потребления памяти в 4 раза. Эти результаты открывают новые возможности для развертывания малых языковых моделей на ресурсоограниченных устройствах.

Annotation:

Large language models with billions of parameters are often over-provisioned: many layers contribute little unique information yet dominate the memory and energy footprint during inference. We present LieQ, a metric-driven post-training quantization framework that addresses the critical challenge of maintaining accuracy in sub-7B models under extreme low-bit compression. Our method introduces three complementary layer-wise diagnostics-Perplexity Drop, Representational Compactness, and Top-k Ener...

ID: 2508.03332v1 cs.LG, cs.AI

arXiv PDF

📄 A Comparative Study of Neurosymbolic AI Approaches to Interpretable Logical Reasoning

2025-08-06

Авторы:

Michael K. Chen

Данная статья рассматривает проблему ограниченности текущих моделей глубокого обучения (LLMs) в области логического резонанса, особенно в контексте домен-агностических задач. Несмотря на недавний интерес к неуросимволическому AI, который интегрирует логические структуры в нейронные сети, многие модели не обладают достаточной интерпретируемостью и детерминированностью при решении задач логического вывода. Авторы определяют два основных подхода к этой проблеме: интегративный, где символический вывод встроен в нейронные сети, и гибридный, где символический вывод выполняется отдельным символическим решателем. Для сравнения этих подходов, авторы представляют две модели: Logic Neural Network (LNN) для интегративного подхода и LLM-Symbolic Solver (LLM-SS) для гибридного подхода. Исследование показывает, что гибридный подход является более перспективным для развития общего логического резонанса, благодаря более интерпретируемым логическим цепочкам и сохранению преимуществ существующих LLMs. Наконец, авторы предлагают общее, модульное и домен-агностическое фреймворк, основанное на LLM-SS, которое может быть использовано в будущих исследованиях.

Annotation:

General logical reasoning, defined as the ability to reason deductively on domain-agnostic tasks, continues to be a challenge for large language models (LLMs). Current LLMs fail to reason deterministically and are not interpretable. As such, there has been a recent surge in interest in neurosymbolic AI, which attempts to incorporate logic into neural networks. We first identify two main neurosymbolic approaches to improving logical reasoning: (i) the integrative approach comprising models where ...

ID: 2508.03366v1 cs.AI, cs.CL, cs.LG, cs.SC

arXiv PDF

📄 SCFlow: Implicitly Learning Style and Content Disentanglement with Flow Models

2025-08-06

Авторы:

Pingchuan Ma, Xiaopei Yang, Yusong Li, Ming Gui, Felix Krause, Johannes Schusterbauer, Björn Ommer

**Резюме:** SCFlow — это новое решение для неявного разделения стиля и содержания в визуальных моделях, которое избегает заморочки с явным разделением этих концептов. Обычно это сложно из-за их семантического перекрытия и субъективности человеческого восприятия. Существующие методы пытаются отделить стиль и содержание через генеративные или дискриминативные подходы, но сталкиваются с неоднозначностью этих задач. SCFlow использует подход flow-matching, чтобы обучить модель непосредственно слиянию стиля и содержания в обратимом процессе, позволяя разделение возникать естественным образом. Основные идеи заключаются в том, что: 1) обучение только на слияние этих концептов — это хорошо определенная задача; 2) flow-matching работает на произвольных распределениях, не ограничиваясь нормальными распределениями как в диффузионных моделях и нормализующих потоках; 3) синтетический датасет из 510 тысяч образцов (51 стиля × 10 тысяч содержаний) был создан для симуляции данного процесса. Кроме того, SCFlow демонстрирует хорошие результаты в задачах контролируемой генерации и нулевого шота на ImageNet-1k и WikiArt, показывая, что разделение содержания и стиля возникает естественным образом из обратимого процесса слияния.

Annotation:

Explicitly disentangling style and content in vision models remains challenging due to their semantic overlap and the subjectivity of human perception. Existing methods propose separation through generative or discriminative objectives, but they still face the inherent ambiguity of disentangling intertwined concepts. Instead, we ask: Can we bypass explicit disentanglement by learning to merge style and content invertibly, allowing separation to emerge naturally? We propose SCFlow, a flow-matchin...

ID: 2508.03402v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation

2025-08-06

Авторы:

Futian Wang, Yuhan Qiao, Xiao Wang, Fuling Wang, Yuxiang Zhang, Dengdi Sun

**Резюме:** Генерация медицинских отчётов на основе рентгеновских изображений является важной задачей в применении искусственного интеллекта в медицине. Однако существующие методы страдают от проблем, таких как генерация недостоверной информации (hallucination) и ограниченные способности к диагностике заболеваний. В этой работе авторы предлагают R2GenKG — иерархический многомодальный знаний граф (M3KG), построенный на основе данных медицинских отчётов с помощью GPT-4. Граф содержит 2477 сущностей, три типа отношений, 37 424 тройки и 6943 диагностически ориентированных визуальных токенов для датасета CheXpert Plus. Для извлечения визуальных признаков используется Swin-Transformer, который взаимодействует с графом через кросс-атенцию. Для генерации текста применяется большой языковой модель, которая отображает знания графа, визуальные признаки и диагностические токены в естественный язык. Результаты экспериментов на различных датасетах подтверждают высокую эффективность предложенного подхода в улучшении качества генерации отчётов и диагностики заболеваний.

Annotation:

X-ray medical report generation is one of the important applications of artificial intelligence in healthcare. With the support of large foundation models, the quality of medical report generation has significantly improved. However, challenges such as hallucination and weak disease diagnostic capability still persist. In this paper, we first construct a large-scale multi-modal medical knowledge graph (termed M3KG) based on the ground truth medical report using the GPT-4o. It contains 2477 entit...

ID: 2508.03426v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 BitsAI-Fix: LLM-Driven Approach for Automated Lint Error Resolution in Practice

2025-08-06

Авторы:

Yuanpeng Li, Qi Long, Zhiyuan Yao, Jian Xu, Lintao Xie, Xu He, Lu Geng, Xin Han, Yueyan Chen, Wenbo Duan

Увеличивающийся объём линтер-ошибок в корпоративных кодовых базах превысил возможности ручного исправления. Авторы предлагают BitsAI-Fix — автоматизированный пайплайн на базе LLM, который с помощью tree-sitter расширяет контекст, генерирует патчи в формате search-and-replace, перезапускает линтер и оставляет только прошедшие проверки изменения. Система обучается прогрессивным RL: на холодном старте формирует верифицируемые примеры, после развёртки собирает онлайн-фидбек по «code diff matching». Целевая функция сочетает корректность, минимальность изменений и правильность формата. В продакшене ByteDance решение обслуживает 5 000 инженеров, разрешило >12 000 ошибок с точностью 85 % и привлекает ~1 000 активных пользователей в неделю, демонстрируя жизнеспособность LLM-подхода для масштабного автоматического ремонта кода.

Annotation:

As enterprise codebases continue to grow in scale and complexity, the volume of lint errors far exceeds engineers' manual remediation capacity, leading to continuous accumulation of technical debt and hindered development efficiency. This paper presents BitsAI-Fix, an automated lint error remediation workflow based on Large Language Models (LLMs), designed to address this critical challenge in industrial-scale environments. BitsAI-Fix employs tree-sitter for context expansion and generates searc...

ID: 2508.03487v1 cs.SE, cs.AI, cs.LG

arXiv PDF

📄 MoKA: Mixture of Kronecker Adapters

2025-08-06

Авторы:

Mohammadreza Sadeghi, Mahsa Ghazvini Nejad, MirHamed Jafarzadeh Asl, Yu Gu, Yuanhao Yu, Masoud Asgharian, Vahid Partovi Nia

Методы параметрически-эффективной дообучения (PEFT) снижают затраты адаптации LLM, но низкоранговые адаптеры теряют точность из-за ограниченной выразительности. Авторы предлагают Mixture of Kronecker Adapters (MoKA) — новый тип Kronecker-адаптера, где обновления весов представлены как смесь продуктов Кронекера с вентильным механизмом, оценивающим значение каждого сомножителя. Переформулировав вычисления Кронекера через стандартные матричные операции, авторы добились аппаратной эффективности на GPU. Эксперименты на дообучении инструкций и здравомысленном рассуждении при помощи квантованных LLaMA2-7B и LLaMA3-8B показали, что MoKA превосходит все PEFT-базовые методы, уменьшая число обучаемых параметров до 27× и обеспечивая новое SOTA соотношение точность/эффективность.

Annotation:

Parameter-efficient fine-tuning (PEFT) is essential for reducing the computational overhead of large language models (LLMs). Low-rank family adapters are commonly used to control the parameter size efficiently while maintaining the generative power of LLMs. However, their limited expressiveness due to the rank constraint often restricts their performance on complex tasks. We propose Mixture of Kronecker Adapters (MoKA), a new generation of Kronecker adapters that addresses this limitation by mod...

ID: 2508.03527v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Supervised Dynamic Dimension Reduction with Deep Neural Network

2025-08-06

Авторы:

Zhanye Luo, Yuefeng Han, Xiufan Yu

Статья решает задачу прогнозирования многомерных временных рядов при очень большом количестве входов. Классические методы главных компонент не учитывают целевую переменную и теряют предиктивную информацию. Предложенный SDDP-фреймворк использует нейросеть, которая взвешивает исходные признаки пропорционально их полезности для прогноза; на полученных «таргет-ориентированных» данных затем применяется динамический PCA. Это делает латентные факторы одновременно компактными, интерпретируемыми и максимально предиктивными. Расширение на частично наблюдаемые признаки позволяет работать с реальными пропусками. На четырёх публичных наборах (макроэкономика, финансы, энергетика) SDDP существенно превосходит DR-методы и state-of-the-art модели по точности, а факторы легко интерпретируются экспертами.

Annotation:

This paper studies the problem of dimension reduction, tailored to improving time series forecasting with high-dimensional predictors. We propose a novel Supervised Deep Dynamic Principal component analysis (SDDP) framework that incorporates the target variable and lagged observations into the factor extraction process. Assisted by a temporal neural network, we construct target-aware predictors by scaling the original predictors in a supervised manner, with larger weights assigned to predictors ...

ID: 2508.03546v1 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 DeepFaith: A Domain-Free and Model-Agnostic Unified Framework for Highly Faithful Explanations

2025-08-06

Авторы:

Yuhan Guo, Lizhong Ding, Shihan Jia, Yanyu Ren, Pengqi Li, Jiarun Fu, Changsheng Li, Ye yuan, Guoren Wang

Существующие методы Explainable AI (XAI) измеряют faithfulness десятками разных метрик и не имеют единой «правильной» интерпретации, что затрудняет объективное сравнение и дальнейшие улучшения. Авторы предлагают DeepFaith — единую модель-агностичную рамку, которая теоретически выводит оптимальное объяснение, максимизирующеe faithfulness сразу по всем популярным метрикам. Обучение идёт на «супервайзере», собранном из лучших фрагментов существующих методов, и заканчивается одним forward-pass без доступа к целевой модели. На 12 задачах, 6 моделях и 6 датасетах DeepFaith показывает наивысшие средние значения по 10 фундаментальным метрикам, демонстрируя домен-независимую обобщаемость и практическую применимость.

Annotation:

Explainable AI (XAI) builds trust in complex systems through model attribution methods that reveal the decision rationale. However, due to the absence of a unified optimal explanation, existing XAI methods lack a ground truth for objective evaluation and optimization. To address this issue, we propose Deep architecture-based Faith explainer (DeepFaith), a domain-free and model-agnostic unified explanation framework under the lens of faithfulness. By establishing a unified formulation for multipl...

ID: 2508.03586v1 cs.LG, cs.AI

arXiv PDF

📄 Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

2025-08-06

Авторы:

Yong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автоматическое доказательство теорем является одним из ключевых направлений в области искусственного интеллекта и вычислительной логики. Эта область направлена на создание алгоритмов и моделей, способных автоматически доказывать математические утверждения, что может значительно ускорить процесс научных открытий и верификацию сложных систем. Однако, существующие методы зачастую сталкиваются с ограничениями в масштабируемости и сложности решаемых задач. Многие из них либо требуют значительных вычислительных ресурсов, либо не способны эффективно справляться с задачами повышенной сложности. Это создает необходимость в разработке новых подходов, которые могли бы обеспечить как высокую производительность, так и доступность для более широкого круга пользователей. Мотивация для создания Goedel-Prover-V2 заключается в преодолении этих ограничений через использование современных языковых моделей и инновационных методологий, таких как синтез данных и самокоррекция, которые позволяют улучшить обучение моделей и их способность решать сложные задачи. ## ПРЕДЛОЖЕННЫЙ МЕТОД Goedel-Prover-V2 представляет собой серию языковых моделей, разработанных для автоматического доказательства теорем. Основой предложенного метода является стандартный процесс итерации экспертов и обучения с подкреплением, в который интегрированы три ключевых инновации. Во-первых, это структурированный синтез данных, который позволяет генерировать синтетические задания с возрастающей сложностью. Это обучает модель постепенно осваивать все более сложные теоремы. Во-вторых, метод самокоррекции, управляемый верификатором, позволяет модели итеративно исправлять свои доказательства, используя обратную связь от компилятора Lean. В-третьих, усреднение моделей, которое объединяет контрольные точки модели, чтобы уменьшить снижение разнообразия выходных данных модели на поздних стадиях обучения. Эти инновации позволяют Goedel-Prover-V2 добиваться высоких результатов в доказательстве теорем, обеспечивая при этом эффективность и устойчивость модели. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Goedel-Prover-V2 были проведены эксперименты с использованием нескольких тестовых наборов данных. Малая модель Goedel-Prover-V2-8B достигла 84.6% по метрике pass@32 на наборе данных MiniF2F, превосходя DeepSeek-Prover-V2-671B, несмотря на то, что она в 80 раз меньше. Флагманская модель Goedel-Prover-V2-32B достигла 88.1% на MiniF2F при стандартном режиме и 90.4% в режиме самокоррекции, значительно превосходя предыдущее состояние искусства. Более того, она успешно решила 86 задач на PutnamBench при pass@184, заняв первое место среди открытых моделей, обогнав DeepSeek-Prover-V2-671B, который решил 47 задач при pass@1024. Эти результаты демонстрируют, что предложенная методология позволяет достигать высоких показателей производительности при меньших вычислительных затратах и размерах модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Goedel-Prover-V2 имеет широкий спектр потенциальных применений в различных областях, включая математику, компьютерные науки и инженерные дисциплины, где требуется автоматизация верификации и доказательства теорем. Одним из ключевых преимуществ является возможность использования более компактных и эффективных моделей, что расширяет доступность технологии для исследовательских групп с ограниченными ресурсами. Кроме того, инновации, заложенные в методологию Goedel-Prover-V2, могут быть адаптированы и для других задач, требующих автоматического синтеза и проверки сложных структур. Переход на модели открытого исходного кода также способствует более широкому распространению и адаптации технологии в научном сообществе, что может ускорить прогресс в области автоматического доказательства теорем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработка Goedel-Prover-V2 представляет собой значительный шаг вперед в области автоматического доказательства теорем. Основные достижения включают в себя создание компактных и эффективных моделей, превосходящих существующие аналоги, а также внедрение инновационных методологий, таких как структурированный синтез данных и самокоррекция. В будущем исследования могут быть направлены на дальнейшее улучшение способности моделей решать задачи повышенной сложности, а также на расширение возможностей применения данных методов в других областях науки и техники. Важно продолжать развивать открытые платформы и инструменты, которые могут способствовать более быстрому и широкому распространению передовых технологий в научных кругах.

Annotation:

We introduce Goedel-Prover-V2, a series of open-source language models that set a new state-of-the-art in automated theorem proving. Built on the standard expert iteration and reinforcement learning pipeline, our approach incorporates three key innovations: (1) Scaffolded data synthesis: We generate synthetic tasks of increasing difficulty to train the model to master increasingly complex theorems; (2) Verifier-guided self-correction: We enable the model to iteratively revise its proofs by lever...

ID: 2508.03613v1 cs.LG, cs.AI

arXiv PDF

1
2
1391
1392
1393
1394

Показано 13921 - 13930 из 13936 записей