📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

2025-11-28

Авторы:

Hongjin Su, Shizhe Diao, Ximing Lu, Mingjie Liu, Jiacheng Xu, Xin Dong, Yonggan Fu, Peter Belcak, Hanrong Ye, Hongxu Yin, Yi Dong, Evelina Bakhturina, Tao Yu, Yejin Choi, Jan Kautz, Pavlo Molchanov

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models are powerful generalists, yet solving deep and complex problems such as those of the Humanity's Last Exam (HLE) remains both conceptually challenging and computationally expensive. We show that small orchestrators managing other models and a variety of tools can both push the upper bound of intelligence and improve efficiency in solving difficult agentic tasks. We introduce ToolOrchestra, a method for training small orchestrators that coordinate intelligent tools. ToolOrche...

ID: 2511.21689v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Unleashing Diverse Thinking Modes in LLMs through Multi-Agent Collaboration

2025-10-22

Авторы:

Zhixuan He, Yue Feng

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large Language Models (LLMs) demonstrate strong performance but often lack interpretable reasoning. This paper introduces the Multi-Agent Collaboration Framework for Diverse Thinking Modes (DiMo), which enhances both performance and interpretability by simulating a structured debate among four specialized LLM agents. Each agent embodies a distinct reasoning paradigm, allowing the framework to collaboratively explore diverse cognitive approaches. Through iterative debate, agents challenge and ref...

ID: 2510.16645v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Verification-Aware Planning for Multi-Agent Systems

2025-10-22

Авторы:

Tianyang Xu, Dan Zhang, Kushan Mitra, Estevam Hruschka

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language model (LLM) agents are increasingly deployed to tackle complex tasks, often necessitating collaboration among multiple specialized agents. However, multi-agent collaboration introduces new challenges in planning, coordination, and verification. Execution failures frequently arise not from flawed reasoning alone, but from subtle misalignments in task interpretation, output format, or inter-agent handoffs. To address these challenges, we present VeriMAP, a framework for multi-agent ...

ID: 2510.17109v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Executable Knowledge Graphs for Replicating AI Research

2025-10-22

Авторы:

Yujie Luo, Zhuoyun Yu, Xuehai Wang, Yuqi Zhu, Ningyu Zhang, Lanning Wei, Lun Du, Da Zheng, Huajun Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Replicating AI research is a crucial yet challenging task for large language model (LLM) agents. Existing approaches often struggle to generate executable code, primarily due to insufficient background knowledge and the limitations of retrieval-augmented generation (RAG) methods, which fail to capture latent technical details hidden in referenced papers. Furthermore, previous approaches tend to overlook valuable implementation-level code signals and lack structured knowledge representations that...

ID: 2510.17795v1 cs.CL, cs.AI, cs.LG, cs.MA, cs.SE

arXiv PDF

📄 Multi-Objective Reinforcement Learning for Large Language Model Optimization: Visionary Perspective

2025-09-30

Авторы:

Lingxiao Kong, Cong Yang, Oya Deniz Beyan, Zeyd Boukhers

## Контекст Оптимизация больших языковых моделей (LLMs) представляет собой сложную задачу, включающую в себя несколько целей, таких как точность, эффективность, экономичность и личная настройка. Существующие подходы часто ориентированы на одну задачу, но не подходят для удовлетворения множества целей одновременно. Многообъектная рейнфорсментное обучение (MORL) предлагает возможность оптимизировать несколько целей одновременно, но столкновение с техническими трудностями, такими как неопределенные взаимосвязи между целями, требует развития более эффективных и гибких решений. Мотивация заключается в устранении этих проблем и расширении возможностей MORL для LLMs. ## Метод MORL включает в себя несколько методологий, включая параллельное мульти-обучение и би-уровневые параметры, позволяющие модели учитывать несколько целей в процессе обучения. Архитектура MORL включает в себя сложную сеть, где каждая цель оценивается в зависимости от других целей, что дает более комплексное представление о взаимосвязях. Технические решения включают в себя адаптивные стратегии, которые позволяют модели учитывать отношения между целями и адаптироваться к изменяющимся обстоятельствам. Эти принципы применяются для обучения моделей, которые могут эффективно учитывать несколько целей во время работы. ## Результаты На основе MORL были проведены эксперименты, включающие использование различных целей, таких как точность, эффективность и личная настройка, для LLMs. Использовались различные данные, включая текстовые данные, для оценки различных стратегий MORL. Результаты показали, что стратегии MORL могут эффективно управлять отношениями между целями, предоставляя более точные и эффективные результаты. Также были выявлены отдельные значительные улучшения в производительности при использовании MORL по сравнению с одно-целевыми подходами. ## Значимость Полученные результаты могут быть применены в сферах, таких как личная настройка языковых моделей, эффективное использование ресурсов и улучшение качества ответов. Избавление от несогласованности в целях и повышение обобщающих возможностей моделей может привести к более широкому применению LLMs в различных областях. Это также открывает новые возможности для развития более универсальных моделей, которые могут быть ориентированы на различные пользователей и задачи. ## Выводы Результаты MORL показали, что этот подход эффективен для оптимизации нескольких целей в LLMs. Будущие исследования будут сфокусированы на развитии meta-policy MORL, чтобы улучшить ее эффективность и гиб

Annotation:

Multi-Objective Reinforcement Learning (MORL) presents significant challenges and opportunities for optimizing multiple objectives in Large Language Models (LLMs). We introduce a MORL taxonomy and examine the advantages and limitations of various MORL methods when applied to LLM optimization, identifying the need for efficient and flexible approaches that accommodate personalization functionality and inherent complexities in LLMs and RL. We propose a vision for a MORL benchmarking framework that...

ID: 2509.21613v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF

📄 Memp: Exploring Agent Procedural Memory

2025-08-12

Авторы:

Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

## Контекст Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке. ## Метод Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным. ## Результаты Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью. ## Значимость Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями. ## Выводы Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об

Annotation:

Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose Memp that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, R...

ID: 2508.06433v1 cs.CL, cs.AI, cs.LG, cs.MA

arXiv PDF