📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Roberto Garrone

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This article extends the preprint "Characterizing Agent-Based Model Dynamics via $ε$-Machines and Kolmogorov-Style Complexity" by introducing diffusion models as orthogonal and complementary tools for characterizing the output of agent-based models (ABMs). Where $ε$-machines capture the predictive temporal structure and intrinsic computation of ABM-generated time series, diffusion models characterize high-dimensional cross-sectional distributions, learn underlying data manifolds, and enable synt...
ID: 2512.04771v1 cs.MA, cs.LG
Авторы:

Jiaguo Tian, Zhengbang Zhu, Shenyu Zhang, Li Xu, Bo Zheng, Xu Liu, Weiji Peng, Shizeng Yao, Weinan Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The generation of realistic and diverse traffic scenarios in simulation is essential for developing and evaluating autonomous driving systems. However, most simulation frameworks rely on rule-based or simplified models for scene generation, which lack the fidelity and diversity needed to represent real-world driving. While recent advances in generative modeling produce more realistic and context-aware traffic interactions, they often overlook how social preferences influence driving behavior. So...
ID: 2512.01363v1 cs.MA, cs.LG
Авторы:

Chenglu Sun, Shuo Shen, Haonan Hu, Wei Zhou, Chen Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Despite advancements in language-controlled reinforcement learning (LC-RL) for basic domains and straightforward commands (e.g., object manipulation and navigation), effectively extending LC-RL to comprehend and execute high-level or abstract instructions in complex, multi-agent environments, such as football games, remains a significant challenge. To address this gap, we introduce Language-Controlled Diverse Style Policies (LCDSP), a novel LC-RL paradigm specifically designed for complex scenar...
ID: 2511.19885v1 cs.MA, cs.LG
Авторы:

Tao Jiang, Zichuan Lin, Lihe Li, Yi-Chen Li, Cong Guan, Lei Yuan, Zongzhang Zhang, Yang Yu, Deheng Ye

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Large transformer models, trained on diverse datasets, have demonstrated impressive few-shot performance on previously unseen tasks without requiring parameter updates. This capability has also been explored in Reinforcement Learning (RL), where agents interact with the environment to retrieve context and maximize cumulative rewards, showcasing strong adaptability in complex settings. However, in cooperative Multi-Agent Reinforcement Learning (MARL), where agents must coordinate toward a shared ...
ID: 2511.10030v1 cs.MA, cs.LG
Авторы:

Federico Gabriele, Aldo Glielmo, Marco Taboga

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly...
ID: 2510.12272v1 cs.MA, cs.LG, econ.TH
Авторы:

Kevin Bradley Dsouza, Graham Alexander Watt, Yuri Leonenko, Juan Moreno-Cruz

## Контекст Коллективные действия, требующие выравнивания личных интересов со стратегическими целями на уровне группы, являются классическими примерами трудно структурированных проблем (Ill-Structured Problems, ISP). Участники таких проблем сталкиваются с непонятными связями между микро-уровневыми решениями и макро-уровневыми результатами. Многие локальные действия могут иметь неясные или неоднозначные эффекты на глобальные результаты. Дополнительно, конфликтующие интересы сторонников и отсутствие четкого алгоритма для связи микро-уровня с макро-уровневой удовлетворенностью делают такие задачи очень сложно решаемыми. Мы предлагаем ECHO-MIMIC, компьютерный фреймворк, который преобразует глобальную сложность в более управляемую задачу для каждого агента, находя выполнимые и эффективные микро-уровневые шаблоны поведения и сообщения, которые убеждают агентов принимать эти решения. ## Метод ECHO-MIMIC работает на двух уровнях: ECHO (Evolutionary Crafting of Heuristics from Outcomes) и MIMIC (Mechanism Inference & Messaging for Individual-to-Collective Alignment). ECHO использует эволюционный поиск для создания кратких фрагментов кода Python, описывающих поведенческие политики. Эти фрагменты предлагаются как возможные стратегии для сторонников. MIMIC, в свою очередь, использует эволюционный поиск для генерирования естественноязыковых сообщений, нацеленных на убеждение агентов активировать эти политики. Оба этапа работают в сотрудничестве с большим языковым моделью, которая предлагает разнообразные код и текст варианты, а затем отбирает те, которые дают наилучшие результаты в симуляционной среде. ## Результаты Мы проверили ECHO-MIMIC на задаче управления сельским ландшафтом, где локальные решения фермеров влияют на глобальную экологическую связь. Наши результаты показали, что ECHO-MIMIC выдает высокоэффективные шаблоны поведения и сообщения, которые успешно побуждают агентов совершать решения, выгодные для глобальной экосистемы. Против базовых алгоритмов, ECHO-MIMIC показал значительные улучшения в решении таких задач. ## Значимость ECHO-MIMIC может применяться в различных областях, где требуется выравнивание личных интересов с коллективными целями, таких как управление здоровьем, энергетика, и устойчивое развитие. Он предлагает новый подход к решению трудных задач, предоставляя простые, выполнимые решения для отдельных агентов и коммуникационные средства для вовлечения их в коллективную деятельность. ## Выводы ECHO-MIMIC значительно продвигает границы методов решения ISP, связывая алгоритмическое открытие правил с убедительной коммуникацией. Будущие иссле
Annotation:
Collective action problems, which require aligning individual incentives with collective goals, are classic examples of Ill-Structured Problems (ISPs). For an individual agent, the causal links between local actions and global outcomes are unclear, stakeholder objectives often conflict, and no single, clear algorithm can bridge micro-level choices with macro-level welfare. We present ECHO-MIMIC, a computational framework that converts this global complexity into a tractable, Well-Structured Prob...
ID: 2509.20412v1 cs.MA, cs.LG
Авторы:

Wei Duan, Jie Lu, Junyu Xuan

#### Контекст Сетевая многоагентная reinforcement learning (Networked-MARL) — это область исследований, где децентрализованные агенты должны принимать решения в условиях ограниченного доступа к информации и ограниченной коммуникации. Традиционные методы часто предполагают статические топические структуры, что затрудняет применение в динамических или нетипичных средах. Централизованные подходы, в свою очередь, могут учитывать изменения топологии, но требуют доступа к глобальному состоянию и системы управления, что негативно сказывается на скорости реакции и реалистичности решений. Мы предлагаем новый подход, основанный на стохастических графах и Bayesian inference, чтобы улучшить гибкость и эффективность работы в сетевых multi-agent системах. #### Метод Мы предлагаем BayesG — фреймворк, основанный на Bayesian variational inference для топологического управления в Networked-MARL. Каждый агент строит свой "ego-граф", опираясь на локальное состояние и связи в его физической окрестности. Для динамического регулирования информационного потока мы вводим latent communication mask, которая управляет процессом message passing. Эта маска обучается вместе с политикой агента с помощью ELBO-объектива, что позволяет агентам не только выучить их действия, но и локальную топологию взаимодействия. Фреймворк работает в децентрализованном режиме, чтобы обеспечить надежность и масштабируемость в реальных сетевых средах. #### Результаты Мы проверили BayesG на задачах управления трафиком с до 167 агентов. Использовались реалистичные данные, описывающие динамику сети. Наши эксперименты показали, что BayesG превосходит существующие методы, такие как MADDPG и MAAC, по метрикам скорости реакции и эффективности решений. Особое внимание уделено гибкости модели в адаптации к изменениям в топологии сети и эффективности в условиях ограниченного обмена информацией. #### Значимость Наш подход имеет широкие перспективы в применении, например, в системах смарт-гридов, сетевых системах реагирования на чрезвычайные ситуации и динамичных средах с нетипичными топологиями. Он предлагает высокую масштабируемость, эффективность и устойчивость к изменениям топологии. Эти преимущества открывают возможности для реализации Networked-MARL в реальном времени, что может улучшить производительность в задачах, требующих быстрого реагирования. #### Выводы Мы представили BayesG — новый фреймворк для Networked-MARL, основанный на Bayesian inference и стохастических графах. Наши результаты показали превосходство BayesG над существующими методами в задачах с большим количеством агентов. Мы считаем, что этот подход может стать ключевым для развития децентрализованных с
Annotation:
In networked multi-agent reinforcement learning (Networked-MARL), decentralized agents must act under local observability and constrained communication over fixed physical graphs. Existing methods often assume static neighborhoods, limiting adaptability to dynamic or heterogeneous environments. While centralized frameworks can learn dynamic graphs, their reliance on global state access and centralized infrastructure is impractical in real-world decentralized systems. We propose a stochastic grap...
ID: 2509.16606v1 cs.MA, cs.LG
Авторы:

Chuhao Qin, Evangelos Pournaras

#### Контекст В условиях развития цифровых экономик и технологий управления, таких как смарт-города и смарт-умные дома, растет необходимость в системах управления, которые могут адаптироваться к непредсказуемым изменениям, поддерживать эффективность и сохранять автономию отдельных агентов. Децентрализованная комбинаторная оптимизация в эволюционных многоагентных системах представляет собой высокомасштабируемую задачу, требующую баланса между долгосрочным стратегическим планированием и краткосрочными оптимизациями. Однако существующие решения, такие как распределенные алгоритмы или централизованные машинное обучение, имеют подходящие требования к сложности вычислений, обмену данными и защите конфиденциальности. Этот доклад фокусируется на создании инновационного подхода, который объединяет многоагентное ренфорсментное обучение (MARL) и децентрализованное самоорганизующееся обучение для решения этих проблем. #### Метод Разработанная методология, **Hierarchical Reinforcement and Collective Learning (HRCL)**, сочетает многоагентное ренфорсментное обучение (MARL) с децентрализованным самоорганизующимся обучением в рамках гибридного фреймворка. В верхнем уровне MARL-агенты строят высокоуровневые стратегии, группируя возможные планы действий в иерархическом пространстве, чтобы сократить активность в размерности и ограничить поведение агентов в рамках принципа Парето-оптимальности. В нижнем уровне децентрализованная самоорганизующаяся система обучения обеспечивает эффективное, минимально коммуникативное согласование между агентами. Этот дизайн позволяет решать комбинаторные задачи оптимизации с минимальным расходом ресурсов и максимальной адаптивностью к изменениям в среде. #### Результаты Исследования проводились на двух типах сценариев: 1) синтетическом конфигурации системы, 2) реальному моделированию умного города. В первом случае проверялись эффективность, скорость и стабильность алгоритма на масштабируемых сетях, во втором — реалистичность и применимость к реальным проблемам, в том числе в сфере управления энергией и дроновых силовых шунтов. Результаты показали, что HRCL превосходит стандартные методы MARL и децентрализованного обучения по критериям производительности, эффективности ресурсов и устойчивости к изменениям. #### Значимость Прототип HRCL может применяться в различных областях, например, в сетевом управлении, смарт-городах, военных системах и других ситуациях, где необходима эффективная децентрализованная система управления. Он обеспечивает высокую скорость реакции
Annotation:
Decentralized combinatorial optimization in evolving multi-agent systems poses significant challenges, requiring agents to balance long-term decision-making, short-term optimized collective outcomes, while preserving autonomy of interactive agents under unanticipated changes. Reinforcement learning offers a way to model sequential decision-making through dynamic programming to anticipate future environmental changes. However, applying multi-agent reinforcement learning (MARL) to decentralized co...
ID: 2509.18088v1 cs.MA, cs.LG
Авторы:

Tianyang Duan, Zongyuan Zhang, Songxiao Guo, Dong Huang, Yuanye Zhao, Zheng Lin, Zihan Fang, Dianxin Luan, Heming Cui, Yong Cui

## Контекст Многоагентное машинное обучение с учетом вознаграждения (MARL) широко применяется для решения задач интеллектуального управления в широком круге приложений, включая игры, робототехнику и динамические системы. Однако существуют значительные проблемы с координацией и масштабируемостью при увеличении числа агентов. Эти ограничения становятся более острыми в средах с большим количеством агентов, где оптимальное взаимодействие требует большого объема вычислительных ресурсов и сложности алгоритмического подхода. Для решения этих проблем предлагается фреймворк LEED, который использует технологии боLARGE LANGUAGE MODELS (LLM) для создания эффективных и эффективных процедур во взаимодействии между агентами в многоагентных системах. Такой подход должен позволить улучшить скорость и качество адаптации, увеличить устойчивость системы и уменьшить затраты на обучение. ## Метод Предлагаемый фреймворк LEED включает в себя два модуля: генерации демонстраций (DG) и оптимизации политик (PO). Модуль DG использует большие языковые модели для формирования инструкций для взаимодействия с окружением. Это позволяет генерировать высококачественные демонстрации, которые служат основой для обучения. Модуль PO, в свою очередь, применяет децентрализованный подход к обучению, где каждый агент использует генерируемые демонстрации для формирования его локальной политики. Для этого политика каждого агента оптимизируется с использованием глобальных инструкций, полученных в DG, и локальных ошибок, определенных на основе индивидуальных опытов. Этот два этапа процесс обучения позволяет агентам эффективно сочетать глобальное знание и индивидуальный опыт. ## Результаты Эксперименты проводились на параллельных вычислительных средах, включающих несколько MARL-систем с различным количеством агентов. Для сравнения использовались текущие стандартные методы многоагентного обучения. Результаты показали, что LEED превосходит другие методы по эффективности выбора, времени обучения и масштабируемости. Особое внимание уделялось крупномасштабным системам, где LEED продемонстрировал существенные улучшения в скорости и качестве взаимодействия между агентами. Эти результаты подтверждают, что фреймворк LEED значительно улучшает эффективность и устойчивость многоагентных систем, даже при большом количестве агентов. ## Значимость Фреймворк LEED может быть применен в различных областях, включая игровые системы, системы управления роботами, системы распределенного управления, а также в задачах связанных с координацией группы сетевых агентов. Он предлаг
Annotation:
Multi-agent reinforcement learning (MARL) holds substantial promise for intelligent decision-making in complex environments. However, it suffers from a coordination and scalability bottleneck as the number of agents increases. To address these issues, we propose the LLM-empowered expert demonstrations framework for multi-agent reinforcement learning (LEED). LEED consists of two components: a demonstration generation (DG) module and a policy optimization (PO) module. Specifically, the DG module l...
ID: 2509.14680v1 cs.MA, cs.LG
Авторы:

Tinglong Deng, Hang Tao, Xinxiang Wang, Yinyan Wang, Hanjiang Luo

#### Контекст Поддержка долгосрочных и надежных способов связи между плавающими под водой и поверхностью является ключевым заданием для поддержки успешных и безопасных подводных работ. Наиболее распространенными технологиями связи в подводных условиях являются акустические системы, но они имеют ограниченную пропускную способность и высокое расхождение. Из этой проблемы возникает необходимость развития более совершенных систем связи, которые могут обеспечить более высокую чувствительность и надежность. В этом контексте предлагается использовать технологии машинного обучения для улучшения эффективности и надежности систем связи под водой. #### Метод Предлагаемая модель "SafeDiver" основывается на методе многоагентного риечения учений (MARL). Для достижения цели координированных действий нескольких независимых агентов (в этом случае, нескольких автономных подводных роботов), мы разрабатываем методы, которые позволяют каждому агенту принимать решения в зависимости от своего локального окружения. Мы основываемся на технологии обмена данными между множеством малых роботов, которые создают сеть для передачи данных между подводными роботами и поверхности. Алгоритмы используют модель оптимального распределения ресурсов для обеспечения надежной передачи данных, минимизируя потери сигнала и повышая скорость передачи. #### Результаты Мы проводили эксперименты с использованием симулятора для моделирования подводных ситуаций и протестировали различные сценарии связи. Наши результаты показывают, что "SafeDiver" позволяет достичь заметного улучшения в скорости передачи и надежности связи в сравнении с существующими методами. Мы также проверили, как различные типы сетей могут влиять на эффективность обмена данными в различных условиях водного пространства. Наши результаты показали, что оптимальный выбор сетей может существенно повысить производительность системы. #### Значимость "SafeDiver" предлагает большой потенциал для применения в различных подводных задачах, таких как поиск и спасение, сдавливание и другие подводные работы, где уверенная и надежная связь является ключевым фактором. Эта модель также может быть использована для улучшения взаимодействия между подводными роботами и поверхностными системами в различных других областях, таких как системы поддержки решений в реальном времени, охрана природы и мониторинг окружающей среды. #### Выводы Мы доказали, что "SafeDiver" может стать мощным инструментом для улучшения связи под водой, обеспечивая более надежную и быструю связь между подводными роботами и поверхностию. В дальнейшем исследовании мы планируем расширить модель,
Annotation:
As underwater human activities are increasing, the demand for underwater communication service presents a significant challenge. Existing underwater diver communication methods face hurdles due to inherent disadvantages and complex underwater environments. To address this issue, we propose a scheme that utilizes maritime unmanned systems to assist divers with reliable and high-speed communication. Multiple AUVs are equipped with optical and acoustic multimodal communication devices as relay node...
ID: 2509.11508v1 cs.MA, cs.LG, cs.RO
Показано 1 - 10 из 14 записей