📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Fazel Arasteh, Arian Haghparast, Manos Papagelis

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Traffic congestion in urban road networks leads to longer trip times and higher emissions, especially during peak periods. While the Shortest Path First (SPF) algorithm is optimal for a single vehicle in a static network, it performs poorly in dynamic, multi-vehicle settings, often worsening congestion by routing all vehicles along identical paths. We address dynamic vehicle routing through a multi-agent reinforcement learning (MARL) framework for coordinated, network-aware fleet navigation. We ...
ID: 2510.26089v1 cs.LG, cs.AI, cs.MA
Авторы:

Lorenzo Magnino, Kai Shao, Zida Wu, Jiacheng Shen, Mathieu Laurière

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Mean field games (MFGs) have emerged as a powerful framework for modeling interactions in large-scale multi-agent systems. Despite recent advancements in reinforcement learning (RL) for MFGs, existing methods are typically limited to finite spaces or stationary models, hindering their applicability to real-world problems. This paper introduces a novel deep reinforcement learning (DRL) algorithm specifically designed for non-stationary continuous MFGs. The proposed approach builds upon a Fictitio...
ID: 2510.22158v1 cs.LG, cs.AI, cs.MA, math.OC
Авторы:

Tom Maus, Asma Atamna, Tobias Glasmachers

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Autonomous control of multi-stage industrial processes requires both local specialization and global coordination. Reinforcement learning (RL) offers a promising approach, but its industrial adoption remains limited due to challenges such as reward design, modularity, and action space management. Many academic benchmarks differ markedly from industrial control problems, limiting their transferability to real-world applications. This study introduces an enhanced industry-inspired benchmark enviro...
ID: 2510.20408v1 cs.LG, cs.AI, cs.MA, cs.SY, eess.SY
Авторы:

Yujia Zheng, Zhuokai Zhao, Zijian Li, Yaqi Xie, Mingze Gao, Lizhu Zhang, Kun Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Natural language has long enabled human cooperation, but its lossy, ambiguous, and indirect nature limits the potential of collective intelligence. While machines are not subject to these constraints, most LLM-based multi-agent systems still rely solely on natural language, exchanging tokens or their embeddings. To go beyond language, we introduce a new paradigm, thought communication, which enables agents to interact directly mind-to-mind, akin to telepathy. To uncover these latent thoughts in ...
ID: 2510.20733v1 cs.LG, cs.AI, cs.MA
Авторы:

Daniel Jarne Ornia, Joel Dyer, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Complex learning agents are increasingly deployed alongside existing experts, such as human operators or previously trained agents. However, it remains unclear how should learners optimally incorporate certain forms of expert data, which may differ in structure from the learner's own action-outcome experiences. We study this problem in the context of Bayesian multi-armed bandits, considering: (i) offline settings, where the learner receives a dataset of outcomes from the expert's optimal policy ...
ID: 2510.08113v1 cs.LG, cs.AI, cs.MA
Авторы:

Moein E. Samadi, Andreas Schuppert

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Foundation models have rapidly advanced AI, raising the question of whether their decisions will ultimately surpass human strategies in real-world domains. The exponential, and possibly super-exponential, pace of AI development makes such analysis elusive. Nevertheless, many application areas that matter for daily life and society show only modest gains so far; a prominent case is diagnosing and treating dynamically evolving disease in intensive care. The common challenge is adapting complex s...
ID: 2510.06349v1 cs.LG, cs.AI, cs.MA
Авторы:

Ege Cakar, Per Ola Kristensson

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Humans are black boxes -- we cannot observe their neural processes, yet society functions by evaluating verifiable arguments. AI explainability should follow this principle: stakeholders need verifiable reasoning chains, not mechanistic transparency. We propose using structured argumentation to provide a level of explanation and verification neither interpretability nor LLM-generated explanation is able to offer. Our pipeline achieves state-of-the-art 94.44 macro F1 on the AAEC published train/t...
ID: 2510.03442v1 cs.LG, cs.AI, cs.MA
Авторы:

Kehinde O. Aina, Sehoon Ha

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We address the challenge of coordinating multiple robots in narrow and confined environments, where congestion and interference often hinder collective task performance. Drawing inspiration from insect colonies, which achieve robust coordination through stigmergy -- modifying and interpreting environmental traces -- we propose a Stigmergic Multi-Agent Deep Reinforcement Learning (S-MADRL) framework that leverages virtual pheromones to model local and social interactions, enabling decentralized e...
ID: 2510.03592v1 cs.LG, cs.AI, cs.MA, cs.RO
Авторы:

Huitao Yang, Guanting Chen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As large language models (LLMs) continue to grow in capability, there is increasing interest in incorporating them into decision-making tasks. A common pipeline for this is Decision-Pretrained Transformers (DPTs). However, existing training methods for DPTs often struggle to generalize beyond their pretraining data distribution. To explore mitigation of this limitation, we propose in-context curiosity -- a lightweight, exploration-inspired regularizer for offline pretraining -- and introduce the...
ID: 2510.00347v1 cs.LG, cs.AI, cs.MA
Авторы:

Brennen Hill

## Контекст Область исследования сосредоточена на развитии эмбеддированных систем и самообучающихся агентов, которые могут эффективно решать задачи в сложных, непредсказуемых средах. Одной из сложностей в этой области является ограниченность традиционных методов построения окружающих сред, которые часто имеют жестко заданные функциональности и не могут адаптироваться к возникающим сложностям. Таким образом, возникает потребность в адаптивных методах построения окружения, которые могут эволюционировать вместе с участвующими в них агентами. Мотивация заключается в создании самостоятельных, целеустремленных механизмов, которые могут создавать сложные, но управляемые среды для повышения уровня обучения агентов. ## Метод Ядром работы лежит концепция **adversarial co-evolution**, при которой создается конкурентное взаимодействие между двумя агентами: **Attacker** и **Defender**. **Attacker** активно строит целевые мировые модели (например, конфигурации противников), нацеленные на эксплуатацию уязвимостей **Defender**. Наоборот, **Defender** учится совместно решать задачи в условиях, сформированных **Attacker**. Этот процесс включает в себя не только адаптацию **Attacker** к усилению **Defender**, но и генерацию сценариев, нацеленных на раскрытие новых стратегических подходов. Эта система генерирует эволюционный круг, где каждый агент постоянно стимулирует другого к более высоким требованиям. Архитектура включает генеративные модели, которые могут учитывать цель и добывать целевые состояния в среде. ## Результаты Эксперименты проводились в симуляционной среде с несколькими агентами, где **Attacker** стремился к усложнению задач для **Defender**. Результаты показали, что **Attacker** способен обучиться генерировать сложные стратегические формации, например, фланговые и щитовые, при этом **Defender** развивал сложные стратегии, такие как координированный фокусный огонь и распределение для обезвреживания угроз. Эти результаты демонстрируют то, как адаптивная среда может привести к возникновению более сложных стратегий и повышению уровня хаоса в среде. Эти эффекты были измерены с помощью метрик, оценивающих сложность и разнообразие ситуаций. ## Значимость Результаты имеют значительное применение в области обучения машин, автоматизированной игровой генерации и науке о данных. Этот подход может быть применен в симуляционных средах для обучения агентов в сложных сценариях, например, в области систем безопасности или военных задач. Он обеспечивает не только более сложную среду, но и поддерживает устойчивость и вариативность. Одним из выгодных аспектов
Annotation:
World models that infer and predict environmental dynamics are foundational to embodied intelligence. However, their potential is often limited by the finite complexity and implicit biases of hand-crafted training environments. To develop truly generalizable and robust agents, we need environments that scale in complexity alongside the agents learning within them. In this work, we reframe the challenge of environment generation as the problem of learning a goal-conditioned, generative world mode...
ID: 2509.03771v1 cs.LG, cs.AI, cs.MA, 68T05, 91A26, 90C40, I.2.6; I.2.11
Показано 11 - 20 из 26 записей