📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Fazel Arasteh, Arian Haghparast, Manos Papagelis
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Traffic congestion in urban road networks leads to longer trip times and
higher emissions, especially during peak periods. While the Shortest Path First
(SPF) algorithm is optimal for a single vehicle in a static network, it
performs poorly in dynamic, multi-vehicle settings, often worsening congestion
by routing all vehicles along identical paths. We address dynamic vehicle
routing through a multi-agent reinforcement learning (MARL) framework for
coordinated, network-aware fleet navigation. We ...
📄 Solving Continuous Mean Field Games: Deep Reinforcement Learning for Non-Stationary Dynamics
2025-10-29Авторы:
Lorenzo Magnino, Kai Shao, Zida Wu, Jiacheng Shen, Mathieu Laurière
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Mean field games (MFGs) have emerged as a powerful framework for modeling
interactions in large-scale multi-agent systems. Despite recent advancements in
reinforcement learning (RL) for MFGs, existing methods are typically limited to
finite spaces or stationary models, hindering their applicability to real-world
problems. This paper introduces a novel deep reinforcement learning (DRL)
algorithm specifically designed for non-stationary continuous MFGs. The
proposed approach builds upon a Fictitio...
Авторы:
Tom Maus, Asma Atamna, Tobias Glasmachers
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Autonomous control of multi-stage industrial processes requires both local
specialization and global coordination. Reinforcement learning (RL) offers a
promising approach, but its industrial adoption remains limited due to
challenges such as reward design, modularity, and action space management. Many
academic benchmarks differ markedly from industrial control problems, limiting
their transferability to real-world applications. This study introduces an
enhanced industry-inspired benchmark enviro...
Авторы:
Yujia Zheng, Zhuokai Zhao, Zijian Li, Yaqi Xie, Mingze Gao, Lizhu Zhang, Kun Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Natural language has long enabled human cooperation, but its lossy,
ambiguous, and indirect nature limits the potential of collective intelligence.
While machines are not subject to these constraints, most LLM-based multi-agent
systems still rely solely on natural language, exchanging tokens or their
embeddings. To go beyond language, we introduce a new paradigm, thought
communication, which enables agents to interact directly mind-to-mind, akin to
telepathy. To uncover these latent thoughts in ...
📄 Bayesian Decision Making around Experts
2025-10-11Авторы:
Daniel Jarne Ornia, Joel Dyer, Nicholas Bishop, Anisoara Calinescu, Michael Wooldridge
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Complex learning agents are increasingly deployed alongside existing experts,
such as human operators or previously trained agents. However, it remains
unclear how should learners optimally incorporate certain forms of expert data,
which may differ in structure from the learner's own action-outcome
experiences. We study this problem in the context of Bayesian multi-armed
bandits, considering: (i) offline settings, where the learner receives a
dataset of outcomes from the expert's optimal policy ...
Авторы:
Moein E. Samadi, Andreas Schuppert
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Foundation models have rapidly advanced AI, raising the question of whether
their decisions will ultimately surpass human strategies in real-world domains.
The exponential, and possibly super-exponential, pace of AI development makes
such analysis elusive. Nevertheless, many application areas that matter for
daily life and society show only modest gains so far; a prominent case is
diagnosing and treating dynamically evolving disease in intensive care.
The common challenge is adapting complex s...
Авторы:
Ege Cakar, Per Ola Kristensson
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Humans are black boxes -- we cannot observe their neural processes, yet
society functions by evaluating verifiable arguments. AI explainability should
follow this principle: stakeholders need verifiable reasoning chains, not
mechanistic transparency. We propose using structured argumentation to provide
a level of explanation and verification neither interpretability nor
LLM-generated explanation is able to offer. Our pipeline achieves
state-of-the-art 94.44 macro F1 on the AAEC published train/t...
Авторы:
Kehinde O. Aina, Sehoon Ha
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
We address the challenge of coordinating multiple robots in narrow and
confined environments, where congestion and interference often hinder
collective task performance. Drawing inspiration from insect colonies, which
achieve robust coordination through stigmergy -- modifying and interpreting
environmental traces -- we propose a Stigmergic Multi-Agent Deep Reinforcement
Learning (S-MADRL) framework that leverages virtual pheromones to model local
and social interactions, enabling decentralized e...
📄 In-Context Curiosity: Distilling Exploration for Decision-Pretrained Transformers on Bandit Tasks
2025-10-04Авторы:
Huitao Yang, Guanting Chen
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
As large language models (LLMs) continue to grow in capability, there is
increasing interest in incorporating them into decision-making tasks. A common
pipeline for this is Decision-Pretrained Transformers (DPTs). However, existing
training methods for DPTs often struggle to generalize beyond their pretraining
data distribution. To explore mitigation of this limitation, we propose
in-context curiosity -- a lightweight, exploration-inspired regularizer for
offline pretraining -- and introduce the...
Авторы:
Brennen Hill
## Контекст
Область исследования сосредоточена на развитии эмбеддированных систем и самообучающихся агентов, которые могут эффективно решать задачи в сложных, непредсказуемых средах. Одной из сложностей в этой области является ограниченность традиционных методов построения окружающих сред, которые часто имеют жестко заданные функциональности и не могут адаптироваться к возникающим сложностям. Таким образом, возникает потребность в адаптивных методах построения окружения, которые могут эволюционировать вместе с участвующими в них агентами. Мотивация заключается в создании самостоятельных, целеустремленных механизмов, которые могут создавать сложные, но управляемые среды для повышения уровня обучения агентов.
## Метод
Ядром работы лежит концепция **adversarial co-evolution**, при которой создается конкурентное взаимодействие между двумя агентами: **Attacker** и **Defender**. **Attacker** активно строит целевые мировые модели (например, конфигурации противников), нацеленные на эксплуатацию уязвимостей **Defender**. Наоборот, **Defender** учится совместно решать задачи в условиях, сформированных **Attacker**. Этот процесс включает в себя не только адаптацию **Attacker** к усилению **Defender**, но и генерацию сценариев, нацеленных на раскрытие новых стратегических подходов. Эта система генерирует эволюционный круг, где каждый агент постоянно стимулирует другого к более высоким требованиям. Архитектура включает генеративные модели, которые могут учитывать цель и добывать целевые состояния в среде.
## Результаты
Эксперименты проводились в симуляционной среде с несколькими агентами, где **Attacker** стремился к усложнению задач для **Defender**. Результаты показали, что **Attacker** способен обучиться генерировать сложные стратегические формации, например, фланговые и щитовые, при этом **Defender** развивал сложные стратегии, такие как координированный фокусный огонь и распределение для обезвреживания угроз. Эти результаты демонстрируют то, как адаптивная среда может привести к возникновению более сложных стратегий и повышению уровня хаоса в среде. Эти эффекты были измерены с помощью метрик, оценивающих сложность и разнообразие ситуаций.
## Значимость
Результаты имеют значительное применение в области обучения машин, автоматизированной игровой генерации и науке о данных. Этот подход может быть применен в симуляционных средах для обучения агентов в сложных сценариях, например, в области систем безопасности или военных задач. Он обеспечивает не только более сложную среду, но и поддерживает устойчивость и вариативность. Одним из выгодных аспектов
Annotation:
World models that infer and predict environmental dynamics are foundational
to embodied intelligence. However, their potential is often limited by the
finite complexity and implicit biases of hand-crafted training environments. To
develop truly generalizable and robust agents, we need environments that scale
in complexity alongside the agents learning within them. In this work, we
reframe the challenge of environment generation as the problem of learning a
goal-conditioned, generative world mode...
Показано 11 -
20
из 26 записей