📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Chiu-Chou Lin

## Контекст Игровой процесс в видеоиграх широко изучается как механизм закрепления теорий интеллекта и интеллектуальных способностей. Однако многие аспекты игрового процесса, такие как стиль игры, часто остаются за пределами формальных моделей. Это отклонение от логического рассуждения в пользу разнообразия индивидуальных стилей игры подчеркивает необходимость в расширении подходов к изучению интеллектуальных систем. Мотивацией для этого исследования является создание более широкого понимания того, как разные стили игры влияют на поведение и решения игроков, а также на способность искусственного интеллекта (ИИ) распознавать и реагировать на эти стили. ## Метод Для изучения стилей игры предлагается формализовать понятие "плейстайл", используя метрики, основанные на дискретизированных пространствах состояний. Это позволяет измерить разнообразие стратегий и конкурентные балансы. Базовая модель построена на двух уровнях: внешнем интеракционном цикле с окружением и внутреннем когнитивном цикле размышления. Решения в этой модели базируются на теории решений с неопределенностью и включают алгоритмы reinforcement learning и imitation learning. Эти методы используются для тренировки агентов, которые могут выражать стилистические тенденции и реагировать на подобные тенденции у других игроков. ## Результаты Исследование проводилось на основе данных с различных игр, включая онлайн-шутеры и стратегии. Агенты были тренированы для выражения стилей игры, таких как агрессивность, защитность и разнообразие. Результаты показали, что использование reinforcement learning и imitation learning позволяет получить агентов, которые не только выигрывают, но и подстраиваются под стили других игроков, что увеличивает разнообразие и увлекательность игры. Также были разработаны метрики, позволяющие измерить разнообразие стилей игры и конкурентные балансы в разных ситуациях. ## Значимость Результаты имеют широкое применение в игровой индустрии, в частности в разработке игр с разнообразными стилями игры, что может привести к более интересным и захватывающим опытам для игроков. Это также может повысить уровень интеллектуальных систем, позволяя им более точно распознавать и реагировать на стили игры. Дальнейший потенциал исследований заключается в расширении модели на область artificial general intelligence (AGI), где стиль может стать ключевым элементом для улучшения реакции интеллектуальных систем на разнообразие ситуаций. ## Выводы В данном исследовании было формализовано понятие "плейстайл" и разработан метод его измерения, основанный на дискретизированных пространствах состояний. Были предложены метрики, такие ка
Annotation:
Contemporary artificial intelligence (AI) development largely centers on rational decision-making, valued for its measurability and suitability for objective evaluation. Yet in real-world contexts, an intelligent agent's decisions are shaped not only by logic but also by deeper influences such as beliefs, values, and preferences. The diversity of human decision-making styles emerges from these differences, highlighting that "style" is an essential but often overlooked dimension of intelligence. ...
ID: 2508.19152v1 cs.AI, cs.LG, cs.MA, cs.SC
Авторы:

Artem Pshenitsyn, Aleksandr Panov, Alexey Skrynnik

## Контекст Многоагентное управление (Multi-Agent Reinforcement Learning, MARL) широко применяется в решении задач кооперативного и конкурентного решения задач, включая планирование маршрутов, управление роботами и игровые решения. Однако существующие MARL-benchmarks, как rule-based, так и learning-based, часто ограничиваются средами с дискретными состояниями и действиями, что не позволяет эффективно имитировать реальные комплексные ситуации. Кроме того, нет готовых средств для тестирования алгоритмов на сложных задачах планирования путей в пространствах действий, где действия непрерывны. Наша мотивация заключается в развитии продвинутого MARL-benchmark для решения таких задач, обеспечивающий высокую эффективность, реалистичность и возможность интеграции классических методов планирования. ## Метод Концепция CAMAR (Continuous Actions Multi-Agent Routing) основывается на создании среды с динамическими, непрерывными состояниями и действиями, представляющих собой пространство маршрутов в пространстве. Мы внедрили несколько уровней сложности и возможности интеграции методов типа RRT и RRT* в MARL-процесс. Архитектура CAMAR поддерживает эффективную синхронизацию множества агентов в реальном времени и позволяет управлять ими в рамках разных сценариев, включая кооперативные и конкурентные. Метод реализован на основе опен-сурс-фреймворков MARL и интегрирован с наиболее распространенными методами планирования путей. ## Результаты Мы провели эксперименты на множестве сценариев с различными уровнями сложности, включая ситуации с несколькими кооперативными агентами и конкурентными сценариями с целью оптимального маршрутизации. Использовались такие данные, как сетки, представляющие физические пространства, и симуляторы для эмуляции действий агентов. Результаты показали, что CAMAR эффективно поддерживает большие масштабы и позволяет проводить эксперименты на уровне 100,000 environment steps per second, что значительно превышает достижения существующих методов. Также мы продемонстрировали, как интеграция RRT* с MARL-алгоритмами позволяет повысить точность планирования. ## Значимость CAMAR представляет собой реалистичный и производительный MARL-benchmark, который может применяться в различных областях, включая робототехнику, игровые решения и системы координации в реальном времени. Он обеспечивает глубокий анализ ролей непрерывных действий в многоагентных системах и позволяет сравнивать различные алгоритмы на одной платформе. Мы считаем, что CAMAR может стать ключевым инструментом для развития новых методов и вкладываться в райд между разработчиками MARL-систем. ## Выводы CAMAR — это первый MARL-benchmark, который сочетает не
Annotation:
Multi-agent reinforcement learning (MARL) is a powerful paradigm for solving cooperative and competitive decision-making problems. While many MARL benchmarks have been proposed, few combine continuous state and action spaces with challenging coordination and planning tasks. We introduce CAMAR, a new MARL benchmark designed explicitly for multi-agent pathfinding in environments with continuous actions. CAMAR supports cooperative and competitive interactions between agents and runs efficiently at ...
ID: 2508.12845v1 cs.AI, cs.LG, cs.MA
Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Andreas Bulling

## Контекст The Yokai Learning Environment (YLE) — это инновационная многоагентная среда на основе игры Yokai, которая расширяет теорию Теории Ума (ToM). ToM является ключевым компонентом развития коллаборативного Искусственного Интеллекта (AI), поскольку оно включает в себя моделирование и реагирование на убеждения других участников для обеспечения общего понимания. Однако существующие методы Теории Ума имеют ограничения — они ограничиваются ситуациями, в которых агенты просто наблюдают действия других, или не учитывают процессы установления и поддержания общей значимости в течение длительного времени. Объектом изучения в работе является развитие методов, позволяющих агентам эффективно устанавливать и поддерживать общее понимание в ходе динамических многоагентных ситуаций. ## Метод YLE — это кооперативная игра, в которой участники должны объединять карты в кластеры по цвету. Игра представляет собой окружение с многоагентным реинфорсментным обучением (Multi-Agent Reinforcement Learning, MARL), где агенты должны отслеживать эволюцию убеждений, запоминать предыдущие наблюдения и использовать подсказки как канал выражения целей. Одним из основных аспектов геймплея является то, что агенты должны следить за эволюцией скрытых ситуаций на доске и интерпретировать подсказки других игроков. Эта среда является вызовом для теории ТоМ, поскольку агенты должны совместно строить контекст в ходе развивающихся игр. Основные элементы методологии включают: агентские модели, ориентированные на моделирование убеждений, а также анализ их эффективности в условиях развивающихся и непредсказуемых условий. ## Результаты В ходе экспериментов были проанализированы поведения агентов в различных условиях. Несмотря на то, что агенты имели доступ к идеальной памяти, они столкнулись с трудностями в решении сложных задач в YLE. Было замечено, что моделирование убеждений увеличивало эффективность, но не решало проблемы поддержания взаимопонимания в ходе длительных игр. Агенты часто полагались на локальные конвенции вместо устойчивого моделирования убеждений. Эти результаты подтверждают, что существующие методы ТоМ не достаточно сильны для решения более сложных задач, которые требуют более высокого уровня общего понимания. ## Значимость YLE открывает новые возможности для исследований в области Теории Ума, в том числе моделирования убеждений, моделирования памяти и поддержки общего понимания в динамических многоагентных ситуациях. Он может быть применен в разработке новых методов для создания AI, способных эффективно командовать и кооператив
Annotation:
Developing collaborative AI hinges on Theory of Mind (ToM) - the ability to reason about the beliefs of others to build and maintain common ground. Existing ToM benchmarks, however, are restricted to passive observer settings or lack an assessment of how agents establish and maintain common ground over time. To address these gaps, we introduce the Yokai Learning Environment (YLE) - a multi-agent reinforcement learning (RL) environment based on the cooperative card game Yokai. In the YLE, agents ...
ID: 2508.12480v1 cs.AI, cs.LG, cs.MA
Авторы:

Runnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

## Контекст Large Language Models (LLMs) становятся все более успешными в решении разнообразных задач, но их процедурная память часто оказывается недостаточно устойчивой и гибкой. Эта проблема наблюдается при мануальном программировании памяти или при ее интеграции с статическими параметрами. В настоящей работе рассматривается задача обеспечения агентов с выработкой процедурной памяти, которая была бы изучаемой, обновляемой и жизненно длительной. Такие подходы могут увеличить эффективность агентов и позволить им работать в нестандартных ситуациях, не подразумеваемых при их разработке. ## Метод Методология, предлагаемая в работе, основывается на создании механизмов для построения, восстановления и обновления процедурной памяти. Агенту предлагается два уровня абстракции: пошаговые инструкции и скрипт-ориентированные абстракции. Для этого используется нейронная сеть, которая проанализировала большой объем данных, чтобы сформировать эти уровни абстракции. Изучены различные стратегии для построения, поиска и обновления памяти, которые позволяют агенту взаимодействовать с процедурным знанием в процессе работы. Динамическая система обновления позволяет максимально адаптировать память к новым опытным данным. ## Результаты Для оценки эффективности предложенного подхода проведены эксперименты на двух наборах данных: TravelPlanner и ALFWorld. Эти эксперименты показали, что агенты с динамической процедурной памятью показали высокую эффективность в решении задач, а также существенно улучшили свои результаты в сравнении с базовыми моделями. Также показано, что модели с более сильными предварительно обученными моделями могут быть эффективно использованы для повышения производительности более слабых моделей, если эти модели работают с общей процедурной памятью. ## Значимость Результаты этой работы могут быть применены в различных областях, таких как разработка систем-агентов для управления процессами, диалоговые системы, интеллектуальные системы поддержки решения задач и др. Этот подход увеличивает гибкость, эффективность и устойчивость агентов к изменениям в задачах и условиях работы. Также, он открывает новые возможности для развития методов обучения с подкреплением и динамического управления знаниями. ## Выводы Работа представляет собой значительный шаг в направлении создания устойчивой, обновляемой процедурной памяти для агентов, основанных на LLMs. Она показывает, что подход Memp может быть эффективно использован для улучшения результатов в различных задачах. В будущем могут быть проведены дополнительные исследования для идентификации новых стратегий построения и об
Annotation:
Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose Memp that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, R...
ID: 2508.06433v1 cs.CL, cs.AI, cs.LG, cs.MA
Показано 31 - 34 из 34 записей