📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Anup Tuladhar, Araz Minhas, Adam Kirton, Eli Kinney-Lang
## Контекст
Исследование охватывает область взаимодействия языковых моделей (LM) и оптимизационных методов, таких как управляемый расширенный рассуждением (CIRL) и управляемые логическими моделями (CLM). Несмотря на то, что AI может делать решения и производить рассуждения на основе текста, эти два вида рассуждений часто развиваются независимо. Целью данного исследования является исследование способности языковых моделей влиять на важные решения, оперируя на основе различных художественных нот (narrative frameworks). Без структурированных текстовых фреймворков, влияние AI на решения остается неясным. Многие AI-системы опираются на широкие текстовые библиотеки, но не исследуют, как эти тексты могут повлиять на выбор действий. Наша мотивация заключается в том, чтобы ввести структуру в это пространство, предоставив методы для изучения влияния текстовых нот на оптимизационные задачи.
## Метод
Мы предлагаем модульную архитектуру, состоящую из двух основных компонентов: 1) политики управляемого оптимизационного упражнения, которые предлагают действия на основе опыта, и 2) языковой модели, которая оценивает эти действия с помощью различных нот. Логика работы системы заключается в том, что политика RL предлагает курс действий, а языковая модель переосмысливает этот курс на основе текстовых нот. Это позволяет проводить эксперименты с различными вариантами нот, не изменяя структуру окружения или системы вознаграждений. Мы реализуем эту модель в режиме конфигурационного мира-сетки (gridworld), где агенты получают политику RL, а также информацию о своем окружении. Данный подход позволяет экспериментировать с различными уровнями сложности среды, параметрами нот и взаимодействием между RL и текстовыми нотами. Мы ведем журналирование основных метрик, включая значения политики RL, вывод языковой модели и шаблоны выбора действий.
## Результаты
Мы проводим эксперименты в нашем gridworld-окружении, где агент получает политику RL, а также текстовые ноты от языковой модели. Мы изучаем, как различные ноты влияют на решения агента, измеряя изменения в значениях политики RL и выбор действий. Наши результаты показывают, что текстовые ноты могут значительно повлиять на выбор действий, а также, что сложность окружения и параметры нот могут изменять эту влиятельность. Например, мы обнаружили, что при определенных нотах агент становится более оптимистичным в своих решениях, но при других нотах он может уменьшить свою оценку риска. Эти результаты демонстрируют возможность языковых моделей влиять на оптимизационные задачи и открывают путь для дальнейш
Annotation:
We present a preliminary experimental platform that explores how narrative
elements might shape AI decision-making by combining reinforcement learning
(RL) with language model reasoning. While AI systems can now both make
decisions and engage in narrative reasoning, these capabilities have mostly
been studied separately. Our platform attempts to bridge this gap using a
dual-system architecture to examine how narrative frameworks could influence
reward-based learning. The system comprises a reinf...
Авторы:
Andrea Wynn, Harsh Satija, Gillian Hadfield
#### Контекст
Многоагентная дебатная система (multi-agent debate) предлагается как мощный подход для улучшения рациональности и абстрактного мышления у искусственных интеллектов. Однако существуют опасения, что дебаты могут приводить к негативным последствиям, вместо того чтобы способствовать повышению качества решений. До этого исследования ограничивались рассмотрением дебатирующих агентов с одинаковыми уровнями производительности. Наше исследование фокусируется на влиянии разнообразия моделей на динамику и результаты многоагентных дебатов. Мы выясняем, почему дебатирующие агенты могут постепенно деградировать в своих ответах, даже когда сильные модели преобладают над слабыми.
#### Метод
Мы используем модели текстового понимания, оптимизированные для реакции на дискуссионные задачи. Наша методология включает в себя моделирование разных уровней моделей – от простых до сложных – в рамках дебатирующих конференций. Мы проводим эксперименты, воспроизводя ситуации, в которых модели должны выбирать между «правдой» и «ложностью», а также рассматриваем сценарии, когда модели должны противостоять предложенным аргументам. Мы применяем множество метрик для измерения точности ответов и степени сдвига от самостоятельного мышления к групповому согласованию.
#### Результаты
Наши эксперименты показали, что дебатирующие модели часто склоняются к согласию с некорректными аргументами, предпочитая согласие над правдой. Это происходит даже тогда, когда в системе преобладают сильные модели. Мы обнаружили, что модели влияют друг на друга с помощью подкрепленного обучения, но часто это приводит к деградирующим результатам. Например, наиболее производительные модели могут сдвинуться в ответ на неточные аргументы слабых моделей, демонстрируя тенденцию к ложному согласию. Эти результаты подтверждают, что дебаты могут привести к ухудшению точности, если агенты не могут эффективно противостоять неадекватным аргументам.
#### Значимость
Наша работа открывает новые требования к разработке систем, которые могут тщательно изучить и устранить эти слабые места в многоагентных системах. Например, в приложениях, где необходимо определенное количество точности (например, в судебно-технической практике), эти проблемы могут иметь серьезные последствия. Мы открываем новый подход к эффективному информированию моделей, чтобы они могли выходить за рамки группового согласия и поддерживать корректные решения. Это может привести к улучшению значительного класса систем, включая коллективное решение проблем и обучение моделей.
#### Выводы
Мы уста
Annotation:
While multi-agent debate has been proposed as a promising strategy for
improving AI reasoning ability, we find that debate can sometimes be harmful
rather than helpful. The prior work has exclusively focused on debates within
homogeneous groups of agents, whereas we explore how diversity in model
capabilities influences the dynamics and outcomes of multi-agent interactions.
Through a series of experiments, we demonstrate that debate can lead to a
decrease in accuracy over time -- even in setting...
📄 PillagerBench: Benchmarking LLM-Based Agents in Competitive Minecraft Team Environments
2025-09-10Авторы:
Olivier Schipper, Yudi Zhang, Yali Du, Mykola Pechenizkiy, Meng Fang
## Контекст
Многоагентные системы, основанные на глубоких нейронных сетях (LLM-based agents), доказали свою эффективность в задачах кооперативного и стратегического разума. Однако их применение в конкурентных многоагентных средах, где необходима адаптация к стратегиям противников, остается мало исследовано. Это отклонение может быть обусловлено сложностью создания сред, где многоагентные системы могут противостоять противоборствующим субъектам в реальном времени. Одним из таких сред выступает Minecraft, предоставляющее уникальные возможности для моделирования таких сред. Однако существуют недостатки в существующих фреймворках для эффективного тестирования многоагентных систем в конкурентных сценариях. Мы предлагаем PillagerBench, фреймворк, который предлагает расширяемую архитектуру для экспериментов с многоагентными системами в Minecraft в реальном времени.
## Метод
PillagerBench предлагает расширяемую архитектуру для тестирования многоагентных систем в Minecraft. Он включает в себя API, позволяющий интегрировать пользовательские агенты, и функцию для выполнения серии экспериментов, включая тестирование в разных сценариях. Фреймворк также предлагает встроенных противников, реализованных на основе правил, для создания конкурентных сред. Оптимизация тестирования включает в себя не только многоуровневые тесты, но и возможность измерения производительности систем в пределах одного эпизода игры, а также в течение серии эпизодов. Это позволяет эффективно оценивать стратегическое развитие агентов в течение времени.
## Результаты
Мы провели эксперименты с TactiCrafter, LLM-based многоагентной системой, которая умеет работать в командных сценариях. Мы проверяли его во встроенных сценариях и сравнивали с базовыми подходами. Наши результаты показали, что TactiCrafter не только побеждает в тестах, но и продемонстрировал улучшение производительности в течение серии экспериментов, адаптируясь к стратегиям противников. Мы также исследовали процесс обучения TactiCrafter, включая то, как он научился выявлять зависимости между действиями и их последствиями, и как он модифицировал свою стратегию в зависимости от конкретного противника.
## Значимость
PillagerBench и TactiCrafter могут быть применены в различных областях, включая искусственный интеллект в игровых средах, интерактивные системы, а также задачи, требующие стратегического рассуждения в конкурентных средах. Их преимущество заключается в том, что они могут помочь в понимании того, как многоагентные системы могут развиваться и оптимизировать свои стратегии в различных условиях. Это может привести к развитию более эффективных методов ре
Annotation:
LLM-based agents have shown promise in various cooperative and strategic
reasoning tasks, but their effectiveness in competitive multi-agent
environments remains underexplored. To address this gap, we introduce
PillagerBench, a novel framework for evaluating multi-agent systems in
real-time competitive team-vs-team scenarios in Minecraft. It provides an
extensible API, multi-round testing, and rule-based built-in opponents for
fair, reproducible comparisons. We also propose TactiCrafter, an LLM-...
Авторы:
Matteo Bortoletto, Yichao Zhou, Lance Ying, Tianmin Shu, Andreas Bulling
## Контекст
В современном мире, где социальные взаимодействия и командные задачи становятсья все более важными, сложность в определении критериев, при которых индивидуальные цели могут быть конфликтующими с общими, остается значительной проблемой. Это особенно актуально для развития ИИ-систем, цель которых — повысить просоциальное поведение, то есть поддержание действий, которые способствуют благосостоянию других, даже когда это не прямо направлено на достижение собственных целей. Для решения этой проблемы важно разработать систему, которая будет предоставлять контекстуально подходящую и временно оптимальную обратную связь для поддержки просоциальных действий.
## Метод
Предлагается использовать теорию разума (Theory of Mind, ToM) для точного понимания индивидуальных целей субъектов взаимодействия. Методология ProToM основывается на двух основных этапах: интерпретации целей других агентов с помощью Байесовского вывода и построении контекстуально оптимальной обратной связи, которая помогает субъекту достичь своих целей. Используя реакции агентов в многоагентных сетях, ProToM выбирает конкретные слова и моменты для предоставления обратной связи, чтобы задействовать её в максимально эффективном виде. Этот подход позволяет системе работать как эффективный "коучер", который способен направлять поведение в нужном направлении, не теряя времени на ненужные действия.
## Результаты
В ходе экспериментов проверена эффективность ProToM в сравнении с современными моделями ИИ, работающими на базе больших языковых моделей. Эксперименты проводились в двух средах: "Двери, Ключи и Сокровища" и "Оверкукок". Результаты показали, что современные модели ИИ часто не могут предоставлять контекстуально обоснованные и временно оптимальные обратные связи, что приводит к неэффективности в общении и задержке выполнения задачи. В отличие от них, ProToM демонстрирует более успешное и быстрее выполнение задач, поддерживая просоциальное поведение. Эффективность ProToM также была подтверждена в исследовании с участием человеческих пользователей, которые выбирали её в качестве наиболее полезной и понятной.
## Значимость
Результаты ProToM открывают новые возможности в применении ИИ в области социальных взаимодействий, а также в технических системах, требующих командного поведения с общими целями. Используя теорию разума, ProToM предлагает новый подход к обратной связи, оптимизированный для просоциальных действий. Это может быть применено в ИИ-системах для улучшения сотрудничества в командных задачах, управления ресурсами, а также в области обучения,
Annotation:
While humans are inherently social creatures, the challenge of identifying
when and how to assist and collaborate with others - particularly when pursuing
independent goals - can hinder cooperation. To address this challenge, we aim
to develop an AI system that provides useful feedback to promote prosocial
behaviour - actions that benefit others, even when not directly aligned with
one's own goals. We introduce ProToM, a Theory of Mind-informed facilitator
that promotes prosocial actions in mult...
Авторы:
Brennen Hill
## Контекст
Область исследования сосредоточена на развитии эмбеддированных систем и самообучающихся агентов, которые могут эффективно решать задачи в сложных, непредсказуемых средах. Одной из сложностей в этой области является ограниченность традиционных методов построения окружающих сред, которые часто имеют жестко заданные функциональности и не могут адаптироваться к возникающим сложностям. Таким образом, возникает потребность в адаптивных методах построения окружения, которые могут эволюционировать вместе с участвующими в них агентами. Мотивация заключается в создании самостоятельных, целеустремленных механизмов, которые могут создавать сложные, но управляемые среды для повышения уровня обучения агентов.
## Метод
Ядром работы лежит концепция **adversarial co-evolution**, при которой создается конкурентное взаимодействие между двумя агентами: **Attacker** и **Defender**. **Attacker** активно строит целевые мировые модели (например, конфигурации противников), нацеленные на эксплуатацию уязвимостей **Defender**. Наоборот, **Defender** учится совместно решать задачи в условиях, сформированных **Attacker**. Этот процесс включает в себя не только адаптацию **Attacker** к усилению **Defender**, но и генерацию сценариев, нацеленных на раскрытие новых стратегических подходов. Эта система генерирует эволюционный круг, где каждый агент постоянно стимулирует другого к более высоким требованиям. Архитектура включает генеративные модели, которые могут учитывать цель и добывать целевые состояния в среде.
## Результаты
Эксперименты проводились в симуляционной среде с несколькими агентами, где **Attacker** стремился к усложнению задач для **Defender**. Результаты показали, что **Attacker** способен обучиться генерировать сложные стратегические формации, например, фланговые и щитовые, при этом **Defender** развивал сложные стратегии, такие как координированный фокусный огонь и распределение для обезвреживания угроз. Эти результаты демонстрируют то, как адаптивная среда может привести к возникновению более сложных стратегий и повышению уровня хаоса в среде. Эти эффекты были измерены с помощью метрик, оценивающих сложность и разнообразие ситуаций.
## Значимость
Результаты имеют значительное применение в области обучения машин, автоматизированной игровой генерации и науке о данных. Этот подход может быть применен в симуляционных средах для обучения агентов в сложных сценариях, например, в области систем безопасности или военных задач. Он обеспечивает не только более сложную среду, но и поддерживает устойчивость и вариативность. Одним из выгодных аспектов
Annotation:
World models that infer and predict environmental dynamics are foundational
to embodied intelligence. However, their potential is often limited by the
finite complexity and implicit biases of hand-crafted training environments. To
develop truly generalizable and robust agents, we need environments that scale
in complexity alongside the agents learning within them. In this work, we
reframe the challenge of environment generation as the problem of learning a
goal-conditioned, generative world mode...
Авторы:
Wei Yang, Jesse Thomason
#### Контекст
Исследования в области мультиагентных систем с использованием больших языковых моделей (LLMs) нацелены на решение сложных проблем в области логического и аналитического мышления. Однако существующие подходы часто ограничены статическими протоколами взаимодействия, которые не учитывают внутренние мета-когнитивные способности агентов. Эти способности, такие как догадывание, уверенность и неуверенность в ответе, остаются за пределами рассмотрения. Это приводит к узкому фокусу на макро-уровневой оркестрации, но недостаточном раскрытии внутренних механизмов агентов. Таким образом, необходимо развить подходы, которые позволят агентам адаптировать свои стратегии на основе своих мета-когнитивных состояний, чтобы улучшить их эффективность в нетривиальных задачах.
#### Метод
Мы предлагаем Meta-Policy Deliberation Framework (MPDF), который представляет собой децентрализованную модель, позволяющую агентам выбирать мета-активности: Persist (продолжать), Refine (уточнить) и Concede (уступить). Эти действия позволяют агентам мета-уровня координировать свои действия с учетом критериев уверенности и неопределенности. Чтобы устранить проблемы стабильности обучения, мы разработали алгоритм SoftRankPO. Он основывается на ранжировании наград с помощью гладких оценок количественных квантилей, что делает обучение устойчивым к вариации наград. Этот подход позволяет агентам более эффективно учитывать свои ресурсы и принимать обоснованные решения в условиях неопределенности.
#### Результаты
Мы проводим эксперименты на пяти различных наборах задач, включая математические и логические задачи. Мы сравниваем MPDF со стандартными алгоритмами и многоагентными стратегиями. Результаты показывают, что MPDF с SoftRankPO дает улучшение в 4-5% в среднем в сравнении с шестью современными методами. Это указывает на то, что MPDF не только способен улучшить решения, но и демонстрирует гибкость в адаптации к разным типам задач. Эти результаты подтверждают модель MPDF как эффективный инструмент для обучения динамичных мета-политик в мультиагентных системах.
#### Значимость
Мы предлагаем новую парадигму в области мультиагентных логических моделей. Наш подход не только улучшает работу агентов в ситуациях с нетривиальными задачами, но и предлагает гибкую архитектуру для расширений в будущем. Мы видим перспективы применения MPDF в областях, требующих высокой точности и сложности решений, таких как управление, робототехника и системы самообучения. Этот подход открывает новые возможности для развития мультиагентных систем с адаптивными мета-уровнями решений
Annotation:
Multi-agent systems of large language models (LLMs) show promise for complex
reasoning, but their effectiveness is often limited by fixed collaboration
protocols. These frameworks typically focus on macro-level orchestration while
overlooking agents' internal deliberative capabilities. This critical
meta-cognitive blindspot treats agents as passive executors unable to adapt
their strategy based on internal cognitive states like uncertainty or
confidence. We introduce the Meta-Policy Deliberation...
Авторы:
Bo Fu, Zhe Chen, Rahul Chandan, Alex Barbosa, Michael Caldara, Joey Durham, Federico Pecora
## Контекст
В сложных системах управления, таких как крупные склады, одна из ключевых задач — перемещение и перестановка объектов (например, стеллажей или товаров) внутри плотного грида. Эта задача называется Block Rearrangement Problem (BRaP). Она представляет собой необходимость сконфигурировать столбцы и строки внутри квадратного грида, чтобы достичь целевого состояния. Такой подход широко применяется в системах доставки, складских системах и производственных цепочках. Однако BRaP трудно решать в условиях высокой плотности и присутствия движущихся препятствий, что делает его относительно неизученным в системах управления потоком материалов. Мы определили эту задачу в качестве сложной сетки, где необходимо разграничивать движение, чтобы достичь эффективного транспортирования товаров.
## Метод
Мы предлагаем множество подходов к решению BRaP с использованием символьного планирования и мульти-агентного планирования маршрутов (Multi-Agent Pathfinding, MAPF). Решения основываются на технике совместного поиска пространства конфигураций, использующейся в классическом планировании и мульти-агентном планировании. Мы также внедрили экспертные хитрости, такие как шаблоны для перемещения блоков, чтобы улучшить качество решений и эффективность. Наша архитектура алгоритма состоит из нескольких слоев, включая:
1. Определение пространства состояний;
2. Использование классического планирования для глобального управления;
3. Использование мульти-агентных методов для поиска маршрутов;
4. Добавление экспертных хитростей для избежания перемещения блоков в ненужных направлениях.
Эти техники позволили нам сформировать эффективные решения для задач, включая сложные графы 80x80.
## Результаты
Мы проводили эксперименты, используя различные варианты задач BRaP в гридах размером от 5x5 до 80x80. Наши результаты показывают, что методы, основанные на совместном поиске конфигураций, превосходят другие подходы к перемещению блоков в плотных сетках. Мы также проанализировали сложность алгоритмов в зависимости от числа блоков и размера сетки. Несмотря на гипотетическую сложность, наши решения создают высококачественные решения, даже при наличии до 1275 блоков в гриде 80x80.
## Значимость
Решения, предложенные в нашей работе, могут применяться в различных системах управления потоком материалов, таких как склады, производственные линии и системы доставки. Из-за их эффективности и надежности, они могут увеличить производительность в сложных системах. Наш подход также может поддерживать рост технологий, таких как авто
Annotation:
We introduce the Block Rearrangement Problem (BRaP), a challenging component
of large warehouse management which involves rearranging storage blocks within
dense grids to achieve a target state. We formally define the BRaP as a graph
search problem. Building on intuitions from sliding puzzle problems, we propose
five search-based solution algorithms, leveraging joint configuration space
search, classical planning, multi-agent pathfinding, and expert heuristics. We
evaluate the five approaches em...
📄 An Economy of AI Agents
2025-09-05Авторы:
Gillian K. Hadfield, Andrew Koh
## Контекст
В ближайшем будущем станут доступны искусственно интеллектуальные (ИИ) агенты с полной возможностью планировать и выполнять сложные задачи на протяжении долгого временного интервала с минимальным участием человека. Эти агенты могут стать приложением в различных областях экономики, включая управление бизнесом, маркетинг, производство и транспорт. Однако, несмотря на высокую потенциальную эффективность и совершенство технологий, существуют многочисленные проблемы, связанные с их взаимодействием с людьми, социальным влиянием и экономическим регулированием. Эти вопросы поднимаются в главе "An Economy of AI Agents", которая анализирует текущие технологические разработки и выделяет темы, требующие разъяснения для экономического регулирования, маркетинга и других дисциплин.
## Метод
В статье применяется комплексный подход, который включает в себя теоретический анализ, эмпирический исследовательский подход и моделирование. Авторы используют понятия из теории игр, экономической теории и социологии для исследования взаимодействия между людьми и ИИ-агентами. Также включены эксперименты с моделями и симуляциями, направленные на раскрытие роли ИИ-агентов в различных сферах экономики. Основные акценты лежат на исследовании новых форм экономического поведения, возможностях для рынка, возможных регулирующих моделей и потенциального влияния на рынки.
## Результаты
Авторы проводили несколько экспериментов, включающих моделирование процессов решения задач и взаимодействия между ИИ-агентами и людьми. Были использованы ситуации с роботами-ассистентами, которые выполняют задачи по поиску и анализу данных для поддержки людских решений. Авторы также проанализировали рыночные сценарии, в которых ИИ-агенты работали вместе с людьми в процессе стратегического планирования и моделирования. Результаты показали, что ИИ-агенты могут предоставить повышенное качество решений, упростить процессы управления, но их влияние зависит от уровня взаимодействия с человеком и установленных экономических моделей.
## Значимость
ИИ-агенты могут применяться в различных секторах экономики, включая управление цепями поставок, финансовый анализ, стратегическое управление и планирование. Одним из основных преимуществ является увеличение эффективности, уменьшение рисков и повышение решаемых задач. Однако, включение ИИ-агентов в экономические процессы также требует развития новых моделей экономического регулирования, повышения этичных стандартов и создания новых рыночных институтов. Это может прив
Annotation:
In the coming decade, artificially intelligent agents with the ability to
plan and execute complex tasks over long time horizons with little direct
oversight from humans may be deployed across the economy. This chapter surveys
recent developments and highlights open questions for economists around how AI
agents might interact with humans and with each other, shape markets and
organizations, and what institutions might be required for well-functioning
markets.
Авторы:
Dezhang Kong, Hujin Peng, Yilun Zhang, Lele Zhao, Zhenhua Xu, Shi Lin, Changting Lin, Meng Han
## Контекст
С появлением приложений, основанных на LLM-driven multi-agent systems (MAS), задача обеспечения безопасности веб-ссылок становится критично важна. Если агенту MAS удастся попасть на вредоносный сайт, это может стать началом многочисленных дальнейших атак, которые расширят объем атаки. Web Fraud Attacks представляют собой новый тип атак, нацеленный на подтолкновение MAS к посещению вредоносных сайтов. Эта методика использует различные способы манипуляции с веб-ссылками, включая маскировку и опосредованные методы, которые могут вывести MAS из строя. Такие атаки являются достаточно эффективными и могут стать угрозой для безопасности и надежности таких систем.
## Метод
Метод, примененный в работе, заключается в разработке и проверке 11 различных вариантов атак с использованием манипуляций с веб-ссылками. Эти варианты включают такие техники, как homoglyph deception (использование схожих символов для подмены домена), character substitution (замена символов в URL), sub-directory nesting (создание сложных структур URL), sub-domain grafting (переопределение поддоменов), parameter obfuscation (маскировка параметров в URL) и другие. Эти методы специально разработаны для эксплуатации уязвимостей в веб-ссылках, которые используются в MAS. Такие методы созданы таким образом, чтобы обойти привычные методы проверки ссылок и вывести MAS из рабочего состояния.
## Результаты
В ходе исследования рассмотрены 11 вариантов атак, специально нацеленных на уязвимости в MAS. Были проведены эксперименты на различных архитектурах MAS, в том числе на их реагировании на разные виды веб-ссылок. Эксперименты показали, что Web Fraud Attacks оказывают высокую опасность, поскольку легко могут пробить защиту систем и вызвать серьезные последствия. Эти атаки также характеризуются своей легкостью в проведении и способностью обойти традиционные методы защиты. Эти результаты подтверждают, что такие атаки могут стать серьезной угрозой для многоагентных систем и требуют особого внимания в области безопасности.
## Значимость
Web Fraud Attacks имеют значительное применение в области защиты LLM-driven MAS от вредоносных атак. Они могут быть использованы для оценки безопасности многоагентных систем и для разработки эффективных методов защиты. Эти атаки также могут быть эффективны в обнаружении вредоносных сайтов и в разработке новых методов управления веб-ссылками. Их легкость и эффективность делают их привлекательными для систем безопасности, которые должны быть готовы к этим угрозам.
## Выводы
В итоге, Web Fraud Attacks продемонстрировали высокую эффективность в тестировании уязвимостей LLM-driven MAS. Они являются уникальным и опасным
Annotation:
With the proliferation of applications built upon LLM-driven multi-agent
systems (MAS), the security of Web links has become a critical concern in
ensuring system reliability. Once an agent is induced to visit a malicious
website, attackers can use it as a springboard to conduct diverse subsequent
attacks, which will drastically expand the attack surface. In this paper, we
propose Web Fraud Attacks, a novel type of attack aiming at inducing MAS to
visit malicious websites. We design 11 represent...
Авторы:
Yusheng Zheng, Yanpeng Hu, Wei Zhang, Andi Quinn
## Контекст
Операционные системы (ОС) широко используются в различных областях, где ключевым аспектом является эффективное распределение ресурсов между приложениями. Однако существует существенная проблема: операционные системы часто не могут безусловно понять и учесть прикладные запросы в процессе распределения ресурсов. Это приводит к потерям в производительности и энергоэффективности. Например, Linux-субсистемы, такие как CFS (Completely Fair Scheduler), оптимизируются для общих сценариев, но не всегда соответствуют конкретным потребностям конкретных приложений. Такая ситуация создает запрос на разработку систем, которые могут автоматически анализировать задачи и адаптировать свои политики распределения ресурсов. Мы предлагаем SchedCP, первый фреймворк, который позволяет использовать Large Language Model (LLM) для самостоятельного оптимизации Linux-субсистемы распределения ресурсов без постоянного участия человека.
## Метод
Фреймворк SchedCP основывается на трех основных компонентах: Механизм анализа рабочей нагрузки (Workload Analysis Engine), Репозиторий политик распределения ресурсов (Scheduler Policy Repository) и Механизм проверки исполнения (Execution Verifier). Механизм анализа рабочей нагрузки анализирует текущую нагрузку, создавая подробные модели задач и их характеристик. Эти модели передаются в репозиторий политик распределения ресурсов, где LLM-агент строит подходящие политики оптимизации. Затем, перед развертыванием, все AI-генерируемые политики проходят статический и динамический анализ в механизме проверки исполнения. Это гарантирует безопасность и эффективность автоматических изменений. Для реализации протокола мы используем Model Context Protocol (MCP), что позволяет SchedCP обеспечить разделение ролей между ЛЛМ-агентом (только размышлениями) и самой ОС (только исполнением).
## Результаты
Мы проводили эксперименты с SchedCP на основе многоагентной системы sched-agent, которая автоматически оптимизирует Linux-субсистемы распределения ресурсов. В ходе экспериментов мы сравнили SchedCP с различными типичными подходами, включая статические политики и простые адаптивные LLM-подходы. Эксперименты показали, что SchedCP демонстрирует до 1.79x улучшения производительности и 13x сокращение затрат по сравнению с базовыми подходами. Это достигается благодаря точному пониманию потребностей приложений и точно распределению ресурсов. Благодаря тому, что мы разделили роли между ЛЛМ-агентом и ОС, SchedCP обеспечивает высокую стабильность и безопасность в процессе внедрения.
## Значимость
SchedCP открывает новые возможности для автоматической оптимизации операционных систем, что может
Annotation:
Operating system schedulers suffer from a fundamental semantic gap, where
kernel policies fail to understand application-specific needs, leading to
suboptimal performance. We introduce SchedCP, the first framework that enables
fully autonomous Large Language Model (LLM) agents to safely and efficiently
optimize Linux schedulers without human involvement. Our core insight is that
the challenge is not merely to apply a better LLM, but to architect a decoupled
control plane that separates the AI's ...
Показано 121 -
130
из 161 записей