📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VariAntNet: Learning Decentralized Control of Multi-Agent Systems

2025-09-05

Авторы:

Yigal Koifman, Erez Koifman, Eran Iceland, Ariel Barel, Alfred M. Bruckstein

## Контекст Многоагентные системы (МАС) представляют собой набор независимых агентов, которые действуют совместно для достижения общей цели. Они широко применяются в различных областях, включая диагностику, управление транспортом, сборку и даже формировании групп войск. Одним из примеров МАС являются "ант-роботы" — простые беспилотные транспортные средства, оперирующие в рамках ограниченного диапазона чувствительности и без доступа к ортогональным системам координат. Однако, существуют серьезные проблемы, которые ограничивают эффективность МАС в подобных ситуациях. Например, невозможность централизованного управления, ограниченная область видимости и нельзясть использования распределенной системы координат существенно повлияли на успех многих миссий. Таким образом, необходимо разрабатывать модели, позволяющие агентам эффективно взаимодействовать в условиях подобных ограничений. ## Метод Мы предлагаем VariAntNet — новую децентрализованную модель управления многоагентной системой, основанную на глубоком обучении. Основная идея заключается в использовании различных функций потерь, которые продвигают целевые свойства, такие как связность и групповое движение. Модель использует неупорядоченные, переменного размера наблюдения, выполняемые с помощью геометрических признаков. Оптимизация происходит с использованием алгоритма, который производит сопоставление между агентами и матрицей видимости. Эта матрица позволяет агентам определять друг друга, несмотря на ограничения возможностей чувствительности. Этот подход позволяет нам учитывать вклад каждого агента в коллективную работу и оптимизировать выбор между сохранением связности и выполнением задачи в условиях ограниченных ресурсов. ## Результаты Мы провели эксперименты, сравнивая VariAntNet с другими моделями управления МАС в задаче сбора агентов. Для этого были использованы классические модели, такие как "гармоническое поле", которая используется в аналитических решениях. В результате, VariAntNet достиг гораздо вышего уровня конвергенции, при этом увеличивая скорость сбора. Сравнительное исследование показало, что VariAntNet значительно превосходит алгоритмы с гармоническими полями, предлагая более высокую скорость сбора, при этом сохраняя связность между агентами. Это делает VariAntNet особенно эффективным для время от времени выполненных задач, таких как поиск жертв в условиях катастрофы. ## Значимость VariAntNet может быть применено в различных областях, в том числе в аварийных реагированиях, промышленном автоматизированном изготовлении и

Annotation:

A simple multi-agent system can be effectively utilized in disaster response applications, such as firefighting. Such a swarm is required to operate in complex environments with limited local sensing and no reliable inter-agent communication or centralized control. These simple robotic agents, also known as Ant Robots, are defined as anonymous agents that possess limited sensing capabilities, lack a shared coordinate system, and do not communicate explicitly with one another. A key challenge for...

ID: 2509.02271v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 A Hierarchical Deep Reinforcement Learning Framework for Traffic Signal Control with Predictable Cycle Planning

2025-09-05

Авторы:

Hankang Gu, Yuli Zhang, Chengming Wang, Ruiyuan Jiang, Ziheng Qiao, Pengfei Fan, Dongyao Jia

## Контекст Трафическое регулирование (TSC) является ключевым аспектом управления городским трафиком, направленным на сокращение задержек, уменьшение выбросов предприятий и повышение безопасности на дорогах. Однако, традиционные методы TSC часто ограничены в способности адаптироваться к изменениям трафического потока и требованиям транспортных систем. На протяжении последних десятилетий, развитие технологий и интенсивное городское развитие привело к возрастающим требованиям к эффективности трафического регулирования. В этом контексте, глубокое учебное управление на основе разнообразных подходов, включая глубокое расширенное управление (DRL), полностью изменило традиционное подход к TSC. Однако, существуют проблемы в существующих DRL-моделях, в частности, в адаптации к различным объемам трафика и неоднородности сетей. Мотивация заключается в разработке более универсального и эффективного подхода к TSC, который может адаптироваться к различным условиям трафика и обеспечивать более стабильный и безопасный транспорт. ## Метод Предлагаемая модель, Deep Hierarchical Cycle Planner (DHCP), является DRL-фреймворком для TSC с предсказуемым планированием цикла. Она включает в себя два уровня агентов: высокоуровневый и низкоуровневый. Высокоуровневый агент определяет распределение времени цикла между горизонтальными (NS) и вертикальными (EW) направлениями на основе общего трафика. Низкоуровневый агент далее разделяет распределенное время направлений направлений на прямые и поворотные движения, позволяя более гибкому времени для этих движений. Такой двухуровневый подход обеспечивает более гибкую и эффективную адаптацию к разным трафическим условиям. Архитектура фреймворка основана на DRL-техниках, включая простой учебный агент, чтобы уменьшить вычислительные затраты и поддержать более эффективное обучение. ## Результаты Эксперименты проводились на обоих реальных и синтетических данных трафика. Модель DHCP была проверена на нескольких наборах данных, включая городские сети и различные трафические потоки. Результаты показали, что DHCP превосходит базовые модели по метрикам, таким как снижение задержек, увеличение прохождения транспортных средств и обеспечение безопасности. Она показала лучшие результаты в сравнении с другими DRL-подходами, в том числе в ситуациях с изменчивым трафиком и неоднородными сетями. Эти результаты демонстрируют высокую эффективность DHCP в решении проблем, связанных с традиционными подходами к TSC. ## Значимость Модель DHCP может быть примен

Annotation:

Deep reinforcement learning (DRL) has become a popular approach in traffic signal control (TSC) due to its ability to learn adaptive policies from complex traffic environments. Within DRL-based TSC methods, two primary control paradigms are ``choose phase" and ``switch" strategies. Although the agent in the choose phase paradigm selects the next active phase adaptively, this paradigm may result in unexpected phase sequences for drivers, disrupting their anticipation and potentially compromising ...

ID: 2509.03118v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 Generative AI Against Poaching: Latent Composite Flow Matching for Wildlife Conservation

2025-08-22

Авторы:

Lingkai Kong, Haichuan Wang, Charles A. Emogor, Vincent Börsch-Supan, Lily Xu, Milind Tambe

## Контекст Посягательства на природу в виде поязания животных являются критической угрозой для экосистем и биоразнообразия. Эти действия часто связаны с шантажом и трафиком зверей, которые имеют не только экономический, но и этический характер. Для эффективного противостояния посягательствам животным необходимо предвидеть поведение пойманцев, чтобы грамотно распределить ресурсы на охранение и профилактику. Однако существующие методы предсказания поведения пойманцев, основывающиеся на линейных моделях или решающих деревьях, не могут корректно учитывать сложные нелинейные зависимости в пространственно-временных данных. Данная статья рассматривает применение генерирующего искусственного интеллекта (Generative AI) для решения этой проблемы. ## Метод Для предсказания поведения пойманцев использовалась модель Latent Composite Flow Matching (LCFM), которая основывается на подходе flow matching. LCFM расширяет применение flow matching за счет интеграции с моделью оккупантности, что позволяет модели лучше учитывать недостаточно отфильтрованные данные о поязаниях. Для улучшения обучения в ситуации данного типа, композитная модель инициализирована не случайным шумом, как в стандартных диффузионных моделях, а на основе предсказаний линейных моделей. Это позволяет внедрять предварительные знания в модель, увеличивая ее точность и общую ценность. ## Результаты Для оценки эффективности модели LCFM проводились эксперименты на данных, собранных в двух национальных парках Уганды. Модель показала высокую точность в предсказании поведения пойманцев, превосходя существующие методы в сравнительных тестах. Оценки показали, что LCFM лучше предсказывает зависимости между ситуациями поязаний и областями расположения охранных патролов. Эти результаты подтверждают, что LCFM может стать важной инструментом для улучшения планирования охранных мероприятий и снижения угроз от поязаний. ## Значимость Прогнозирование поведения пойманцев может иметь значительное влияние на эффективность мероприятий по охране природы. Особенно это актуально для территорий с ограниченным количеством ресурсов для охраны. LCFM может использоваться не только для прогнозирования поязаний, но также для развития стратегий профилактики и реагирования. Это делает модель ценным инструментом для принятия решений в области консервации биоразнообразия и уменьшения посягательств на природу. ## Выводы Результаты экспериментов показывают, что LCFM является эффективным средством для предсказания поведения пойманцев. Однако в будущем необходимо провести более обширные исследования на более крупных датасетах и применить модель к другим

Annotation:

Poaching poses significant threats to wildlife and biodiversity. A valuable step in reducing poaching is to forecast poacher behavior, which can inform patrol planning and other conservation interventions. Existing poaching prediction methods based on linear models or decision trees lack the expressivity to capture complex, nonlinear spatiotemporal patterns. Recent advances in generative modeling, particularly flow matching, offer a more flexible alternative. However, training such models on rea...

ID: 2508.14342v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation

2025-08-16

Авторы:

Jiulin Li, Ping Huang, Yexin Li, Shuo Chen, Juewen Hu, Ye Tian

## Контекст В мире современных технологий возрастает необходимость в системах, способных обрабатывать и генерировать мультимодальные данные, такие как текст, изображения, аудио и видео. Однако существующие подходы часто ограничены своей модульностью и способностью работы с несколькими видами данных одновременно. Это приводит к узкому кругу применения и сложностям в сценариях, требующих универсального понимания и генерации мультимодальных данных. Эта проблема напрягает разработчиков, которые стремятся к гибкости, модульности и эффективности. Мы предлагаем MAGUS, модульный фреймворк для решения этих проблем. ## Метод MAGUS основывается на двух уровнях: **Cognition** (понимание) и **Deliberation** (решающее решение). В первом этапе используется многоагентная модель, где каждый агент имеет свою роль: Perceiver (понимающий), Planner (планировочный) и Reflector (отзывчивый). Они сотрудничают в рамках общего текстового пространства для выполнения задач понимания и планирования. Во втором этапе применяется метод Growth-Aware Search, который размышляет над генерацией и расширением результатов с помощью мультимодальных моделей генерации. Этот подход позволяет объединить лучшие свойства различных моделей без необходимости совместной обучения. ## Результаты Для оценки эффективности MAGUS проводились эксперименты на нескольких бенчмарках, в том числе для генерации изображений, видео и аудио, а также для задач кросс-модального контроля. На MME-бенчмарке MAGUS показал результат, превосходящий современные аналоги, в том числе модель GPT-4o. Эти результаты подтверждают высокую точность понимания и генерации в различных модальных областях, а также скорость работы и эффективность, что делает фреймворк привлекательным для практического применения. ## Значимость MAGUS может применяться в самых различных сферах, включая медиа, образование, коммерческие приложения и искусственный интеллект. Он демонстрирует практические преимущества, такие как простота интеграции, модульность и производительность. Это может привести к развитию новых мультимодальных приложений, которые требуют универсальной модели понимания и генерации. Будущие исследования будут сконцентрированы на улучшении методов генерации и расширении функциональных возможностей фреймворка. ## Выводы MAGUS представляет собой мощный фреймворк для универсального понимания и генерации мультимодальных данных. Он продемонстрировал высокую эффективность на различных задачах и модальностях, показав преимущества перед современными подходами. Дальнейшие исследования будут направлены на улучшение гибкости и масштабируемости, а также на из

Annotation:

Real-world multimodal applications often require any-to-any capabilities, enabling both understanding and generation across modalities including text, image, audio, and video. However, integrating the strengths of autoregressive language models (LLMs) for reasoning and diffusion models for high-fidelity generation remains challenging. Existing approaches rely on rigid pipelines or tightly coupled architectures, limiting flexibility and scalability. We propose MAGUS (Multi-Agent Guided Unified Mu...

ID: 2508.10494v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference

2025-08-13

Авторы:

Po-Han Lee, Yu-Cheng Lin, Chan-Tung Ku, Chan Hsu, Pei-Cing Huang, Ping-Hsun Wu, Yihuang Kang

## Контекст Оценка индивидуальных лечебных эффектов из исследовательских данных представляет сложность, ограниченную неизмеренными конфундирующими факторами и структурными склейками. Методы машинного обучения для выявления причинных связей, такие как деревья причинно-следственных связей и удвоенно-надежные оценки, позволяют приблизительно оценивать условные средние эффекты лечения. Однако, в реальных условиях, особенно при наличии неизвестных конфундирующих факторов или когда конфундирующие факторы описаны неструктурированными данными, эти методы оказываются неэффективными. Более того, поиск и интерпретация конфундирующих факторов часто требует вклада специалистов, что приводит к высоким затратам на аннотацию и ограниченной масштабируемости. В данной работе мы предлагаем использовать Large Language Model (LLM)-based агентов для автоматической выявления конфундирующих факторов и анализа подгрупп в рамках методов статистической выявления причинных связей. Наш предложенный подход интегрирует LLM-based агентов в цепочку методов машинного обучения для выявления причинных связей, уменьшая зависимость от экспертов и сохраняя понимание механизмов работы системы. ## Метод Мы разработали рамочный подход, который использует LLM-based агентов в качестве компонентов системы для выявления конфундирующих факторов и анализа подгрупп в статистической выявлении причинных связей. Наш подход включает два основных этапа: выявление конфундирующих факторов и анализ подгрупп. Первый этап использует LLM-based агентов для автоматического выявления тем, которые могут служить конфундирующими факторами в данных, исходя из семантического контекста и паттернов в данных. Второй этап использует эти выявленные конфундирующие факторы для уточнения подгрупп, используя методы условных оценок, таких как деревья причинно-следственных связей и удвоенно-надежные оценки. Этот подход использует мощь LLM-based агентов для автоматизации задач, которые раньше требовали ручного вмешательства экспертов, избавляя от затрат и ограничений масштабирования. ## Результаты Мы провели эксперименты на реальных медицинских данных, включая данные по лечению рака и заболеваний сердца. Мы сравнили нашу методику с существующими подходами к выявлению конфундирующих факторов и оценке индивидуальных лечебных эффектов. Наши эксперименты показали, что LLM-based агенты обеспечивают более точную оценку индивидуальных лечебных эффектов, сужая доверительные интервалы и выявляя незамеченные ранее конфундирующие факторы. Особенно выдающимся было

Annotation:

Estimating individualized treatment effects from observational data presents a persistent challenge due to unmeasured confounding and structural bias. Causal Machine Learning (causal ML) methods, such as causal trees and doubly robust estimators, provide tools for estimating conditional average treatment effects. These methods have limited effectiveness in complex real-world environments due to the presence of latent confounders or those described in unstructured formats. Moreover, reliance on d...

ID: 2508.07221v1 cs.LG, cs.AI, cs.MA, stat.AP, stat.ME

arXiv PDF

📄 MoMA: A Mixture-of-Multimodal-Agents Architecture for Enhancing Clinical Prediction Modelling

2025-08-08

Авторы:

Jifan Gao, Mahmudur Rahman, John Caskey, Madeline Oguss, Ann O'Rourke, Randy Brown, Anne Stey, Anoop Mayampurath, Matthew M. Churpek, Guanhua Chen, Majid Afshar

## КОНТЕКСТ И ПРОБЛЕМАТИКА Электронные медицинские карты (Electronic Health Records, EHR) содержат многомодальные данные, включающие клинические заметки, медицинские изображения, лабораторные результаты и другие форматы информации о пациентах. Такие данные являются источником ценных и дополнительных сведений для оценки состояния здоровья пациентов. Однако, интеграция таких разнородных источников данных в единые модели прогнозирования представляет собой серьезную проблему. Традиционные подходы часто требуют больших объемов данных для обучения и имеют сложности в обработке и комбинации различных модальностей. Применение моделей основанных на технологиях языковых моделей (Large Language Models, LLM) в клинических задачах также сталкивается с ограничениями. Несмотря на то, что LLM хорошо справляются с обработкой текстовых данных, их применение к нетекстовым модальностям, таким как изображения и табличные данные, требует дополнительных преобразований. Также, создание моделей, способных эффективно обрабатывать и сочетать различные типы данных, требует новых подходов для обеспечения высокой точности и гибкости. Кроме того, существующие методы часто недостаточно гибкие для работы с различными комбинациями модальностей, что ограничивает их применение в реальных клинических условиях. Таким образом, необходим новый подход, который мог бы эффективно интегрировать различные модальности данных EHR и обеспечить точные клинические прогнозы. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается архитектура Mixture-of-Multimodal-Agents (MoMA), которая использует несколько LLM-агентов для решения задач клинического прогнозирования на основе многомодальных данных EHR. MoMA состоит из трех основных компонентов: "specialist agents", "aggregator agent", и "predictor agent". "Specialist agents" отвечают за преобразование нетекстовых модальностей, таких как медицинские изображения и лабораторные результаты, в структурированные текстовые описания. Эти описания позволяют преобразовать неструктурированные данные в формат, который может быть легко интегрирован с текстовыми данными. "Aggregator agent" занимается комбинацией текстовых описаний, полученных от "specialist agents", с клиническими заметками для создания единого многомодального результата. Этот шаг позволяет объединить информацию из различных источников в единый контекст, который может быть использован для прогнозирования. "Predictor agent" является конечной моделью, которая использует полученный многомодальный результат для выполнения клинических прогнозов. Эта модель основана на LLM и обеспечивает высокую точность прогнозов за счет интеграции информации из различных модальностей. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Чтобы оценить эффективность MoMA, авторы провели эксперименты на трех клинических задачах прогнозирования, используя реальные наборы данных EHR с различными комбинациями модальностей. Эксперименты показали, что MoMA превосходит современные методы в терминах точности прогнозов. Авторы также продемонтрировали, что архитектура MoMA хорошо адаптируется к различным комбинациям модальностей данных, что делает ее более гибкой в реальных условиях. Модель показала значительное улучшение результатов в сравнении со стандартными подходами, особенно в случаях, когда использовались различные типы данных, такие как изображения и текстовые заметки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод MoMA имеет широкое применение в клинической практике, особенно в задачах прогнозирования результатов лечения, определения риска развития заболеваний и других клинических задачах. Его гибкость и способность обрабатывать различные типы данных делают его подходящим для использования в различных клинических сценариях. Преимущества MoMA включают в себя улучшенную точность прогнозов, гибкость в работе с различными комбинациями модальностей данных и возможность интеграции неструктурированных данных в единый контекст. Эти преимущества могут привести к значительному улучшению клинических решений и повышению эффективности лечения пациентов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Архитектура MoMA представляет собой значительный шаг вперед в интеграции многомодальных данных для клинических прогнозов. Она демонстрирует высокую точность и гибкость, что делает ее подходящей для реального применения в клинической практике. В будущем, авторы планируют расширить данную модель для работы с большими и более разнообразными наборами данных, а также исследовать возможности улучшения эффективности обработки нетекстовых модальностей. Также, предвидится исследование возможностей применения MoMA в других областях, таких как обработка данных из других сфер, где используются многомодальные данные.

Annotation:

Multimodal electronic health record (EHR) data provide richer, complementary insights into patient health compared to single-modality data. However, effectively integrating diverse data modalities for clinical prediction modeling remains challenging due to the substantial data requirements. We introduce a novel architecture, Mixture-of-Multimodal-Agents (MoMA), designed to leverage multiple large language model (LLM) agents for clinical prediction tasks using multimodal EHR data. MoMA employs sp...

ID: 2508.05492v1 cs.LG, cs.AI, cs.MA

arXiv PDF

Показано 21 - 26 из 26 записей