📚 Саммари научных статей из arXiv

Найдено 161 результатов по запросу 'cs.AI, cs.MA' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Every 28 Days the AI Dreams of Soft Skin and Burning Stars: Scaffolding AI Agents with Hormones and Emotions

2025-08-19

Авторы:

Leigh Levinson, Christopher J. Agostino

## Контекст Основной вызов для современных систем искусственного интеллекта (AI) заключается в разрешении фрейм-проблемы: определение того, какие данные являются контекстуально значимыми из экспоненциально большого поискового пространства. Авторы предполагают, что биологические ритмы, особенно гормональные циклы, могут стать натуральным механизмом фильтрации контекстной релевантности. Исследование адресует эту проблему, опираясь на гипотезу о возможности использования таких ритмов для улучшения контекстной семантической фильтрации в AI-системах. Работа также исследует влияние субьективных закрепленных в текстовых моделях нормативных представлений о гендере и биологической дифференциации. ## Метод Методология основывается на модификации Large Language Models (LLM) с помощью системных промптов, которые включают симуляцию гормональных циклов. Эти циклы описываются периодическими функциями, обозначающими ключевые гормоны, такие как эстрадиол, тестостерон и кортизол. LLM обучаются на больших объемах текстовых данных, включая сценарии разговорных ситуаций и эмоциональные реакции. Формальные гипотезы о том, как эти гормоны влияют на стиль и эмоциональную интенсивность текста, формулируются и проверяются с помощью метрик, отслеживающих изменения в семантической и эмоциональной нагрузке. ## Результаты Эксперименты показывают, что включение гормональных циклов в LLM приводит к изменению стиля и эмоционального тембра текста в зависимости от симулируемого цикла. Например, эмоциональные вариации во время менструации (садность) и овуляции (радость) в текстах становятся очевидными. Бенчмаркинг на таких датасетах, как SQuAD, MMLU, Hellaswag и AI2-ARC, показал небольшие но стабильные различия в предсказаниях, соответствующие ожиданиям биологического ритма. Эти результаты подтверждают, что модели, оптимизированные в умеренных гормональных диапазонах, оказываются более эффективными. ## Значимость Полученные результаты открывают новый подход к контекстной обработке информации в AI-системах, позволяя рассматривать гормональные ритмы как средство фильтрации информации. Это может использоваться в сценариях, где необходима более естественная семантическая и эмоциональная реакция. Также исследование выявляет и демонстрирует встроенные в текстовых моделях субьективные представления о роли гендера и биологических характеристик, позволяя проанализировать их последствия для выводов моделей. ## Выводы Результаты указывают на возможность использования гормональных ри

Annotation:

Despite significant advances, AI systems struggle with the frame problem: determining what information is contextually relevant from an exponentially large possibility space. We hypothesize that biological rhythms, particularly hormonal cycles, serve as natural relevance filters that could address this fundamental challenge. We develop a framework that embeds simulated menstrual and circadian cycles into Large Language Models through system prompts generated from periodic functions modeling key ...

ID: 2508.11829v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 AgentCDM: Enhancing Multi-Agent Collaborative Decision-Making via ACH-Inspired Structured Reasoning

2025-08-19

Авторы:

Xuyang Zhao, Shiwan Zhao, Hualong Yu, Liting Zhang, Qicheng Li

## Контекст Одним из ключевых вопросов в области многоагентных систем (MAS), оснащённых Large Language Models (LLM), является эффективное решение задач совместного принятия решений (Collaborative Decision-Making, CDM). Несмотря на потенциал MAS, существующие подходы часто ограничены либо "диктаторскими" стратегиями, которые подвержены человеческим ошибкам и биазу, либо методами голосования, недостаточно эффективными в использовании коллективного разума. Это приводит к снижению качества решений и недостаточной устойчивости. Наша мотивация заключается в разработке структурированного фреймворка, позволяющего улучшить роль LLMs в CDM, уменьшив ошибки и укрепив роль коллективного разума в процессе принятия решений. ## Метод Мы предлагаем **AgentCDM**, фреймворк, основанный на парадигме структурированного рассуждения, вдохновлённой Analysis of Competing Hypotheses (ACH) из области кognitive-сайенсе. Он состоит из двух этапов: в первом этапе используется искуственный скаффолдинг, вдохновлённый ACH, для руководства моделью в структурированном логическом мышлении. Во втором этапе происходит постепенное удаление этого скаффолдинга, чтобы поощрить модель научиться генерализироваться. Эталонные эксперименты проводятся на множестве данных, включая сценарии с графами и многоагентными системами, чтобы проверить работу AgentCDM. ## Результаты Мы проводили эксперименты в нескольких сценариях, включая наборы данных с графами и многоагентными системами. Результаты показывают, что AgentCDM достигает значительного повышения эффективности в сравнении с существующими подходами, обеспечивая более стабильные и качественные решения. Наши результаты демонстрируют, что AgentCDM устойчив к ошибкам и может лучше использовать коллективный разум, чтобы улучшить качество решений в MAS. ## Значимость Подход AgentCDM может быть применён в различных сферах, где требуется эффективное совместное принятие решений, например, в сферах управления, бизнес-анализа и машинного обучения. Этот фреймворк предлагает значительные преимущества, такие как уменьшение ошибок в решениях, увеличение устойчивости и эффективное использование коллективного разума. Мы видим в AgentCDM будущий потенциал для улучшения роли LLMs в различных ролях, включая роль менеджеров в системах управления. ## Выводы AgentCDM представляет собой новую парадигму для улучшения совместного принятия решений в многоагентных системах, основанных на LLMs. Наши результаты подтверждают его эффективность в обеспечении качественных решений и улучшении устойчивости в различных сценариях. Мы планируем продолжать развивать этот подход, обобщая его

Annotation:

Multi-agent systems (MAS) powered by large language models (LLMs) hold significant promise for solving complex decision-making tasks. However, the core process of collaborative decision-making (CDM) within these systems remains underexplored. Existing approaches often rely on either ``dictatorial" strategies that are vulnerable to the cognitive biases of a single agent, or ``voting-based" methods that fail to fully harness collective intelligence. To address these limitations, we propose \textbf...

ID: 2508.11995v1 cs.AI, cs.MA

arXiv PDF

📄 MAPF-World: Action World Model for Multi-Agent Path Finding

2025-08-19

Авторы:

Zhanjiang Yang, Meng Li, Yang Shen, Yueming Li, Lijun Sun

## Контекст Multi-agent path finding (MAPF) является задачей планирования конфликторно-свободных маршрутов для нескольких агентов, начиная с указанных начальных позиций и заканчивая целевыми положениями. Данная задача лежит в основе различных реальных приложений, включая координацию роботов, улучшение логистических процессов и социальное навигирование. Недавно развивающиеся децентрализованные, учебные средства удалось показать свою эффективность в задачах MAPF, особенно при использовании основых моделей и больших данных. Однако эти модели часто ориентируются только на реактивное взаимодействие, что приводит к ограниченной моделированию динамики окружающей среды и зависимостей между агентами. Это снижает их эффективность в сложных, многошаговых сценариях. Наша задача — разработать MAPF-World, модель, которая объединяет процесс понимания ситуации и генерации действий, обеспечивая более информированные и долгосрочные решения. ## Метод MAPF-World представляет собой модель динамического действия (action world model), которая агрегирует пространственные характеристики и временные зависимости в одном рамеке. Модель использует авторегрессионный подход для прогнозирования будущих состояний и действий в условиях MAPF. Она моделирует не только локальные наблюдения, но и дальнейшую динамику окружающей среды и действий агентов. Это позволяет модели улучшить свою ситуационную осведомленность и принимать более обоснованные решения. Бенчмарки MAPF были расширены с помощью генератора автоматических карт, основанного на реальных сценариях, чтобы создать более практические условия тренировки и проверки MAPF-систем. ## Результаты В ходе экспериментов MAPF-World показала себя значительно эффективнее состояний технологий в сравнении с другими learnable solvers. Она установила новые рекорды в области zero-shot generalization, демонстрируя способность решать задачи, не встречавшиеся во время обучения. Этого достигнуто благодаря её гибкости и способности осуществлять долгосрочное планирование. Особенно заметны разницы в производительности при использовании небольших моделей и ресурсов, где MAPF-World показала себя эффективнее более крупных аналогов. Это свидетельствует о том, что модель эффективно использует свои ресурсы и предлагает более устойчивый подход к задачам MAPF. ## Значимость MAPF-World может быть применена в различных областях, включая координацию роботов, управление логистическими процессами и социальную навигацию. Она предоставляет существенное преимущество в ситуациях, требующих долговременного планирования и высокой ситуационной осведомленности. Избыточность ресурсов и м

Annotation:

Multi-agent path finding (MAPF) is the problem of planning conflict-free paths from the designated start locations to goal positions for multiple agents. It underlies a variety of real-world tasks, including multi-robot coordination, robot-assisted logistics, and social navigation. Recent decentralized learnable solvers have shown great promise for large-scale MAPF, especially when leveraging foundation models and large datasets. However, these agents are reactive policy models and exhibit limit...

ID: 2508.12087v1 cs.AI, cs.MA

arXiv PDF

📄 A Unified Multi-Agent Framework for Universal Multimodal Understanding and Generation

2025-08-16

Авторы:

Jiulin Li, Ping Huang, Yexin Li, Shuo Chen, Juewen Hu, Ye Tian

## Контекст В мире современных технологий возрастает необходимость в системах, способных обрабатывать и генерировать мультимодальные данные, такие как текст, изображения, аудио и видео. Однако существующие подходы часто ограничены своей модульностью и способностью работы с несколькими видами данных одновременно. Это приводит к узкому кругу применения и сложностям в сценариях, требующих универсального понимания и генерации мультимодальных данных. Эта проблема напрягает разработчиков, которые стремятся к гибкости, модульности и эффективности. Мы предлагаем MAGUS, модульный фреймворк для решения этих проблем. ## Метод MAGUS основывается на двух уровнях: **Cognition** (понимание) и **Deliberation** (решающее решение). В первом этапе используется многоагентная модель, где каждый агент имеет свою роль: Perceiver (понимающий), Planner (планировочный) и Reflector (отзывчивый). Они сотрудничают в рамках общего текстового пространства для выполнения задач понимания и планирования. Во втором этапе применяется метод Growth-Aware Search, который размышляет над генерацией и расширением результатов с помощью мультимодальных моделей генерации. Этот подход позволяет объединить лучшие свойства различных моделей без необходимости совместной обучения. ## Результаты Для оценки эффективности MAGUS проводились эксперименты на нескольких бенчмарках, в том числе для генерации изображений, видео и аудио, а также для задач кросс-модального контроля. На MME-бенчмарке MAGUS показал результат, превосходящий современные аналоги, в том числе модель GPT-4o. Эти результаты подтверждают высокую точность понимания и генерации в различных модальных областях, а также скорость работы и эффективность, что делает фреймворк привлекательным для практического применения. ## Значимость MAGUS может применяться в самых различных сферах, включая медиа, образование, коммерческие приложения и искусственный интеллект. Он демонстрирует практические преимущества, такие как простота интеграции, модульность и производительность. Это может привести к развитию новых мультимодальных приложений, которые требуют универсальной модели понимания и генерации. Будущие исследования будут сконцентрированы на улучшении методов генерации и расширении функциональных возможностей фреймворка. ## Выводы MAGUS представляет собой мощный фреймворк для универсального понимания и генерации мультимодальных данных. Он продемонстрировал высокую эффективность на различных задачах и модальностях, показав преимущества перед современными подходами. Дальнейшие исследования будут направлены на улучшение гибкости и масштабируемости, а также на из

Annotation:

Real-world multimodal applications often require any-to-any capabilities, enabling both understanding and generation across modalities including text, image, audio, and video. However, integrating the strengths of autoregressive language models (LLMs) for reasoning and diffusion models for high-fidelity generation remains challenging. Existing approaches rely on rigid pipelines or tightly coupled architectures, limiting flexibility and scalability. We propose MAGUS (Multi-Agent Guided Unified Mu...

ID: 2508.10494v1 cs.LG, cs.AI, cs.MA

arXiv PDF

📄 K-Dense Analyst: Towards Fully Automated Scientific Analysis

2025-08-14

Авторы:

Orion Li, Vinayak Agarwal, Summer Zhou, Ashwin Gopinath, Timothy Kassis

## Контекст Современные исследования в области биоинформатики становятся все более сложными, возникает критическая проблема: отсутствие эффективных средств для перехода от простых вычислений к устойчивой научной интерпретации данных. Несмотря на то, что большие языковые модели (LLMs) демонстрируют удивительные возможности в области научного логического моделирования, они всё ещё сталкиваются с ограничениями при работе с реальном мире, где требуется не только вычисление, но и комплексный подход: итеративные вычисления, интеграция множества специфических инструментов и критическое тестирование. Эта трудность приводит к пробелу между высокоуровневыми научными целями и низкоуровневыми вычислительными задачами. Мы представляем K-Dense Analyst, новый подход к решению этой проблемы, основанный на архитектуре с двумя уровнями планирования и выполнения, который может полностью автоматизировать выполнение сложных научных анализов. ## Метод K-Dense Analyst, разработанный в рамках шире развивающейся платформы K-Dense, является системой из множества специализированных агентов, которые работают в составе виртуальной среды с двойным уровнем. Основной принцип - предоставление более высокого уровня автоматизации за счет декомпозиции сложных научных задач в исполнимые модули, которые могут быть проверены на соответствие высоким стандартам. Мы использовали BixBench, комплексный биоинформатический бенчмарк для тестирования открытых задач анализа. K-Dense Analyst выполняет модельный анализ, совершенно отличающийся от подходов, применяемых в других моделях, таких как GPT-5. Мы использовали Gemini 2.5 Pro, чтобы продемонстрировать, что наши архитектурные решения увеличивают производительность готовых моделей значительно, даже если эти модели, в теории, не отвечают требованиям. Ключевым моментом является использование проверенных вычислительных сред, что позволяет достичь повышенной точности и надежности результатов. ## Результаты Выполняя сложные задачи биоинформатики на BixBench, K-Dense Analyst достиг 29.2% точности, что является на 6.3% выше уровня GPT-5 (22.9%) и почти 27% выше чем лучший вариант в данной области. Эти результаты демонстрируют не только значительное улучшение производительности, но и сильное расхождение с базовыми моделями, если они используются в одиночку. Например, Gemini 2.5 Pro, если использоваться непосредственно, демонстрирует только 18.3% точности. Этот результат подтверждает, что наша система K-Dense Analyst не только улучшает стандартные модели, но и добивается значительных прорывов в автоматизации научного анализа за счет интеграции планирования и выполнения на разных уровнях

Annotation:

The complexity of modern bioinformatics analysis has created a critical gap between data generation and developing scientific insights. While large language models (LLMs) have shown promise in scientific reasoning, they remain fundamentally limited when dealing with real-world analytical workflows that demand iterative computation, tool integration and rigorous validation. We introduce K-Dense Analyst, a hierarchical multi-agent system that achieves autonomous bioinformatics analysis through a d...

ID: 2508.07043v1 cs.AI, cs.MA, q-bio.GN, q-bio.QM

arXiv PDF

📄 MAViS: A Multi-Agent Framework for Long-Sequence Video Storytelling

2025-08-14

Авторы:

Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu

#### Контекст Создание выразительных и информативных видео с говорящими персонажами и глубокой интеграцией сценария представляет собой трудную задачу, которая часто ограничивается техническими и творческими возможностями существующих фреймворков. Они сталкиваются с проблемами, такими как слабая помощь пользователям, низкое качество визуальных эффектов и ограниченность выразительности. Например, развивающиеся фреймворки для рассказа историй через видео часто сталкиваются с трудностями в создании сценариев, которые требуют глубокого понимания художественного контекста и выразительных возможностей. Наша мотивация заключается в развитии расширенного комплексного подхода, который мог бы улучшить качество генерируемых видео, увеличить выразительность и сделать их более помогающими для пользователей. #### Метод MAViS (Multi-Agent Video Storytelling) представляет собой современный фреймворк, в котором работают специализированные агенты в разных стадиях процесса рассказа историй с помощью видео. Фреймворк состоит из шести модулей: сценарийная работа, разработка выступления, моделирование персонажей, генерация ключевых кадров, анимация видео и генерация аудио. Каждый модуль придерживается 3E-принципа — Explore (изучение возможностей), Examine (оценка результатов) и Enhance (улучшение результатов). Для улучшения совместимости с набором существующих генерирующих моделей, мы предлагаем Script Writing Guidelines. Эти рекомендации оптимизируют создание сценариев, которые лучше доступны и эффективны для работы с генеративными моделями. Наш подход решает проблемы слабой помощи и несоответствия между пользовательскими вводом и итоговым выходом. #### Результаты Мы проверили MAViS на различных данных, включая тестовые видео, произведенные вручную и пользовательские пробы. Наши эксперименты показали, что MAViS превосходит другие фреймворки в трех основных аспектах: помощь пользователю, качество визуальных эффектов и выразительность видео. Например, тесты показали, что MAViS значительно улучшает структуруки сценариев, повышает качество генерируемых кадров и увеличивает уровень выразительности финального видео. Эти результаты подтверждают эффективность нашего подхода в создании высококачественных и интересных видео для рассказа историй. #### Значимость MAViS может быть применен в различных областях, таких как творческое производство, образовательные видео, реклама и видеоигры. Он предоставляет пользователям возможность легко создавать высококачественные видео с глубоким сценарием, которые требуют меньше времени и усилий. Одним из осно

Annotation:

Despite recent advances, long-sequence video generation frameworks still suffer from significant limitations: poor assistive capability, suboptimal visual quality, and limited expressiveness. To mitigate these limitations, we propose MAViS, an end-to-end multi-agent collaborative framework for long-sequence video storytelling. MAViS orchestrates specialized agents across multiple stages, including script writing, shot designing, character modeling, keyframe generation, video animation, and audio...

ID: 2508.08487v1 cs.CV, cs.AI, cs.MA

arXiv PDF

📄 Not in My Backyard! Temporal Voting Over Public Chores

2025-08-14

Авторы:

Edith Elkind, Tzeh Yuan Neoh, Nicholas Teh

#### Контекст Многие общественные проекты, такие как строительство дорог или сбор мусора, носят общеблагоприятный характер, но при этом могут вызывать отрицательные последствия для конкретных групп населения. Эти проекты, называемые "публичными хлопьями" (public chores), требуют от их участников вкладывать время, деньги или усилия. Тем не менее, их выполнение часто приводит к возражениям от тех, кто не желает платить цену за выгоду других. В модели "Not in My Backyard!" (NIMBY) исследователи изучают вопросы выбора и временного распределения таких проектов, учитывая динамические предпочтения участников. Особое внимание уделяется сложности вычислений для оптимизации социального блага и равенства. #### Метод В модели исследования участники имеют динамические предпочтения по отношению к проектам, которые могут производить пользу, но также вносить негативные последствия. Исследователи используют модель "темпорального голосования" (temporal voting), где каждый проект имеет свой штраф и польза, которые меняются во времени. Методология включает анализ сложности вычислений для оптимального распределения проектов с учетом этих динамических предпочтений. Решения разделяются на точные, приближенные и эвристические. Особое внимание уделяется ситуациям, где модель может быть эффективно решена, и к факторам влияющим на то, как сильно голосование влияет на социальное благо. #### Результаты Исследователи выявили, что оптимизация утилитарного блага (то есть максимизация всей пользы для общества) является простой задачей, которую можно решить в линейном времени. Однако оптимизация равенства (максимизация минимального блага для любого участника) оказалась гораздо сложнее и в большинстве случаев является вычислительно нерешаемой (NP-трудно). Тем не менее, в некоторых ограниченных случаях были найдены эффективные алгоритмы для ее решения. Исследователям удалось также проанализировать влияние временной справедливости (temporal fairness) на социальное благо и изучить эффективность онлайн-алгоритмов, работающих с динамическими входными данными. #### Значимость Результаты имеют широкие применения в области управления общественными ресурсами и принятия решений в условиях неопределенности. Например, модель может применяться для решения проблем с размещением общественных проектов, где необходимо учитывать временные предпочтения участников. Одним из основных преимуществ является возможность эффективного распределения ресурсов с учетом временных изменений предпочтений. Будущие исследования могут сосредоточиться на улучшении алгоритмов для более сложных случаев и на изучении других методов, которые могут повысить сп

Annotation:

We study a temporal voting model where voters have dynamic preferences over a set of public chores -- projects that benefit society, but impose individual costs on those affected by their implementation. We investigate the computational complexity of optimizing utilitarian and egalitarian welfare. Our results show that while optimizing the former is computationally straightforward, minimizing the latter is computationally intractable, even in very restricted cases. Nevertheless, we identify seve...

ID: 2508.08810v1 cs.GT, cs.AI, cs.MA, econ.TH

arXiv PDF

📄 Multi-Dimensional Summarization Agents with Context-Aware Reasoning over Enterprise Tables

2025-08-13

Авторы:

Amit Dhanda

## Контекст Структурированная данная в виде таблиц широко используется для организации и анализа бизнес-данных. Однако традиционные модели подхода "таблица-текст" (table-to-text) часто страдают от нехватки возможности рационального понимания и анализа данных, особенно в контексте многомерных структур. Это приводит к недостатку в ключевых решающих оценках, необходимых для анализа и отчетности. Наша модель ориентирована на решение этих проблем, предлагая расширенную модель с многоагентной архитектурой, которая может выполнять контекст-свойственные выводы и выявлять значимые изменения в структурированных данных. ## Метод Мы предлагаем многоагентную пайплайн-модель, включающую в себя следующие компоненты: 1. **Slicing Agent**: Идентифицирует и извлекает подходящие подмножества данных для рассмотрения. 2. **Variance Detection Agent**: Определяет изменения и дельты в данных, будучи включенным в расчет контекстной структуры. 3. **Context Construction Agent**: Строит контекстные представления, используя логические рассуждения и связующие связи. 4. **LLM-Based Generation Agent**: Использует генеративную модель типа Large Language Model (LLM) для формирования окончательных выводов и рекомендаций. Этот многоагентный подход позволяет создавать более точные и релевантные сводки, которые не только выделяют значимые тенденции, но и учитывают контекстные изменения. ## Результаты Мы провели эксперименты на широко известных Kaggle-данных для сравнения с традиционными моделями. Наша модель демонстрирует несколько преимуществ: - **Faithfulness to Data**: 83%, что значительно выше значений, достигнутых при использовании традиционных способов. - **Coverage of Significant Changes**: Наша модель лучше обнаруживает и освещает ключевые изменения, что особенно важно для бизнес-анализа. - **Relevance Scores**: Оценка релевантности выводов составила 4.4 из 5, что указывает на высокую качественную степень оценок. Мы также отметили, что наш подход эффективен в задачах, требующих дополнительного контекста, таких как сделки с ценовыми изменениями, при которых отмечается увеличение дохода, но снижение объема продаж. ## Значимость Этот подход может быть применен в различных сферах, включая бизнес-анализ, финансовый мониторинг, и любые другие области, где требуется анализ сложных табличных данных. Особый потенциал заключается в улучшении решающих процессов, обеспечение более точных сводных выводов и помощь в принятии ключевых решений. ## Выводы Мы предложили расширенную модель с многоагентной архитектурой, включающую контекст-свойственные выводы и анализ данных. Модель демонстрирует значительные улучшения в областях faithfulness, coverage, и relevance. Мы намерены продолжить разви

Annotation:

We propose a novel framework for summarizing structured enterprise data across multiple dimensions using large language model (LLM)-based agents. Traditional table-to-text models often lack the capacity to reason across hierarchical structures and context-aware deltas, which are essential in business reporting tasks. Our method introduces a multi-agent pipeline that extracts, analyzes, and summarizes multi-dimensional data using agents for slicing, variance detection, context construction, and L...

ID: 2508.07186v1 cs.AI, cs.MA

arXiv PDF

📄 LLM-based Agents for Automated Confounder Discovery and Subgroup Analysis in Causal Inference

2025-08-13

Авторы:

Po-Han Lee, Yu-Cheng Lin, Chan-Tung Ku, Chan Hsu, Pei-Cing Huang, Ping-Hsun Wu, Yihuang Kang

## Контекст Оценка индивидуальных лечебных эффектов из исследовательских данных представляет сложность, ограниченную неизмеренными конфундирующими факторами и структурными склейками. Методы машинного обучения для выявления причинных связей, такие как деревья причинно-следственных связей и удвоенно-надежные оценки, позволяют приблизительно оценивать условные средние эффекты лечения. Однако, в реальных условиях, особенно при наличии неизвестных конфундирующих факторов или когда конфундирующие факторы описаны неструктурированными данными, эти методы оказываются неэффективными. Более того, поиск и интерпретация конфундирующих факторов часто требует вклада специалистов, что приводит к высоким затратам на аннотацию и ограниченной масштабируемости. В данной работе мы предлагаем использовать Large Language Model (LLM)-based агентов для автоматической выявления конфундирующих факторов и анализа подгрупп в рамках методов статистической выявления причинных связей. Наш предложенный подход интегрирует LLM-based агентов в цепочку методов машинного обучения для выявления причинных связей, уменьшая зависимость от экспертов и сохраняя понимание механизмов работы системы. ## Метод Мы разработали рамочный подход, который использует LLM-based агентов в качестве компонентов системы для выявления конфундирующих факторов и анализа подгрупп в статистической выявлении причинных связей. Наш подход включает два основных этапа: выявление конфундирующих факторов и анализ подгрупп. Первый этап использует LLM-based агентов для автоматического выявления тем, которые могут служить конфундирующими факторами в данных, исходя из семантического контекста и паттернов в данных. Второй этап использует эти выявленные конфундирующие факторы для уточнения подгрупп, используя методы условных оценок, таких как деревья причинно-следственных связей и удвоенно-надежные оценки. Этот подход использует мощь LLM-based агентов для автоматизации задач, которые раньше требовали ручного вмешательства экспертов, избавляя от затрат и ограничений масштабирования. ## Результаты Мы провели эксперименты на реальных медицинских данных, включая данные по лечению рака и заболеваний сердца. Мы сравнили нашу методику с существующими подходами к выявлению конфундирующих факторов и оценке индивидуальных лечебных эффектов. Наши эксперименты показали, что LLM-based агенты обеспечивают более точную оценку индивидуальных лечебных эффектов, сужая доверительные интервалы и выявляя незамеченные ранее конфундирующие факторы. Особенно выдающимся было

Annotation:

Estimating individualized treatment effects from observational data presents a persistent challenge due to unmeasured confounding and structural bias. Causal Machine Learning (causal ML) methods, such as causal trees and doubly robust estimators, provide tools for estimating conditional average treatment effects. These methods have limited effectiveness in complex real-world environments due to the presence of latent confounders or those described in unstructured formats. Moreover, reliance on d...

ID: 2508.07221v1 cs.LG, cs.AI, cs.MA, stat.AP, stat.ME

arXiv PDF

📄 Noise-Aware Generative Microscopic Traffic Simulation

2025-08-13

Авторы:

Vindula Jayawardana, Catherine Tang, Junyi Ji, Jonah Philion, Xue Bin Peng, Cathy Wu

## Контекст Одним из ключевых задач в интеллектуальных системах транспорта является точное моделирование индивидуального поведения транспортных средств на уровне микроскопической симуляции. Это необходимо для реалистичного генерирования и реакции на сложные транспортные явления, такие как фантомные подвисания трафика. Традиционные модели движения транспортных средств справляются с этой задачей за счет упрощения, отдавая при этом сложность. С другой стороны, появление новых данных, полученных с помощью инфраструктурных камер, предоставило новые возможности для развития агентно-ориентированных моделей. Однако существующие данные часто являются чистыми или нестандартными, что не соответствует реальной сложности данных сенсоров. Наша работа ориентирована на создание новых моделей, признавающих шум и неточности в данных, чтобы сделать модели более реалистичными и применимыми в практике. ## Метод Мы применяем адаптированные стратегии шум-сознательного обучения, применяющиеся в компьютерном зрении, для моделирования трафика на основе данных сенсоров. В частности, мы используем генерирующую модель, адаптированную с помощью шум-сознательных функций потерь. Эти модели генерируют трафик, учитывая характерные ошибки и неточности, такие как разброс данных и ошибки сенсоров. Для этого мы используем I-24 MOTION Scenario Dataset (I24-MSD), который содержит реальные данные сенсоров и позволяет тренировать модели, учитывая эти недостатки. Это позволяет создавать более реалистичные симуляции трафика, учитывая реальные сложности. ## Результаты Модели, использующие шум-сознательные функции потерь, показали лучшую реалистичность в сравнении с традиционными моделями. Мы проводили эксперименты с разными уровнями шума в данных и проверяли качество моделей на разных показателях. Наши результаты показывают, что при увеличении шума модели становятся более реалистичными и устойчивыми. Это указывает на то, что модели, учитывающие шум в данных, более приближены к реальности и могут более точно отражать сложности транспортных систем. ## Значимость Мы видим применение нашей модели в различных областях, таких как планирование трафика, прогнозирование движения транспорта и разработка систем управления. Наш подход позволяет создавать более реалистичные и устойчивые модели, учитывающие реальные характеристики данных сенсоров. Эта технология может способствовать улучшению безопасности и эффективности транспортных систем, а также облегчить разработку новых систем управления трафиком. ## Выводы Мы доказали, что модели, учитывающие шум в данных, могу

Annotation:

Accurately modeling individual vehicle behavior in microscopic traffic simulation remains a key challenge in intelligent transportation systems, as it requires vehicles to realistically generate and respond to complex traffic phenomena such as phantom traffic jams. While traditional human driver simulation models offer computational tractability, they do so by abstracting away the very complexity that defines human driving. On the other hand, recent advances in infrastructure-mounted camera-base...

ID: 2508.07453v1 eess.SY, cs.AI, cs.MA, cs.RO, cs.SY

arXiv PDF

1
2
13
14
15
16
17

Показано 141 - 150 из 161 записей