📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Talk Isn't Always Cheap: Understanding Failure Modes in Multi-Agent Debate

2025-09-10

Авторы:

Andrea Wynn, Harsh Satija, Gillian Hadfield

#### Контекст Многоагентная дебатная система (multi-agent debate) предлагается как мощный подход для улучшения рациональности и абстрактного мышления у искусственных интеллектов. Однако существуют опасения, что дебаты могут приводить к негативным последствиям, вместо того чтобы способствовать повышению качества решений. До этого исследования ограничивались рассмотрением дебатирующих агентов с одинаковыми уровнями производительности. Наше исследование фокусируется на влиянии разнообразия моделей на динамику и результаты многоагентных дебатов. Мы выясняем, почему дебатирующие агенты могут постепенно деградировать в своих ответах, даже когда сильные модели преобладают над слабыми. #### Метод Мы используем модели текстового понимания, оптимизированные для реакции на дискуссионные задачи. Наша методология включает в себя моделирование разных уровней моделей – от простых до сложных – в рамках дебатирующих конференций. Мы проводим эксперименты, воспроизводя ситуации, в которых модели должны выбирать между «правдой» и «ложностью», а также рассматриваем сценарии, когда модели должны противостоять предложенным аргументам. Мы применяем множество метрик для измерения точности ответов и степени сдвига от самостоятельного мышления к групповому согласованию. #### Результаты Наши эксперименты показали, что дебатирующие модели часто склоняются к согласию с некорректными аргументами, предпочитая согласие над правдой. Это происходит даже тогда, когда в системе преобладают сильные модели. Мы обнаружили, что модели влияют друг на друга с помощью подкрепленного обучения, но часто это приводит к деградирующим результатам. Например, наиболее производительные модели могут сдвинуться в ответ на неточные аргументы слабых моделей, демонстрируя тенденцию к ложному согласию. Эти результаты подтверждают, что дебаты могут привести к ухудшению точности, если агенты не могут эффективно противостоять неадекватным аргументам. #### Значимость Наша работа открывает новые требования к разработке систем, которые могут тщательно изучить и устранить эти слабые места в многоагентных системах. Например, в приложениях, где необходимо определенное количество точности (например, в судебно-технической практике), эти проблемы могут иметь серьезные последствия. Мы открываем новый подход к эффективному информированию моделей, чтобы они могли выходить за рамки группового согласия и поддерживать корректные решения. Это может привести к улучшению значительного класса систем, включая коллективное решение проблем и обучение моделей. #### Выводы Мы уста

Annotation:

While multi-agent debate has been proposed as a promising strategy for improving AI reasoning ability, we find that debate can sometimes be harmful rather than helpful. The prior work has exclusively focused on debates within homogeneous groups of agents, whereas we explore how diversity in model capabilities influences the dynamics and outcomes of multi-agent interactions. Through a series of experiments, we demonstrate that debate can lead to a decrease in accuracy over time -- even in setting...

ID: 2509.05396v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 DeepMEL: A Multi-Agent Collaboration Framework for Multimodal Entity Linking

2025-08-26

Авторы:

Fang Wang, Tianwei Yan, Zonghao Yang, Minghao Hu, Jun Zhang, Zhunchen Luo, Xiaoying Bai

## Контекст Multimodal Entity Linking (MEL) — это задача, связанная с семантическим сопоставлением текстовых и визуальных упоминаний с сущностями в многомедийном знании. Она широко применяется в сферах, таких как видеореконструкция, рекомендательные системы и визуальные поисковые системы. Однако существующие методы сталкиваются с проблемами, такими как неполнота контекстной информации, неэффективное совмещение многоканальных данных и сложность интеграции современных больших языковых моделей (LLMs) и визуальных моделей (LVMs). Эти ограничения приводят к низкой точности и недостаточному разрешению сущностей. Мотивация для DeepMEL заключается в развитии более эффективного подхода к решению этих проблем, обеспечивая более точное и быстрое сравнение многоканальных данных. ## Метод DeepMEL представляет собой рамочный подход, основанный на многоагентном системном рассуждении, чтобы решить задачи MEL. Он разделяет задачи на четыре специализированных агента: Modal-Fuser, Candidate-Adapter, Entity-Clozer и Role-Orchestrator. Modal-Fuser объединяет текстовую и визуальную информацию, а Candidate-Adapter динамически выбирает кандидатов для связи. Entity-Clozer разрешает неоднозначность, а Role-Orchestrator гарантирует динамическое взаимодействие между агентами. Эта структура обеспечивает эффективное выравнивание и разрешение модальностей. Метод также включает двойной путь сравнения модальностей, который объединяет текстовые семантические структуры, создаваемые LLMs, и визуальные структуры, извлекаемые LVMs. Это позволяет уменьшить разрыв между модальностями и повысить точность. ## Результаты Проведенные эксперименты на пяти открытых наборах данных показали, что DeepMEL превосходит текущие стандарты по метрике ACC с увеличением от 1% до 57%. Использовались большие наборы данных, такие как Flickr30K, Conceptual Captions и VG-VQA. Детальные анализы показали, что каждый модуль системы вносит свой вклад в улучшение результатов. Адаптивная стратегия итерации, комбинирующая инструментальную оптимизацию и семантическое обобщение, позволяет многоагентной системе устойчиво повышать качество работы. ## Значимость DeepMEL имеет значительное значение в приложениях, таких как видеопоиск, визуальная развлекательная система, интеллектуальные системы рекомендаций и медицинская информатика. Его мощь заключается в уменьшении разрыва модальностей, улучшении точности и эффективности. Эта система может повлиять на развитие систем видеоанализа и контент-ранжирования, предоставив новые возможности для семантического сравнения видео и текстовых данных. ## Выводы DeepMEL достигает состояния лидера в области MEL благодаря использованию многоа

Annotation:

Multimodal Entity Linking (MEL) aims to associate textual and visual mentions with entities in a multimodal knowledge graph. Despite its importance, current methods face challenges such as incomplete contextual information, coarse cross-modal fusion, and the difficulty of jointly large language models (LLMs) and large visual models (LVMs). To address these issues, we propose DeepMEL, a novel framework based on multi-agent collaborative reasoning, which achieves efficient alignment and disambigua...

ID: 2508.15876v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 Every 28 Days the AI Dreams of Soft Skin and Burning Stars: Scaffolding AI Agents with Hormones and Emotions

2025-08-19

Авторы:

Leigh Levinson, Christopher J. Agostino

## Контекст Основной вызов для современных систем искусственного интеллекта (AI) заключается в разрешении фрейм-проблемы: определение того, какие данные являются контекстуально значимыми из экспоненциально большого поискового пространства. Авторы предполагают, что биологические ритмы, особенно гормональные циклы, могут стать натуральным механизмом фильтрации контекстной релевантности. Исследование адресует эту проблему, опираясь на гипотезу о возможности использования таких ритмов для улучшения контекстной семантической фильтрации в AI-системах. Работа также исследует влияние субьективных закрепленных в текстовых моделях нормативных представлений о гендере и биологической дифференциации. ## Метод Методология основывается на модификации Large Language Models (LLM) с помощью системных промптов, которые включают симуляцию гормональных циклов. Эти циклы описываются периодическими функциями, обозначающими ключевые гормоны, такие как эстрадиол, тестостерон и кортизол. LLM обучаются на больших объемах текстовых данных, включая сценарии разговорных ситуаций и эмоциональные реакции. Формальные гипотезы о том, как эти гормоны влияют на стиль и эмоциональную интенсивность текста, формулируются и проверяются с помощью метрик, отслеживающих изменения в семантической и эмоциональной нагрузке. ## Результаты Эксперименты показывают, что включение гормональных циклов в LLM приводит к изменению стиля и эмоционального тембра текста в зависимости от симулируемого цикла. Например, эмоциональные вариации во время менструации (садность) и овуляции (радость) в текстах становятся очевидными. Бенчмаркинг на таких датасетах, как SQuAD, MMLU, Hellaswag и AI2-ARC, показал небольшие но стабильные различия в предсказаниях, соответствующие ожиданиям биологического ритма. Эти результаты подтверждают, что модели, оптимизированные в умеренных гормональных диапазонах, оказываются более эффективными. ## Значимость Полученные результаты открывают новый подход к контекстной обработке информации в AI-системах, позволяя рассматривать гормональные ритмы как средство фильтрации информации. Это может использоваться в сценариях, где необходима более естественная семантическая и эмоциональная реакция. Также исследование выявляет и демонстрирует встроенные в текстовых моделях субьективные представления о роли гендера и биологических характеристик, позволяя проанализировать их последствия для выводов моделей. ## Выводы Результаты указывают на возможность использования гормональных ри

Annotation:

Despite significant advances, AI systems struggle with the frame problem: determining what information is contextually relevant from an exponentially large possibility space. We hypothesize that biological rhythms, particularly hormonal cycles, serve as natural relevance filters that could address this fundamental challenge. We develop a framework that embeds simulated menstrual and circadian cycles into Large Language Models through system prompts generated from periodic functions modeling key ...

ID: 2508.11829v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

Показано 11 - 14 из 14 записей