📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MATRIX: Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation

2025-08-28

Авторы:

Ernest Lim, Yajie Vera He, Jared Joselowitz, Kate Preston, Mohita Chowdhury, Louis Williams, Aisling Higham, Katrina Mason, Mariane Melo, Tom Lawton, Yan Jia, Ibrahim Habli

## Контекст Клинические диалоговые системы, основанные на больших языковых моделях (LLMs), приобрели популярность в медицине, но их оценка ставится перед значимыми вызовами. Основными проблемами являются: подробности безопасности, контекстуальные особенности бесед, реалистичность симулированных диалогов и оценка рисков. Настоящая работа призвана создать рамку для безопасных и контекстуально правильных экспериментов, позволяющую получать представление о рисках и возможностях клинических диалоговых агентов. ## Метод MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation) представляет собой расширяемую, структурированную систему для оценки клинических диалоговых агентов. Он состоит из: (1) безопасности-ориентированной таксономии, определяющей клинические сценарии, ожидаемое поведение системы и предполагаемые недостатки; (2) BehvJudge, LLM-ориентированной системы оценки, проверенной экспертами на выявление безопасности в диалогах; (3) PatBot, симулятора пациента, моделирующего разнообразные сценарии и поведения, проверенного с помощью знаний человеческих факторов и предпочтений пациентов. ## Результаты В трех экспериментах была продемонстрирована эффективность MATRIX в безопасной оценке диалоговых агентов. Особое внимание уделено BehvJudge, которая успешно оценивала 240 диалогов с F1-метрикой 0.96 и температурой 0.999, выигрывая при этом перед клиниками в безупречном выявлении небезопасных ситуаций. Кроме того, PatBot был оценен как надежный симулятор реальных поведений пациентов в клинических сценариях, с помощью численных и текстовых экспериментов. С помощью MATRIX было проведено 2100 диалогов в 14 сценариях опасности и 10 клинических областях, которое позволило сравнить 5 LLM-диалоговых агентов. ## Значимость MATRIX представляет собой первую систему, которая объединяет безопасность-ориентированные методы системного анализа и масштабируемую оценку контекстуальных клинических диалогов. Он может использоваться для регуляторного аудита, включая оценку рисков и безопасности в больших языковых моделях, применяемых в клинических системах, и позволяет развивать безопасные, реалистичные и контекстуально правильные клинические диалоговые системы. ## Выводы MATRIX позволяет систематически и масштабно оценивать безопасность клинических диалоговых агентов. Он оказывается эффективным для выявления рисков, оценки реалистичности и создания надежных клинических диалоговых систем. Будущими направлениями исследований будет расширение кросс-доменных о

Annotation:

Despite the growing use of large language models (LLMs) in clinical dialogue systems, existing evaluations focus on task completion or fluency, offering little insight into the behavioral and risk management requirements essential for safety-critical systems. This paper presents MATRIX (Multi-Agent simulaTion fRamework for safe Interactions and conteXtual clinical conversational evaluation), a structured, extensible framework for safety-oriented evaluation of clinical dialogue agents. MATRIX i...

ID: 2508.19163v1 cs.AI, cs.HC, cs.MA, 68T50, 68T42, 92C50, 68Q60, I.2.0; J.3

arXiv PDF

📄 The Social Context of Human-Robot Interactions

2025-08-21

Авторы:

Sydney Thompson, Kate Candon, Marynel Vázquez

## Контекст Область исследований Human-Robot Interaction (HRI) становится все более значимой в связи с развитием робототехники и ИИ. Одной из ключевых проблем является понятие "социальный контекст", которое используется в разных контекстах и может приводить к непониманию между учеными. Это создает затруднения при создании и проверке моделей поведения роботов. Мотивация для этого исследования заключается в том, чтобы улучшить понимание такого значимого аспекта и создать модель, которая поможет взаимодействовать с роботами в разных социальных ситуациях. ## Метод Для изучения социального контекста HRI была проведена литературная серверная запись, рассмотрев существующие работы и определения. Затем был разработан концептуальный модель, который описывает социальный контекст взаимодействия. Образцами исследования стали различные данные, включая исследования, эксперименты, а также практические приложения. Методы включали анализ документов, моделирование ситуаций, а также симуляционные эксперименты для исследования поведения роботов в различных социальных условиях. ## Результаты Исследование выявило различные аспекты социального контекста, включая роль социальных знаний, ситуационных условий и личных отношений. На основе модели было проведено несколько экспериментов, где системы были протестированы на возможности взаимодействия в различных социальных ситуациях. Результаты показали, что модель может улучшить понимание поведения роботов и предоставить инструменты для разработки более эффективных моделей взаимодействия с людьми. ## Значимость Результаты имеют широкое применение в разработке роботов для социальных задач, таких как помощь в старческих домах, обучение, новости и поиск. Одним из основных преимуществ является улучшение моделей взаимодействия, что позволяет роботам лучше понимать и реагировать на поведение человека. Это также может повысить эффективность роботов в решении реальных проблем в социальных ситуациях. ## Выводы Основные достижения исследования заключаются в том, что была разработана модель социального контекста, которая может применяться в различных ситуациях. На будущее, необходимо продолжить работу над совершенствованием моделей, в том числе расширение моделей с целью улучшить понимание неявных сигналов и учета разнообразия социальных факторов. Будущие исследования также должны сосредоточиться на тестировании моделей в реальных условиях для доказательства их эффективности в реальных постановках.

Annotation:

The Human-Robot Interaction (HRI) community often highlights the social context of an interaction as a key consideration when designing, implementing, and evaluating robot behavior. Unfortunately, researchers use the term "social context" in varied ways. This can lead to miscommunication, making it challenging to draw connections between related work on understanding and modeling the social contexts of human-robot interactions. To address this gap, we survey the HRI literature for existing defin...

ID: 2508.13982v1 cs.RO, cs.AI, cs.HC, cs.MA, I.2.9; I.2

arXiv PDF

📄 Conformal Set-based Human-AI Complementarity with Multiple Experts

2025-08-13

Авторы:

Helbert Paat, Guohao Shen

#### Контекст Повышение качества классификационных задач через взаимодействие человека и искусственного интеллекта (Human-AI Collaboration) становится все более востребованным в современной технологической среде. Ранее исследования оптимизировали отдельно взаимодействие человека с моделью или с другими экспертами. С другой стороны, в данной работе авторы уделяют внимание выбору эксперта из пула нескольких экспертов, чтобы использовать их выводы в сочетании с набором прогнозных множеств, полученных с помощью классификатора. Эта адаптивная модель взаимодействия позволяет лучше использовать сильные стороны каждого эксперта, учитывая специфику каждой конкретной задачи. #### Метод Авторы предлагают метод, основанный на идее "конформальных множеств" (conformal sets) для выбора экспертов из разнообразного пула. Метод использует подход жадного выбора (greedy algorithm), чтобы выбирать подмножество экспертов для каждой конкретной задачи. Конформальные множества позволяют оценивать достоверность прогнозов каждого эксперта и выбирать те, которые дают более точные и надежные выводы. Эта стратегия работает с целью повысить точность и эффективность взаимодействия человека с несколькими экспертами. Данный подход демонстрирует, как можно адаптировать выбор экспертов в зависимости от характера каждой конкретной задачи классификации. #### Результаты В экспериментах использовались данные из CIFAR-10H и ImageNet-16H, демонстрирующих реальные прогнозы экспертов. Авторы сравнили свой подход с традиционными методами выбора экспертов. Результаты показали, что использование конформальных множеств для выбора подмножества экспертов приводит к значительному повышению точности классификации. Алгоритм, предложенный в работе, показал значительное повышение качества в сравнении с базовыми методами, в том числе в ситуациях, когда не все эксперты в пуле дают точные прогнозы. #### Значимость Предложенный подход имеет широкое применение в системах поддержки решений, где необходима высокая точность в классификации. Он может быть применен в медицине, юриспруденции, технической поддержке и других областях, где взаимодействие человека с несколькими экспертами критически важно. Преимущество этого подхода заключается в том, что он позволяет адаптировать выбор экспертов под специфику каждой конкретной задачи, что увеличивает точность и эффективность взаимодействия. #### Выводы Работа доказывает, что выбор подмножества экспертов, основанный на конформальных множествах, может значительно повысить качество классификации в сравнении с базовыми методами. Будущие исследования могут направляться на уточнение алгоритмов вы

Annotation:

Decision support systems are designed to assist human experts in classification tasks by providing conformal prediction sets derived from a pre-trained model. This human-AI collaboration has demonstrated enhanced classification performance compared to using either the model or the expert independently. In this study, we focus on the selection of instance-specific experts from a pool of multiple human experts, contrasting it with existing research that typically focuses on single-expert scenarios...

ID: 2508.06997v1 cs.LG, cs.AI, cs.HC, cs.MA

arXiv PDF

📄 Unsupervised Partner Design Enables Robust Ad-hoc Teamwork

2025-08-12

Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling

## Контекст В последние годы привлекательность исследований в области мультиагентных систем поднимается в связи с ростом интереса к системам, требующим коллективного участия множества субъектов. Одним из ключевых аспектов этой области является "адекватное ад-хок-сотрудничество", где агенты необходимо адекватно реагировать на неизвестных или неожиданных партнеров во время выполнения задач. Несмотря на прогресс в зонах тренировки, оценки и оптимизации мультиагентных систем, основной проблемой является выделение партнеров, которые могут способствовать эффективному обучению в автономных условиях, без ручного вмешательства. Это сделано необходимым тем, что подготовленные предварительно партнеры часто не могут полностью отражать широкий спектр возможных стилей игры, что ставит под угрозу качество обучения и рост потенциала робота. ## Метод Мы предлагаем Unsupervised Partner Design (UPD) - рамочный подход к генерации партнеров для ад-хок-сотрудничества в автономной среде, который не требует предварительно тренированных партнеров, никаких приведенных параметров, или дополнительных знаний о статистике партнеров. UPD опирается на методы стохастического смешивания политик агента с различными случайными поведениями, которое позволяет создавать диверсные партнеры. Эти партнеры, в свою очередь, оцениваются с помощью метрики learnability, ориентированной на максимизацию многообразия в стилях игры и улучшение качества обучения агента. Этот подход включает в себя гибкие модификации индивидуальной политики агента, гарантирующие, что партнеры будут достаточно сложными для продолжительного обучения. ## Результаты Мы провели эксперименты на двух популярных средах: Overcooked-AI и решении Overcooked Generalisation Challenge. Метод UPD показал себя как более эффективен по сравнению с популяционными и популяционно-свободными методами. Мы рассмотрели вычислительные результаты в терминах значения вознаграждения, качества обучения, и подкреплено это тем, что UPD адаптируется быстрее и демонстрирует более стабильные результаты в динамических ситуациях. Особое внимание уделено тому, что UPD может успешно интегрироваться с Unsupervised Environment Design, создавая первую методику, которая полностью независима от ручных настроек и может создавать гибкие курсы обучения как в партнерских, так и в средственных аспектах. ## Значимость UPD демонстрирует потенциал для серьезного расширения возможностей в области мультиагентного обучения, особенно в условиях автономного тренирования. Он позволяет создавать более гибкие и прочные партнеры для коллективной работы, что может быть применимо в таких сферах, как

Annotation:

We introduce Unsupervised Partner Design (UPD) - a population-free, multi-agent reinforcement learning framework for robust ad-hoc teamwork that adaptively generates training partners without requiring pretrained partners or manual parameter tuning. UPD constructs diverse partners by stochastically mixing an ego agent's policy with biased random behaviours and scores them using a variance-based learnability metric that prioritises partners near the ego agent's current learning frontier. We show ...

ID: 2508.06336v1 cs.LG, cs.AI, cs.HC, cs.MA

arXiv PDF

Показано 11 - 14 из 14 записей