📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Helbert Paat, Guohao Shen
#### Контекст
Повышение качества классификационных задач через взаимодействие человека и искусственного интеллекта (Human-AI Collaboration) становится все более востребованным в современной технологической среде. Ранее исследования оптимизировали отдельно взаимодействие человека с моделью или с другими экспертами. С другой стороны, в данной работе авторы уделяют внимание выбору эксперта из пула нескольких экспертов, чтобы использовать их выводы в сочетании с набором прогнозных множеств, полученных с помощью классификатора. Эта адаптивная модель взаимодействия позволяет лучше использовать сильные стороны каждого эксперта, учитывая специфику каждой конкретной задачи.
#### Метод
Авторы предлагают метод, основанный на идее "конформальных множеств" (conformal sets) для выбора экспертов из разнообразного пула. Метод использует подход жадного выбора (greedy algorithm), чтобы выбирать подмножество экспертов для каждой конкретной задачи. Конформальные множества позволяют оценивать достоверность прогнозов каждого эксперта и выбирать те, которые дают более точные и надежные выводы. Эта стратегия работает с целью повысить точность и эффективность взаимодействия человека с несколькими экспертами. Данный подход демонстрирует, как можно адаптировать выбор экспертов в зависимости от характера каждой конкретной задачи классификации.
#### Результаты
В экспериментах использовались данные из CIFAR-10H и ImageNet-16H, демонстрирующих реальные прогнозы экспертов. Авторы сравнили свой подход с традиционными методами выбора экспертов. Результаты показали, что использование конформальных множеств для выбора подмножества экспертов приводит к значительному повышению точности классификации. Алгоритм, предложенный в работе, показал значительное повышение качества в сравнении с базовыми методами, в том числе в ситуациях, когда не все эксперты в пуле дают точные прогнозы.
#### Значимость
Предложенный подход имеет широкое применение в системах поддержки решений, где необходима высокая точность в классификации. Он может быть применен в медицине, юриспруденции, технической поддержке и других областях, где взаимодействие человека с несколькими экспертами критически важно. Преимущество этого подхода заключается в том, что он позволяет адаптировать выбор экспертов под специфику каждой конкретной задачи, что увеличивает точность и эффективность взаимодействия.
#### Выводы
Работа доказывает, что выбор подмножества экспертов, основанный на конформальных множествах, может значительно повысить качество классификации в сравнении с базовыми методами. Будущие исследования могут направляться на уточнение алгоритмов вы
Annotation:
Decision support systems are designed to assist human experts in
classification tasks by providing conformal prediction sets derived from a
pre-trained model. This human-AI collaboration has demonstrated enhanced
classification performance compared to using either the model or the expert
independently. In this study, we focus on the selection of instance-specific
experts from a pool of multiple human experts, contrasting it with existing
research that typically focuses on single-expert scenarios...
Авторы:
Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling
## Контекст
В последние годы привлекательность исследований в области мультиагентных систем поднимается в связи с ростом интереса к системам, требующим коллективного участия множества субъектов. Одним из ключевых аспектов этой области является "адекватное ад-хок-сотрудничество", где агенты необходимо адекватно реагировать на неизвестных или неожиданных партнеров во время выполнения задач. Несмотря на прогресс в зонах тренировки, оценки и оптимизации мультиагентных систем, основной проблемой является выделение партнеров, которые могут способствовать эффективному обучению в автономных условиях, без ручного вмешательства. Это сделано необходимым тем, что подготовленные предварительно партнеры часто не могут полностью отражать широкий спектр возможных стилей игры, что ставит под угрозу качество обучения и рост потенциала робота.
## Метод
Мы предлагаем Unsupervised Partner Design (UPD) - рамочный подход к генерации партнеров для ад-хок-сотрудничества в автономной среде, который не требует предварительно тренированных партнеров, никаких приведенных параметров, или дополнительных знаний о статистике партнеров. UPD опирается на методы стохастического смешивания политик агента с различными случайными поведениями, которое позволяет создавать диверсные партнеры. Эти партнеры, в свою очередь, оцениваются с помощью метрики learnability, ориентированной на максимизацию многообразия в стилях игры и улучшение качества обучения агента. Этот подход включает в себя гибкие модификации индивидуальной политики агента, гарантирующие, что партнеры будут достаточно сложными для продолжительного обучения.
## Результаты
Мы провели эксперименты на двух популярных средах: Overcooked-AI и решении Overcooked Generalisation Challenge. Метод UPD показал себя как более эффективен по сравнению с популяционными и популяционно-свободными методами. Мы рассмотрели вычислительные результаты в терминах значения вознаграждения, качества обучения, и подкреплено это тем, что UPD адаптируется быстрее и демонстрирует более стабильные результаты в динамических ситуациях. Особое внимание уделено тому, что UPD может успешно интегрироваться с Unsupervised Environment Design, создавая первую методику, которая полностью независима от ручных настроек и может создавать гибкие курсы обучения как в партнерских, так и в средственных аспектах.
## Значимость
UPD демонстрирует потенциал для серьезного расширения возможностей в области мультиагентного обучения, особенно в условиях автономного тренирования. Он позволяет создавать более гибкие и прочные партнеры для коллективной работы, что может быть применимо в таких сферах, как
Annotation:
We introduce Unsupervised Partner Design (UPD) - a population-free,
multi-agent reinforcement learning framework for robust ad-hoc teamwork that
adaptively generates training partners without requiring pretrained partners or
manual parameter tuning. UPD constructs diverse partners by stochastically
mixing an ego agent's policy with biased random behaviours and scores them
using a variance-based learnability metric that prioritises partners near the
ego agent's current learning frontier. We show ...