📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
Bipul Thapa, Biplov Paneru, Bishwash Paneru, Khem Narayan Poudyal
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
This paper presents an Artificial Intelligence (AI) integrated novel approach
to Brain-Computer Interface (BCI)-based wheelchair development, utilizing a
motor imagery right-left-hand movement mechanism for control. The system is
designed to simulate wheelchair navigation based on motor imagery right and
left-hand movements using electroencephalogram (EEG) data. A pre-filtered
dataset, obtained from an open-source EEG repository, was segmented into arrays
of 19x200 to capture the onset of hand m...
Авторы:
Zhaoxun "Lorenz" Liu, Wagner H. Souza, Jay Han, Amin Madani
#### Контекст
Массовые травматические инциденты (Mass Casualty Incidents, MCIs) являются одной из самых сложных ситуаций, с которыми сталкивается система здравоохранения. В течение таких событий требуется быстрая и точная принятия решений относительно перевода пациентов на соответствующие больницы. Такие решения должны учитывать многие факторы, включая уровень акьютности пациентов, специализированные требования к медицинскому обслуживанию, загруженность больниц и аспекты транспортного логистики. Традиционные методы принятия решений часто ограничены в своей точности и скорости, что может привести к ошибкам с трагическими последствиями. Мотивацией для настоящего исследования явилась необходимость создания эффективного агента, поддерживающего решение, оптимизирующего перевод пациентов в таких условиях, а также создания средства массового управления этими решениями.
#### Метод
Для разработки решения была использована методология глубокого reinforcement learning (DRL). Агент был обучен с использованием набора данных, который моделирует разные аспекты MCIs, включая уровни акьютности пациентов, требования к медицинскому обслуживанию и емкость больниц. В качестве технического решения была разработана платформа MasTER, которая представляет собой веб-доступный командный панельный интерфейс для моделирования инцидентов. Агент DRL был интегрирован в этот интерфейс, что позволило проводить эксперименты с целью сравнить различные стратегии принятия решений: чисто ручное управление, коллаборативное управление, где решения принимались взаимодействием человека с агентом, и автоматическое управление, когда решения принимает агент самостоятельно. Эксперименты проводились с участием 30 участников, среди которых 6 экспертов по травматической медицине и 24 неэкспертов, в симуляционных сценариях в Городе Торонто.
#### Результаты
Эксперименты продемонстрировали, что AI-агент значительно повышает качество решений и их постоянность в сравнении с чисто ручным управлением. Травматические эксперты показали лучшие результаты в чисто ручном режиме, но даже они не достигли той точности, которую добился AI-агент. Неэксперты, поддерживаясь AI-агентом, показали результаты, близкие к уровню экспертов, что неожиданно проявилось в сравнении с их неэффективным решательным качеством в автономном режиме (признак p < 0.001). Было также выявлено, что увеличение агентского участия в процессе управления ситуацией приводит к значительному улучшению решений, как в теоретических сценариях, так и в реальной жизни.
#### Значимость
Получ
Annotation:
Mass casualty incidents (MCIs) overwhelm healthcare systems and demand rapid,
accurate patient-hospital allocation decisions under extreme pressure. Here, we
developed and validated a deep reinforcement learning-based decision-support AI
agent to optimize patient transfer decisions during simulated MCIs by balancing
patient acuity levels, specialized care requirements, hospital capacities, and
transport logistics. To integrate this AI agent, we developed MasTER, a
web-accessible command dashboar...
Авторы:
Xiaozhou Ye, Kevin I-Kai Wang
## Контекст
Узкие места в системах Human Activity Recognition (HAR) часто возникают из-за существующей неоднородности в данных, происходящей в результате различий в движении, расположении датчиков и характеристиках физиологии субъектов. Эти различия создают значительные сложности для обучения моделей, которые должны обеспечить устойчивость производительности при работе с несвязанными пользователями. Обычные гиперпараметры, такие как классификаторы и кросс-валидация, часто разбиваются на пользователей или сессии, чтобы увеличить производительность на тестовой выборке. Однако именно это действие может многократно приводить к переобучению моделей, из-за чего они не могут работать должным образом в реальных условиях. Необходимо разработать новый подход, который избавит модели от переобучения и улучшит их общеуниверсальность при работе в разных условиях.
## Метод
Мы предлагаем Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), новый подход, который изменяет подход к выявлению признаков, используя глубокое обучение. TPRL-DG работает на основе автокодирования временных последовательностей, обеспечивая устойчивость к переменным временным зависимостям. Это достигается с помощью Transformer-based autoregressive generator, который учитывает все взаимосвязи в потоке данных. Мы также применяем multi-objective reward function, которая оптимизирует и точность классификации, и уровень общей универсальности. Наша модель также не требует пользовательских метков для обучения, что делает ее более эффективной в реальном мире. Благодаря этому, мы создаем модель, которая может обучаться без дополнительных меток и обеспечивает устойчивость к пользовательским различиям.
## Результаты
Мы проверили нашу модель на двух стандартных датасетах HAR: DSADS и PAMAP2. Наши результаты показывают, что TPRL-DG превосходит другие существующие подходы в области HAR. Мы показали, что модель может обеспечить более высокую точность распознавания действий при работе в разных условиях, включая пользователей, с минимальным количеством предварительной настройки. Также мы отметили, что наш подход выделяется в способности сохранять поток данных во временном диапазоне, что значительно улучшает качество распознавания действий.
## Значимость
Мы показали, что TPRL-DG может применяться в различных сферах, таких как системы здоровья, фитнес-трекинг, а также в системы контекстного опознавания в смарт-домах. Модель обеспечивает эффективность при работе с несвязанными пользователями без необходимости использовать пользовательские метки. Это позволяет увеличить гибкость модели и уменьшить время настройки. Также наш подход может улучшить системы, требующие контекстного опознавани
Annotation:
Human Activity Recognition (HAR) using wearable sensors is crucial for
healthcare, fitness tracking, and smart environments, yet cross-user
variability -- stemming from diverse motion patterns, sensor placements, and
physiological traits -- hampers generalization in real-world settings.
Conventional supervised learning methods often overfit to user-specific
patterns, leading to poor performance on unseen users. Existing domain
generalization approaches, while promising, frequently overlook tempo...
Авторы:
Helbert Paat, Guohao Shen
#### Контекст
Повышение качества классификационных задач через взаимодействие человека и искусственного интеллекта (Human-AI Collaboration) становится все более востребованным в современной технологической среде. Ранее исследования оптимизировали отдельно взаимодействие человека с моделью или с другими экспертами. С другой стороны, в данной работе авторы уделяют внимание выбору эксперта из пула нескольких экспертов, чтобы использовать их выводы в сочетании с набором прогнозных множеств, полученных с помощью классификатора. Эта адаптивная модель взаимодействия позволяет лучше использовать сильные стороны каждого эксперта, учитывая специфику каждой конкретной задачи.
#### Метод
Авторы предлагают метод, основанный на идее "конформальных множеств" (conformal sets) для выбора экспертов из разнообразного пула. Метод использует подход жадного выбора (greedy algorithm), чтобы выбирать подмножество экспертов для каждой конкретной задачи. Конформальные множества позволяют оценивать достоверность прогнозов каждого эксперта и выбирать те, которые дают более точные и надежные выводы. Эта стратегия работает с целью повысить точность и эффективность взаимодействия человека с несколькими экспертами. Данный подход демонстрирует, как можно адаптировать выбор экспертов в зависимости от характера каждой конкретной задачи классификации.
#### Результаты
В экспериментах использовались данные из CIFAR-10H и ImageNet-16H, демонстрирующих реальные прогнозы экспертов. Авторы сравнили свой подход с традиционными методами выбора экспертов. Результаты показали, что использование конформальных множеств для выбора подмножества экспертов приводит к значительному повышению точности классификации. Алгоритм, предложенный в работе, показал значительное повышение качества в сравнении с базовыми методами, в том числе в ситуациях, когда не все эксперты в пуле дают точные прогнозы.
#### Значимость
Предложенный подход имеет широкое применение в системах поддержки решений, где необходима высокая точность в классификации. Он может быть применен в медицине, юриспруденции, технической поддержке и других областях, где взаимодействие человека с несколькими экспертами критически важно. Преимущество этого подхода заключается в том, что он позволяет адаптировать выбор экспертов под специфику каждой конкретной задачи, что увеличивает точность и эффективность взаимодействия.
#### Выводы
Работа доказывает, что выбор подмножества экспертов, основанный на конформальных множествах, может значительно повысить качество классификации в сравнении с базовыми методами. Будущие исследования могут направляться на уточнение алгоритмов вы
Annotation:
Decision support systems are designed to assist human experts in
classification tasks by providing conformal prediction sets derived from a
pre-trained model. This human-AI collaboration has demonstrated enhanced
classification performance compared to using either the model or the expert
independently. In this study, we focus on the selection of instance-specific
experts from a pool of multiple human experts, contrasting it with existing
research that typically focuses on single-expert scenarios...
Авторы:
Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling
## Контекст
В последние годы привлекательность исследований в области мультиагентных систем поднимается в связи с ростом интереса к системам, требующим коллективного участия множества субъектов. Одним из ключевых аспектов этой области является "адекватное ад-хок-сотрудничество", где агенты необходимо адекватно реагировать на неизвестных или неожиданных партнеров во время выполнения задач. Несмотря на прогресс в зонах тренировки, оценки и оптимизации мультиагентных систем, основной проблемой является выделение партнеров, которые могут способствовать эффективному обучению в автономных условиях, без ручного вмешательства. Это сделано необходимым тем, что подготовленные предварительно партнеры часто не могут полностью отражать широкий спектр возможных стилей игры, что ставит под угрозу качество обучения и рост потенциала робота.
## Метод
Мы предлагаем Unsupervised Partner Design (UPD) - рамочный подход к генерации партнеров для ад-хок-сотрудничества в автономной среде, который не требует предварительно тренированных партнеров, никаких приведенных параметров, или дополнительных знаний о статистике партнеров. UPD опирается на методы стохастического смешивания политик агента с различными случайными поведениями, которое позволяет создавать диверсные партнеры. Эти партнеры, в свою очередь, оцениваются с помощью метрики learnability, ориентированной на максимизацию многообразия в стилях игры и улучшение качества обучения агента. Этот подход включает в себя гибкие модификации индивидуальной политики агента, гарантирующие, что партнеры будут достаточно сложными для продолжительного обучения.
## Результаты
Мы провели эксперименты на двух популярных средах: Overcooked-AI и решении Overcooked Generalisation Challenge. Метод UPD показал себя как более эффективен по сравнению с популяционными и популяционно-свободными методами. Мы рассмотрели вычислительные результаты в терминах значения вознаграждения, качества обучения, и подкреплено это тем, что UPD адаптируется быстрее и демонстрирует более стабильные результаты в динамических ситуациях. Особое внимание уделено тому, что UPD может успешно интегрироваться с Unsupervised Environment Design, создавая первую методику, которая полностью независима от ручных настроек и может создавать гибкие курсы обучения как в партнерских, так и в средственных аспектах.
## Значимость
UPD демонстрирует потенциал для серьезного расширения возможностей в области мультиагентного обучения, особенно в условиях автономного тренирования. Он позволяет создавать более гибкие и прочные партнеры для коллективной работы, что может быть применимо в таких сферах, как
Annotation:
We introduce Unsupervised Partner Design (UPD) - a population-free,
multi-agent reinforcement learning framework for robust ad-hoc teamwork that
adaptively generates training partners without requiring pretrained partners or
manual parameter tuning. UPD constructs diverse partners by stochastically
mixing an ego agent's policy with biased random behaviours and scores them
using a variance-based learnability metric that prioritises partners near the
ego agent's current learning frontier. We show ...
📄 GrandJury: A Collaborative Machine Learning Model Evaluation Protocol for Dynamic Quality Rubrics
2025-08-09Авторы:
Arthur Cho
Многоуровневые генеративные модели теперь лежат в основе многих AI-систем, включая создание текстов, суммаризацию, многоходовое рассуждение и контекстуальные диалоги. Однако существующие методы оценки этих моделей основываются на статичных тестах, которые не отражают динамичность пользовательских потребностей и меняющихся реальностей. Мы предлагаем GrandJury — протокол оценки, который использует временную агрегацию, доказательство целостности, а также атрибуцию задач и многокритерийную оценку человеческими оценщиками. Этот подход позволяет создавать многообразные, отчетливые и ответственные оценки, отражающие эволюцию согласия и выявляющий различия в мнениях. Мы предоставили открытый инструментарий и общедоступный набор данных для демонстрации нашего подхода. GrandJury предлагает новый подход к эффективной оценке моделей без абсолютных правдивых ответов.
Annotation:
Generative Machine Learning models have become central to modern systems,
powering applications in creative writing, summarization, multi-hop reasoning,
and context-aware dialogue. These models underpin large-scale AI assistants,
workflow automation, and autonomous decision-making. In such domains,
acceptable response is rarely absolute or static, but plural and highly
context-dependent. Yet standard evaluation regimes still rely on static,
benchmark-style tests, incentivizing optimization towar...
Авторы:
Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober
## КОНТЕКСТ И ПРОБЛЕМАТИКА
Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка.
Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента:
1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка.
2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации.
3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям.
Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента.
В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям.
Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента.
В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.
Annotation:
Human teaching effort is a significant bottleneck for the broader
applicability of interactive imitation learning. To reduce the number of
required queries, existing methods employ active learning to query the human
teacher only in uncertain, risky, or novel situations. However, during these
queries, the novice's planned actions are not utilized despite containing
valuable information, such as the novice's capabilities, as well as
corresponding uncertainty levels. To this end, we allow the novic...
Показано 11 -
17
из 17 записей