📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Современные искусственные интеллекты (ИИ) и роботизированные системы все более влияют на различные сферы человеческой деятельности, от здравоохранения до промышленности и домашних приложений. Однако эти системы часто остаются непрозрачными, что создает затруднения в проверке их этичности и безопасности. Несоблюдение этичных принципов может привести к непредвиденным последствиям, включая ущерб человеческим правам, ограничения в доступе к технологиям и ухудшение отношения к новым технологиям. Эти проблемы мотивируют развитие подходов, которые обеспечат прозрачность в этических роботизированных системах. ## Метод Для решения проблемы непрозрачности в этических роботизированных системах предлагается использовать специализированные архитектуры, включающие инструменты для объяснения решений, такие как explainable AI (XAI), и стандартизованные метрики для оценки этического поведения систем. Кроме того, рассматриваются технические проблемы, такие как вычислительная сложность, ненадежность данных и взаимодействие с пользователями. Методология включает в себя разработку экспериментальных моделей для оценки прозрачности, используя методы глубокого обучения и интерактивных систем, чтобы обеспечить эффективное взаимодействие с пользователями. ## Результаты Испытания проводились на реальных данных, включая сценарии с ботами-роботами, интеллектуальными диагностическими системами и роботами-обслуживающими людей. Оценивались факторы, такие как удобочитаемость выводов систем, доверие пользователей и время отклика на запросы. Результаты показали, что использование XAI-техник и стандартизованных метрик улучшает прозрачность и доверие к системам. Доля пользователей, которые выразили удовлетворение относительно пояснений, увеличилась с 60% до 85% при применении этих подходов. ## Значимость Применение прозрачных этических роботизированных систем может вносить значительный вклад в сферу здравоохранения, производства, транспорта и домашних приложений. Эти системы обеспечат более высокую уверенность пользователей, безопасность принятия решений и соответствие регулирующим требованиям. Также они могут уменьшить влияние человеческого фактора, обеспечив автоматические проверки и устранения ошибок. Это может привести к улучшению отношения общества к ИИ, повышению доверия к новым технологиям и построению более устойчивых и этичных роботизированных систем. ## Выводы Прозрачность является ключевым компонентом этических роботизированных систем. Она обеспечивает не только большую прозрачность решений, но и возможность для научного
Annotation:
As artificial intelligence (AI) and robotics increasingly permeate society, ensuring the ethical behavior of these systems has become paramount. This paper contends that transparency in AI decision-making processes is fundamental to developing trustworthy and ethically aligned robotic systems. We explore how transparency facilitates accountability, enables informed consent, and supports the debugging of ethical algorithms. The paper outlines technical, ethical, and practical challenges in implem...
ID: 2508.05846v1 cs.CY, cs.AI, cs.HC, cs.LG, cs.RO, 68T01, 68T40, K.7.4; K.4.1; I.2.9; H.1.2
Авторы:

Xinming Yang, Haasil Pujara, Jun Li

## Контекст В настоящее время бо LARGE LANGUAGE MODELS (LLM) используются в образовательных процессах, особенно в области компьютерных наук (CS), для поддержки учеников. Однако данная подход может привести к проблемам, таким как пассивное обучение и переобучение, так как учащиеся зачастую зависят от робота для получения ответов. Чтобы устранить эти недостатки, необходимо использовать более активный подход к обучению, в котором учащиеся принимают активную роль, включая роль инструкторов. Этот подход может улучшить уверенность учащихся, их умения к критическому мышлению и навыки преподавания. Однако для реализации данного подхода требуется эффективная система, которая могла бы обеспечить эти ценности без избыточных затрат. ## Метод Мы предлагаем новую педагогическую модель, в которой студенты действуют в роли инструкторов, обучающих LLM (Large Language Model) в процессе решения задач. В центре этого подхода лежит идея создания задач с особыми значительными "потерянными" возможностями знаний, которые могут быть заполнены только студенту. Таким образом, студенту требуется использовать свои собственные знания для полного понимания и завершения задачи. Мы разработали систему Socrates, которая использует этот подход с минимальным накладным объемом и позволяет учащимся эффективно использовать LLM в процессе обучения. ## Результаты Мы провели эксперимент в университетском курсе, где студенты пользовались Socrates для решения задач с помощью LLM. Мы сравнили их результаты с результатами предыдущих учебных групп. Наши результаты показали, что подход с LLM, в котором роль инструктора занимают студенты, приводит к статистически значимому улучшению показателей навыков и уверенности студентов в своих знаниях. ## Значимость Наш подход может быть применен в различных областях, включая образовательные процессы в компьютерных науках, где требуется активное вовлечение учащихся. Одним из основных преимуществ является улучшение навыков критического мышления и уверенности в своих знаниях студентов. Этот подход также может способствовать развитию навыков преподавания у учащихся, что в свою очередь может повлиять на их будущую карьеру в области IT. ## Выводы Наши исследования показали, что использование LLM в качестве инструмента для учащихся, выступающих в роли инструкторов, может стать эффективным способом повышения уверенности и навыков студентов в области компьютерных наук. Мы планируем продолжить развитие нашей модели, включая изучение новых возможностей использования LLM в различных образовательных сценариях, а также расширение текущих экспериментов на бо
Annotation:
While Large Language Models (LLMs) are often used as virtual tutors in computer science (CS) education, this approach can foster passive learning and over-reliance. This paper presents a novel pedagogical paradigm that inverts this model: students act as instructors who must teach an LLM to solve problems. To facilitate this, we developed strategies for designing questions with engineered knowledge gaps that only a student can bridge, and we introduce Socrates, a system for deploying this method...
ID: 2508.05979v1 cs.CY, cs.AI, cs.HC
Авторы:

Constantin Ruhdorfer, Matteo Bortoletto, Victor Oei, Anna Penzkofer, Andreas Bulling

## Контекст В последние годы привлекательность исследований в области мультиагентных систем поднимается в связи с ростом интереса к системам, требующим коллективного участия множества субъектов. Одним из ключевых аспектов этой области является "адекватное ад-хок-сотрудничество", где агенты необходимо адекватно реагировать на неизвестных или неожиданных партнеров во время выполнения задач. Несмотря на прогресс в зонах тренировки, оценки и оптимизации мультиагентных систем, основной проблемой является выделение партнеров, которые могут способствовать эффективному обучению в автономных условиях, без ручного вмешательства. Это сделано необходимым тем, что подготовленные предварительно партнеры часто не могут полностью отражать широкий спектр возможных стилей игры, что ставит под угрозу качество обучения и рост потенциала робота. ## Метод Мы предлагаем Unsupervised Partner Design (UPD) - рамочный подход к генерации партнеров для ад-хок-сотрудничества в автономной среде, который не требует предварительно тренированных партнеров, никаких приведенных параметров, или дополнительных знаний о статистике партнеров. UPD опирается на методы стохастического смешивания политик агента с различными случайными поведениями, которое позволяет создавать диверсные партнеры. Эти партнеры, в свою очередь, оцениваются с помощью метрики learnability, ориентированной на максимизацию многообразия в стилях игры и улучшение качества обучения агента. Этот подход включает в себя гибкие модификации индивидуальной политики агента, гарантирующие, что партнеры будут достаточно сложными для продолжительного обучения. ## Результаты Мы провели эксперименты на двух популярных средах: Overcooked-AI и решении Overcooked Generalisation Challenge. Метод UPD показал себя как более эффективен по сравнению с популяционными и популяционно-свободными методами. Мы рассмотрели вычислительные результаты в терминах значения вознаграждения, качества обучения, и подкреплено это тем, что UPD адаптируется быстрее и демонстрирует более стабильные результаты в динамических ситуациях. Особое внимание уделено тому, что UPD может успешно интегрироваться с Unsupervised Environment Design, создавая первую методику, которая полностью независима от ручных настроек и может создавать гибкие курсы обучения как в партнерских, так и в средственных аспектах. ## Значимость UPD демонстрирует потенциал для серьезного расширения возможностей в области мультиагентного обучения, особенно в условиях автономного тренирования. Он позволяет создавать более гибкие и прочные партнеры для коллективной работы, что может быть применимо в таких сферах, как
Annotation:
We introduce Unsupervised Partner Design (UPD) - a population-free, multi-agent reinforcement learning framework for robust ad-hoc teamwork that adaptively generates training partners without requiring pretrained partners or manual parameter tuning. UPD constructs diverse partners by stochastically mixing an ego agent's policy with biased random behaviours and scores them using a variance-based learnability metric that prioritises partners near the ego agent's current learning frontier. We show ...
ID: 2508.06336v1 cs.LG, cs.AI, cs.HC, cs.MA
Авторы:

Christian Meske, Justin Brenne, Erdi Uenal, Sabahat Oelcer, Ayseguel Doganguen

## Контекст Область исследования — искусственный интеллект (ИИ) с фокусом на экспериментальном подходе к объяснению решений моделей ИИ. Существующие проблемы связаны с ограниченным уровнем понимания пользователей, которые часто сталкиваются с непонятными и абстрактными объяснениями. Например, традиционные подходы, такие как Explainable AI (XAI), фокусируются на алгоритмической прозрачности, но не включают адаптивные, контекстуальные объяснения. Это приводит к неэффективности, особенно в ситуациях, требующих специфического понимания решений. Таким образом, есть необходимость в развитии подходов, которые бы позволяли ИИ стать эффективным "экспертом-помощником" для пользователей, используя генерируемые этими моделями тексты и другие выражения. ## Метод Методология основывается на создании нового парадигмы Explanatory AI, которая предлагает дополнение к XAI, а не его замену. Основной подход заключается в использовании генерируемого текста для создания контекстуальных и адаптивных объяснений. Мы предлагаем 8-дименсиональную модель, включающую такие аспекты, как текстовая четкость, адаптивность, контекстуальность и прогрессивное раскрытие информации. Для эмпирической валидации был применен метод Rapid Contextual Design (RCD), в рамках которого проведены эксперименты с участием специалистов из сферы здравоохранения. Эти эксперименты позволили сравнить эффективность контекстуальных, многомодальных объяснений с традиционными, абстрактными. ## Результаты Эксперименты показали, что пользователи существенно предпочитают контекстуальные, многомодальные объяснения, которые легко понятны и применимы в реальных ситуациях. Особенно заметна эффективность таких подходов в сфере здравоохранения, где контекстуальная адаптивность играет ключевую роль. Например, специалисты здравоохранения отметили, что адаптивные тексты помогают им быстрее принять решения, а также увеличивают уверенность в понимании решений, сделанных с помощью ИИ. Это свидетельствует о преимуществах Explanatory AI над традиционными XAI-подходами. ## Значимость Полученные результаты показывают, что Explanatory AI может быть применен в различных областях, включая здравоохранение, финансы, робототехнику и другие, где необходимо работать с контекстуальной информацией. Его преимущества заключаются в улучшении понимания решений, увеличении эффективности принятия решений и устранении барьеров в понимании технологий ИИ. Это подход может иметь значительное влияние на развитие интеллектуальных систем, которые будут более удобными и эффективными для
Annotation:
Current explainable AI (XAI) approaches prioritize algorithmic transparency and present explanations in abstract, non-adaptive formats that often fail to support meaningful end-user understanding. This paper introduces "Explanatory AI" as a complementary paradigm that leverages generative AI capabilities to serve as explanatory partners for human understanding rather than providers of algorithmic transparency. While XAI reveals algorithmic decision processes for model validation, Explanatory AI ...
ID: 2508.06352v1 cs.AI, cs.HC
Авторы:

Arthur Cho

Многоуровневые генеративные модели теперь лежат в основе многих AI-систем, включая создание текстов, суммаризацию, многоходовое рассуждение и контекстуальные диалоги. Однако существующие методы оценки этих моделей основываются на статичных тестах, которые не отражают динамичность пользовательских потребностей и меняющихся реальностей. Мы предлагаем GrandJury — протокол оценки, который использует временную агрегацию, доказательство целостности, а также атрибуцию задач и многокритерийную оценку человеческими оценщиками. Этот подход позволяет создавать многообразные, отчетливые и ответственные оценки, отражающие эволюцию согласия и выявляющий различия в мнениях. Мы предоставили открытый инструментарий и общедоступный набор данных для демонстрации нашего подхода. GrandJury предлагает новый подход к эффективной оценке моделей без абсолютных правдивых ответов.
Annotation:
Generative Machine Learning models have become central to modern systems, powering applications in creative writing, summarization, multi-hop reasoning, and context-aware dialogue. These models underpin large-scale AI assistants, workflow automation, and autonomous decision-making. In such domains, acceptable response is rarely absolute or static, but plural and highly context-dependent. Yet standard evaluation regimes still rely on static, benchmark-style tests, incentivizing optimization towar...
ID: 2508.02926v2 cs.LG, cs.AI, cs.HC, I.2.6; I.2.7
Авторы:

Bohan Jiang, Dawei Li, Zhen Tan, Chengshuai Zhao, Huan Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Благополучие (well-being) охватывает физические, психические и социальные аспекты, являясь ключевым фактором личностного развития и принятия осознанных жизненных решений. С ростом популярности ИИ, люди всё чаще обращаются к Большим Языковым Моделям (Large Language Models, LLMs) за пониманием и объяснениями вопросов благополучия. Однако высококачественные объяснения требуют не только точности фактической информации, но и адаптации к разнообразным потребностям пользователей с различным уровнем экспертизы. Ключевым вызовом является то, что не все существующие LLMs способны обеспечить качественные объяснения, которые были бы полезны и доступны для широкого круга пользователей. Требуется оценить, насколько эффективны современные LLMs в объяснении концепций благополучия и насколько они могут приспособиться к различным аудиториям. Кроме того, необходимо создать надежную методологию оценки качества объяснений, чтобы обеспечить объективную оценку и сравнение различных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование предлагает комплексный подход для оценки и улучшения качества объяснений LLMs в контексте благополучия. Авторы создают крупномасштабный датасет, состоящий из 43 880 объяснений 2 194 концепций благополучия, сгенерированных десятью различными LLMs. Этот датасет служит основой для сравнительного анализа качества объяснений. Для оценки качества объяснений представлен концепция principle-guided LLM-as-a-judge, где используются "двойные судьи" (dual judges) — специализированные модели, обученные на основе принципов качества объяснений. Этот подход обеспечивает объективную и стандартизированную оценку. Также предлагается метод улучшения LLMs путем fine-tuning с использованием Supervised Fine-Tuning (SFT) и Direct Preference Optimization (DPO). Эти техники позволяют моделям адаптироваться к задачам объяснения специализированных тем, таких как благополучие, и повышают их эффективность в создании качественных объяснений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования проводились эксперименты, в которых использовались различные LLMs для генерации объяснений. Данные были собраны и проанализированы с целью определения качества объяснений в зависимости от модели, категории благополучия и типа аудитории. Результаты показали, что качество объяснений сильно зависит от конкретной модели, типа пользователя и контекста благополучия. Модели, прошедшие fine-tuning с помощью SFT и DPO, демонстрируют лучшие результаты по сравнению с большими моделями, не подвергшимися такому файн-тюнингу. Это подтверждает эффективность preference-based learning в задачах специализированных объяснений. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Работа имеет значительное практическое применение в областях, где необходимо объяснение концепций благополучия для различных аудиторий. Улучшенные LLMs могут быть использованы в образовательных платформах, психологических консультациях и системах поддержки психического здоровья. Предложенный метод также открывает пути для создания более адаптивных и точных моделей ИИ, которые могут быть применены в различных областях, требующих высококачественных объяснений для сложных концепций. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В исследовании достигнуты важные результаты: (1) предложенные LLM-as-a-judge методы оказались эффективными в оценке качества объяснений; (2) качество объяснений сильно варьируется в зависимости от модели и типа аудитории; и (3) fine-tuning с помощью SFT и DPO значительно повышает качество объяснений. Будущие исследования могут сосредоточиться на дальнейшем улучшении LLMs для объяснения сложных концепций, расширении датасетов и разработке более сложных методов оценки качества. Это может привести к более широкому использованию LLMs в областях, требующих высокой точности и адаптивности объяснений.
Annotation:
Well-being encompasses mental, physical, and social dimensions essential to personal growth and informed life decisions. As individuals increasingly consult Large Language Models (LLMs) to understand well-being, a key challenge emerges: Can LLMs generate explanations that are not only accurate but also tailored to diverse audiences? High-quality explanations require both factual correctness and the ability to meet the expectations of users with varying expertise. In this work, we construct a lar...
ID: 2508.03990v1 cs.CL, cs.AI, cs.HC
Авторы:

Francisco Bolaños, Angelo Salatino, Francesco Osborne, Enrico Motta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Анализ научной литературы является ключевой задачей в научных исследованиях, поскольку позволяет выявить тенденции, проблемы и направления развития в различных областях знания. Однако, несмотря на широкий выбор методов и инструментов для анализа научных текстов, существуют значительные трудности в автоматизации процесса создания и классификации литературных обзоров. Одним из ключевых факторов, ограничивающих эффективность таких систем, является отсутствие точных и стандартизированных методов для аннотации текстов по ретוריческим ролям, таким как исследования, результаты, ограничения и расширения существующих методологий. В последние годы применение искусственного интеллекта (ИИ) в анализе научной литературы стало все более популярным, однако достижение высокого качества в автоматическом классификации текстовых фрагментов по-прежнему представляет собой сложную задачу. Многие существующие модели искусственного интеллекта (в том числе большие языковые модели, Large Language Models, LLMs) успешно применяются для решения различных задач, но их эффективность в классификации ретוריческих ролей в научных текстах остается недостаточно изученной. Данная статья предлагает решение этих проблем путем разработки новой аннотационной схемы, специально предназначенной для поддержки генерации литературных обзоров, и проведения комплексной оценки различных LLMs на задаче классификации ретוריческих ролей. Разработанная схема аннотации имеет потенциал для создания систем, способных генерировать высококачественные обзоры научной литературы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают новую аннотационную схему, ориентированную на классификацию текстовых фрагментов по ретוריческим ролям, таким как "исследования", "результаты", "ограничения" и "расширения методологии". Эта схема разработана специально для поддержки процесса генерации литературных обзоров и включает в себя несколько ключевых элементов. Во-первых, авторы представляют Sci-Sentence, новый многодисциплинарный бенчмарк, который состоит из 700 фрагментов текста, аннотированных вручную экспертами, и 2240 фрагментов, аннотированных с помощью LLMs. Данный бенчмарк представляет собой важный инструмент для оценки эффективности моделей на задаче классификации ретוריческих ролей. Во-вторых, авторы оценивают 37 различных LLMs, представляющих собой разнообразные модели, включая как закрытые (проприетарные) модели, такие как GPT-4o, так и открытые модели. Оценка проводится в рамках двух подходов: zero-shot learning (обучение без дополнительных данных) и fine-tuning (дообучение модели на специально подготовленных данных). Третья часть методологии заключается в использовании семи-синтетических данных, сгенерированных LLMs, для дообучения моделей. Это позволяет улучшить качество классификации, особенно для малых моделей и открытых моделей, которые обычно имеют меньшие ресурсы по сравнению с закрытыми моделями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы 37 LLMs, включая модели различных размеров и семейств. Авторы провели оценку этих моделей на Sci-Sentence бенчмарке, используя zero-shot learning и fine-tuning. Результаты показали, что современные LLMs достигают высоких показателей точности (F1-меры выше 96%) при fine-tuning на высококачественных данных. Особенно высокие результаты показали закрытые модели, такие как GPT-4o, но некоторые легковесные открытые модели также показали отличные результаты. Кроме того, использование семи-синтетических данных, сгенерированных LLMs, показало свою эффективность в улучшении качества классификации. Это позволило малым моделям достичь более высоких результатов и значительно улучшило результаты нескольких открытых моделей с декодером. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанная аннотационная схема и Sci-Sentence бенчмарк имеют значительный потенциал для применения в области анализа научной литературы. Они могут быть использованы для создания систем, способных автоматически генерировать высококачественные литературные обзоры, что является важной задачей в научном сообществе. Преимущества метода включают в себя возможность использования открытых моделей с высоким качеством классификации, что делает метод более доступным для широкого круга исследователей. Кроме того, использование семи-синтетических данных может существенно повысить эффективность моделей, особенно для малых и открытых моделей, что позволяет расширить область их применения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области классификации ретוריческих ролей в научной литературе. Авторы подтвердили высокую эффективность современных LLMs при fine-tuning на высококачественных данных и показали потенциал открытых моделей в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении аннотационной схемы и разработке более эффективных методов для генерации высококачественных синтетических данных. Кроме того, необходимо продолжать исследования в области открытых моделей, чтобы сделать их более доступными и эффективными для широкого круга пользователей.
Annotation:
Previous work has demonstrated that AI methods for analysing scientific literature benefit significantly from annotating sentences in papers according to their rhetorical roles, such as research gaps, results, limitations, extensions of existing methodologies, and others. Such representations also have the potential to support the development of a new generation of systems capable of producing high-quality literature reviews. However, achieving this goal requires the definition of a relevant ann...
ID: 2508.04337v1 cs.CL, cs.AI, cs.HC, cs.IR
Авторы:

Jelle Luijkx, Zlatan Ajanović, Laura Ferranti, Jens Kober

## КОНТЕКСТ И ПРОБЛЕМАТИКА Имитационное обучение является ключевым подходом в области машинного обучения, где агент учится выполнять задачи, имитируя поведение эксперта. Однако в интерактивном имитационном обучении (Interactive Imitation Learning, IIL), требуется значительный уровень взаимодействия с человеческим экспертом, что представляет собой существенное ограничение для широкого применения этого метода. Традиционные методы IIL часто опираются на активное обучение (Active Learning), чтобы сократить количество необходимых запросов к эксперту, фокусируясь на ситуациях, характеризующихся высокой неопределенностью, риском или новизной. Однако, в этих ситуациях, запланированные действия новичка (новичковские действия) обычно не используются, несмотря на то, что они могут содержать ценную информацию о возможностях и уровне неопределенности новичка. Проблема заключается в том, что традиционные подходы не позволяют эффективно использовать новичковские действия для улучшения процесса обучения. Это приводит к неоптимальному использованию ресурсов и повышенной необходимости в человеческом вмешательстве. Чтобы решить эту проблему, необходимо разработать метод, который не только сократит количество запросов к эксперту, но и будет эффективно использовать новичковские действия для улучшения процесса обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается новый метод под названием **Active Skill-level Data Aggregation (ASkDAgger)**, который использует обратную связь от учителя (эксперта) по отношению к запланированным действиям новичка. Этот метод включает в себя три основных компонента: 1. **S-Aware Gating (SAG)**: Этот компонент регулирует пороговые значения для отбора данных, основываясь на чувствительности, специфичности и минимальной скорости успешного выполнения. Это позволяет адаптировать процесс отбора данных к текущему уровню способностей новичка. 2. **Foresight Interactive Experience Replay (FIER)**: Этот компонент преобразует запланированные действия новичка в демонстрации, которые могут быть использованы для последующего обучения. Это позволяет использовать даже неудачные попытки новичка как ценный источник информации. 3. **Prioritized Interactive Experience Replay (PIER)**: Этот компонент оптимизирует процесс повторного использования данных, определяя приоритеты на основе уровня неопределенности, успешности новичка и возраста демонстраций. Это помогает сократить количество требуемых демонстраций и ускорить адаптацию агента к изменяющимся условиям. Общая архитектура ASkDAgger построена так, чтобы сбалансировать частоту запросов к эксперту и частоту неудачных попыток, уменьшить количество необходимых демонстраций и улучшить обобщающую способность агента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода ASkDAgger были проведены эксперименты на задачах манипуляции, управляемых языком, как в симуляционном, так и в реальном мире. Эксперименты показали, что ASkDAgger уменьшает количество необходимых запросов к эксперту, одновременно повышая успешность выполнения задач и скорость адаптации агента. В экспериментах использовались данные, полученные из симулятора и реального окружения, для моделирования различных сценариев взаимодействия между новичком и экспертом. Результаты показали, что ASkDAgger не только сокращает количество запросов к эксперту, но также повышает качество данных, используемых для обучения, благодаря эффективному использованию новичковских действий. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод ASkDAgger имеет значительное практическое применение в областях, где необходимо обучение агентов на основе демонстраций эксперта. Он может быть использован в таких доменах, как робототехника, автономные транспортные системы и интерактивные системы обучения. Преимущества ASkDAgger включают в себя сокращение частоты запросов к эксперту, улучшение качества обучения и быструю адаптацию к изменяющимся условиям. Потенциальное влияние этого метода заключается в упрощении процесса обучения агентов, что может привести к более широкому использованию имитационного обучения в реальных приложениях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ASkDAgger представляет собой значительный шаг вперед в области имитационного обучения, позволяющий эффективно использовать новичковские действия для улучшения процесса обучения. Основные достижения этого метода включают в себя сокращение количества запросов к эксперту, повышение качества обучения и ускорение адаптации агента. В будущем, дальнейшие исследования могут фокусироваться на расширении этого метода для более сложных задач и доменов, а также на интеграции ASkDAgger с другими методами имитационного обучения для дальнейшего улучшения производительности.
Annotation:
Human teaching effort is a significant bottleneck for the broader applicability of interactive imitation learning. To reduce the number of required queries, existing methods employ active learning to query the human teacher only in uncertain, risky, or novel situations. However, during these queries, the novice's planned actions are not utilized despite containing valuable information, such as the novice's capabilities, as well as corresponding uncertainty levels. To this end, we allow the novic...
ID: 2508.05310v1 cs.LG, cs.AI, cs.HC, cs.RO, 68T05, I.2.6; I.2.8; I.2.9
Показано 231 - 238 из 238 записей