📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Leveraging Large Language Models for Robot-Assisted Learning of Morphological Structures in Preschool Children with Language Vulnerabilities

2025-09-30

Авторы:

Stina Sundstedt, Mattias Wingren, Susanne Hägglund, Daniel Ventus

## Контекст Область исследования сосредоточена на развитии новых подходов к робот-помощникам в обучении детей с языковыми затруднениями. Дети с развитием языковых нарушений или иммигрантскими языковыми вызовами часто нуждаются в поддержке для укрепления своих выразительных языковых навыков. Традиционно, специалисты-логопеды используют имплицитное обучение, внедряя целевые морфологические структуры (например, форма третьего лица в английском "he wears") в повседневные интеракции или игровые мероприятия. Однако этот подход требует глубокого знания языка и способности лекторов в реальном времени сформировать различные морфологические формы, что особенно сложно в игровых сценариях, где необходимо сохранять вовлечение детей и контролировать обмен очередями. Таким образом, целью проекта TalBot является разработка нового подхода, использующего робота-гуманоида Furhat, который играет в игру "Alias" с детьми, чтобы помочь им сформировать языковые навыки. Однако новый вариант использования робота заключается в том, чтобы использовать Large Language Model (LLM) для доставки конкретных морфологических целей во время игры. ## Метод Проект TalBot использует LLM для управления игрой, диалогом, воaffective responses, а также для роли в обмене очередями. Для этого робот Furhat использует текстовую речь и графический интерфейс для взаимодействия с детьми. Метод состоит в том, чтобы использовать модель языка для подбора морфологических форм, которые будут включены в игровую деятельность. Большая часть работы в этом проекте состоит в создании динамичного сценария, который может адаптироваться к разным уровням знаний детей и учитывать их индивидуальные предпочтения. Также, игра "Alias" требует точного контроля за ходом игры, чтобы оперативно реагировать на действия детей и вносить исправления в процессе. Для этого используются технологии обработки естественного языка и машинного обучения. ## Результаты В ходе испытаний с роботом Furhat, который играл в игру "Alias" с детьми, было зарегистрировано, что робот может эффективно включать морфологические формы в игровой процесс без дополнительных усилий от специалистов. Он может динамически адаптироваться к уровню участников и учитывать их медленные или быстрые отклики. Также было зарегистрировано, что дети были вовлечены в игру и быстро начали работать с морфологическими формами, которые были намечены роботом. Статистические данные показывают, что дети, участвующие в игре с роботом, существенно улучшили свои языковые навыки по сравнению с теми, кто не участвова

Annotation:

Preschool children with language vulnerabilities -- such as developmental language disorders or immigration related language challenges -- often require support to strengthen their expressive language skills. Based on the principle of implicit learning, speech-language therapists (SLTs) typically embed target morphological structures (e.g., third person -s) into everyday interactions or game-based learning activities. Educators are recommended by SLTs to do the same. This approach demands precis...

ID: 2509.22287v1 cs.RO, cs.AI, cs.HC, I.2.7; H.5.2; K.3.1; J.4

arXiv PDF

📄 Assistive Decision-Making for Right of Way Navigation at Uncontrolled Intersections

2025-09-25

Авторы:

Navya Tiwari, Joseph Vazhaeparampil, Victoria Preston

## Контекст Право выезда на неконтролируемых перекрестках остается одной из самых нестабильных ситуаций на дорогах, приводящих к значительному числу транспортных происшествий. Эти ситуации связаны с неясностью правил преимущества, косностью ограждений видимости и непредсказуемым поведением водителей. Исследования по автоматизированным системам управления транспортом уделяют внимание неопределенности в решающих процессах. Однако существуют мало систем, которые могут расширять функционал существующих автомобилей, обеспечивая их поддержку в непонятных ситуациях. Наша статья предлагает рамку для помощи в принятии решений для правого выезда на неконтролируемых перекрестках, основанную на Partially Observable Markov Decision Process (POMDP). Мы используем симулятор с разнообразными сценариями, включая статические и динамические обстановки, для оценки различных алгоритмов. ## Метод Мы описываем разработанную рамку для помощи в принятии решений для непонятных ситуаций в неконтролируемых перекрестках. Наш POMDP-планер включает в себя этапы сбора данных, расчета вероятностей и принятия решений. Мы разрабатываем пользовательский симулятор, включающий разнообразные сценарии, такие как статические препятствия, динамические обстановки с движущимися агентами и тротуары с пешеходами. Кроме того, мы разрабатываем несколько алгоритмов, включая Deterministic Finite State Machine (DFSM), QMDP, POMCP и DESPOT. Наша цель заключается в сравнении различных подходов в условиях разных уровней неопределенности. ## Результаты Мы проводим эксперименты в симуляторе с различными уровнями сложности, в том числе статические и динамические сценарии. Мы проверяем качество планирования на основе количества коллизий и прохождения времени. Общее число экспериментов покрывает сотни ситуаций, включая случаи с ограниченной видимостью и угрозами. Наши результаты показывают, что проблематичными являются ситуации с неопределенностью, но подходы, основанные на POMDP, позволяют достичь более высокой стабильности и безопасности. Мы также выявляем, что POMCP демонстрирует лучший баланс между безопасностью и эффективностью, в то время как DESPOT применяется для более быстрого варианта расчета. ## Значимость Мы показываем, что наш подход может быть эффективно использован в автомобильных системах помощи водителям. Мы подчеркиваем, что систематическое использование неопределенности позволяет улучшить безопасность на дорогах. Наши результаты могут быть использованы в разработке систем помощи водителям, особенно в условиях непредсказуемости

Annotation:

Uncontrolled intersections account for a significant fraction of roadway crashes due to ambiguous right-of-way rules, occlusions, and unpredictable driver behavior. While autonomous vehicle research has explored uncertainty-aware decision making, few systems exist to retrofit human-operated vehicles with assistive navigation support. We present a driver-assist framework for right-of-way reasoning at uncontrolled intersections, formulated as a Partially Observable Markov Decision Process (POMDP)....

ID: 2509.18407v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 Toward Ownership Understanding of Objects: Active Question Generation with Large Language Model and Probabilistic Generative Model

2025-09-18

Авторы:

Saki Hashimoto, Shoichi Hasegawa, Tomochika Ishikawa, Akira Taniguchi, Yoshinobu Hagiwara, Lotfi El Hafi, Tadahiro Taniguchi

## Контекст Успешное взаимодействие роботов с человеком в домашних и офисных пространствах требует понимания владения предметами, чтобы выполнять команды, такие как "Принесите мне свою чашку". Однако определение владельца предмета только на основе визуальных признаков оказывается недостаточно надежным. Для решения этой проблемы предлагается новый подход, который объединяет активное получение знаний и использование глубоких языковых моделей. Целью данного исследования является создание фреймворка, позволяющего роботам активно формировать и задавать вопросы, связанные с владением, для эффективного получения необходимой информации. ## Метод Разработанный фреймворк, названный Active Ownership Learning (ActOwL), объединяет две основные компоненты: генеративную модель для выбора наиболее подходящих вопросов и технологии больших языковых моделей для проверки коммуникативности этих вопросов. ActOwL начинает с классификации предметов как общих (не принадлежащих конкретному человеку) или владением конкретного пользователя. Затем, используя модель вероятностной генерации, выбираются вопросы, которые максимизируют информационный потенциал для определения владельца. Эта стратегия обеспечивает эффективное получение знаний об отношениях владения, уменьшая количество необходимых вопросов. ## Результаты Исследования проводились в симуляционной двухкомнатной квартире и на реальных экспериментальных установках. ActOwL показал значительное преимущество по времени и точности в сравнении с базовыми методами. Например, для определения владельца всех предметов в окружении робот требовалось меньше запросов, что демонстрирует эффективность и практическую значимость подхода. Особое внимание уделено тому, что ActOwL способен адаптироваться к различным средам и пользователям, увеличивая производительность и социальное приемлемость. ## Значимость Результаты ActOwL открывают пути для применения в различных сферах, включая удобные домашние ассистенты и системы управления офисными пространствами. Фреймворк позволяет роботам не только более точно выполнять задачи, но и создавать более естественные взаимоотношения с пользователями. Благодаря интеграции глубоких моделей и активного обучения, ActOwL показывает возможность решения социально значимых задач, связанных с пониманием владения и структурированием пространства. ## Выводы Данное исследование подтверждает эффективность стратегии активного запроса информации в сфере определения владения предметами. Оно показывает, что роботы, использующие ActOwL, могут быстрее и точнее получать необходимые знания.

Annotation:

Robots operating in domestic and office environments must understand object ownership to correctly execute instructions such as ``Bring me my cup.'' However, ownership cannot be reliably inferred from visual features alone. To address this gap, we propose Active Ownership Learning (ActOwL), a framework that enables robots to actively generate and ask ownership-related questions to users. ActOwL employs a probabilistic generative model to select questions that maximize information gain, thereby a...

ID: 2509.12754v1 cs.RO, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Inference of Human-derived Specifications of Object Placement via Demonstration

2025-08-29

Авторы:

Alex Cuellar, Ho Chit Siu, Julie A Shah

## Контекст Роботизированные системы, осуществляющие задачи пика-ан-плейс (например, упаковка, сортировка и составление комплектов), постоянно совершенствуются. Однако методы, основывающиеся на понимании человеческих предпочтений по расположению предметов, до сих пор не полностью реализованы. Эти предпочтения часто заключаются в необходимости соблюдения определенных пространственных отношений между предметами, которые трудно выразить с помощью традиционных формализмов. Таким образом, возникает необходимость разработки более выразительных методов, позволяющих роботам лучше понимать человеческие правила расположения предметов. ## Метод Разработанное решение, под названием позиционно-усиленный RCC (PARCC), основано на региональном калькул (RCC), который уже используется для описания пространственных отношений. Однако PARCC добавляет новые возможности для лучшего понимания человеческих предпочтений. Для обучения этого фреймворка вводится алгоритм, основанный на демонстрациях, позволяющий роботу изучать человеческие правила расположения. Этот подход позволяет роботу не только выполнять задачи, но и понимать их в контексте человеческих ожиданий. ## Результаты В ходе исследования была проведена серия экспериментов, в ходе которых использовались данные, собранные во время экспериментов с людьми. Эти данные позволили роботу изучить человеческие правила расположения по демонстрациям. Оценка результатов показала, что PARCC эффективно моделирует человеческие предпочтения и предлагает более выразительные возможности для описания пространственных отношений. Это доказывает преимущества метода обучения через демонстрации по сравнению с традиционными способами. ## Значимость Применение PARCC может быть полезно в различных областях, где необходимо понимание человеческих правил расположения предметов. Например, в производственных заводах, где роботы могут учитывать человеческие предпочтения при упаковке и сортировке товаров. Это не только улучшает эффективность, но также уменьшает вероятность ошибок. Благодаря позиционно-усиленному RCC, роботы могут более точно понять человеческие правила, что влечет за собой повышение качества работы. ## Выводы Разработанный PARCC-фреймворк демонстрирует значительные преимущества в процессе обучения человеческих правил расположения предметов. Несмотря на это, будущие исследования будут фокусироваться на улучшении точности интерпретации сложных пространственных отношений и расширении применимости фреймворка к более широкому кругу задач. Это будет упрощать интеграцию роботов в рабочие процессы, где

Annotation:

As robots' manipulation capabilities improve for pick-and-place tasks (e.g., object packing, sorting, and kitting), methods focused on understanding human-acceptable object configurations remain limited expressively with regard to capturing spatial relationships important to humans. To advance robotic understanding of human rules for object arrangement, we introduce positionally-augmented RCC (PARCC), a formal logic framework based on region connection calculus (RCC) for describing the relative ...

ID: 2508.19367v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 The Social Context of Human-Robot Interactions

2025-08-21

Авторы:

Sydney Thompson, Kate Candon, Marynel Vázquez

## Контекст Область исследований Human-Robot Interaction (HRI) становится все более значимой в связи с развитием робототехники и ИИ. Одной из ключевых проблем является понятие "социальный контекст", которое используется в разных контекстах и может приводить к непониманию между учеными. Это создает затруднения при создании и проверке моделей поведения роботов. Мотивация для этого исследования заключается в том, чтобы улучшить понимание такого значимого аспекта и создать модель, которая поможет взаимодействовать с роботами в разных социальных ситуациях. ## Метод Для изучения социального контекста HRI была проведена литературная серверная запись, рассмотрев существующие работы и определения. Затем был разработан концептуальный модель, который описывает социальный контекст взаимодействия. Образцами исследования стали различные данные, включая исследования, эксперименты, а также практические приложения. Методы включали анализ документов, моделирование ситуаций, а также симуляционные эксперименты для исследования поведения роботов в различных социальных условиях. ## Результаты Исследование выявило различные аспекты социального контекста, включая роль социальных знаний, ситуационных условий и личных отношений. На основе модели было проведено несколько экспериментов, где системы были протестированы на возможности взаимодействия в различных социальных ситуациях. Результаты показали, что модель может улучшить понимание поведения роботов и предоставить инструменты для разработки более эффективных моделей взаимодействия с людьми. ## Значимость Результаты имеют широкое применение в разработке роботов для социальных задач, таких как помощь в старческих домах, обучение, новости и поиск. Одним из основных преимуществ является улучшение моделей взаимодействия, что позволяет роботам лучше понимать и реагировать на поведение человека. Это также может повысить эффективность роботов в решении реальных проблем в социальных ситуациях. ## Выводы Основные достижения исследования заключаются в том, что была разработана модель социального контекста, которая может применяться в различных ситуациях. На будущее, необходимо продолжить работу над совершенствованием моделей, в том числе расширение моделей с целью улучшить понимание неявных сигналов и учета разнообразия социальных факторов. Будущие исследования также должны сосредоточиться на тестировании моделей в реальных условиях для доказательства их эффективности в реальных постановках.

Annotation:

The Human-Robot Interaction (HRI) community often highlights the social context of an interaction as a key consideration when designing, implementing, and evaluating robot behavior. Unfortunately, researchers use the term "social context" in varied ways. This can lead to miscommunication, making it challenging to draw connections between related work on understanding and modeling the social contexts of human-robot interactions. To address this gap, we survey the HRI literature for existing defin...

ID: 2508.13982v1 cs.RO, cs.AI, cs.HC, cs.MA, I.2.9; I.2

arXiv PDF

📄 Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance

2025-08-19

Авторы:

Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin

## Контекст В современной индустрии и жизни существуют возрастающие требования к быстрому и эффективному взаимодействию между людьми и роботами. Одним из ключевых аспектов этого взаимодействия является возможность робота быстро и точно определить намерения пользователя, предоставить прозрачную логику решения и оказать наиболее эффективную помощь. Однако на данный момент существуют значительные проблемы в этой области, включая недостаточную точность в решении задач и ограниченные возможности адаптации к изменению намерений пользователя. Данная работа направлена на развитие методов, которые позволят роботам не только быстро определять намерения, но и обеспечивать более точную и понятную помощь пользователям. ## Метод Для достижения поставленных целей в работе предлагается использовать сочетание существующей модели GUIDER для определения намерений с помощью визуально-языковых моделей (VLM) и текстовых языковых моделей (LLM). Методология включает в себя несколько ключевых этапов: 1. Использование визуального моделирования (YOLO и Segment Anything Model) для обнаружения объектов и их инстансного сегментирования. 2. Использование VLM для оценки релевантности обнаруженных объектов по отношению к заданной задаче. 3. Использование LLM для оценки релевантности объектов в текстовом виде. 4. Объединение результатов VLM и LLM для формирования вероятностного белка, который используется в GUIDER для динамического изменения намерений. 5. Автономное поведение робота, включая навигацию к объекту и его получение. ## Результаты Проведенные эксперименты показали, что сочетание VLM и LLM с GUIDER значительно повышает точность определения намерений пользователя. Использование визуальных моделей позволяет более точно определять объекты в реальном времени, тогда как текстовые модели обеспечивают дополнительную релевантность в текстовой области. Эти дополнения к GUIDER позволяют роботу быстрее адаптироваться к изменениям в намерениях пользователя и обеспечивают более точную помощь в выполнении задач. ## Значимость Разработанная система может быть применена в различных областях, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь в случае необходимости. Основное преимущество системы заключается в ее возможности быстро учитывать входные данные из разных источников и оптимизировать помощь на основе контекста. Это может привести к повышению производительности и улучшению качества взаимодействия с роботами. ## Выводы Результаты экспериментов показали, что использование VLM и LLM в сочетании с GUIDER значительно повышает точность определения намерений пользователя и улучшает общую эфф

Annotation:

Human-robot collaboration requires robots to quickly infer user intent, provide transparent reasoning, and assist users in achieving their goals. Our recent work introduced GUIDER, our framework for inferring navigation and manipulation intents. We propose augmenting GUIDER with a vision-language model (VLM) and a text-only language model (LLM) to form a semantic prior that filters objects and locations based on the mission prompt. A vision pipeline (YOLO for object detection and the Segment Any...

ID: 2508.11093v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 An Exploratory Study on Crack Detection in Concrete through Human-Robot Collaboration

2025-08-19

Авторы:

Junyeon Kim, Tianshu Ruan, Cesar Alan Contreras, Manolis Chiou

## Контекст Обследование инфраструктурных объектов, в том числе ядерных установок, является критически важной задачей для обеспечения безопасности и долговечности этих систем. Однако существующие методы ручных проверок обладают значительными недостатками, включая высокие риски для безопасности, высокую утомляемость операторов и потенциальные ошибки вследствие человеческих ограничений. На сегодняшний день недостаточно эффективности и точности таких методов приводят к необходимости развития новых подходов. Одним из таких подходов является Human-Robot Collaboration (HRC), который предполагает использование роботов, оснащенных визуальными алгоритмами детектирования. Этот подход может значительно улучшить точность исправности и эффективность работ, а также уменьшить человеческую нагрузку. ## Метод В данном исследовании использовались современные технологии, включая мобильную платформу робота Jackal и алгоритмы визуального распознавания, основанные на AI. Jackal оборудован видеокамерой для съемки видео изображений, которые анализируются в реальном времени с помощью предварительно обученного модели распознавания трещин. Эта модель была реализована с использованием компьютерного зрения и нейронных сетей. Работа робота координируется с человеком, который осуществляет управление узких местами интереса. Это сочетание человеческого зрения и роботских алгоритмов позволяет обеспечить более точное и эффективное обнаружение трещин. ## Результаты Исследование включало практические эксперименты на реальных объектах. Робот Jackal был задействован для съемки видео трещин в конкретных объектах, а затем проводился анализ изображений с помощью распознавания. Эксперименты показали, что HRC позволяет улучшить точность детектирования трещин в сравнении с ручными методами. Было также отмечено, что использование HRC позволяет сократить нагрузку на операторов, уменьшая вероятность человеческих ошибок. Эксперименты также показали, что HRC может быть применен в различных сценариях, включая операции в ядерных установках и других критичных структурах. ## Значимость Результаты исследования имеют значительное значение для различных отраслей, включая ядерную инфраструктуру, строительство и промышленность. В частности, HRC может использоваться для повышения точности и эффективности проверок в ядерных центрах, уменьшая вероятность ошибок и рисков безопасности. Этот подход также может уменьшить нагрузку на человеческое трудоустройство, позволяя операторам сосредоточиться на более сложных задачах. Таким образом, HRC может стать к

Annotation:

Structural inspection in nuclear facilities is vital for maintaining operational safety and integrity. Traditional methods of manual inspection pose significant challenges, including safety risks, high cognitive demands, and potential inaccuracies due to human limitations. Recent advancements in Artificial Intelligence (AI) and robotic technologies have opened new possibilities for safer, more efficient, and accurate inspection methodologies. Specifically, Human-Robot Collaboration (HRC), levera...

ID: 2508.11404v1 cs.RO, cs.AI, cs.HC

arXiv PDF

Показано 11 - 17 из 17 записей