📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Evaluation of a Sign Language Avatar on Comprehensibility, User Experience \& Acceptability
2025-08-09Авторы:
Fenya Wasserroth, Eleftherios Avramidis, Vera Czehmann, Tanja Kojic, Fabrizio Nunnari, Sebastian Möller
Научная статья посвящена оценке воздействия добавления регулируемых настроек на качество взаимодействия с знакомствующим сигнальным языком (СЗЯ) аватаром на Hololens 2. Исследование проведено с участием экспертов в германском знакомствующем языке (ДЗЯ), которые взаимодействовали с аватарами, имеющими разные функции регулирования. Основной проблемой является несостоятельность существующих СЗЯ-аватаров для эффективного общения, что определяется отсутствием важных элементов языка (например, фассолей и лицевых выражений) и проблемами реализации (неясные жесты рук, отсутствие обратной связи и неудобное расположение меню).
Решение, предложенное в статье, заключается в добавлении регулируемых настроек, однако их влияние на улучшение UX и понятности оказалось незначительным. Основные проблемы остались, включая недостаточное развитие анимации лица и рук, неудобство пользовательского интерфейса и невысокий уровень hedonic quality. Хотя понятность и принятие регулируемых аватаров были оценены положительно, их успешность сильно зависит от удобства и качества анимации.
Основные выводы: адаптивность по se заключается не в добавлении настроек, а в обеспечении понятности и эффективности системы с ходом. Рекомендации: улучшить анимацию лица и рук, добавить обратную связь, улучшить пользовательский интерфейс и применять частичную конструктивную разработку.
Annotation:
This paper presents an investigation into the impact of adding adjustment
features to an existing sign language (SL) avatar on a Microsoft Hololens 2
device. Through a detailed analysis of interactions of expert German Sign
Language (DGS) users with both adjustable and non-adjustable avatars in a
specific use case, this study identifies the key factors influencing the
comprehensibility, the user experience (UX), and the acceptability of such a
system. Despite user preference for adjustable setti...
Авторы:
Albert Yu, Chengshu Li, Luca Macesanu, Arnav Balaji, Ruchira Ray, Raymond Mooney, Roberto Martín-Martín
**Резюме**
В поиске эффективных систем развития коллаборативных задач в условиях долгосрочного сотрудничества между роботом и человеком возникает необходимость в гибкой и эффективной системе общения. Рассмотрена Mixed-Initiative dialog paradigm, которая позволяет как роботу, так и человеку, свободно предлагать, принимать или отклонять идеи в процессе работы. Мы представляем MICoBot — систему, решающую задачи в диалоге с роботом, который может предлагать решения и самостоятельно решать, кто лучше выполнит какой-то шаг задачи. MICoBot работает на трех уровнях: (1) метапланирование для формирования глобальной стратегии, (2) планирование для оптимального распределения действий между роботом и человеком, и (3) действия, реализуемые роботом. Успешность MICoBot была проверена в реальном мире с 18 участниками в тестировании на протяжении 27 часов. Эта методика демонстрирует высокую эффективность, превосходя базовый основанный на LLM и другие модели.
Annotation:
Effective robotic systems for long-horizon human-robot collaboration must
adapt to a wide range of human partners, whose physical behavior, willingness
to assist, and understanding of the robot's capabilities may change over time.
This demands a tightly coupled communication loop that grants both agents the
flexibility to propose, accept, or decline requests as they coordinate toward
completing the task effectively. We apply a Mixed-Initiative dialog paradigm to
Collaborative human-roBot teaming...
Авторы:
Thassilo M. Schiepanski, Nicholas Piël
---
title: КОНТЕКСТ И ПРОБЛЕМАТИКА
---
### message
## КОНТЕКСТ И ПРОБЛЕМАТИКА
В последнее время продвинутые языковые модели (LLMs) позволили создать автономных веб-агентов, которые могут выполнять задачи в веб-приложениях. Такие модели действуют как моментальные бэкенды доменной модели, консультируясь с веб-задачами и соответствующим состоянием приложения. Однако ключевой проблемой является сериализация состояния приложения, так называемый "снапшот". Существующие веб-агенты опираются на "уземлённые" GUI-снапшоты, то есть скриншоты с визуальными подсказками, чтобы представлять состояние пользовательского интерфейса (UI). Этот подход приближает процесс к человеческому восприятию, и изображения представляют собой относительно дешевый формат ввода для моделей. Однако, визуальное восприятие LLMs ещё недостаточно развито в сравнении с их способностью интерпретировать код.
Другой подход заключается в использовании DOM-снапшотов, которые структурно похожи на HTML и могут быть более эффективными. Тем не менее, большой размер входных токенов в DOM-снапшотах препятствует их эффективному использованию в веб-агентах. Эта проблема становится особенно актуальной, учитывая, что LLMs должны обрабатывать большие объёмы данных в рамках своего контекстного окна.
## ПРЕДЛОЖЕННЫЙ МЕТОД
В данной статье предлагается новый алгоритм под названием D2Snap – первый в своем роде алгоритм для сжатия DOM-снапшотов. D2Snap основан на бэкенде GPT-4o и разработан для сокращения размера входных данных, сохраняя при этом ключевую информацию о пользовательском интерфейсе. Алгоритм спроектирован таким образом, чтобы сократить количество токенов, необходимых для представления DOM-снапшота, при этом сохраняя его структурные особенности.
D2Snap выполняет "доуменьшение" DOM-снапшотов, сохраняя их иерархическую структуру, которая является важной особенностью для LLMs. Это позволяет модели эффективнее обрабатывать входные данные, не превышая пределы контекстного окна модели. Благодаря этому, D2Snap может быть интегрирован в веб-агентов для выполнения задач, связанных с веб-приложениями.
## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ
Для оценки эффективности D2Snap авторы провели серию экспериментов на основе датасета Online-Mind2Web. В этих экспериментах были использованы задачи, где LLMs должны были выполнять различные действия на основе веб-интерфейса. Результаты показали, что D2Snap-сжатые DOM-снапшоты достигают успешности в 67% случаев, что соответствует базовому уровню успешности GUI-снапшотов (65%), но с меньшим количеством токенов входных данных (порядок величины 1e3).
Кроме того, были исследованы различные конфигурации D2Snap, и один из них, который использовал немного больше токенов, но все еще помещался в контекстном окне модели, показал лучшие результаты, превосходя базовый GUI-снапшот на 8%. Это подтверждает, что иерархическая структура DOM является важной особенностью для LLMs и может быть эффективно использована для повышения точности выполнения задач.
## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ
Предлагаемый метод D2Snap имеет значительный потенциал для практического применения в области веб-агентов. Благодаря своей способности сокращать размер DOM-снапшотов, D2Snap позволяет LLMs более эффективно обрабатывать данные веб-интерфейсов, не превышая ограничений контекстного окна модели. Это может быть особенно полезно в ситуациях, когда необходимо выполнять сложные задачи, требующие обработки больших объёмов данных.
Кроме того, D2Snap может быть использован в различных приложениях, где необходимо автоматизировать взаимодействие с веб-приложениями, таких как автоматизация тестирования, мониторинга и анализа веб-страниц. Его эффективность в уменьшении размера входных данных также может быть полезна в ситуациях, где требуется быстрое и эффективное взаимодействие с веб-приложениями.
## ВЫВОДЫ И ПЕРСПЕКТИВЫ
В рамках данного исследования было показано, что D2Snap является эффективным алгоритмом для сжатия DOM-снапшотов, позволяющим LLMs обрабатывать веб-задачи с высокой точностью. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритма, в частности, на оптимизации его производительности и расширении его применимости к более широкому кругу задач. Также, исследование может быть расширено для включения более сложных веб-интерфейсов и более разнообразных задач, чтобы проверить широкую применимость D2Snap в реальных условиях.
Annotation:
Frontier LLMs only recently enabled serviceable, autonomous web agents. At
that, a model poses as an instantaneous domain model backend. Ought to suggest
interaction, it is consulted with a web-based task and respective application
state. The key problem lies in application state serialisation
$\unicode{x2013}$ referred to as snapshot. State-of-the-art web agents are
premised on grounded GUI snapshots, i.e., screenshots enhanced with visual
cues. Not least to resemble human perception, but for i...
Показано 71 -
73
из 73 записей