📚 Саммари научных статей из arXiv

Найдено 238 результатов по запросу 'cs.AI, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 UI-UG: A Unified MLLM for UI Understanding and Generation

2025-10-01

Авторы:

Hao Yang, Weijie Qiu, Ru Zhang, Zhou Fang, Ruichao Mao, Xiaoyu Lin, Maji Huang, Zhaosong Huang, Teng Guo, Shuoyang Liu, Hai Rao

#### Контекст Современные User Interfaces (UI) становятся все более сложными, включая в себя не только текстовую информацию, но и изображения, звук и видео. Это приводит к росту сложности их понимания и генерации, что требует развития эффективных методов. Однако существующие Multimodal Large Language Models (MLLMs) часто сталкиваются с проблемами точности и качества при работе с UI-задачами. Эти ограничения мотивируют разработку специализированных моделей, которые бы сбалансировали точность и скорость работы, а также смогли бы повысить качество генерации интерфейсов. #### Метод Мы предлагаем UI-UG — модель, которая объединяет возможности понимания и генерации UI в единой структуре на основе Multimodal Large Language Models. Для понимания UI используется **Supervised Fine-tuning (SFT)** в сочетании с **Group Relative Policy Optimization (GRPO)**, что позволяет улучшить точность и мелкогранулярность понимания. Для генерации UI применяется **Direct Preference Optimization (DPO)**, чтобы модель могла сгенерировать интерфейсы, соответствующие предпочтениям пользователей. Также мы предлагаем **LLM-friendly DSL** (доменно-специализированный язык), **оптимизированные стратегии обучения**, процессы рендеринга и подробные **метрики оценки**, чтобы улучшить производительность в реальных условиях. #### Результаты В экспериментах мы проверили модель UI-UG на различных датасетах по пониманию и генерации UI. Модель показала **state-of-the-art (SOTA)** результаты в понимании UI, превосходя как более крупные general-purpose MLLMs, так и модели специализированные на UI, но с меньшим компьютерным воздействием. В генерации UI UI-UG показала результаты, сравнимые с крупными MLLMs, при значительно меньших затратах ресурсов. Мы также продемонстрировали, что объединение понимания и генерации UI может улучшить качество как понимания, так и генерации. Результаты были получены с использованием **данных из сети** и **задачных наборов**, чтобы продемонстрировать реальную эффективность модели. #### Значимость Модель UI-UG имеет многочисленные применения в области UI-дизайна, в том числе в создании интерактивных приложений, генерации UI-компонентов, анализе и модернизации существующих интерфейсов. Одним из основных преимуществ является способность модели работать со сложными UI-данными, оптимизировав как понимание, так и генерацию. Это приводит к повышению качества и точности в оба направления. Будущие исследования будут направлены на улучшение скорости работы, уменьшение потребления ресурсов и расширение доменных моделей, чтобы сделать модель UI-UG еще более универсальной и эффективной. #### Выводы Разработанная модель UI-UG доказывает свою эффективность в области понимания и генерации интерфейсов.

Annotation:

Although Multimodal Large Language Models (MLLMs) have been widely applied across domains, they are still facing challenges in domain-specific tasks, such as User Interface (UI) understanding accuracy and UI generation quality. In this paper, we introduce UI-UG (a unified MLLM for UI Understanding and Generation), integrating both capabilities. For understanding tasks, we employ Supervised Fine-tuning (SFT) combined with Group Relative Policy Optimization (GRPO) to enhance fine-grained understan...

ID: 2509.24361v2 cs.CV, cs.AI, cs.HC

arXiv PDF

📄 Lightweight Structured Multimodal Reasoning for Clinical Scene Understanding in Robotics

2025-09-30

Авторы:

Saurav Jha, Stefan K. Ehrlich

#### Контекст Область робототехники в медицине становится все более важной для обеспечения безопасности и эффективности в динамичных клинических средах. Необходима внедрение развитых возможностей мультимодального понимания и рассуждения для адекватного взаимодействия роботов с окружающим миром. Несмотря на прогресс в области Vision-Language Models (VLMs), они до сих пор имеют ограничения в области логического и временного рассуждения, оценки неопределенности, а также в поддержке структурированных выводов, необходимых для точного робототехнического планирования. Эта статья предлагает новую модель, способную работать с видео и текстом и обеспечивающую структурированный вывод, чтобы улучшить понимание клинических сценариев в робототехнике. #### Метод Предложенная модель сочетает в себе Qwen2.5-VL-3B-Instruct с моделью SmolAgent. Модель Qwen2.5-VL-3B-Instruct обеспечивает сильную обработку текста и изображений, а SmolAgent добавляет свойства агентской модели, включая цепочки мыслей (chain-of-thought) и динамичную вызов функций. Модель включает гибкую систему восстановления информации, позволяющую адаптироваться к различным видам аналогичных данных. Кроме того, она использует гибридную систему смысловой разборки, которая позволяет строить структурированные графы сцены и анализировать видео поток в реальном времени. Эта архитектура позволяет роботу выполнять более точные и адаптивные операции в клинических условиях. #### Результаты На платформе Video-MME и на определенной клинической выборке, модель показала высокую точность и стабильность в сравнении с современными VLMs. Она существенно улучшила способность робота понимать видео-сценарии в реальном времени, оценивать неопределенность, и применять структурированные выводы для точного планирования действий. Результаты показывают, что модель превосходит текущие модели по метрикам точности и устойчивости в клинических условиях. Это указывает на сильный потенциал модели в применении к робототехнике в медицине, включая роботов-хирургов и системы мониторинга пациентов. #### Значимость Предлагаемая модель имеет широкие возможности применения в медицинской робототехнике, в том числе в таких областях, как роботовая хирургия, мониторинг пациентов и поддержка клинических решений. Ее особенностью является возможность гибкого интерактивного взаимодействия, что позволяет роботу еще более эффективно участвовать в клинических процессах. Модель также может повысить безопасность и эффективность в клинической практике, особенно при работе с нестандартными или неоднозначными ситуаци

Annotation:

Healthcare robotics requires robust multimodal perception and reasoning to ensure safety in dynamic clinical environments. Current Vision-Language Models (VLMs) demonstrate strong general-purpose capabilities but remain limited in temporal reasoning, uncertainty estimation, and structured outputs needed for robotic planning. We present a lightweight agentic multimodal framework for video-based scene understanding. Combining the Qwen2.5-VL-3B-Instruct model with a SmolAgent-based orchestration la...

ID: 2509.22014v1 cs.CV, cs.AI, cs.HC, cs.RO

arXiv PDF

📄 Leveraging Large Language Models for Robot-Assisted Learning of Morphological Structures in Preschool Children with Language Vulnerabilities

2025-09-30

Авторы:

Stina Sundstedt, Mattias Wingren, Susanne Hägglund, Daniel Ventus

## Контекст Область исследования сосредоточена на развитии новых подходов к робот-помощникам в обучении детей с языковыми затруднениями. Дети с развитием языковых нарушений или иммигрантскими языковыми вызовами часто нуждаются в поддержке для укрепления своих выразительных языковых навыков. Традиционно, специалисты-логопеды используют имплицитное обучение, внедряя целевые морфологические структуры (например, форма третьего лица в английском "he wears") в повседневные интеракции или игровые мероприятия. Однако этот подход требует глубокого знания языка и способности лекторов в реальном времени сформировать различные морфологические формы, что особенно сложно в игровых сценариях, где необходимо сохранять вовлечение детей и контролировать обмен очередями. Таким образом, целью проекта TalBot является разработка нового подхода, использующего робота-гуманоида Furhat, который играет в игру "Alias" с детьми, чтобы помочь им сформировать языковые навыки. Однако новый вариант использования робота заключается в том, чтобы использовать Large Language Model (LLM) для доставки конкретных морфологических целей во время игры. ## Метод Проект TalBot использует LLM для управления игрой, диалогом, воaffective responses, а также для роли в обмене очередями. Для этого робот Furhat использует текстовую речь и графический интерфейс для взаимодействия с детьми. Метод состоит в том, чтобы использовать модель языка для подбора морфологических форм, которые будут включены в игровую деятельность. Большая часть работы в этом проекте состоит в создании динамичного сценария, который может адаптироваться к разным уровням знаний детей и учитывать их индивидуальные предпочтения. Также, игра "Alias" требует точного контроля за ходом игры, чтобы оперативно реагировать на действия детей и вносить исправления в процессе. Для этого используются технологии обработки естественного языка и машинного обучения. ## Результаты В ходе испытаний с роботом Furhat, который играл в игру "Alias" с детьми, было зарегистрировано, что робот может эффективно включать морфологические формы в игровой процесс без дополнительных усилий от специалистов. Он может динамически адаптироваться к уровню участников и учитывать их медленные или быстрые отклики. Также было зарегистрировано, что дети были вовлечены в игру и быстро начали работать с морфологическими формами, которые были намечены роботом. Статистические данные показывают, что дети, участвующие в игре с роботом, существенно улучшили свои языковые навыки по сравнению с теми, кто не участвова

Annotation:

Preschool children with language vulnerabilities -- such as developmental language disorders or immigration related language challenges -- often require support to strengthen their expressive language skills. Based on the principle of implicit learning, speech-language therapists (SLTs) typically embed target morphological structures (e.g., third person -s) into everyday interactions or game-based learning activities. Educators are recommended by SLTs to do the same. This approach demands precis...

ID: 2509.22287v1 cs.RO, cs.AI, cs.HC, I.2.7; H.5.2; K.3.1; J.4

arXiv PDF

📄 InfiAgent: Self-Evolving Pyramid Agent Framework for Infinite Scenarios

2025-09-30

Авторы:

Chenglin Yu, Yang Yu, Songmiao Wang, Yucheng Wang, Yifan Yang, Jinjia Li, Ming Li, Hongxia Yang

#### Контекст Обширные возможности Large Language Model (LLM) в области решения разнообразных задач привлекли внимание разработчиков и исследователей. Однако создание эффективных LLM-агентов требует тщательного проектирования рабочих процессов, создания продуманных очередей команд и постоянного оптимизационного регулирования. Эти ограничения влияют на стоимость и масштабируемость LLM-агентов в различных индустриях. Для устранения этих проблем предлагается **InfiAgent**, расширенная архитектура, основанная на схеме "агент-как-инструмент", которая позволяет автоматически декомпозировать сложные задачи на подсистемы, обеспечивая эффективность и гибкость. #### Метод **InfiAgent** использует DAG-фреймворк, структурированный в виде пирамиды, что обеспечивает эффективное управление задачами и связями между агентами. Он включает в себя оптимизированные механизмы, такие как "агент-как-инструмент", позволяющий автоматически декомпозировать задачи, и двойной механизм контроля качества, обеспечивающий достоверность результатов. Благодаря алгоритму матчинга задач с агентами и самооптимизирующемуся механизму эволюции, InfiAgent адаптируется к новым задачам и исправляет проблемы выполнения. Также включен механизм параллельного выполнения задач, увеличивающий эффективность. #### Результаты Исследования показали, что **InfiAgent** выполняет задачи с высоким качеством и эффективностью, показывая 9,9% выигрыша в производительности по сравнению с ADAS. Это продемонстрировано в сценарии AI Research Assistant (InfiHelper), который способен генерировать научные статьи, получающие признание учёных на высококлассных конференциях IEEE. Эти результаты доказывают эффективность архитектуры в решении сложных задач. #### Значимость Проект **InfiAgent** может применяться во многих областях, включая искусственный интеллект, бизнес-аналитику и управление проектами. Он предлагает высокую масштабируемость, экономичную эффективность и гибкость. Самооптимизирующиеся средства позволяют развиваться в адаптивном режиме, что делает его привлекательным для различных индустрий. #### Выводы **InfiAgent** представляет собой перспективное решение для адаптивного управления задачами с помощью LLM-агентов. Он обеспечивает высокую эффективность, гибкость и автоматическую адаптацию к новым вызовам. Будущие исследования будут сфокусированы на расширении возможностей InfiAgent для более сложных и интерпретируемых сценариев.

Annotation:

Large Language Model (LLM) agents have demonstrated remarkable capabilities in organizing and executing complex tasks, and many such agents are now widely used in various application scenarios. However, developing these agents requires carefully designed workflows, carefully crafted prompts, and iterative tuning, which requires LLM techniques and domain-specific expertise. These hand-crafted limitations hinder the scalability and cost-effectiveness of LLM agents across a wide range of industries...

ID: 2509.22502v1 cs.AI, cs.HC

arXiv PDF

📄 Death of the Novel(ty): Beyond n-Gram Novelty as a Metric for Textual Creativity

2025-09-30

Авторы:

Arkadiy Saakyan, Najoung Kim, Smaranda Muresan, Tuhin Chakrabarty

#### Контекст Современные языковые модели (LLM) обладают возможностью генерировать тексты, которые, как полагается, должны быть более творческими, чем те, которые предлагаются в исходной модели. Одна из метрик, наиболее часто используемой для оценки творчества текста, — n-gram novelty. Она определяет то, насколько уникален текст по сравнению с текстами, известными модели. Однако теоретические работы по творчеству подчеркивают, что n-gram novelty недостаточно, так как не учитывает две ключевые составляющие творчества: **новизну** (originality) и **прагматичность** (appropriateness). Это делает n-gram novelty неполной метрикой для оценки творчества. Мы исследуем эту проблему, используя огромное количество экспертных аннотаций (7542), которые оценивают не только новизну, но и значение текста владельцам языка — прагматичность и сочетательность. #### Метод Мы разработали специальный корпус данных, включающий тексты, генерируемые как людьми, так и ЛЛМ. Эти тексты были аннотированы экспертами-писателями, которые оценивали каждый текст по трем критериям: **новизна** (новизна выражения), **прагматичность** (то, насколько выражение соответствует логике и контексту) и **сочетательность** (то, насколько текст естественно звучит). Эти аннотации позволяют нам изучить, насколько хорошо n-gram novelty соответствует экспертным оценкам. В этом исследовании мы также проверяем, насколько хорошо модели себя чувствуют, определяя творческие или непрагматичные выражения. #### Результаты Мы обнаружили, что n-gram novelty была положительно связана с высокими оценками экспертов по творчеству, но существуют существенные ограничения. В частности, примерно 91% текстов, наиболее высоко оцененных по n-gram novelty, не были расценены как творческие. Это указывает на то, что n-gram novelty не может быть использовано в качестве однозначной метрики для творчества. Мы также обнаружили, что более высокая n-gram novelty в LLMs приводит к низкой прагматичности. Таким образом, ЛЛМ могут генерировать оригинальные тексты, но их выражения часто не соответствуют контексту. Наши эксперименты показали, что frontier LLMs способны выделять такие выражения, но их результаты остаются недостаточно точными. #### Значимость Этот результат имеет значение для области текстовой генерации и творчества. Наше исследование показывает, что творчество не может быть оценено только через n-gram novelty, и что для того, чтобы модели LLM становились более творческими, необходимо улучшить их возможности различить непрагматичные выражения. Мы также показываем, что модели LLM могут быть использованы для оценки творчества, но их моделируемое поведение пока не достигает у

Annotation:

N-gram novelty is widely used to evaluate language models' ability to generate text outside of their training data. More recently, it has also been adopted as a metric for measuring textual creativity. However, theoretical work on creativity suggests that this approach may be inadequate, as it does not account for creativity's dual nature: novelty (how original the text is) and appropriateness (how sensical and pragmatic it is). We investigate the relationship between this notion of creativity a...

ID: 2509.22641v1 cs.CL, cs.AI, cs.HC

arXiv PDF

📄 Fairy: Interactive Mobile Assistant to Real-world Tasks via LMM-based Multi-agent

2025-09-26

Авторы:

Jiazheng Sun, Te Yang, Jiayang Niu, Mingxuan Li, Yongyong Lu, Ruimeng Yang, Xin Peng

#### Контекст Современные мобильные приложения часто имеют разнообразные интерфейсы и требуют интерактивного взаимодействия с пользователем. Однако существующие системы-помощники часто столкнуваются с трудностями в обработке реальных сценариев, в которых данные интерфейсов мобильных приложений имеют разнообразие и постоянно меняются. Это ограничивает их эффективность в решении реальных задач. Кроме того, традиционные методы, опирающиеся на коммуникативные модели, часто не удается обеспечить точное выполнение задач, особенно в случае наличия длинных хвостовых распределений. Таким образом, нужно развить более интерактивные и самообучающиеся системы, которые могут более точно выполнять пользовательские задачи в реальном мире. #### Метод Fairy — это интерактивная мобильная система, состоящая из трех основных модулей: (i) **Global Task Planner**, который переводит пользовательские задачи на уровень суб-задач, работая в кросс-приложении; (ii) **App-Level Executor**, который уточняет подзадачи в детальные действия и синхронизирует их с пользователем в реальном времени, используя два уровня памяти (длинносрочная и краткосрочная) и четыре агента; и (iii) **Self-Learner**, который формирует **App Map** и **Tricks**, улучшая свою производительность в процессе использования. Fairy также включает в себя систему для коллективной работы между приложениями, обеспечивающую взаимодействие и самостоятельное обучение. #### Результаты Для оценки эффективности Fairy была разработана **RealMobile-Eval**, реальный комплексный бенчмарк, который позволяет получить скоры пользователя в реальных сценариях. Наши эксперименты показали, что Fairy, использующая GPT-4o как базу, значительно превосходит состояние технологии по нескольким критериям: (i) улучшение завершения пользовательских задач на 33.7%, (ii) снижение необходимых действий на 58.5%, (iii) высокую точность выполнения и (iv) улучшение кросс-приложенческой синергии. Эти результаты демонстрируют значимую эффективность Fairy в решении реальных задач в среде мобильных приложений. #### Значимость Fairy может применяться в различных сферах, таких как мобильные приложения, технологии управления и самообучающиеся системы. Ее основные преимущества заключаются в (i) точном выполнении задач, (ii) улучшении работы в кросс-приложениях, (iii) самообучающейся природе, которая позволяет улучшать свои возможности в процессе использования. Это может иметь большой потенциальный влияние на развитие интерактивных систем, улучшение пользовательского опыта в различных приложениях и увеличение эффективности в решении задач в реальном мире. #### Выводы

Annotation:

Large multi-modal models (LMMs) have advanced mobile GUI agents. However, existing methods struggle with real-world scenarios involving diverse app interfaces and evolving user needs. End-to-end methods relying on model's commonsense often fail on long-tail apps, and agents without user interaction act unilaterally, harming user experience. To address these limitations, we propose Fairy, an interactive multi-agent mobile assistant capable of continuously accumulating app knowledge and self-evolv...

ID: 2509.20729v1 cs.AI, cs.HC, cs.MA

arXiv PDF

📄 Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff

2025-09-26

Авторы:

Jiexi Xu

## Контекст Локальные агенты в low-code/no-code (LCNC) средах широко используются для автоматизации и управления задачами. Однако их недетерминированная природа часто приводит к непредвиденным ошибкам, их застреванию в циклах и неудавшемся выполнению задач. Это приводит к ухудшению пользовательского опыта и понижению уровня доверия к системе. Недостаточная степень прозрачности в поведении агентов и нехватка инструментов для эффективного управления этими проблемами поднимают вопросы о надежности и эффективности таких систем. Отсутствие прозрачности в механизмах принятия решений и нехватка прогностических мер для предупреждения пользователей об ошибках становится значительной проблемой в сфере развития LCNC-систем. ## Метод Разработанная модель предлагает внедрение дополнительного слоя, называемого "метакогнитивный", для мониторинга работы основного LCNC-агента. Этот слой подразумевает анализ нескольких метрик, включая задержки, специфичность действий и повторяемость действий, для определения риска неудачного выполнения задачи. При возникновении риска, метакогнитивный агент активно делает решение о передаче управления пользователю. В процессе этого, пользователю предоставляется подробное объяснение агентского "мышления", в том числе шаги, принятые за определенный промежуток времени, и причины, по которым агент не может продолжить задачу. Этот подход основывается на идеях человеческой метакогнитации, то есть моделирования собственных мыслей. Архитектура системы включает моделирование простейших задач с использованием LCNC-платформы, а также применение техник, позволяющих прогнозировать и оценивать состояние агента во время выполнения задач. ## Результаты В экспериментах, проведенных на специально подготовленных данных, были измерены как уровень успешности выполнения задач, так и нагрузка на ресурсы. Эксперименты показали, что внедрение метакогнитивного слоя приводит к существенному повышению успешности задач. Однако это приводит к значительному увеличению вычислительной нагрузки. Набор данных, использованный в экспериментах, включал различные сценарии, в которых были прогнозируемые ошибки и риски застревания задач. Результаты показали, что система с метакогнитивным слоем не только увеличивает успешность задач, но и дает пользователю более понятное объяснение, повышая, таким образом, уровень доверия к системе. ## Значимость Проектирование таких систем может быть применено в различных областях, включая финансы, здравоохранение и управление проектами. Система, включающая метакогнитивный слой, может стать более надёжной и прозрачной, повышая

Annotation:

The inherent non-deterministic nature of autonomous agents, particularly within low-code/no-code (LCNC) environments, presents significant reliability challenges. Agents can become trapped in unforeseen loops, generate inaccurate outputs, or encounter unrecoverable failures, leading to user frustration and a breakdown of trust. This report proposes a novel architectural pattern to address these issues: the integration of a secondary, "metacognitive" layer that actively monitors the primary LCNC ...

ID: 2509.19783v1 cs.AI, cs.HC, cs.SE

arXiv PDF

📄 Reading Between the Lines: Scalable User Feedback via Implicit Sentiment in Developer Prompts

2025-09-25

Авторы:

Daye Nam, Malgorzata Salawa, Satish Chandra

## Контекст Область исследования связана с оценкой удовлетворенности профессиональных разработчиков при использовании конверсационных ИИ-помощников. Несмотря на важность этой задачи, оценка удовлетворенности часто ограничивается простыми методами, такими как отзывы и рейтинги, которые либо недостаточно точны, либо невозможны в масштабе. Недостаточное количество качественных данных ставит под угрозу эффективное улучшение систем, так как невозможно обнаружить тонкие сигналы удовлетворенности. Поэтому, целью данного исследования является разработка метода, который мог бы дополнять существующие модели, обеспечивая более широкую и точную оценку отношения разработчиков к инструментам. ## Метод Методология основывается на использовании анализа тональности (sentiment analysis) для выделения неявных сигналов удовлетворенности из команд, которые разработчики отправляют в систему. Использованные алгоритмы тональности являются от коммерческих вариантов (off-the-shelf), что обеспечивает простоту использования. Для обучения модели не использовалось дополнительного тренировочного материала. Для экспериментов использовались логи использования 372 профессиональных разработчиков, что дало возможность проанализировать большой объем данных за короткое время. ## Результаты На основе анализа 372 разработчиков обнаружено, что неявные сигналы удовлетворенности могут быть выявлены в примерно 8% всех интеракций. Это увеличивает скорость обнаружения сигналов по сравнению с явными отзывами более чем в 13 раз. Модель показала приемлемую точность даже на основе откровенного сентимент-анализа, что демонстрирует возможность расширения эффективности существующих моделей без глубокой настройки. ## Значимость Результаты имеют практическое значение для области развития ИИ-помощников. Данный подход может быть использован для совершенствования системы понимания динамического поведения разработчиков, улучшения работы системы прогнозирования потребностей и выявления проблем, которые могут быть незаметными в классических методах оценки. Более широкое применение этого метода может повысить удовлетворенность разработчиков и ускорить развитие новых функций. ## Выводы Исследование доказало, что использование неявных сигналов удовлетворенности в разработческих запросах позволяет расширить объем исследований и улучшить точность оценки удовлетворенности. Будущие исследования будут сфокусированы на дополнительной настройке метода для повышения точности, а также на расширении исследований для различных типов AI-помощников.

Annotation:

Evaluating developer satisfaction with conversational AI assistants at scale is critical but challenging. User studies provide rich insights, but are unscalable, while large-scale quantitative signals from logs or in-product ratings are often too shallow or sparse to be reliable. To address this gap, we propose and evaluate a new approach: using sentiment analysis of developer prompts to identify implicit signals of user satisfaction. With an analysis of industrial usage logs of 372 professional...

ID: 2509.18361v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 Assistive Decision-Making for Right of Way Navigation at Uncontrolled Intersections

2025-09-25

Авторы:

Navya Tiwari, Joseph Vazhaeparampil, Victoria Preston

## Контекст Право выезда на неконтролируемых перекрестках остается одной из самых нестабильных ситуаций на дорогах, приводящих к значительному числу транспортных происшествий. Эти ситуации связаны с неясностью правил преимущества, косностью ограждений видимости и непредсказуемым поведением водителей. Исследования по автоматизированным системам управления транспортом уделяют внимание неопределенности в решающих процессах. Однако существуют мало систем, которые могут расширять функционал существующих автомобилей, обеспечивая их поддержку в непонятных ситуациях. Наша статья предлагает рамку для помощи в принятии решений для правого выезда на неконтролируемых перекрестках, основанную на Partially Observable Markov Decision Process (POMDP). Мы используем симулятор с разнообразными сценариями, включая статические и динамические обстановки, для оценки различных алгоритмов. ## Метод Мы описываем разработанную рамку для помощи в принятии решений для непонятных ситуаций в неконтролируемых перекрестках. Наш POMDP-планер включает в себя этапы сбора данных, расчета вероятностей и принятия решений. Мы разрабатываем пользовательский симулятор, включающий разнообразные сценарии, такие как статические препятствия, динамические обстановки с движущимися агентами и тротуары с пешеходами. Кроме того, мы разрабатываем несколько алгоритмов, включая Deterministic Finite State Machine (DFSM), QMDP, POMCP и DESPOT. Наша цель заключается в сравнении различных подходов в условиях разных уровней неопределенности. ## Результаты Мы проводим эксперименты в симуляторе с различными уровнями сложности, в том числе статические и динамические сценарии. Мы проверяем качество планирования на основе количества коллизий и прохождения времени. Общее число экспериментов покрывает сотни ситуаций, включая случаи с ограниченной видимостью и угрозами. Наши результаты показывают, что проблематичными являются ситуации с неопределенностью, но подходы, основанные на POMDP, позволяют достичь более высокой стабильности и безопасности. Мы также выявляем, что POMCP демонстрирует лучший баланс между безопасностью и эффективностью, в то время как DESPOT применяется для более быстрого варианта расчета. ## Значимость Мы показываем, что наш подход может быть эффективно использован в автомобильных системах помощи водителям. Мы подчеркиваем, что систематическое использование неопределенности позволяет улучшить безопасность на дорогах. Наши результаты могут быть использованы в разработке систем помощи водителям, особенно в условиях непредсказуемости

Annotation:

Uncontrolled intersections account for a significant fraction of roadway crashes due to ambiguous right-of-way rules, occlusions, and unpredictable driver behavior. While autonomous vehicle research has explored uncertainty-aware decision making, few systems exist to retrofit human-operated vehicles with assistive navigation support. We present a driver-assist framework for right-of-way reasoning at uncontrolled intersections, formulated as a Partially Observable Markov Decision Process (POMDP)....

ID: 2509.18407v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 From latent factors to language: a user study on LLM-generated explanations for an inherently interpretable matrix-based recommender system

2025-09-25

Авторы:

Maxime Manderlier, Fabian Lecron, Olivier Vu Thanh, Nicolas Gillis

## Контекст В последние годы значительное внимание уделяется развитию систем рекомендаций, которые обеспечивают понятность своих решений и могут объяснить свои рекомендации пользователям. Однако многие из существующих подходов к объяснению рекомендаций либо ограничены синтетическими экспериментами, либо недостаточно учитывают реальных пользователей. Наша работа фокусируется на доказательстве того, что ло LLM могут генерировать эффективные пользовательские объяснения для математически интерпретируемой модели рекомендаций, основанной на ограниченном факторном разложении матрицы. Эта модель характеризуется явной представлением пользовательских предпочтений и линейным масштабом предсказанных баллов, что делает её репрезентации и рекомендациями непосредственно понятными. Целью нашего исследования является изучение как пользователи реагируют на различные стили объяснений, сгенерированных с помощью LLM, и как эти стили влияют на их оценку качества рекомендаций. ## Метод Мы использовали констрейнтную модель факторного разложения матрицы, где заданы ограничения на пользовательские предпочтения, и предсказания размером, соответствующим масштабу наблюдаемых рейтингов. Для сгенерирования естественноязычных объяснений, мы разработали комплексные модели для трансформации матричных данных в естественный язык с помощью LLM. Мы создали несколько вариантов объяснений, изменяя входные данные для LLM, такие как описания пользовательских предпочтений или предполагаемые рекомендации. Эксперименты проводились с участием 326 пользователей, которые оценили качество объяснений по 5 ключевым критериям: транспарентность, эффективность, убедительность, доверие и удовлетворенность. Также мы провели анализ комментариев пользователей, чтобы получить дополнительные подробности о предпочтениях пользователей. ## Результаты Пользователи оценили все типы объяснений стабильно высоким рейтингом, хотя были заметные различия во время обработки некоторых типов объяснений. Объяснения, основанные на предпочтениях пользователей, получили высокую оценку по транспарентности и доверию, но менее эффективными оказались в убеждении пользователей. Объяснения, основанные на предполагаемых рекомендациях, оказались более убедительными и удовлетворяли пользователей больше, но показали меньшую транспарентность. Общая удовлетворенность пользователей была высокой, но варианты, объясняющие и то и другое, показали самые высокие показатели во всех критериях. Комментарии пользователей подтвердили эти наблюдения и дали дополнительные подробности о том, как люди ре

Annotation:

We investigate whether large language models (LLMs) can generate effective, user-facing explanations from a mathematically interpretable recommendation model. The model is based on constrained matrix factorization, where user types are explicitly represented and predicted item scores share the same scale as observed ratings, making the model's internal representations and predicted scores directly interpretable. This structure is translated into natural language explanations using carefully desi...

ID: 2509.18980v1 cs.AI, cs.HC, cs.IR, H.3.3; H.5.2; I.2.7

arXiv PDF

1
2
13
14
15
16
17
23
24

Показано 141 - 150 из 238 записей