📚 Саммари научных статей из arXiv

Найдено 73 результатов по запросу 'cs.CL, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 UISim: An Interactive Image-Based UI Simulator for Dynamic Mobile Environments

2025-09-30

Авторы:

Jiannan Xiang, Yun Zhu, Lei Shu, Maria Wang, Lijun Yu, Gabriel Barcik, James Lyon, Srinivas Sunkara, Jindong Chen

#### Контекст Разработка и тестирование пользовательских интерфейсов (UI), а также обучение интеллектуальных агентов для взаимодействия с ними, представляют собой значительные вызовы в условиях динамичных и разнообразных реальных мобильных сред. Существующие подходы часто ограничены использованием физических устройств или анализом статических скриншотов, что приводит к ограниченности возможностей для масштабного тестирования и создания интеллектуальных интерфейсов. Мы предлагаем UISim — инновационную систему, реализующую имитацию UI с использованием изображений и обеспечивающую динамическое интерактивное моделирование процессов в мобильных средах. #### Метод UISim основывается на двух этапах: предсказании абстрактной структуры следующего UI-состояния и генерации нового визуально согласованного изображения на его основе. Исходным изображением является экран мобильного устройства, а действием — пользовательский ввод. Алгоритм UISim использует сочетание методов машинного обучения и графической синтезирования для точного представления сложных динамических сценариев в реальных условиях. Эта методология обеспечивает реалистичное моделирование переходов между UI-состояниями, что упрощает тестирование, прототипирование и синтез данных. #### Результаты Мы провели эксперименты сравнительного анализа UISim с другими подходами в области генерации UI. Результаты показали, что UISim превосходит в показателях реализм и консистентности полученных изображений. Были использованы реальные скриншоты для тестирования, и мы продемонстрировали, как UISim эффективно моделирует UI-транзи션ы, даже при высокой степени динамических изменений. Эти результаты подтверждают ряд преимуществ системы: высокую точность, масштабируемость и практическую значимость. #### Значимость UISim может применяться в разработке UI, генерации синтетических данных и обучении интеллектуальных агентов. Он позволяет упростить процессы тестирования, сократить время разработки и повысить качество интеллектуальных интерфейсов. В то же время, динамическая природа UISim открывает новые возможности для выполнения задач, таких как планирование маршрутов взаимодействия для AI-агентов. Это может привести к расширению возможностей в области интеллектуальных систем. #### Выводы Мы представили UISim — систему, которая предлагает новый подход к имитации UI в мобильных средах. Наши результаты показали высокую эффективность и практическую значимость этого подхода. Мы считаем, что UISim может стать ключевым инструментом для упрощения процессов разработки и обучения AI-систем. Н

Annotation:

Developing and testing user interfaces (UIs) and training AI agents to interact with them are challenging due to the dynamic and diverse nature of real-world mobile environments. Existing methods often rely on cumbersome physical devices or limited static analysis of screenshots, which hinders scalable testing and the development of intelligent UI agents. We introduce UISim, a novel image-based UI simulator that offers a dynamic and interactive platform for exploring mobile phone environments pu...

ID: 2509.21733v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Interactive Recommendation Agent with Active User Commands

2025-09-27

Авторы:

Jiakai Tang, Yujie Luo, Xunke Xi, Fei Sun, Xueyang Feng, Sunhao Dai, Chao Yi, Dian Chen, Zhujin Gao, Yang Li, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng

## Контекст Современные системы рекомендаций основываются на пассивных механизмах обратной связи, ограничивающих пользователей до базовых вариантов, таких как "лайк" или "дизлайк". Эти простые отзывы не позволяют тщательно расследовать потребности и предпочтения пользователей. Таким образом, рекомендательные системы не могут точно определить, какие конкретные атрибуты товаров или сервисов влияют на удовлетворенность пользователей. Это приводит к ухудшению моделирования предпочтений и, в итоге, к снижению эффективности системы и уменьшению удовлетворенности пользователей. Этот проблемный аспект требует развития новых подходов, которые позволят лучше понять пользователей и улучшить рекомендации. ## Метод Мы предлагаем Interactive Recommendation Feed (IRF) — парадигму, в которой пользователи могут взаимодействовать с рекомендательными системами с помощью естественного языка. Такой подход позволяет пользователям напрямую контролировать рекомендации с помощью реального времени запросов в естественной форме языка. Для реализации этой идеи мы разработали RecBot, двухагентную архитектуру, в которой Parser Agent разбирает естественный язык команд в структурированные предпочтения, а Planner Agent адаптивно меняет политику рекомендации в зависимости от этих предпочтений. Для рациональной реализации в реальном мире мы применяем методы симуляционного знания для эффективного обучения и применения. Это позволяет IRF работать не только на основе данных, но и с учетом реальных факторов взаимодействия. ## Результаты Мы провести несколько экспериментов, обучая RecBot с помощью разных наборов данных и оценили его эффективность. На обучающих этапах мы использовали синтетические данные, а затем провели тестирование в реальной среде. RecBot показал существенные улучшения в удовлетворенности пользователей и в показателях бизнес-отдачи в сравнении с традиционными методами. Наши результаты показали, что пользователи активно используют возможность динамического управления рекомендациями, что приводит к лучшей корреляции рекомендаций с нуждами пользователей. Эти результаты подтверждают, что IRF может значительно повысить эффективность рекомендательных систем. ## Значимость Интерактивная система рекомендаций IRF может быть применена в различных сферах, таких как маркетинг, сервисы поддержки или интеллектуальные системы управления. Особым преимуществом является возможность активного управления рекомендациями, что повышает удовлетворенность пользователей и улучшает бизнес-результаты. Этот подход также может помочь системам быть более прозрачными и удобными для пользователей, что в целом повысит доверие к технологии. Мы в

Annotation:

Traditional recommender systems rely on passive feedback mechanisms that limit users to simple choices such as like and dislike. However, these coarse-grained signals fail to capture users' nuanced behavior motivations and intentions. In turn, current systems cannot also distinguish which specific item attributes drive user satisfaction or dissatisfaction, resulting in inaccurate preference modeling. These fundamental limitations create a persistent gap between user intentions and system interpr...

ID: 2509.21317v1 cs.IR, cs.CL, cs.HC

arXiv PDF

📄 Muse-it: A Tool for Analyzing Music Discourse on Reddit

2025-09-26

Авторы:

Jatin Agarwala, George Paul, Nemani Harsha Vardhan, Vinoo Alluri

#### Контекст Музыка затрагивает многие аспекты человеческой жизни, включая эмоциональные отношения, социальные связи и личностные особенности. Современные общества пользуются разнообразными способами потребления музыки, такими как стриминг, социальные сети и обсуждения в реальном времени. Однако с ростом интернет-активности становится все сложнее выделить природные обсуждения музыки и проанализировать их на больших данных. Традиционные методы исследований не подходят для экологичных данных, получаемых в реальной среде. На сегодняшний день есть необходимость в инструментах, позволяющих эффективно извлекать и анализировать данные из социальных сетей, включая Reddit, где пользователи делятся своими музыкальными предпочтениями в природных условиях. #### Метод Muse-it — это инструмент для извлечения и анализа данных из Reddit, специально разработанный для изучения музыкальных дискурсов. Он позволяет пользователям задавать поисковые запросы, а последующий анализ контента выполняется с помощью технологий NLP. Инструмент может выявлять темы, проводить анализ трендов времени, кластеризировать данные и идентифицировать ссылки на музыкальные ресурсы (например, Spotify). После извлечения данных Muse-it предоставляет метаданные, такие как исполнитель, альбом, дата релиза и жанр. Динамические визуализации и пользовательский интерфейс помогают воспринимать и интерпретировать эти данные. Благодаря своей архитектуре, Muse-it способен обрабатывать большие массивы данных, обеспечивая точность и комплексность анализа. #### Результаты Приложение было применено для анализа дискурса о музыке на Reddit в различных направлениях. Например, были извлечены данные о популярных трендах, новых жанрах и обсуждениях новых релизов. Исследования показали, что Muse-it успешно выявляет связи между обсуждениями и музыкальными ресурсами, такими как Spotify-ссылки. Также были проанализированы временные тренды, помогающие понять, когда и как пользователи обсуждают музыку. Эти результаты демонстрируют широкий потенциал инструмента для отслеживания музыкальных трендов и понимания их социального контекста. #### Значимость Muse-it открывает новые возможности для исследований в области музыкальных дискурсов. Его могут использовать музыкальные эксперты, социологи, психологи и другие специалисты для понимания музыкальных предпочтений на масштабах Internet of Everything. Инструмент помогает выявлять новые тренды, проанализировать эмоциональную сторону обсуждений и получить доступ к реальным мнениям пользователей. Это позволяет провести интерактивные исследования, которые могут влиять на маркетинг, создание контента и

Annotation:

Music engagement spans diverse interactions with music, from selection and emotional response to its impact on behavior, identity, and social connections. Social media platforms provide spaces where such engagement can be observed in natural, unprompted conversations. Advances in natural language processing (NLP) and big data analytics make it possible to analyze these discussions at scale, extending music research to broader contexts. Reddit, in particular, offers anonymity that encourages dive...

ID: 2509.20228v1 cs.IR, cs.CL, cs.HC, cs.MM, cs.SI

arXiv PDF

📄 Agentic AutoSurvey: Let LLMs Survey LLMs

2025-09-25

Авторы:

Yixin Liu, Yonghui Wu, Denghui Zhang, Lichao Sun

## Контекст Современные научные исследования сталкиваются с возрастающими вызовами в синтезе знаний в условиях быстро меняющихся научных областей. Экспоненциальный рост научной литературы требует новых подходов для эффективной синтеза и обобщения информации. Предыдущие методы, такие как AutoSurvey, либо нехватка систематической синтеза информации, либо ограничена своей способностью обеспечить высокую синтетическую качественность. Эти ограничения мотивируют развитие систем, построенных на агентно-агентной архитектуре, для решения этих проблем. ## Метод **Agentic AutoSurvey** — это развитие агентной архитектуры, основанной на команде из четырех специализированных агентов. Каждый агент выполняет роль в конкретной стадии процесса синтеза: **Paper Search Specialist** выбирает и определяет целевые работы, **Topic Mining & Clustering** группирует и структурирует литературу, **Academic Survey Writer** оформляет результаты в научном стиле, а **Quality Evaluator** гарантирует высокое качество исходящих результатов. Эта архитектура объединяет эффективность поиска, интеграции и оценки качества, обеспечивая глубокий анализ и синтез. ## Результаты Исследования проводились на 6 репрезентативных темах из COLM 2024, включая различные аспекты самообучения моделей. Agentic AutoSurvey обрабатывал 75–443 работ на каждой теме (общее число — 847). Многоступенчатый подход достиг 8.18/10 в синтезе информации, что значительно превосходит базовую систему AutoSurvey с результатом 4.77/10. Оценка проводилась по 12-мерной метрике, включающей комплексный анализ организации, синтеза и критического анализа. Эти результаты показывают, что новый подход предлагает значительные улучшения в сравнении с имеющимися методами. ## Значимость Agentic AutoSurvey направлен на область автоматизированного синтеза литературы в научных исследованиях, особенно в быстро меняющихся областях, таких как машинное обучение и глубокое обучение. Эта система может быть применена для создания комплексных обобщений и анализов существующих исследований, уменьшая время и усилия, необходимые для создания обзоров. Её высокая точность и комплексный подход к синтезу делают её привлекательной для научных работников и академических сообществ. ## Выводы Agentic AutoSurvey представляет собой прорыв в области автоматизированного синтеза литературы, обеспечивая более глубокий и точный анализ научных работ. Будущие исследования будут направлены на улучшение методов, расширение поддерживаемых тематик и оптимизацию процесса синтеза для более широкого спектра научных областей.

Annotation:

The exponential growth of scientific literature poses unprecedented challenges for researchers attempting to synthesize knowledge across rapidly evolving fields. We present \textbf{Agentic AutoSurvey}, a multi-agent framework for automated survey generation that addresses fundamental limitations in existing approaches. Our system employs four specialized agents (Paper Search Specialist, Topic Mining \& Clustering, Academic Survey Writer, and Quality Evaluator) working in concert to generate comp...

ID: 2509.18661v1 cs.IR, cs.CL, cs.HC

arXiv PDF

📄 VoXtream: Full-Stream Text-to-Speech with Extremely Low Latency

2025-09-23

Авторы:

Nikita Torgashov, Gustav Eje Henter, Gabriel Skantze

## Контекст В последние годы текстовые- Na по-речевые системы (TTS) стали важной частью цифровых технологий, используясь в различных областях, от смартфонов и автомобилей до умных домов и роботов. Однако многие существующие системы страдают от долгого времени отклика, что ограничивает их применение в реальном времени. Требуется новая подход, позволяющий осуществлять стриминговый TTS с минимальным задержкой, чтобы обеспечить быструю и надежную реализацию речи в различных сценариях. ## Метод VoXtream представляет собой полностью авторегрессионную, нулевой-задержкочную стриминговую систему TTS, которая начинает говорить с первого слова. Она использует монотоническую схему выравнивания и динамическую внешнесть, позволяющую не дожидаться задержки до начала речи. Архитектура VoXtream основана на трех основных компонентах: инкрементальном трансформере фонем, трансформере временных характеристик, прогнозирующему семантические и длительностные токены, и трансформере акустических характеристик, который производит аудиотокены. Эта структура обеспечивает высокую скорость и качество речевого анализа и генерации. ## Результаты Используя 9к-часовую корпус, VoXtream была тестирована в различных условиях, включая выходной стриминговый режим и полностью стриминговый набор. Она показала сравнительное качество с более крупными системами, при этом удовлетворяя требованиям к минимальной задержке. На GPU VoXtream достигла задержки в 102 мс, что является одним из наилучших результатов среди доступных TTS. ## Значимость VoXtream может применяться в различных ситуациях, где необходима быстрая и надежная реагирования, таких как помощьные технологии, умные дома и нейротехнологии. Ее минимальная задержка и высокое качество говорения делают ее привлекательной для развития реального времени TTS. ## Выводы VoXtream достигает своего целевого качества и минимальной задержки благодаря инновационной архитектуре и монотоническому выравниванию. Будущие исследования будут сфокусированы на улучшении качества вывода и оптимизации архитектуры для различных устройств и сценариев.

Annotation:

We present VoXtream, a fully autoregressive, zero-shot streaming text-to-speech (TTS) system for real-time use that begins speaking from the first word. VoXtream directly maps incoming phonemes to audio tokens using a monotonic alignment scheme and a dynamic look-ahead that does not delay onset. Built around an incremental phoneme transformer, a temporal transformer predicting semantic and duration tokens, and a depth transformer producing acoustic tokens, VoXtream achieves, to our knowledge, th...

ID: 2509.15969v1 eess.AS, cs.CL, cs.HC, cs.LG, cs.SD

arXiv PDF

📄 EHR-MCP: Real-world Evaluation of Clinical Information Retrieval by Large Language Models via Model Context Protocol

2025-09-23

Авторы:

Kanato Masayoshi, Masahiro Hashimoto, Ryoichi Yokoyama, Naoki Toda, Yoshifumi Uwamino, Shogo Fukuda, Ho Namkoong, Masahiro Jinzaki

#### Контекст Большой интерес к использованию технологий генерирующего искусственного интеллекта (ГИ) в медицине вызван потенциалом этих систем в повышении качества помощи пациентам и улучшению работы медицинских учреждений. Однако, внедрение ГИ в системы медицинских учреждений сталкивается с рядом проблем, в том числе ограниченным доступом к электронным медицинским рекордам (ЭМР). Модель контекста протокола (MCP) предлагает решение этой проблемы, обеспечивая интеграцию между ГИ и внешними системами для безопасного и эффективного доступа к данным. Точность и надёжность ГИ при использовании ЭМР в реальных условиях медицинской практики являются ключевыми вопросами, которые необходимо раскрыть. #### Метод Разработанное фреймворком EHR-MCP, используя сервис GPT-4.1 через LangGraph ReAct, позволяет обеспечить интеграцию с ЭМР. Шесть задач, отражающих практические ситуации команды инфекционного контроля (ICT), были разработаны для эксперимента. Для этих задач были использованы данные 8 пациентов, обсуждавшихся на совещаниях ICT. Для оценки точности и надёжности работы системы были сравниты результаты с клиническими золотыми стандартами, полученными врачами. #### Результаты EHR-MCP продемонстрировала высокую точность при выполнении простых задач, достигнув близкого к идеальному результату. Однако, в случае сложных задач, требующих подсчётов зависящих от времени, точность системы была ниже. Ошибки в основном происходили из-за неправильных аргументов и неправильного интерпретирования результатов. Длинные ответы, рискующие выйти за пределы контекстного окна, также могут стать проблемой. Несмотря на это, результаты EHR-MCP показали надежность и эффективность ГИ при использовании ЭМР в реальных условиях. #### Значимость Протокол EHR-MCP может быть применён в различных сферах клинической практики, включая диагностику, наблюдение, информирование и решение клинических вопросов. Он обеспечивает безопасный доступ к данным и обеспечивает надёжные ответы на клинические запросы. Этот подход может стать основой для развития ГИ в медицинских учреждениях, улучшая качество услуг и эффективность работы. #### Выводы Исследование подтверждает, что ГИ могут эффективно использоваться для доступа к клиническим данным в ЭМР, особенно при выполнении простых задач. Однако, для обеспечения полного интеграции ГИ в медицинскую практику необходимо развить её в сторону более сложных задач, включая рассуждения и генерацию клинических отчётов. Будущие исследования должны ориентироваться на э

Annotation:

Background: Large language models (LLMs) show promise in medicine, but their deployment in hospitals is limited by restricted access to electronic health record (EHR) systems. The Model Context Protocol (MCP) enables integration between LLMs and external tools. Objective: To evaluate whether an LLM connected to an EHR database via MCP can autonomously retrieve clinically relevant information in a real hospital setting. Methods: We developed EHR-MCP, a framework of custom MCP tools integrated...

ID: 2509.15957v1 cs.AI, cs.CL, cs.HC, cs.IR

arXiv PDF

📄 EmoHeal: An End-to-End System for Personalized Therapeutic Music Retrieval from Fine-grained Emotions

2025-09-23

Авторы:

Xinchen Wan, Jinhua Liang, Huan Zhang

## Контекст Эмоциональное благополучие является ключевым аспектом качества жизни, но многие цифровые инструменты для улучшения ментального здоровья остаются статичными и не учитывают тонкие оттенки эмоциональных состояний. Например, предпредплясное тревожиться, которое страдает более чем 1,5 миллиарда человек по всему миру, часто обрабатывается однотипными, "одноразмерными" подходами, не учитывающими индивидуальные особенности. EmoHeal, представленный в этой работе, представляет собой комплексную систему для персонализированного восстановления терапевтической музыки, которая учитывает тонкие различия эмоциональных состояний и предлагает индивидуальный подход к терапевтическому восстановлению. ## Метод Systsem EmoHeal представляет собой инновационный подход к терапевтической музыке с помощью трех этапов: детектирование, сопоставление и воспроизведение. Для детектирования эмоций используется модель XLM-RoBERTa, которая обучена распознавать 27 тонких эмоциональных состояний. Эти эмоции сопоставляются с музыкальными параметрами через знание о музыке-терапии (GEMS, iso-principle), предоставленным в виде знания. Для обнаружения содержимого видео и аудио используется CLAMP3-модель, которая делает предложения подходящего материала на основе текущего эмоционального состояния пользователя. ## Результаты EmoHeal протестирован на 40 участниках в рамках внутри-субъектного эксперимента. Участники сообщили значительное улучшение настроения (M=4.12, p<0.001) и высокую точность распознавания эмоций (M=4.05, p<0.001). Также была выявлена сильная корреляция между уровнем распознавания эмоций и терапевтическим эффектом (r=0.72, p<0.001), что подтверждает эффективность тонкой градации эмоциональных состояний. Эти результаты демонстрируют, что теория-ориентированный, эмоционально-сознательный подход может обеспечить эффективную цифровую поддержку для цифровых инструментов ментального здоровья. ## Значимость EmoHeal может применяться в различных сферах, в том числе в социальных и здравоохранных системах, для поддержки эмоционального здоровья. Его преимущество в том, что он использует терпимый подход для индивидуального улучшения эмоционального состояния на основе тонких эмоциональных состояний. Это делает EmoHeal выгодным для широкого круга пользователей, которые испытывают стресс и тревогу. Potentially, EmoHeal может влиять на отрасль цифровых инструментов для улучшения ментального здоровья, обеспечивая надежный и эффективный подход к терапии через музыку. ## Выводы Результаты эмпирически

Annotation:

Existing digital mental wellness tools often overlook the nuanced emotional states underlying everyday challenges. For example, pre-sleep anxiety affects more than 1.5 billion people worldwide, yet current approaches remain largely static and "one-size-fits-all", failing to adapt to individual needs. In this work, we present EmoHeal, an end-to-end system that delivers personalized, three-stage supportive narratives. EmoHeal detects 27 fine-grained emotions from user text with a fine-tuned XLM-Ro...

ID: 2509.15986v1 cs.LG, cs.AI, cs.CL, cs.HC, cs.SD, eess.AS

arXiv PDF

📄 Audio-Based Crowd-Sourced Evaluation of Machine Translation Quality

2025-09-19

Авторы:

Sami Ul Haq, Sheila Castilho, Yvette Graham

## Контекст Машинный перевод (MT) демонстрирует значительные улучшения в качестве генерируемого текста. Однако оценка качества MT, как правило, ограничивается текстовым подходом, требующим чтения и сравнения текстов. Этот подход не соответствует реальным условиям, где MT часто применяется для говорящего языка, например, в системах Google Translate и iFLYTEK Translator. В этих ситуациях MT оценивается говорящим языком, не текстом. Это ограничение может привести к неточностям и недооценке качества перевода. Люди взаимодействуют с текстом и говорящим языком по-разному, что затрудняет точное определение качества MT. Поэтому необходимо развить более естественный подход к оценке качества MT, используя речи в качестве основного мода. Цель этой работы — сравнить текстовые и звуковые оценки качества перевода, используя реальные задачи перевода и звуковые транскрипции. ## Метод Для исследования использовались 10 систем MT, участвовавших в WMT General MT Shared Task. Оценка проводилась в двух режимах: текстовый (пользователи сравнивали тексты) и звуковый (пользователи сравнивали говорящий язык). Данные были собраны с помощью Amazon Mechanical Turk. Оценки сравнения говорящего языка были сравнены с текстовыми оценками с помощью статистических методов. Для проверки надежности и кросс-валидации производились самоповторяющиеся эксперименты. Это позволило проверить, добавляет ли звуковая оценка дополнительной информации по сравнению с текстовой. ## Результаты Результаты показали, что звуковая и текстовая оценки в большинстве случаев согласуются. Однако в некоторых ситуациях звуковые оценки выявили значительные различия между системами MT, которые не были замечены в текстовой оценке. Это объясняется тем, что говорящий язык естественнее и более естественно ощущается человеком, чем текст. Например, звуковые оценки могут выявлять ошибки в произношении или ритме, которые не видны в тексте. В целом, звуковые оценки показали себя как дополнительный важный показатель качества MT. ## Значимость Звуковая оценка может использоваться в приложениях, где MT используется для говорящего языка, например, в системах распознавания речи, вождения автомобиля или медицинских приложениях. Звуковые оценки дают более натуральное представление качества перевода, чем текстовые. Таким образом, использование звуковых оценок может улучшить качество MT и привести к более точному пониманию его удобочитаемости и естественности. ## Выводы Результаты показывают, что звуковые оценки могут быть ценным способом оценки качества MT и дополнением к

Annotation:

Machine Translation (MT) has achieved remarkable performance, with growing interest in speech translation and multimodal approaches. However, despite these advancements, MT quality assessment remains largely text centric, typically relying on human experts who read and compare texts. Since many real-world MT applications (e.g Google Translate Voice Mode, iFLYTEK Translator) involve translation being spoken rather printed or read, a more natural way to assess translation quality would be through ...

ID: 2509.14023v1 cs.CL, cs.HC

arXiv PDF

📄 See, Think, Act: Teaching Multimodal Agents to Effectively Interact with GUI by Identifying Toggles

2025-09-19

Авторы:

Zongru Wu, Rui Mao, Zhiyuan Tian, Pengzhou Cheng, Tianjie Ju, Zheng Wu, Lingzhong Dong, Haiyue Sheng, Zhuosheng Zhang, Gongshen Liu

#### Контекст Графические пользовательские интерфейсы (GUI) широко используются в самых разных областях, от мобильных приложений до рабочих станций и устройств смарт-технологий. Многие задачи в этих системах требуют управления тогглами (переключателями) в GUI, чтобы выполнять конкретные действия. Однако взаимодействие с такими элементами часто представляет собой сложность для роботов и многомодальных агентов. Существующие подходы часто страдают от непоследовательности и неточности при выполнении команд, связанных с переключением состояний. Это ставит перед исследователями задачу развития более надежных методов для улучшения взаимодействия с GUI в рамках унифицированных решений. #### Метод В ходе работы была разработана методология State-aware Reasoning (StaR), которая добавляет уровень наблюдения и оценки состояний в обучение многомодальных агентов. Эта методика разделяет процесс на три этапа: **Образец (See)**, **Анализ (Think)** и **Действие (Act)**. Используя современные методы машинного обучения и глубоких нейронных сетей, StaR оценивает текущее состояние элемента GUI, анализирует инструкцию и выполняет точный переключение по мере необходимости. Архитектура отличается своей модульностью и интеграцией разных моделей, что позволяет улучшить общую надежность и точность выполнения команд. #### Результаты Для проверки эффективности StaR был разработан набор данных состояний GUI, включающий тогглы. Эксперименты проводились на трех разных многомодальных агентах. Результаты показали улучшение точности выполнения команд повторения переключения тоггла над текущим состоянием на более чем 30%. На трех отдельных бенчмарках также были продемонстрированы улучшения в общем производительности задач. Дополнительные эксперименты в динамической среде подтвердили возможность StaR для решения задач в реальном времени. #### Значимость Разработанная методика StaR может быть применена в различных сферах, включая автоматизацию, учетные системы и управление устройствами. Она предлагает высокую надежность и точность при выполнении команд, что позволяет существенно упростить взаимодействие с GUI. Помимо этого, StaR может сделать системы более удобными для пользователей, уменьшив количество ошибок в управлении. #### Выводы Разработка StaR показала высокую эффективность в задачах управления тогглами в GUI. Она позволяет улучшить надежность и точность многомодальных агентов в различных сценариях. В будущих исследованиях будет продолжаться работа над расширением моделей и их применением в более сложных реальных системах.

Annotation:

The advent of multimodal agents facilitates effective interaction within graphical user interface (GUI), especially in ubiquitous GUI control. However, their inability to reliably execute toggle control instructions remains a key bottleneck. To investigate this, we construct a state control benchmark with binary toggle instructions from public datasets. Evaluations of existing agents demonstrate their unreliability, particularly when the current toggle state already matches the desired state. To...

ID: 2509.13615v1 cs.AI, cs.CL, cs.HC

arXiv PDF

📄 Multi-Intent Recognition in Dialogue Understanding: A Comparison Between Smaller Open-Source LLMs

2025-09-16

Авторы:

Adnan Ahmad, Philine Kowol, Stefan Hillmann, Sebastian Möller

#### Контекст Современные диалоговые системы сталкиваются с вызовом точного понимания множественных намерений (multi-intent recognition) в естественном языке. Этот аспект ключевой для повышения качества общения с ботами, особенно в случаях задач-ориентированных бесед. Однако данная область исследований сталкивается с проблемами, такими как ограниченные ресурсы для обучения моделей и недостаточная доступность мощных моделей для организаций с ограниченными финансированием. Наша мотивация заключается в изучении возможностей малых, но эффективных, open-source Large Language Models (LLMs) для решения задачи multi-intent recognition в контексте значимой диалоговой базы данных MultiWOZ 2.1. #### Метод Для этого мы установили основу исследования на использовании трех популярных open-source pre-trained LLMs: LLama2-7B-hf, Mistral-7B-v0.1 и Yi-6B. Мы проводили тестирование в few-shot классификационной задаче, где каждая модель получала 20 примеров в качестве предложений с инструкциями. Модели были оценивали по метрикам точности (accuracy), F1-score (micro, macro, weighted), Humming Loss и Jaccard Similarity. Для сравнения мы проводили supervised learning на BERTForSequenceClassification в качестве базового гипотезы. Оценка полученных результатов производилась с учетом таких показателей как инференсное время и VRAM-ресурсы. #### Результаты Модель Mistral-7B-v0.1 показала себя лучше двух других LLMs в 11 из 14 классов намерений по F-Score, с взвешенным средним 0.50. Эта модель также оказалась эффективнее в Humming Loss и Jaccard Similarity. Тем не менее, базовая BERT-based supervised classifier показала себя выше всех генеративных моделей в few-shot setup, с значительным выигрышем в точности. Эта ситуация подтверждает значимость использования простых и традиционных подходов в сценариях с ограниченными ресурсами. #### Значимость Результаты нашего исследования имеют практическое значение для развития методов NLU (Natural Language Understanding) в контексте task-oriented chatbots. Малые open-source LLMs, такие как Mistral-7B-v0.1, могут быть эффективными для задач multi-intent recognition, особенно в режимах с небольшим количеством обучающих примеров. Это делает их привлекательными для компаний с ограниченным техническим ресурсом. Будущие исследования могут сосредоточиться на оптимизации этих моделей для более сложных сценариев и улучшении их преимуществ по сравнению с супервизированными подходами. #### Выводы Мы установили, что Mistral-7B-v0.1 является оптимальным в few-shot классификации multi-intent диалогов по метрикам F-Score и Jaccard Similarity. Однако BERT-based supervised classifier по-прежнему превосходит генеративные модели в общей точности. Наше исследование обосновывает дополнительные работы по улучшению open-source LLMs для NLU в задачах multi-intent recognition, а также направляет наше внимание на развитие гибридных подходов, ко

Annotation:

In this paper, we provide an extensive analysis of multi-label intent classification using Large Language Models (LLMs) that are open-source, publicly available, and can be run in consumer hardware. We use the MultiWOZ 2.1 dataset, a benchmark in the dialogue system domain, to investigate the efficacy of three popular open-source pre-trained LLMs, namely LLama2-7B-hf, Mistral-7B-v0.1, and Yi-6B. We perform the classification task in a few-shot setup, giving 20 examples in the prompt with some in...

ID: 2509.10010v1 cs.CL, cs.HC

arXiv PDF

1
2
3
4
5
6
7
8

Показано 41 - 50 из 73 записей