📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 TalkToAgent: A Human-centric Explanation of Reinforcement Learning Agents with Large Language Models

2025-09-09

Авторы:

Haechang Kim, Hao Chen, Can Li, Jong Min Lee

## Контекст Область исследования — **Explainable Reinforcement Learning (XRL)** — становится все более важной для повышения прозрачности и понимания действий агентов в сложных средах моделирования. Актуальность XRL обусловлена необходимостью объяснения агентских решений для доверия пользователей и эффективности применения в реальных ситуациях. Однако существуют проблемы: многие XRL-методы оказываются недостаточно интуитивными для широкого круга пользователей, в том числе для доменных экспертов. Это приводит к тому, что пользователи сложно понимают, какие инструменты XRL использовать для получения ответа на конкретный вопрос. Метод TalkToAgent предлагает решение этой проблемы, объединяя в себе несколько штурмовых генеративных моделей, чтобы обеспечить интерактивные и понятные объяснения для пользователей. ## Метод TalkToAgent является фреймворком, основанным на **LLM (Large Language Models)**, который использует 5 специальных моделей: **Coordinator**, **Explainer**, **Coder**, **Evaluator** и **Debugger**. Каждая модель отвечает за свою часть процесса: - **Coordinator** — выбирает релевантные XRL-инструменты на основе пользовательского запроса. - **Explainer** — объясняет поведение агента в человеческой речи. - **Coder** — создает и запускает новые модели, если это необходимо. - **Debugger** — исправляет или модифицирует модели, если результаты неверны. - **Evaluator** — проверяет результаты на соответствие ожиданиям. Этот подход позволяет пользователю задавать вопросы в естественной речи и получать понятные ответы, включая **counterfactual explanations**, которые позволяют понять, что произошло бы в случае изменения определенных параметров. ## Результаты Исследование было проведено на **quadruple-tank process control problem**, являющемся хорошо известным нелинейным бенчмарком для проверки систем управления. TalkToAgent показал высокую точность в сопоставлении пользовательских запросов с XRL-задачами. Механизм **coder-debugger** эффективно исправлял ошибки в процессе генерации counterfactual explanations. Также проведенная квалитиативная оценка подтвердила, что TalkToAgent успешно интерпретировал действия агента и сформулировал их в контексте задачи. ## Значимость TalkToAgent может быть применен в различных областях, где требуется понимание и объяснение действий агентов, например: - **Реальному времениуправлению** — для того, чтобы помочь экспертам понять поведение сложных систем. - **Индустрии** — для улучшения доверия в решениях, связанных с управлением производства. - **Экономике и финансах** — для повышения прозрачности в автоматизированных системах трейдинга. Преимущества TalkToAgent заключаются в интерактивной природе и понятности его ответов, что делает его подходом привлекательным для широкого круга пользователей. Будущие исследования будут сфоку

Annotation:

Explainable Reinforcement Learning (XRL) has emerged as a promising approach in improving the transparency of Reinforcement Learning (RL) agents. However, there remains a gap between complex RL policies and domain experts, due to the limited comprehensibility of XRL results and isolated coverage of current XRL approaches that leave users uncertain about which tools to employ. To address these challenges, we introduce TalkToAgent, a multi-agent Large Language Models (LLM) framework that delivers ...

ID: 2509.04809v2 cs.AI, cs.HC

arXiv PDF

📄 SpiderNets: Estimating Fear Ratings of Spider-Related Images with Vision Models

2025-09-09

Авторы:

Dominik Pegler, David Steyrl, Mengfan Zhang, Alexander Karner, Jozsef Arato, Frank Scharnowski, Filip Melinscak

## Контекст Боязнь ловкости (arachnophobia) — одна из наиболее распространенных фобий, влияющая на качество жизни и мотивацию к лечению у большинства пациентов. Обычно для снижения этой боязни используется классическая терапия, но выявление эффективных визуальных стимулов и их динамическое настройирование в процессе лечения могут ускорить процесс. Экспозурная терапия, воспользовавшись структурированным набором визуальных стимулов, может быть оптимизирована, если модели ИИ смогут точно предсказывать потенциальное потребление страху от изображений. В настоящем исследовании мы исследовали возможность использования предобученных зрения-моделей для точного предсказания человеческих оценок страха от спидер-связанных изображений. ## Метод Мы использовали три различных предобученные компьютерно-визуальные модели, которые были дообучены для предсказания человеческих оценок страха от спидер-связанных изображений (на шкале от 0 до 100). Модели были обучены с использованием переобучения (transfer learning) на наших данных. Мы провели кросс-валидацию, чтобы оценить точность предсказаний. Для анализа интерпретируемости моделей мы провели оценки, показав, какие части изображений влияют на предсказания. Для категорий-ошибок мы проанализировали условия, приводящие к высоким ошибкам (например, дальние виды, изображения с артефактами). ## Результаты Мы достигли среднего значения матожидания абсолютной ошибки (MAE) в пределах от 10.1 до 11.0. Наши результаты показали, что уменьшение размера обучающей выборки значительно повлияло на точность модели, но при увеличении данных не было значительных улучшений. Изучение зрения отдельных категорий показало, что модели становятся менее точными при дальних видах и изображениях с артефактами. ## Значимость Наши результаты указывают на потенциал использования предобученных моделей зрения для предсказания страха от визуальных стимулов в целях лечения. Это может позволить повысить эффективность терапии, предоставив данные для динамического регулирования террапийных материалов. Ценность этого подхода также заключается в том, что модели могут быть объяснены, что значительно улучшает доверие к их результатам. ## Выводы Мы показали, что предобученные модели зрения могут точно предсказать человеческие оценки страха в отношении спидер-связанных изображений. Наши результаты подкрепляют роль моделей зрения в клинических приложениях, связанных с терапией страха. Мы также выделили необходимость увеличивать размер обучающих данных для повышения точности и улучшать модели с учетом

Annotation:

Advances in computer vision have opened new avenues for clinical applications, particularly in computerized exposure therapy where visual stimuli can be dynamically adjusted based on patient responses. As a critical step toward such adaptive systems, we investigated whether pretrained computer vision models can accurately predict fear levels from spider-related images. We adapted three diverse models using transfer learning to predict human fear ratings (on a 0-100 scale) from a standardized dat...

ID: 2509.04889v1 cs.CV, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 AI Agents for Web Testing: A Case Study in the Wild

2025-09-09

Авторы:

Naimeng Ye, Xiao Yu, Ruize Xu, Tianyi Peng, Zhou Yu

## Контекст Область исследования — автоматизированное тестирование веб-сайтов, которое является ключевым для обеспечения качества пользовательского опыта и доставки бизнес-ценности. Существующие подходы, ориентированные на код и нагрузку, часто не удаляются в поиске неисправностей, которые могут влиять на пользовательский опыт. Особенно затруднено представление сложных пользовательских поведений. В этом контексте возникает необходимость в инновационных решениях, которые бы предлагали более полное понимание и эффективную оценку веб-сайтов. Мотивация заключается в использовании новых технологий, таких как бо LLM и AI агенты, для создания тестового фреймворка, который мог бы ближе подходить к реальным пользовательским интерфейсам. ## Метод WebProber — это прототип фреймворка для агентно-ориентированного тестирования веб-сайтов, основанного на LLM и AI агентах. Он позволяет автоматически исследовать веб-сайт, действуя как реальный пользователь, и искать баги и проблемы пользовательского опыта. AI-агент анализирует структуру сайта и моделирует поведение пользователя, включая навигацию, ввод данных и нажатия на кнопки. Также, WebProber создает подробный журнал о найденных проблемах, таких как недоступность, неквалифицированные элементы интерфейса и другие. Архитектура фреймворка включает модули для исследования, отчетности и управления тестовыми процессами. Использование LLM позволяет WebProber генерировать сообщения в понятной для людей форме, что упрощает интерпретацию результатов тестирования. ## Результаты В ходе эксперимента, проводившегося на 120 ученых веб-страницах, WebProber открыл 29 проблем с пользовательским опытом, которые не были обнаружены другими инструментами. Например, были выявлены проблемы с навигацией, недоступностью элементов интерфейса, и несоответствием веб-страниц требованиям W3C. Кроме того, WebProber демонстрирует значительно более высокую скорость выполнения тестов по сравнению с традиционными подходами. Эти результаты подтверждают значимость использования AI-агентов для улучшения качества веб-тестирования. ## Значимость Полученные результаты показывают, что AI-агенты могут стать важной частью стратегии тестирования веб-приложений. Их преимущества включают в себя увеличение полноты оценки, улучшение качества отчетов и повышение эффективности. Эти средства могут использоваться в различных сферах, включая интернет-магазины, учебные платформы и даже государственные веб-ресурсы. Будущие исследования будут направлены на улучшение моделей поведения, увелич

Annotation:

Automated web testing plays a critical role in ensuring high-quality user experiences and delivering business value. Traditional approaches primarily focus on code coverage and load testing, but often fall short of capturing complex user behaviors, leaving many usability issues undetected. The emergence of large language models (LLM) and AI agents opens new possibilities for web testing by enabling human-like interaction with websites and a general awareness of common usability problems. In this...

ID: 2509.05197v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming

2025-09-08

Авторы:

Wesley Hanwen Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon A Gatys

## Контекст Актуальные исследования в области управления ИИ и его безопасности направлены на развитие методов, позволяющих эффективно выявлять потенциальные риски, связанные с использованием ИИ. Одним из ключевых аспектов является вопрос о том, как особенности идентичности и фоновых характеристик человеческих красных команд способствуют развитию различных стратегий красного тестирования и, в итоге, выявлению разных типов рисков. Хотя автоматизированные методы красного тестирования могут повысить масштабируемость и эффективность работы, они до сих пор не принимают во внимание факторы, связанные с идентичностью человека. Данная работа является первым шагом в интеграции фактора идентичности в автоматизированные методы красного тестирования. ## Метод Метод PersonaTeaming вводит понятие "персона" в процесс генерирования адверских запросов для улучшения методов красного тестирования. Он включает в себя два основных элемента: 1) методологию мутации запросов на основе различных типов персон — "красных командных экспертов" и "регулярных пользователей AI", и 2) динамический алгоритм генерирования персон, который адаптируется к конкретным семантическим особенностям запроса. Также были разработаны новые метрики для измерения "расстояния мутации", которое позволяет измерить степень изменений в запросах. ## Результаты Эксперименты показали, что использование PersonaTeaming приводит к значительному увеличению успешности атак (до 144.1%), сохраняя при этом разнообразие запросов. Это выполняется благодаря тому, что персоны позволяют сформировать более широкий спектр адверских стратегий. Важно отметить, что разные типы персон и мутационные методы оказывают разные влияния на результаты, что подчеркивает важность дальнейшего исследования и анализа этих факторов. ## Значимость Метод PersonaTeaming может быть применен в различных сферах, где необходимо эффективно выявлять риски, связанные с использованием ИИ. Его основное преимущество заключается в том, что он дает возможность исследовать новые адверские стратегии, которые могут быть пропущены другими методами. Это может привести к более глубокому пониманию рисков и к развитию более надежных систем ИИ. ## Выводы Результаты опытов показали, что PersonaTeaming значительно повышает эффективность автоматизированных методов красного тестирования, улучшая масштабируемость и гибкость. В будущем необходимо продолжить исследования, направленные на совершенствование методов интеграции персон в адверские процессы тестирования ИИ.

Annotation:

Recent developments in AI governance and safety research have called for red-teaming methods that can effectively surface potential risks posed by AI models. Many of these calls have emphasized how the identities and backgrounds of red-teamers can shape their red-teaming strategies, and thus the kinds of risks they are likely to uncover. While automated red-teaming approaches promise to complement human red-teaming by enabling larger-scale exploration of model behavior, current approaches do not...

ID: 2509.03728v2 cs.AI, cs.HC

arXiv PDF

📄 PersonaTeaming: Exploring How Introducing Personas Can Improve Automated AI Red-Teaming

2025-09-06

Авторы:

Wesley Hanwen Deng, Sunnie S. Y. Kim, Akshita Jha, Ken Holstein, Motahhare Eslami, Lauren Wilcox, Leon A Gatys

#### Контекст Результаты развития искусственного интеллекта (ИИ) в последние годы вызвали значительные проблемы в области гуманного управления и безопасности. Одним из ключевых аспектов является "красная команда" (red-teaming), которая предназначена для идентификации потенциальных рисков, которые могут быть вызваны ИИ-моделями. Этот подход включает в себя проведение экспериментов с ИИ с целью выявления его уязвимостей. Однако, существующие методы часто ограничиваются человеческим участием и не учитывают личностную идентичность участников, которая может существенно повлиять на подход к проведению красной команды. Данная работа исследует возможность внедрения "личностных ролей" (personas) в автоматизированные методы красной команды, с целью расширения спектра стратегий противодействия потенциальным угрозам. #### Метод Метод, представленный в работе, называется **PersonaTeaming**. Он состоит из нескольких ключевых элементов: 1. **Методология для мутации проблемных запросов (prompts):** Авторы предлагают метод, который мутирует проблемные запросы, используя различные "личностные роли" (personas). Эти роли могут быть определены как "красного командера-эксперта" или "регулярного пользователя ИИ". 2. **Динамический алгоритм генерации личностей (personas):** Алгоритм адаптивно генерирует разные личностные роли, которые могут быть применены к различным проблемным запросам для повышения гибкости и эффективности. 3. **Новые метрики для измерения разнообразия и мутации:** Разработаны новые метрики, которые измеряют "расстояние мутации", что позволяет эффективно измерять изменения в проблемных запросах и личностных ролях. Эти компоненты объединены в единую систему, предназначенную для улучшения методов красной команды через интеграцию личностных ролей. #### Результаты Авторы проводили эксперименты, сравнивая **PersonaTeaming** с **RainbowPlus**, современным лидером в области автоматизированной красной команды. Использовались различные тестовые наборы данных для оценки эффективности. - **Улучшение успешности атак:** Использование **PersonaTeaming** приводит к увеличению успешности атак на ИИ-модели до 144.1%, что значительно превышает результаты RainbowPlus. - **Сохранение разнообразия запросов:** Хотя PersonaTeaming повышает успешность атак, он также сохраняет разнообразие проблемных запросов, что важно для эффективного анализа моделей. Эти результаты показывают, что интеграция личностных ролей может значительно улучшить качество красной команды, добавив новые стратегии и перспективы. #### Значимость **PersonaTeaming** открывает новые го

Annotation:

ID: 2509.03728v1 cs.AI, cs.HC

arXiv PDF

📄 Reinforcement Learning Driven Generalizable Feature Representation for Cross-User Activity Recognition

2025-09-05

Авторы:

Xiaozhou Ye, Kevin I-Kai Wang

## Контекст Узкие места в системах Human Activity Recognition (HAR) часто возникают из-за существующей неоднородности в данных, происходящей в результате различий в движении, расположении датчиков и характеристиках физиологии субъектов. Эти различия создают значительные сложности для обучения моделей, которые должны обеспечить устойчивость производительности при работе с несвязанными пользователями. Обычные гиперпараметры, такие как классификаторы и кросс-валидация, часто разбиваются на пользователей или сессии, чтобы увеличить производительность на тестовой выборке. Однако именно это действие может многократно приводить к переобучению моделей, из-за чего они не могут работать должным образом в реальных условиях. Необходимо разработать новый подход, который избавит модели от переобучения и улучшит их общеуниверсальность при работе в разных условиях. ## Метод Мы предлагаем Temporal-Preserving Reinforcement Learning Domain Generalization (TPRL-DG), новый подход, который изменяет подход к выявлению признаков, используя глубокое обучение. TPRL-DG работает на основе автокодирования временных последовательностей, обеспечивая устойчивость к переменным временным зависимостям. Это достигается с помощью Transformer-based autoregressive generator, который учитывает все взаимосвязи в потоке данных. Мы также применяем multi-objective reward function, которая оптимизирует и точность классификации, и уровень общей универсальности. Наша модель также не требует пользовательских метков для обучения, что делает ее более эффективной в реальном мире. Благодаря этому, мы создаем модель, которая может обучаться без дополнительных меток и обеспечивает устойчивость к пользовательским различиям. ## Результаты Мы проверили нашу модель на двух стандартных датасетах HAR: DSADS и PAMAP2. Наши результаты показывают, что TPRL-DG превосходит другие существующие подходы в области HAR. Мы показали, что модель может обеспечить более высокую точность распознавания действий при работе в разных условиях, включая пользователей, с минимальным количеством предварительной настройки. Также мы отметили, что наш подход выделяется в способности сохранять поток данных во временном диапазоне, что значительно улучшает качество распознавания действий. ## Значимость Мы показали, что TPRL-DG может применяться в различных сферах, таких как системы здоровья, фитнес-трекинг, а также в системы контекстного опознавания в смарт-домах. Модель обеспечивает эффективность при работе с несвязанными пользователями без необходимости использовать пользовательские метки. Это позволяет увеличить гибкость модели и уменьшить время настройки. Также наш подход может улучшить системы, требующие контекстного опознавани

Annotation:

Human Activity Recognition (HAR) using wearable sensors is crucial for healthcare, fitness tracking, and smart environments, yet cross-user variability -- stemming from diverse motion patterns, sensor placements, and physiological traits -- hampers generalization in real-world settings. Conventional supervised learning methods often overfit to user-specific patterns, leading to poor performance on unseen users. Existing domain generalization approaches, while promising, frequently overlook tempo...

ID: 2509.01031v1 cs.LG, cs.AI, cs.HC

arXiv PDF

📄 DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion

2025-09-05

Авторы:

Junxiang Liu, Junming Lin, Jiangtong Li, Jie Li

## Контекст Моделирование динамических визуальных сцен из электроэнцефалограмм (EEG) является ключевым вопросом в области мозгового декодирования. Однако существующие методы сталкиваются с недостатками в решении проблем, связанных с низкой специфичностью EEG, временным несоответствием записей нейросигналов и видеоинформации, а также недостаточным использованием семантической информации. Эти ограничения приводят к недостаточной динамической целостности и недостаточной семантической контекстуализации. Поэтому необходимо разработать систему, которая сможет эффективно комбинировать эти аспекты для точного моделирования визуальных сцен. ## Метод DynaMind представляет собой современный разработанный подход, который сочетает нейродинамические признаки и семантические компоненты в рамках трех модулей: Regional-aware Semantic Mapper (RSM), Temporal-aware Dynamic Aligner (TDA) и Dual-Guidance Video Reconstructor (DGVR). RSM использует региональный подход к извлечению семантических признаков из EEG, агрегируя их в общую структуру для дальнейшего применения. TDA генерирует динамический латентный секвенс, обеспечивая гармоничность в ходе временных изменений. DGVR синтезирует видео, используя эти семантические признаки и динамический секвенс для достижения самой высокой точности и коректности. ## Результаты Проведенные эксперименты показали, что DynaMind достигает значительных улучшений в сравнении с предыдущими методами. На SEED-DV датасете, он повысил точность воспроизведения видео на 12.5% (видео-уровень) и 10.3% (фрейм-уровень). Этот подход также показал предвосхитительную разрешающую способность, повысив SSIM на 9.4% и снизив FVMD на 19.7%. Эти результаты подтверждают высокую точность и визуальное качество, установив новый состояние техники в области видеореконструкции из EEG. ## Значимость DynaMind открывает путь к новым возможностям в области динамического моделирования визуальных сцен, имея широкие применения в технологиях интерактивных систем, робототехнике и медицине. Он предлагает высокую точность, динамическую целостность и визуальную четкость, которые отсутствуют в существующих решениях. Будущие исследования будут сконцентрированы на расширении применений, улучшении точности и исследовании повышения моделирования зависимости между нейродинамикой и семантическими признаками. ## Выводы DynaMind становится ключевым развитием в области моделирования визуальных сцен с помощью EEG. Он выделяется своей уникальной архитектурой, объединяющей нейродинамические и семантические компоненты, что позволяет достигать высокого качества реконструкции. Будущие работы будут с

Annotation:

Reconstruction dynamic visual scenes from electroencephalography (EEG) signals remains a primary challenge in brain decoding, limited by the low spatial resolution of EEG, a temporal mismatch between neural recordings and video dynamics, and the insufficient use of semantic information within brain activity. Therefore, existing methods often inadequately resolve both the dynamic coherence and the complex semantic context of the perceived visual stimuli. To overcome these limitations, we introduc...

ID: 2509.01177v1 cs.CV, cs.AI, cs.HC, eess.SP

arXiv PDF

📄 CabinSep: IR-Augmented Mask-Based MVDR for Real-Time In-Car Speech Separation with Distributed Heterogeneous Arrays

2025-09-05

Авторы:

Runduo Han, Yanxin Hu, Yihui Fu, Zihan Zhang, Yukai Jv, Li Chen, Lei Xie

## Контекст Одной из ключевых задач в области звукового взаимодействия с автомобилями является разделение сложно перекрывающихся речи нескольких говорящих. Это необходимо для повышения точности распознавания речи в моделях ASR, что в свою очередь повышает качество пользовательского опыта в автоматизированных системах диктовки и помощи водителям. Традиционные методы часто сталкиваются с трудностями в условиях реальных автомобильных сред, где звуковые источники плотно перекрываются, и имеют высокую сложность вычислительной части. Многоканальные задачи разделения речи, включая локализацию говорящих и отделение их речи, являются важными для решения этих проблем, но требуют эффективных алгоритмов с умеренными вычислительными затратами. ## Метод CabinSep представляет собой новую реализацию маски-ориентированного метода MVDR (Minimum Variance Distortionless Response) для разделения речи в реальном времени. Основным инновационным элементом является использование информации о каналах для извлечения пространственных признаков, которые улучшают оценку масок речи и шума. Это позволяет повысить точность разделения, даже если источники речи находятся в разных зонах пространства. Метод также использует МВДР в процессе инференса, что уменьшает дисторсию речи и делает разделенный звук более подходящим для ASR. Для повышения устойчивости и точности расположения говорящих, CabinSep вводит метод увеличения данных, который сочетает симулированные и реально записанные отзвуки (Impulse Responses, IRs). Это позволяет улучшить локализацию говорящих, особенно на границах зон. ## Результаты Для оценки эффективности CabinSep проводились эксперименты на реально записанных данных. Результаты показали, что метод достигает 17.5% относительной снижения ошибок распознавания речи по сравнению со стандартным DualSep моделью. Это достижение достигается при относительно низкой вычислительной сложности — 0.4 GMACs. Эксперименты также показали, что CabinSep обеспечивает более точное расположение говорящих в многоканальной среде, что значительно повышает качество распознавания в условиях сложных автомобильных сред. ## Значимость CabinSep может быть применен в автомобильных системах, где необходимо эффективно разделить речи нескольких говорящих в реальном времени. Его преимущества заключаются в низком компьютерном затрат, высокой точности разделения и улучшенной локализации говорящих. Это делает CabinSep подходящим для систем самого разного уровня сложности, от простой помощи водителю до сложных систем автоматического управления автомобилем. Дальнейшие исследования могут сосредоточиться на дальнейшем повышении эффективности и уменьшении компь

Annotation:

Separating overlapping speech from multiple speakers is crucial for effective human-vehicle interaction. This paper proposes CabinSep, a lightweight neural mask-based minimum variance distortionless response (MVDR) speech separation approach, to reduce speech recognition errors in back-end automatic speech recognition (ASR) models. Our contributions are threefold: First, we utilize channel information to extract spatial features, which improves the estimation of speech and noise masks. Second, w...

ID: 2509.01399v1 cs.SD, cs.AI, cs.HC, eess.AS

arXiv PDF

📄 Who Owns The Robot?: Four Ethical and Socio-technical Questions about Wellbeing Robots in the Real World through Community Engagement

2025-09-05

Авторы:

Minja Axelsson, Jiaee Cheong, Rune Nyrup, Hatice Gunes

#### Контекст Прогрессирующие технологии в области роботов, ориентированных на продвижение благополучия (wellbeing), привлекают внимание в ученых кругах. Однако их реализация в реальном мире приводит к развитию этических и социотехнических вопросов. Эти вопросы возникают по причине непредсказуемых ситуаций, с которыми могут столкнуться такие роботы в своем оперативном использовании. Например, исследования показывают, что робот-коуч может способствовать улучшению благополучия человека, но реальность их применения включает в себя проблемы, такие как отсутствие четкого понимания кто владеет ими, кто их разрабатывает, и как их можно воспринимать в разных социальных контекстах. Чтобы добиться более точной разработки таких технологий, необходимо включить в процесс разработки и использования этих роботов более широкие социальные группы. Данное исследование посвящено этим вопросам, авторы пытаются осмыслить значимость этих технологий через объективные дискуссии с группами, которые представляют собой различные социальные уровни и группы интересов. #### Метод Для изучения этой проблемы, авторы выбрали трех групп пользователей, которые представляют собой различные социальные группы. Это были: 1) широкая публика во время научного фестиваля, 2) женщины, занимающиеся информатикой, посетившие конференцию, и 3) лингвисты и философы, заинтересованные в истории и философии науки. Для получения данных от этих групп были проведены специальные воркшопы. В ходе этих воркшопов, участники работали с инструментом "Social Robot Co-Design Canvas on Ethics", который позволял собирать качественные данные в форме обсуждений. Данные были структурированы и последующий анализ проводился с использованием тематического анализа, основываясь на записих от этих воркшопов. Таким образом, авторы собирали и анализировали информацию, чтобы выявить широкие тематические вопросы, актуальные для реального использования роботов, связанных с благополучием. #### Результаты В результате анализа были выделены четыре основных тематических вопроса, которые отражают ключевые этические и социотехнические аспекты использования роботов для благополучия: 1) "Как мы знаем, что робот безопасен?", 2) "Кому он принадлежит и кто его построил?", 3) "Кто владеет роботом или данными, которые он собирает?", и 4) "Зачем нужен этот робот?". Эти вопросы были изложены на основе сбора данных с различных социальных групп, и дальнейшая дискуссия о них проводилась с учетом современной литературы по теме. Авторы также выделили различные аспекты, которые могу

Annotation:

Recent studies indicate that robotic coaches can play a crucial role in promoting wellbeing. However, the real-world deployment of wellbeing robots raises numerous ethical and socio-technical questions and concerns. To explore these questions, we undertake a community-centered investigation to examine three different communities' perspectives on using robotic wellbeing coaches in real-world environments. We frame our work as an anticipatory ethical investigation, which we undertake to better inf...

ID: 2509.02624v1 cs.CY, cs.AI, cs.HC, cs.RO, I.2.9; K.4.2; K.4.1

arXiv PDF

📄 Mic Drop or Data Flop? Evaluating the Fitness for Purpose of AI Voice Interviewers for Data Collection within Quantitative & Qualitative Research Contexts

2025-09-05

Авторы:

Shreyas Tirumala, Nishant Jain, Danny D. Leybzon, Trent D. Buskirk

## Контекст Область исследования сосредоточена на исследовании трансформер-базных Large Language Models (LLMs), которые обеспечивают развитие "AI interviewers" — систем, которые могут проводить голосовые опросы в реальном времени. Эти системы возникли в результате развития ИИ и технических достижений в области обработки естественного языка. Основной мотивацией является поиск более эффективных и точных способов сбора данных в контекстах количественных и качественных исследований. Существующие Interactive Voice Response (IVR) системы часто ограничены в своих возможностях, и есть необходимость выяснить, могут ли AI interviewers превосходить их в систематичности, точности и функциональности. ## Метод Авторы применяют сравнительный подход к оценке возможностей AI interviewers и IVR-систем. Основные аспекты оценки включают в себя: **input/output performance** (точность распознавания речи, качество записи ответов и обработка эмоций) и **verbal reasoning** (силами проверки, пояснения и работы с ветвящейся логикой). Для проведения исследований были использованы реальные и симулированные данные, позволяющие проверить системы в различных условиях. Такие подходы позволяют измерить как качество технической реализации, так и их применимость в реальных исследовательских контекстах. ## Результаты На основе проведенных экспериментов становится очевидным, что AI interviewers превосходят IVR-системы в обеих категориях — **input/output performance** и **verbal reasoning**. Например, AI interviewers обеспечивают более точное распознавание речи и лучшую обработку ответов. Однако, некоторые недостатки также выявлены: высокая частота ошибок в реальном времени при переводе речи в текст, ограниченная возможность обработки эмоций, а также несогласованность в последовательности продолжения опроса. Эти факторы влияют на применимость AI interviewers в качестве инструмента для качественных исследований, где точность и гибкость имеют особое значение. ## Значимость Полученные результаты показывают, что AI interviewers могут быть применены в различных областях, включая market research, healthcare, и другие сферы, где необходима сбора данных в реальном времени. Однако, их применение в qualitative research может быть ограничено из-за ограниченных возможностей в emotion detection и некоторой неточности в обработке сложных вопросов. Тем не менее, их потенциал в quantitative research гораздо выше, где вопросы более структурированы, и точность требуется в первую очередь. ## Выводы AI interviewers представляют собой перспективный инструмент для сбора данных в различных исследовательских контекстах. Они превосходят IVR-системы во многих аспектах, но имеют ограничения, особенно в области качественных исследований. Будущие исследования должны сфокусироваться на улучшении emotion detection, точности реального времени пере

Annotation:

Transformer-based Large Language Models (LLMs) have paved the way for "AI interviewers" that can administer voice-based surveys with respondents in real-time. This position paper reviews emerging evidence to understand when such AI interviewing systems are fit for purpose for collecting data within quantitative and qualitative research contexts. We evaluate the capabilities of AI interviewers as well as current Interactive Voice Response (IVR) systems across two dimensions: input/output performa...

ID: 2509.01814v1 cs.CL, cs.AI, cs.HC

arXiv PDF

Показано 181 - 190 из 238 записей