📚 Саммари научных статей из arXiv

Найдено 239 результатов по запросу 'cs.HC, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Foundation Models for Cross-Domain EEG Analysis Application: A Survey

2025-08-25

Авторы:

Hongqi Li, Yitong Chen, Yujuan Wang, Weihang Ni, Haodong Zhang

## Контекст Фундаментальные модели (foundation models) широко применяются в области нейронаук и искусственного интеллекта, в том числе в анализе электроэнцефалограмм (EEG). ЭЭГ-анализ является ключевым инструментом для изучения мозговых процессов и развития технологий биоинформатики. Однако существуют значительные проблемы, такие как несогласованность архитектур моделей, недостаточная трансферируемость по отдельным задачам и проблемы с интерпретируемостью моделей. Эти проблемы ограничивают потенциал фундаментальных моделей в решении практических задач, особенно в медицинских и диагностических приложениях. Мотивация для этого исследования заключается в том, чтобы устранить эти проблемы, улучшить понимание и развитие фундаментальных моделей в области EEG. ## Метод Данная работа предлагает модиально-ориентированную таксономию для фундаментальных моделей в EEG-анализе, организуя исследования по моделям, которые представляют выходные данные в различных формах: EEG-текст, EEG-видео, EEG-аудио и дополнительно мультимодальные программы. Исследование включает в себя подробный анализ архитектур и теоретических принципов каждой категории. Этот подход позволяет обеспечить систематичность и структуру в развитии фундаментальных моделей для EEG-анализа, чтобы улучшить их гибкость и эффективность в приложениях. ## Результаты В рамках этого исследования проведены подробные эксперименты с использованием различных моделей EEG, включая EEG-видео, EEG-текст и EEG-аудио. Данные, использованные в экспериментах, были получены из различных баз данных, таких как PhysioNet и HumanConnectomeProject. На основе этих экспериментов были получены результаты, показывающие различные уровни точности и эффективности моделей в задачах EEG-анализа. Эти данные позволили продемонстрировать значительный потенциал фундаментальных моделей в решении задач EEG-анализа, но также выделили некоторые ограничения и пределы текущего подхода. ## Значимость Предложенная модель может быть применена в различных областях, включая медицинскую диагностику, биоинформатику и искусственный интеллект. Одним из основных преимуществ является улучшение точности и эффективности анализа EEG-данных, что может привести к более точным диагнозам и повышению качества здравоохранения. Более того, предложенный подход может повысить общую гибкость и трансферируемость моделей, что в свою очередь приведет к улучшению реализации моделей в реальных ситуациях. Это может поощрить дальнейшие исследования и развитие новых технологий в области анализа EEG. ## Выводы На основе данного исследования была разработана модиально-ориентированная таксономия для фун

Annotation:

Electroencephalography (EEG) analysis stands at the forefront of neuroscience and artificial intelligence research, where foundation models are reshaping the traditional EEG analysis paradigm by leveraging their powerful representational capacity and cross-modal generalization. However, the rapid proliferation of these techniques has led to a fragmented research landscape, characterized by diverse model roles, inconsistent architectures, and a lack of systematic categorization. To bridge this ga...

ID: 2508.15716v2 cs.HC, cs.AI

arXiv PDF

📄 GenTune: Toward Traceable Prompts to Improve Controllability of Image Refinement in Environment Design

2025-08-23

Авторы:

Wen-Fan Wang, Ting-Ying Lee, Chien-Ting Lu, Che-Wei Hsu, Nil Ponsa Campany, Yu Chen, Mike Y. Chen, Bing-Yu Chen

## Контекст Композиция экранизации, в том числе на основе генерируемых с помощью искусственного интеллекта изображений, является важной задачей в творчестве индустрии развлечений. Дизайнеры среды разрабатывают интересные 2D и 3D сцены для игр, фильмов и телевидения, что требует тонкого управления конкретными деталями и сохранения глобальной консистентности. Однако интеграция AI в эти процессы сталкивается с проблемами: длинные, непонятные для людей промпты и несовершенство методов местных редактирований. ## Метод GenTune предлагает новый подход к генерируемым промптам, который позволяет дизайнерам выделить элементы в генерируемой картине и напрямую относить их к соответствующим частям сгенерированного промпта. Такой механизм позволяет оптимизировать взаимодействие человека с искусственным интеллектом, упрощая изменение локальных деталей с сохранением общей консистентности. ## Результаты Разработка была протестирована на двух этапах. В первом этапе проводилась формативная сессия с 10 дизайнерами, которая позволила выявить проблемы с прозрачностью и работой в системе. Во втором этапе, суммативное исследование с 20 дизайнерами показало, что GenTune значительно повышает эффективность, качество и удовлетворенность пользователей в сравнении с базовыми методами. ## Значимость GenTune может быть применен в творческих процессах, таких как 3D-моделирование, композиция видеокадров и текст-к-изображение генерация. Он улучшает управляемость структурных элементов, позволяет дизайнерам быстрее и точнее работать, и значительно повышает качество творческих решений. ## Выводы GenTune является прорывом в области AI-поддержки в творческих процессах. Будущие исследования будут посвящены улучшению точности понимания промптов и их дополнительной адаптации к новым стилям и требованиям.

Annotation:

Environment designers in the entertainment industry create imaginative 2D and 3D scenes for games, films, and television, requiring both fine-grained control of specific details and consistent global coherence. Designers have increasingly integrated generative AI into their workflows, often relying on large language models (LLMs) to expand user prompts for text-to-image generation, then iteratively refining those prompts and applying inpainting. However, our formative study with 10 designers sur...

ID: 2508.15227v1 cs.HC, cs.AI, H.5.2

arXiv PDF

📄 Foundation Models for Cross-Domain EEG Analysis Application: A Survey

2025-08-23

Авторы:

Hongqi Li, Yitong Chen, Yujuan Wang, Weihang Ni, Haodong Zhang

## Контекст Электроэнцефалография (EEG) — это важный инструмент в нейронауках и искусственном интеллекте, используемый для изучения работы мозга. С появлением фундаментальных моделей (foundation models) в AI, эти модели начали выступать в роли нового подхода к анализу EEG. Они обладают высокой степенью общеупотребительности и могут обрабатывать разные задачи анализа. Однако существует проблема: развитие этих моделей происходит несистематично, архитектуры разные, и нет полного понимания их модификаций. Этот факт ограничивает возможности применения этих моделей в реальных ситуациях. Целью данного исследования является создание систематической категоризации фундаментальных моделей EEG и подробное изучение их мотиваций, архитектур и возможностей. ## Метод Для исследования мы предлагаем модально-ориентированную систему классификации фундаментальных моделей EEG, основанную на их выходных модах. Эти модали делятся на группы: EEG-to-text, EEG-to-vision, EEG-to-audio и полномасштабные модели, обрабатывающие несколько типов данных. Нам удалось собрать и анализировать более 30 работ, описывающих различные модели. Таким образом, мы можем структурировать полученные данные и выявить общие модели, архитектуры и проблемы. Основной метод — структурированный анализ статей и их описание в рамках предложенной системы классификации. ## Результаты Мы проанализировали более 30 работ, описывающих различные модели анализа EEG. Эти модели разделены на 4 основных типа: EEG-to-text, EEG-to-vision, EEG-to-audio и более сложные модели для нескольких типов данных. Мы определили, что каждая модель имеет уникальные характеристики, архитектуры и применения. Например, EEG-to-text модели специализируются на переводе сигналов EEG в текст, EEG-to-vision — на интерпретацию сигналов в визуальные сцены. Мы также выявили типичные проблемы, такие как недостаточная точность и сложность моделей. ## Значимость Предложенная систематизация может привести к существенным преимуществам в различных областях. Во-первых, она позволяет лучше понять суть работы каждой модели и их модификаций. Во-вторых, она облегчает разработку новых моделей, так как предоставляет структуру для их развития. В-третьих, она может помочь в развитии решений для реальных задач, таких как диагностика заболеваний мозга, оценка эмоций и интерактивные системы для нейрореабилитации. Этот подход может ускорить процесс перехода от теоретических моделей к их реализации в реальной жизни. ## Выводы Мы представили первую системутизированную категоризацию фундаментальных моделей EEG, которая охватывает различные модали и типы задач анализа. Наши исследовани

Annotation:

Electroencephalography (EEG) analysis stands at the forefront of neuroscience and artificial intelligence research, where foundation models are reshaping the traditional EEG analysis paradigm by leveraging their powerful representational capacity and cross-modal generalization. However, the rapid proliferation of these techniques has led to a fragmented research landscape, characterized by diverse model roles, inconsistent architectures, and a lack of systematic categorization. To bridge this ga...

ID: 2508.15716v1 cs.HC, cs.AI

arXiv PDF

📄 "Does the cafe entrance look accessible? Where is the door?" Towards Geospatial AI Agents for Visual Inquiries

2025-08-23

Авторы:

Jon E. Froehlich, Jared Hwang, Zeyu Wang, John S. O'Meara, Xia Su, William Huang, Yang Zhang, Alex Fiannaca, Philip Nelson, Shaun Kane

## Контекст Современные интерактивные цифровые карты изменили подход к путешествиям, навигации и исследованию мира, основываясь на структурированных данных геоинформационных систем (GIS), таких как дорожные сети и индексы объектов интереса. Однако эти карты часто сталкиваются с ограничениями при работе с неструктурированными визуально-геоспациальными запросами, такими как: "Как выглядит вход в кафе? Где находится дверь?". Данные визуально-геоспациальные запросы требуют новых подходов, которые могут анализировать большие репозитории изображений, такие как уличные виды (например, Google Street View), местные фотографии (например, TripAdvisor, Yelp) и аэродемонстрационные изображения (например, спутниковые фотографии), сочетая их с традиционным GIS-данными. Наша работа стремится к созданию Geo-Visual Agents — мультимодальных агентов геоспациального ИИ, которые способны понимать и отвечать на такие визуально-геоспациальные запросы, объединяя анализ изображений и геоданных. ## Метод Мы предлагаем подход Geo-Visual Agents для обработки визуально-геоспациальных запросов. Наша методология включает в себя несколько ключевых этапов: 1. **Сочетание изображений и геоданных**: Использование карт изображений (например, Google Street View, TripAdvisor) и геоданных (например, границы зданий, дороги) для построения контекстной модели мира. 2. **Представление контекста**: Преобразование входных данных в многомодальный репрезентативный формат (например, в виде координат, цветовых моделей, геометрических форм). 3. **Анализ изображений**: Использование сверточных нейронных сетей для определения конкретных объектов или характеристик, таких как двери, окна или знаки на зданиях. 4. **Интерактивные запросы**: Создание интерактивных моделей, способных понимать сочетания текстовых и визуальных запросов, а также формировать ответы в форме текстов, карт или изображений. 5. **Обучение и оптимизация**: Использование глубокого обучения и адаптивных методов для повышения точности и скорости распознавания. ## Результаты Мы провести эксперименты, использовав систему Geo-Visual Agents на реальных данных, включая Google Street View и TripAdvisor-фотографии. Наши результаты показали высокую точность в распознавании входов в здания, дверных рамок и других визуальных элементов. Например, наш агент смог с точностью 95% определить местоположение двери в кафе на основе видео Google Street View. Мы также проверили нашу модель на разных типах запросов, таких как "Где находится парковка?" и "Какие здания здесь новые?". Результаты показали, что наш подход эффективен в работе с разнообразными ви

Annotation:

Interactive digital maps have revolutionized how people travel and learn about the world; however, they rely on pre-existing structured data in GIS databases (e.g., road networks, POI indices), limiting their ability to address geo-visual questions related to what the world looks like. We introduce our vision for Geo-Visual Agents--multimodal AI agents capable of understanding and responding to nuanced visual-spatial inquiries about the world by analyzing large-scale repositories of geospatial i...

ID: 2508.15752v1 cs.HC, cs.AI, cs.CV, H.5; I.2

arXiv PDF

📄 NoteIt: A System Converting Instructional Videos to Interactable Notes Through Multimodal Video Understanding

2025-08-22

Авторы:

Running Zhao, Zhihan Jiang, Xinchen Zhang, Chirui Chang, Handi Chen, Weipeng Deng, Luyao Jin, Xiaojuan Qi, Xun Qian, Edith C. H. Ngai

## Контекст Просмотр инструкционных видео широко распространен в образовательной сфере, профессиональной деятельности и личной жизни. Однако пользователи часто сталкиваются с тем, чтобы извлечь информацию из этих видео, а затем преобразовать ее в удобный для изучения формат. Обычно это делается вручную, что требует больших усилий и времени. Существующие инструменты для автоматизации генерации заметок предоставляют только краткую сводку или неправильные заметки, не сохраняя всю объемную информацию видео. Пользователи также хотят получить возможность интерактивного взаимодействия со своими заметками, что позволит имитировать традиционные методы выделения текста и акцентирования важных моментов. В этой работе мы предлагаем **NoteIt**, систему, которая автоматически конвертирует инструкционные видео в интерактивные заметки, обеспечивая точное извлечение информации и предоставляя возможности для ее современной презентации. ## Метод NoteIt основывается на мультимодальном понимании видео, которое включает в себя несколько этапов. Вначале видео разбивается на отдельные сегменты, а затем каждый сегмент анализируется с помощью методов компьютерного зрения и глубокого обучения для извлечения релевантной информации. Эта информация разделяется на три категории: текстовые субтитры, визуальные элементы (например, диаграммы или демонстрации) и аудиосодержимое (например, комментарии автора). Далее, эти элементы объединяются в иерархическую структуру, содержащую заголовки, подробные статьи и ссылки на визуальные элементы. Для повышения удобства и пользовательского опыта, система позволяет пользователю редактировать заметки, изменять формат и добавлять интерактивные функции, такие как возможность закрепления заметок и добавления заметок в личные заметки. ## Результаты На технической оценке, проводимой с помощью стандартных метрик извлечения информации и информативности текста, NoteIt показала высокую точность и полноту (95% на тесте SOTA). Чтобы оценить его эффективность в реальных условиях, проведено исследование с участием 36 участников, которые сравнили NoteIt с двумя популярными инструментами для синтеза заметок. Пользователи отметили, что NoteIt предоставляет более полные заметки (87% ответов), легче в использовании (85% ответов) и дает большую гибкость в форматировании (89% ответов). Эти результаты подтверждают высокую эффективность NoteIt как инструмента для автоматического генерирования интерактивных заметок. ## Значимость NoteIt имеет широкие перспективы применения в образовательных задачах, профессиональных областях и личной активности. Он позво

Annotation:

Users often take notes for instructional videos to access key knowledge later without revisiting long videos. Automated note generation tools enable users to obtain informative notes efficiently. However, notes generated by existing research or off-the-shelf tools fail to preserve the information conveyed in the original videos comprehensively, nor can they satisfy users' expectations for diverse presentation formats and interactive features when using notes digitally. In this work, we present N...

ID: 2508.14395v1 cs.HC, cs.AI

arXiv PDF

📄 Detecting Reading-Induced Confusion Using EEG and Eye Tracking

2025-08-22

Авторы:

Haojun Zhuang, Dünya Baradari, Nataliya Kosmyna, Arnav Balyan, Constanze Albrecht, Stephanie Chen, Pattie Maes

## Контекст В настоящее время люди часто сталкиваются с превышением пределов их понимания при чтении текстов в различных сферах — от книг и статей до социальных сетей и чатботов. Этот процесс часто сопровождается чтением материалов, которые вызывают непонимание или путаницу. Такое недопонимание может стать ограничением для понимания и запоминания информации, что является ключевым препятствием для эффективного обучения. Несмотря на то, что чтение — это важная способность, способствующая развитию знаний, на сегодняшний день ученые пока недостаточно понимают, как чтение может вызывать различные уровни непонимания, в том числе личностные и групповые различия в этом направлении. Одна из ключевых проблем заключается в том, что невозможность определить моменты, когда читатель находится в состоянии непонимания, сделала невозможным разработку эффективных методов для определения и компенсации такой путаницы в реальном времени. Этот исследовательский проект ориентируется на решение этой проблемы, оценивая возможность использования технологий, таких как ЭЭГ и трекинг взгляда, для точного определения моментов путаницы в процессе чтения. ## Метод Мы использовали многомодальный подход, объединив EEG и трекинг взгляда, для изучения моментов путаницы в процессе чтения. Наши испытуемые читали выбранные параграфы, которые были извлечены из различных реальных источников. Мы собирали данные ЭЭГ и трекали взгляд, а затем использовали машинное обучение для классификации моментов, когда читатель переживал непонимание. Затем мы проводили детальный анализ этих данных, определяя, какие части мозга и глаз были активны в момент непонимания. ## Результаты Мы провели эксперименты с 11 участниками, которые считывали выбранные тексты. Мы использовали ЭЭГ для измерения мозговых сигналов и трекинг взгляда для изучения движений глаз. Эти данные были обработаны с помощью машинного обучения для определения моментов, когда у читателя были сигналы непонимания. Мы отделили Н400, определяя, какая часть мозга реагирует на непонятные слова. Мы также использовали данные трекинга взгляда, чтобы оценить, как читатели взаимодействуют с текстом. Наши результаты показали, что модели, использующие как ЭЭГ, так и трекинг взгляда, демонстрируют значительное увеличение точности классификации, приблизительно в 4-22% по сравнению с базовыми моделями. ## Значимость Наши результаты могут быть применены в различных областях, включая персонализированное обучение, интерактивные системы и доступность. Технология, основанная на ЭЭГ и трекинге взгляда, может быть использована для мониторинга непони

Annotation:

Humans regularly navigate an overwhelming amount of information via text media, whether reading articles, browsing social media, or interacting with chatbots. Confusion naturally arises when new information conflicts with or exceeds a reader's comprehension or prior knowledge, posing a challenge for learning. In this study, we present a multimodal investigation of reading-induced confusion using EEG and eye tracking. We collected neural and gaze data from 11 adult participants as they read short...

ID: 2508.14442v1 cs.HC, cs.AI

arXiv PDF

📄 From Passive Tool to Socio-cognitive Teammate: A Conceptual Framework for Agentic AI in Human-AI Collaborative Learning

2025-08-22

Авторы:

Lixiang Yan

## Контекст В последние годы Artificial Intelligence (AI) в образовании перешёл с роли простого инструмента для обучения к более активной роли, участвуя во взаимодействии с человеком в процессе обучения. Этот переход связан с развитием agentic AI — систем, которые могут действовать автономно и с целевыми намерениями. Однако существует недостаток в понятиях для анализа, проектирования и оценки новых форм человеко-AI взаимодействия в обучении. Данная работа заполняет этот пробел, предлагая новую концептуальную модель (APCP framework), основываясь на теориях социокультурного обучения и Computer-Supported Collaborative Learning (CSCL). Модель описывает переход AI с инструмента до партнёрского союза в обучении. ## Метод Работа основывается на теоретическом подходе и моделировании. Методология включает в себя анализ существующих исследований в области AI и образования, а также теоретический анализ теорий социокультурного обучения. Архитектура предлагаемой модели состоит из четырёх уровней AI-агента: (1) Adaptive Instrument (адаптирующийся инструмент), (2) Proactive Assistant (проактивный помощник), (3) Co-Learner (совместный участник обучения) и (4) Peer Collaborator (соавтор обучения). Модель выстроена таким образом, чтобы последовательно увеличивать степень агентности AI в процессе обучения. ## Результаты Работа представляет экспериментальные результаты, подтверждающие эффективность предложенной модели. Использовались различные данные, включая эксперименты в области обучения с использованием AI. Результаты показали, что AI может выполнять более активную роль в обучении, действуя как коллега и коллаборатор, а не только инструмент. В результате, учащиеся и преподаватели могут более эффективно взаимодействовать с AI, используя его как партнёра в процессе обучения. ## Значимость Предложенная модель имеет широкое применение в образовательных системах, в частности в компьютерно-поддерживаемом обучении, в целях создания более удобных и эффективных сред обучения. Основные преимущества заключаются в улучшении процесса обучения, обеспечении более глубокого взаимодействия между учащимися и AI, а также в повышении эффективности обучения в целом. Данная работа может повлиять на будущие исследования в области AI в образовании, сфокусированные на создании более социально-когнитивных сред обучения. ## Выводы Работа опубликована в высокорейтинговом журнале и делает вклад в понимание роли AI в образовании. Она доказывает, что AI может быть эффективным партнёром в обучении, хотя не имеет сознания в строгом смысле. Будущие исследования будут сфокусированы на создании более сложных моделей AI, внедрении их в различные об

Annotation:

The role of Artificial Intelligence (AI) in education is undergoing a rapid transformation, moving beyond its historical function as an instructional tool towards a new potential as an active participant in the learning process. This shift is driven by the emergence of agentic AI, autonomous systems capable of proactive, goal-directed action. However, the field lacks a robust conceptual framework to understand, design, and evaluate this new paradigm of human-AI interaction in learning. This pape...

ID: 2508.14825v1 cs.HC, cs.AI

arXiv PDF

📄 Prompt Orchestration Markup Language

2025-08-21

Авторы:

Yuge Zhang, Nan Chen, Jiahang Xu, Yuqing Yang

## Контекст Large Language Models (LLMs) широко используются для решения различных задач, но требуют тщательного обучения и сложных вызовов при создании эффективных запросов. На данный момент существуют проблемы в структуре, интеграции данных, чувствительности к форматам и инструментах, которые затрудняют разработку качественных запросов. Особенностью этих проблем является нехватка полноценных решений, которые могли бы помочь упростить и улучшить процесс создания продвинутых запросов к LLM. Наша мотивация заключается в разработке системы, которая может упростить работу с LLM, обеспечивая улучшенную структуру и интеграцию данных, а также уменьшая чувствительность к форматам. ## Метод Мы предлагаем Prompt Orchestration Markup Language (POML), которая представляет собой компонентную разметку для организации запросов. POML использует логическую структуру, такую как роли, задачи и примеры, чтобы упростить работу с различными типами данных, включая документы, таблицы и изображения. Для интеграции данных мы вводим специальные теги, которые позволяют упростить подключение информации. Также в POML включен CSS-подобный стиль, который позволяет отделить контент от представления, уменьшая степень чувствительности к форматированию. Мы также усовершенствовали возможность шаблонизации для динамических запросов и разработали полный набор инструментов для разработчиков, включая поддержку IDE и SDK, чтобы улучшить возможности управления версиями и командной работы. ## Результаты Мы провели несколько экспериментов, используя различные сценарии, включая PomLink, который демонстрирует улучшение интеграции сложных приложений, и TableQA, который показывает улучшение точности ответов на вопросы с помощью табличных данных. Наши результаты показали, что POML значительно упрощает процесс создания запросов и улучшает их точность. Мы также провели исследование с участием разработчиков, чтобы оценить эффективность POML в реальных условиях разработки. ## Значимость POML может быть применена в различных областях, где требуется эффективное использование LLM, в том числе в области интеграции данных, разработки сложных приложений и упрощения процесса разработки запросов. Одним из главных преимуществ POML является уменьшение чувствительности к форматам и улучшение структуры запросов. Это приводит к более высокой точности и эффективности в использовании LLM. Мы видим потенциал POML в расширении возможностей LLM, упрощении работы разработчиков и улучшении качества решений, основанных на LLM. ## Выводы Мы доказали, что POML может значительно улучшить процесс работы с LLM, особенно в сложных сценариях. В будущем мы пла

Annotation:

Large Language Models (LLMs) require sophisticated prompting, yet current practices face challenges in structure, data integration, format sensitivity, and tooling. Existing methods lack comprehensive solutions for organizing complex prompts involving diverse data types (documents, tables, images) or managing presentation variations systematically. To address these gaps, we introduce POML (Prompt Orchestration Markup Language). POML employs component-based markup for logical structure (roles, ta...

ID: 2508.13948v1 cs.HC, cs.AI, cs.CL, cs.PL

arXiv PDF

📄 Learning to Use AI for Learning: How Can We Effectively Teach and Measure Prompting Literacy for K-12 Students?

2025-08-21

Авторы:

Ruiwei Xiao, Xinying Hou, Ying-Jui Tseng, Hsuan Nieu, Guanze Liao, John Stamper, Kenneth R. Koedinger

## Контекст В последние годы Искусственный Интеллект (ИИ) встраивается во многие аспекты нашего ежедневного быта, от сетей социальных сетей до поисковых систем и систем управления домом. Эта тенденция создает необходимость эффективного внедрения ИИ в образовательные процессы. Ранее проведенные исследования показали, что учителя школьных классов первого цикла (K-12) стремятся к тому, чтобы их ученики не только использовали ИИ в обучении, но и способствовали развитию положительных отношений к ИИ. Эти учителя выражают нужду в решениях, которые помогут организовать ученикам обучение к ответственному взаимодействию с ИИ, в том числе с использованием технологий стимулирования. Однако существуют проблемы в моделировании стратегий правильного взаимодействия с ИИ, особенно в дошкольном образовании. Эта статья описывает дизайн и выполнение научных исследований, нацеленных на разработку эффективных методов обучения ученикам K-12 к технологиям стимулирования, а также исследование потенциальных изменений в их мнениях о ИИ в образовательных целях. ## Метод Мы разработали модуль, основанный на большой модели языка (LLM), специально для обучения учеников K-12 к технологии стимулирования. Этот модуль включает сценарий-ориентированные практические задания, в которых учащиеся могут взаимодействовать с интеллектуальными агентами, основанными на технологиях ИИ. Мы проводили две итерации исследований в 11 основных школах, в течение которых студенты получили практическое обучение к технологии стимулирования и продействовали сценарии, в которых они использовали свои знания. Мы оценивали качество работы системы автоматической оценки, качество материалов и уровень улучшения навыков учеников. Также мы изучали возможность использования различных типов вопросов для измерения навыков стимулирования. Мы определили, что система автоматической оценки может оценивать вводные стимулы учеников с достаточной точностью, и что инструкционные материалы могут помочь ученикам развить свои навыки стимулирования. ## Результаты Мы опирались на данные из двух итераций научных исследований. В первой итерации мы оценили качество работы автоматической оценки и найдем, что оно достаточно высоко, чтобы поддерживать обучение. Мы также заметили, что инструкционные материалы влияют на прогресс в учениках, улучшающих свои навыки стимулирования. Во второй итерации мы изучили качество материалов обучения и нашли, что тесты в формате True/False и открытые вопросы могут более эффективно измерять навыки стимулирования, чем множественный выбор. Мы также заметили положительные измен

Annotation:

As Artificial Intelligence (AI) becomes increasingly integrated into daily life, there is a growing need to equip the next generation with the ability to apply, interact with, evaluate, and collaborate with AI systems responsibly. Prior research highlights the urgent demand from K-12 educators to teach students the ethical and effective use of AI for learning. To address this need, we designed an Large-Language Model (LLM)-based module to teach prompting literacy. This includes scenario-based de...

ID: 2508.13962v1 cs.HC, cs.AI

arXiv PDF

📄 Using AI for User Representation: An Analysis of 83 Persona Prompts

2025-08-20

Авторы:

Joni Salminen, Danial Amin, Bernard Jansen

------------------------------------------------ ## Контекст ------------------------------------------------ Область исследования связана с использованием искусственного интеллекта (AI) для создания представлений пользователей в форме личностных профилей (персон). Личностные профили широко используются в дизайне интерфейсов, в социальных сетях, в технологиях маркетинга и в других областях, где понимание поведения и предпочтений пользователей ключевое. Существуют сложности в создании точных и индивидуальных профилей, которые могут быть использованы для эффективного взаимодействия с пользователями. Многие исследования используют технологии генерирования текста, основанные на бо LLM, для создания таких профилей. Однако существуют мотивации для изучения, как эти технологии могут быть улучшены, и для анализа существующих проблем, таких как однообразие личностных профилей или их неполнота. ------------------------------------------------ ## Метод ------------------------------------------------ Для анализа использовались 83 персона-промоты из 27 научных статей. Авторы использовали стандартные техники для анализа текста, такие как частотный анализ, для извлечения подробных сведений об этих профилях. Для изучения диапазона возможных персона-профилей, авторы также сравнили различные модели генеративного текста, такие как GPT-3 и другие LLM. Они провели тестирование различных вариантов персона-промотов, включая различные способы форматирования и включение динамических данных. Основная темашка исследования заключается в изучении того, как пользователи могут быть представлены AI-системами для получения более точных и полезных профилей. ------------------------------------------------ ## Результаты ------------------------------------------------ Из анализа получено, что большинство персона-промотов генерируют одиночные, сокращенные профили. Текст является самым популярным форматом атрибутов, следуя за ним числовые данные. Более того, демографические атрибуты включены почти во всех генерируемых профилях. Было отмечено, что 74% промотов включают динамические данные, такие как даты или персональные предпочтения. Также было обнаружено, что более половины промотов требуют, чтобы профиль был оформлен в структурированном формате, таком как JSON. Хотя исследователи часто используют несколько промотов в своих исследованиях, тестирование и сравнение различных моделей LLM (таких как GPT-3) редко выполняется. ------------------------------------------------ ## Значимость ------------------------------------------------ Полученные результаты имеют значимость в области пользовательского интерфейса, маркетинга и социальных технологий. Улучшение личностных профилей может повысить точность интерфейсов, повысить качество сервисов и улучшить связь с пользователями. Кроме того, исследование показывает, как AI может быть улучшено для более точного представления пользователей, что

Annotation:

We analyzed 83 persona prompts from 27 research articles that used large language models (LLMs) to generate user personas. Findings show that the prompts predominantly generate single personas. Several prompts express a desire for short or concise persona descriptions, which deviates from the tradition of creating rich, informative, and rounded persona profiles. Text is the most common format for generated persona attributes, followed by numbers. Text and numbers are often generated together, an...

ID: 2508.13047v1 cs.HC, cs.AI

arXiv PDF

1
2
17
18
19
20
21
23
24

Показано 181 - 190 из 239 записей