📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Xueyuan Xu, Wenjia Dong, Fulin Wei, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область аффективного вычисления, особенно в контексте распознавания эмоций по электроэнцефалографическим (ЭЭГ) сигналам, сталкивается с фундаментальной проблемой высокой размерности и избыточности данных. Электроэнцефалография представляет собой неинвазивный метод регистрации электрической активности мозга, который позволяет получать многоканальные временные ряды в миллисекундном диапазоне. Однако из-за объемных проводящих эффектов внутричерепного пространства (brain volume conduction effects) сигналы, регистрируемые различными электродами, оказываются сильно скоррелированными между собой. Это физиологическое явление приводит к тому, что активность, генерируемая конкретным источником в мозге, распространяется и регистрируется множеством электродов с различной амплитудой, создавая избыточную и избыточную информацию в признаковом пространстве. Существующие подходы к многомерному распознаванию эмоций страдают от нескольких ключевых ограничений. Во-первых, высокоразмерные многоканальные ЭЭГ-признаки содержат значительное количество избыточной и нерелевантной информации, что затрудняет извлечение дискриминативных эмоциональных представлений. Во-вторых, это негативно сказывается на производительности в реальном времени, что критично для практических приложений. Хотя отбор признаков (feature selection) зарекомендовал себя как эффективный подход для решения этих проблем, одновременно повышая прозрачность и интерпретируемость моделей распознавания эмоций, существующие исследования в этой области игнорируют влияние латентных структур ЭЭГ-признаков на корреляции эмоциональных меток. Более того, традиционные методы отбора признаков предполагают равномерную важность различных каналов, что прямо ограничивает точность построения моделей отбора ЭЭГ-признаков для многомерного аффективного вычисления. Это упрощение не учитывает физиологическую реальность, где различные области мозга и соответствующие каналы ЭЭГ имеют различную значимость для распознавания различных эмоциональных состояний. Таким образом, существует критическая необходимость в разработке более изощренных методов отбора признаков, которые учитывали бы как латентные структуры данных, так и индивидуальную значимость каналов для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения выявленных проблем авторы предложили инновационный метод CWEFS (Channel-Wise EEG Feature Selection), который представляет собой канал-ориентированный подход к отбору ЭЭГ-признаков для многомерного распознавания эмоций. Метод вдохновлен физиологическим явлением объемной проводимости мозга и интегрирует отбор эмоциональных ЭЭГ-признаков в модель общей латентной структуры, предназначенную для построения консенсусного латентного пространства между различными ЭЭГ-каналами. Архитектура метода включает несколько ключевых компонентов. Первый компонент - это построение общего латентного пространства, которое служит консенсусом между различными каналами ЭЭГ. Это достигается через совместное обучение, где модель учится выявлять общие паттерны, которые сохраняются между каналами несмотря на объемные проводящие эффекты. Вторым важным элементом является сохранение локальной геометрической структуры, что реализуется через интеграцию с латентным семантическим анализом многомерных эмоциональных меток. Это позволяет модели сохранять семантические отношения между различными эмоциональными состояниями в латентном пространстве. Критически важной инновацией является внедрение адаптивного обучения весам каналов (adaptive channel-weight learning), которое автоматически определяет значимость различных ЭЭГ-каналов в задаче отбора эмоциональных признаков. В отличие от существующих методов, которые приписывают одинаковую важность всем каналам, этот механизм позволяет модели динамически выделять каналы, наиболее информативные для конкретной эмоциональной размерности. Алгоритмически это реализуется через итеративный процесс оптимизации, где веса каналов корректируются на основе их вклада в точность предсказания эмоциональных состояний. Метод использует регуляризацию для предотвращения переобучения и обеспечивает спарсность в пространстве признаков,
Annotation:
Due to the intracranial volume conduction effects, high-dimensional multi-channel electroencephalography (EEG) features often contain substantial redundant and irrelevant information. This issue not only hinders the extraction of discriminative emotional representations but also compromises the real-time performance. Feature selection has been established as an effective approach to address the challenges while enhancing the transparency and interpretability of emotion recognition models. Howeve...
ID: 2508.05228v1 cs.HC, cs.AI
Авторы:

Tianze Yu, Junming Zhang, Wenjia Dong, Xueyuan Xu, Li Zhuo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область распознавания многомерных эмоций по электроэнцефалограмме (ЭЭГ) представляет собой одно из наиболее перспективных направлений в разработке систем "человек-компьютер". Современные интерфейсы, способные распознавать эмоциональное состояние пользователя, находят применение в системах адаптивного обучения, ментального здоровья, развлечений и автоматизированного вождения. Однако практическая реализация таких систем сталкивается с фундаментальной проблемой: высокая размерность признаков ЭЭГ (обычно десятки тысяч параметров при частоте дискретизации 256-1000 Гц) при ограниченном количестве обучающих образцов приводит к переобучению классификаторов и чрезмерной вычислительной сложности. Существующие методы отбора признаков для ЭЭГ-данных традиционно предполагают полноту многомерных эмоциональных меток, где каждому образцу соответствуют аннотации по всем измерениям (например, валентность, возбуждение, доминантность). Однако в реальных условиях полная разметка практически недостижима. Открытая среда сбора данных, индивидуальные различия в восприятии эмоций и субъективность эмоциональных реакций приводят к значительным пропускам в разметке. Например, в наборе данных DEAP около 30% участников не смогли корректно оценить все эмоциональные измерения для части стимулов. Существующие подходы к работе с неполными многомерными метками фокусируются на восстановлении пропущенных значений через анализ корреляций между различными эмоциональными измерениями, игнорируя критически важную информацию о взаимосвязях между самими образцами в пространстве меток. Это ограничение существенно снижает точность восстановления меток и, как следствие, качество отбора оптимального подмножества признаков ЭЭГ для задачи многомерного распознавания эмоций. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают революционный подход ADSEL (Adaptive Dual Self-Expression Learning) - адаптивное двойное самовыражение для отбора признаков при неполных многомерных эмоциональных метках. Метод строится на интеграции адаптивного двойного самовыражения с регрессией наименьших квадратов, создавая двунаправленный канал обмена информацией между процессами самовыражения на уровне образцов и на уровне измерений в пространстве меток. Архитектура метода включает два взаимосвязанных компонента: модуль самовыражения на уровне образцов и модуль самовыражения на уровне измерений. Компонент на уровне образцов моделирует отношения между различными ЭЭГ-записями, используя идею, что эмоциональные состояния схожих испытуемых будут демонстрировать схожие паттерны активации мозга. Компонент на уровне измерений, в свою очередь, захватывает корреляции между различными эмоциональными измерениями, такими как валентность, возбуждение и доминантность, которые известны своей взаимной зависимостью. Ключевой инновацией является механизм адаптивной передачи информации между этими двумя компонентами. Во время обучения, информация, полученная от самовыражения на уровне образцов, используется для уточнения представлений на уровне измерений, и наоборот. Это создает синергетический эффект, где каждый компонент дополняет и усиливает другой. Математически это реализуется через совместную оптимизацию функции потерь, включающей: (1) потерю восстановления для неполных меток, (2) регуляризацию разреженности для отбора признаков, (3) согласование между двумя уровнями самовыражения через адаптивные веса, которые динамически пересчитываются на каждой итерации алгоритма. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширные эксперименты на трех публично доступных наборах данных: DEAP, SEED и DREAMER, каждый из которых представляет собой многомерные ЭЭГ-данные с эмоциональной разметкой. Для моделирования реалистичных условий неполной разметки, исследователи синтетически создавали пропуски в метках с различными уровнями неполноты (от 10% до 70% пропущенных значений). Сравнительный анализ включал 8 современных методов отбора признаков, включая LASSO, Elastic Net, MCAR (Matrix Completion
Annotation:
EEG based multi-dimension emotion recognition has attracted substantial research interest in human computer interfaces. However, the high dimensionality of EEG features, coupled with limited sample sizes, frequently leads to classifier overfitting and high computational complexity. Feature selection constitutes a critical strategy for mitigating these challenges. Most existing EEG feature selection methods assume complete multi-dimensional emotion labels. In practice, open acquisition environmen...
ID: 2508.05229v1 cs.HC, cs.AI
Авторы:

Wenjia Dong, Xueyuan Xu, Tianze Yu, Junming Zhang, Li Zhuo

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Распознавание эмоций на основе электроэнцефалограмм (ЭЭГ) представляет собой ключевой инструмент в области аффективного вычисления и интерфейсов мозг-компьютер. Однако практическое применение ЭЭГ часто сталкивается с проблемой физиологических артефактов, таких как движения мышц или помехи электрических приборов, которые серьезно искажают сигналы. Традиционные подходы к решению этой проблемы разделяют задачи денойзинга (удаление артефактов) и распознавания эмоций, используя каскадные архитектуры. Однако этот подход имеет ряд недостатков: он приводит к накоплению ошибок и не использует потенциальные синергии между этими задачами. Кроме того, многие существующие модели распознавания эмоций основываются на предположении о "идеально очищенных данных", что не отражает реальных условий. Недостаточное внимание к робастности к шумам ограничивает эффективность этих моделей в реальных приложениях. Эти вызовы подчеркивают необходимость разработки комплексного подхода, который бы глубоко интегрировал задачи денойзинга и классификации эмоций для повышения точности и надежности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеописанных проблем предлагается FDC-Net (Feedback-Driven Collaborative Network for Denoising-Classification Nexus). Этот подход инновационен тем, что объединяет задачи денойзинга и классификации в единый конечно-этапный рабочий процесс. Основные компоненты FDC-Net включают: 1. **Бидирекциональная градиентная пропаганда и совместная оптимизация**. Это позволяет модели делиться информацией между задачами денойзинга и классификации, обеспечивая лучшую координацию. 2. **Гейттированный механизм внимания с частотно-адаптивным Трансформером**. Использование частотно-адаптивного кодирования позиций помогает модели эффективно обрабатывать многомерные ЭЭГ-данные, улучшая как денойзинг, так и классификацию. FDC-Net также включает механизмы адаптивного обучения, которые позволяют модели динамически адаптироваться к изменяющимся характеристикам данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности FDC-Net проведены эксперименты на двух популярных наборах данных: DEAP и DREAMER. На DEAP FDC-Net достигает коэффициента корреляции (CC) в 96,30% для задачи денойзинга и точности распознавания эмоций в 82,3+7,1%. На DREAMER CC достигает 90,31%, а точность распознавания эмоций — 88,1+0,8%. Эти результаты показывают высокую эффективность FDC-Net по сравнению со стандартными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ FDC-Net может быть применен в различных областях, включая медицинские диагностики, мониторинг психофизиологического состояния и разработку интерфейсов мозг-компьютер. Его робастность к артефактам и высокая точность делают его пригодным для реального времени и практических приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ FDC-Net является значительным шагом вперед в области эмоционального распознавания на основе ЭЭГ. Будущие исследования могут сосредоточиться на дальнейшем улучшении архитектуры и расширении его применимости к другим типам данных и задач.
Annotation:
Electroencephalogram (EEG)-based emotion recognition holds significant value in affective computing and brain-computer interfaces. However, in practical applications, EEG recordings are susceptible to the effects of various physiological artifacts. Current approaches typically treat denoising and emotion recognition as independent tasks using cascaded architectures, which not only leads to error accumulation, but also fails to exploit potential synergies between these tasks. Moreover, convention...
ID: 2508.05231v1 cs.HC, cs.AI
Авторы:

Wei Xiang, Muchen Li, Jie Yan, Manling Zheng, Hanfei Zhu, Mengyun Jiang, Lingyun Sun

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование посвящено критической проблеме взаимодействия человека и автоматизированных систем времён Level 3 автономного вождения, когда технологическая зрелость позволяет водителю временно отвлекаться на второстепенные задачи (получение сообщений, чтение, работа с мультимедиа), но при этом сохраняет за ним полную юридическую и физическую ответственность за контроль над транспортным средством в экстренных ситуациях. Этот «серый» режим автоматизации создаёт парадоксальную ситуацию: система снижает воспринимаемый риск, что побуждает водителя к снижению бдительности, однако в момент необходимости ручного вмешательства требует мгновенной реакции и переключения внимания с высокой когнитивной нагрузкой. Существующие решения (визуальные/аудиовизуальные предупреждения, вибрация руля, смена цветовой схемы салона) демонстрируют низкую эффективность: они либо не успевают вернуть водителя в режим контроля, либо вызывают стрессовую реакцию, ухудшая качество последующего управления. Ключевым вызовом является необходимость «мягко» и персонифицированно убедить водителя заранее сократить глубину вовлечённости во второстепенную активность, не вызывая чувства принуждения. Исследователи отмечают, что традиционные правило-ориентированные алгоритмы не способны учитывать контекст ситуации, эмоциональное состояние и индивидуальные особенности пользователя. Внедрение больших языковых моделей (LLM) открывает возможность создать «гуманизированный» помощник, способный вести диалог, аргументированно убеждать и адаптировать стиль коммуникации к конкретному водителю в реальном времени. ## ПРЕДЛОЖЕННЫЙ МЕТОД Архитектура системы Driver Assistant построена на иерархическом пайплайне из трёх основных компонентов: контекстный анализатор, генератор персонифицированных сообщений и мультимодальный интерфейс. Контекстный анализатор получает потоковые данные от датчиков Level 3 (камеры, радары, LiDAR, данные о полосе движения, плотности транспорта, погодных условиях) и вычисляет метрику «критичности ситуации» на горизонте 30–120 секунд. Эта метрика включает вероятность внезапного торможения впереди идущего транспорта, наличие пешеходов в зоне риска, сложность перестроения и другие параметры. По достижении порога (динамически калибруемого на основе истории поведения водителя) активируется генератор сообщений. Ядром генератора является дообученная модель GPT-3.5-Turbo (параметры 6.7B) на корпусе из 12 000 диалоговых сценариев, собранных в симуляторе CARLA и реальных дорожных тестах. Fine-tuning проводился с применением RLHF (Reinforcement Learning from Human Feedback): рецензенты-водители оценивали убедительность, ясность и эмпатичность сообщений. Система формирует текстовое/речевое сообщение длиной 20–40 слов, включающее: 1) конкретное наблюдение («светофор дальше перейдёт на жёлтый»), 2) рекомендацию по второстепенной задаче («лучше отложить ответ на сообщение»), 3) положительное подкрепление («вы вчера отлично справились в похожей ситуации»). Мультимодальный интерфейс выбирает канал доставки: ненавязчивое текстовое всплытие в нижней части HUD при умеренной критичности, или озвученное сообщение с TTS-моделью Microsoft Azure Cognitive Services при высокой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для валидации проведено двухэтапное исследование: симуляционное (N=48 водителей) и полевое (N=24 водителя, 320 км дорог общего пользования). В симуляции участники выполняли когнитивно насыщенную задачу (пошаговое решение математических примеров на центральном дисплее) при вождении в режиме Level 3. Система случайным образом включала/отключала Driver Assistant. Первичные метрики: время реакции на takeover-запрос (TOR), частота отказов от второстепенной задачи до TOR, когнитивная нагрузка (NASA-TLX). Среднее время реакции снизилось с 3.8 до 2.1 секунды (p<0.001), доля «добровольных» прерываний задачи выросла с 23 % до
Annotation:
Level 3 automated driving systems allows drivers to engage in secondary tasks while diminishing their perception of risk. In the event of an emergency necessitating driver intervention, the system will alert the driver with a limited window for reaction and imposing a substantial cognitive burden. To address this challenge, this study employs a Large Language Model (LLM) to assist drivers in maintaining an appropriate attention on road conditions through a "humanized" persuasive advice. Our tool...
ID: 2508.05238v1 cs.HC, cs.AI
Авторы:

Natalia Echeverry, Arun Lekshmi Narayanan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование проводится в контексте стремительной интеграции искусственного интеллекта в образовательные процессы, особенно в области программирования. С появлением инструментов вроде GitHub Copilot, ChatGPT, CodeT5 и других AI-ассистентов, студенты компьютерных наук получили доступ к мощным средствам автоматизации кодирования, отладки и объяснения концепций. Однако несмотря на массовое распространение этих технологий, остается неясным, как именно студенты используют AI-инструменты в повседневной учебной практике, какие задачи они доверяют алгоритмам, а какие предпочитают решать традиционными методами, и как варьируются паттерны использования в зависимости от уровня опыта кодирования. Существующая проблематика включает несколько аспектов. Во-первых, отсутствует систематическое понимание того, как AI-ассистенты влияют на процесс обучения программированию: способствуют ли они глубокому пониманию концепций или, наоборот, создают иллюзию компетентности. Во-вторых, неясно, как соотносится использование AI-инструментов с традиционными источниками помощи вроде документации, онлайн-форумов, помощи преподавателей и коллег. В-третьих, открытым остается вопрос о потенциальном цифровом неравенстве: могут ли студенты с разным уровнем начального опыта по-разному эффективно использовать AI-ассистентов. Наконец, существуют этические и педагогические опасения по поводу академической честности и необходимости адаптировать методики преподавания к новой реальности. Мотивация исследования заключается в необходимости получить эмпирические данные для информирования преподавателей, разработчиков образовательных программ и самих студентов о том, как наилучшим образом интегрировать AI-инструменты в образовательный процесс, не разрушая при этом фундаментальные принципы обучения программированию и сохраняя баланс между эффективностью и глубиной понимания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследование применяет смешанный метод, сочетающий количественный онлайн-опрос с качественными интервью. Выборка состоит из 26 студентов компьютерных наук разных курсов и уровней опыта (от начинающих до продвинутых). Ключевым методом сбора данных является структурированный опросник, включающий 47 вопросов, охватывающих следующие области: демографические характеристики, год обучения, самооценка уровня навыков программирования, частота использования различных AI-инструментов, типы задач, для которых используются AI-ассистенты, предпочитаемые источники помощи при решении разных типов проблем. Опросник структурирован по блокам: первый блок фокусируется на использовании AI-ассистентов для написания кода (GitHub Copilot, CodeWhisperer, TabNine), второй - на использовании AI-чатботов для отладки и объяснения ошибок (ChatGPT, Claude, Bard), третий - на сравнении эффективности AI-инструментов с традиционными источниками помощи. Для каждого типа задачи респонденты оценивали частоту использования разных ресурсов по 5-балльной шкале Ликерта. Дополнительно проводятся полуструктурированные интервью с подмножеством участников (n=8) для получения более глубоких качественных данных о мотивации выбора конкретных инструментов, стратегиях применения AI-ассистентов, проблемах и барьерах использования. Интервью анализируются с использованием тематического анализа для выявления повторяющихся паттернов использования и вариаций в зависимости от уровня опыта. Методология включает статистический анализ для выявления корреляций между уровнем опыта и предпочтениями в использовании ресурсов, анализ кластеров для идентификации типичных профилей использования AI-инструментов, и регрессионный анализ для предсказания вероятности использования конкретного типа помощи на основе характеристик студента. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Основные результаты опроса показывают четкую иерархию предпочтений в использовании ресурсов для разных типов задач. Для написания нового кода на первом месте оказались онлайн-поиски (средний балл 4.2 из 5), за которыми следуют AI-ассистенты для кодирования (3.8), документация (3.5), помощь коллег (2.9) и помощь преподавателей (2.4). Наиболее удивительным результатом стало то
Annotation:
A survey of 26 CS students reveals that AI coding assistants are mainly used for writing code (second to online searches) while AI chatbots are the top resource for debugging. Participants with different coding experience prefer online help over direct human help from peers and instructors.
ID: 2508.04667v1 cs.HC, cs.AI
Авторы:

Hikari Yanagawa, Yuichi Hiroi, Satomi Tokida, Yuji Hatada, Takefumi Hiraki

**Резюме:** В коммерческих метавселенных, несмотря на многообразие пользовательского контента, отсутствует эффективная навигационная поддержка, способная адаптироваться к интересам и целям пользователей. Ранее разработанные навигационные агенты были ограничены управляемыми средами, и их применение в разнообразных коммерческих мирах сталкивалось с значительными техническими ограничениями. В данной статье представлен **Navigation Pixie**, агент для поддержки навигации, основанный на гибкой архитектуре, которая сочетает структурированные пространственные метаданные и обработку естественного языка на основе технологий языковых моделей (LLM). Это позволяет минимизировать зависимость от платформ и обеспечить эксперименты на больших пользовательских выборках. Исследования, проведенные на коммерческой платформе **Cluster** с участием 99 пользователей на ПК и 94 пользователя с VR-устройствами, демонстрируют, что Navigation Pixie значительно повышает время пребывания и степень свободного исследования пространства по сравнению с фиксированными маршрутами или отсутствием агента. Результаты подтверждают эффективность подхода и открывают новые возможности для разработки конверсациионных навигационных агентов в коммерческих метавселенных.
Annotation:
While commercial metaverse platforms offer diverse user-generated content, they lack effective navigation assistance that can dynamically adapt to users' interests and intentions. Although previous research has investigated on-demand agents in controlled environments, implementation in commercial settings with diverse world configurations and platform constraints remains challenging. We present Navigation Pixie, an on-demand navigation agent employing a loosely coupled architecture that integr...
ID: 2508.03216v1 cs.HC, cs.AI
Авторы:

Wenshuo Zhang, Leixian Shen, Shuchang Xu, Jindu Wang, Jian Zhao, Huamin Qu, Linping Yuan

**Резюме:** При использовании конверсационных LLMs для решения доменных задач пользователи с ограниченными навыками программирования часто сталкиваются с проблемой несоответствия их намерений (intents) с генерируемым кодом. Это связано с двунаправленной неоднозначностью: нелинейные пользовательские намерения и задачи программирования должны быть выражены и интерпретированы через линейные последовательности запросов и кода. Для решения этой проблемы предлагается новый парадигмальный подход — **direct intent-task matching**, который внешне представляет и позволяет манипулировать LLM-пониманием задач программирования до фазы генерации кода. Этот подход реализован в системе **NeuroSync**, которая использует knowledge distillation для извлечения понимания LLM, пользовательских намерений и их сопоставлений, поддерживая интуитивное редактирование через визуализации. Результаты технических экспериментов и юзер-стади (N=12) показали, что NeuroSync улучшает соответствие намерений и задач, сокращает когнитивные затраты и повышает эффективность программирования.
Annotation:
Conversational LLMs have been widely adopted by domain users with limited programming experience to solve domain problems. However, these users often face misalignment between their intent and generated code, resulting in frustration and rounds of clarification. This work first investigates the cause of this misalignment, which dues to bidirectional ambiguity: both user intents and coding tasks are inherently nonlinear, yet must be expressed and interpreted through linear prompts and code sequen...
ID: 2508.02823v1 cs.HC, cs.AI, cs.CL, cs.SE
Авторы:

Iyad Rahwan, Azim Shariff, Jean-François Bonnefon

**Резюме** Прогнозирование социальных и поведенческих последствий будущих технологий может позволить управлять их развитием и регулированием до того, как эти воздействия станут неизменными. Традиционно такие прогнозы основывались на качественных, нарративных методах. Авторы предлагают новый подход, называемый "научно-фантастическим методом" (science fiction science), который использует экспериментальные исследования для моделирования будущих технологий и сбора количественных данных о поitudes и поведениях участников, помещённых в контролируемые вариации будущего. Однако этот подход не получил широкого признания из-за рисков его валидности, связанных с необычными и иммерсивными методами. Авторы обсуждают ограничения, которые могут смягчить эти риски, и предлагают стратегии для нормализации таких методов, чтобы стимулировать развитие этого направования и создать цикл улучшения его надежности.
Annotation:
Predicting the social and behavioral impact of future technologies, before they are achieved, would allow us to guide their development and regulation before these impacts get entrenched. Traditionally, this prediction has relied on qualitative, narrative methods. Here we describe a method which uses experimental methods to simulate future technologies, and collect quantitative measures of the attitudes and behaviors of participants assigned to controlled variations of the future. We call this m...
ID: 2508.03430v1 cs.HC, cs.AI
Авторы:

Ruei-Che Chang, Rosiana Natalie, Wenqian Xu, Jovan Zheng Feng Yap, Anhong Guo

Работа исследует применение живого видео-чата ChatGPT (режим Advanced Voice with Video) в качестве повседневного помощника для незрячих и слабовидящих (BVI) в реальных условиях. В эксперименте восемь участников BVI использовали систему для поиска предметов, ориентирования внутри и снаружи помещений и распознавания ориентиров. Выявлены две зоны разрыва: 1) статические сцены описываются точно и полезно, тогда как динамические ситуации требуют непрерывных, временно-критичных подсказок, которые модель выдаёт с запаздыванием; 2) сильные голосовые ответы вызывают ощущение «человечности», но приводят к галлюцинациям, неточностям в пространственных данных и сладкоречивым утверждениям, что повышает риск для безопасности. Авторы рекомендуют добавить внешние датчики, пересмотреть стратегию вмешательства и учитывать экологические и этические факторы при проектировании ассистивных видео-агентов.
Annotation:
Recent advancements in large multimodal models have provided blind or visually impaired (BVI) individuals with new capabilities to interpret and engage with the real world through interactive systems that utilize live video feeds. However, the potential benefits and challenges of such capabilities to support diverse real-world assistive tasks remain unclear. In this paper, we present findings from an exploratory study with eight BVI participants. Participants used ChatGPT's Advanced Voice with V...
ID: 2508.03651v1 cs.HC, cs.AI
Показано 231 - 239 из 239 записей