📚 Саммари научных статей из arXiv

Найдено 238 результатов по запросу 'cs.AI, cs.HC' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Reliability, Embeddedness, and Agency: A Utility-Driven Mathematical Framework for Agent-Centric AI Adoption

2025-08-20

Авторы:

Faruk Alpay, Taylan Alpay

## Контекст В последние годы агент-центрические системы ИИ, которые выполняют сложные многошаговые задачи, приобрели важное место в индустрии и разными сферах жизнедеятельности. Однако существуют ряд проблем, связанных с их принятием и долгосрочным применением. Эти системы часто сталкиваются с проблемами надежности, внедрения и агентством, что способствует неэффективному использованию и удаленности от потребностей пользователей. Целью данной работы является формализация и исследование этих аспектов с помощью математического моделирования. Мотивировано это желанием создать универсальную модель, которая будет давать возможность оценивать и улучшать агент-центрические системы ИИ в реальном времени. ## Метод Для достижения этой цели был разработан математический фреймворк, основанный на трех основных принципах: надежность должна превышать новизну, внедрение должно превышать целевую точку, а агентство должно превышать чат. Модель взаимосвязи этих компонентов описывается с помощью линейной модели, в которой включены убывающий терм новизны и растущий терм удовлетворенности. Развитие формализации включало ряд технических сложностей, таких как идентификация конфондирующих факторов, анализ ошибок типа I и II, а также сравнение моделей. Модель построена на основе математических демонстраций, включая дельта-метод, а также экспериментальное валидационное исследование на реальных и синтетических данных. ## Результаты Использовавшимися данными стали как синтетические, так и настоящие данные от пользователей. Модель показала высокую точность в описании процесса принятия агент-центрических систем ИИ. Были выявлены оптимальные условия для достижения максимальной надежности, внедрения и агентства. Особое внимание было уделено анализу погрешности, конформированию модели и сравнению с другими альтернативными моделями, такими как би-логистическая и двойно-экспоненциальная. Эксперименты показали, что разработанная модель превосходит конкурентные модели по уровню достоверности и точности прогноза. ## Значимость Разработанная модель предлагает значительные преимущества в плане применения в различных сферах, включая робототехнику, интернет-маркетинг, финансовые услуги и системы управления. Она позволяет оптимизировать процесс принятия решений, улучшать конкурентность систем ИИ и увеличивать их эффективность. Благодаря своей гибкости и точности, модель может стать важной инструментовой базой для управления рисками, планирования инноваций и улучшения пользовательского опыта. ##

Annotation:

We formalize three design axioms for sustained adoption of agent-centric AI systems executing multi-step tasks: (A1) Reliability > Novelty; (A2) Embed > Destination; (A3) Agency > Chat. We model adoption as a sum of a decaying novelty term and a growing utility term and derive the phase conditions for troughs/overshoots with full proofs. We introduce: (i) an identifiability/confounding analysis for $(\alpha,\beta,N_0,U_{\max})$ with delta-method gradients; (ii) a non-monotone comparator (logisti...

ID: 2508.12896v1 cs.AI, cs.HC, stat.ME, 62M10, 62J02, 62F12, 62P20, 91B16

arXiv PDF

📄 SimInterview: Transforming Business Education through Large Language Model-Based Simulated Multilingual Interview Training System

2025-08-19

Авторы:

Truong Thanh Hung Nguyen, Tran Diem Quynh Nguyen, Hoang Loc Cao, Thi Cam Thanh Tran, Thi Cam Mai Truong, Hung Cao

## Контекст Успех в современном бизнесе часто зависит от способности представителей компаний вести эффективные интервью. Однако классические методы обучения в этой области часто являются стандартизированными и не учитывают индивидуальные особенности кандидатов, а также культурные и языковые различия. Это приводит к проблемам в подготовке бизнес-профессионалов, особенно в условиях международных рынков. Недостаток индивидуального подхода приводит к неэффективности подготовки и несоответствию требованиям рынка. Таким образом, возникает необходимость в разработке систем, которые могут предоставить индивидуальную, культурно осознанную и практически читаемую подготовку к бизнес-интервью, учитывая различия в языках и культурах. ## Метод SimInterview представляет собой LLM-based simulated multilingual interview training system, основанный на трёх основных компонентах: 1. **Large Language Model Agent (LLM-agent)**: Он управляет всеми интерактивными задачами, в том числе вопросами, ответами, синтезом речи и разговорным моделированием. 2. **Synthetic AI Technologies**: Используются для моделирования реалистичных виртуальных рекрутеров. 3. **Retrieval-Augmented Generation (RAG)**: Этот подход адаптирует сценарии интервью к конкретным резюме кандидатов и требованиям к позиции. Система использует модели LLMs, такие как OpenAI o3, Llama 4 Maverick и Gemma 3, для обработки текста и генерации говорящих агентов. Она также интегрирует Whisper для распознавания речи, GPT-SoVITS для синтеза речи и Ditto для генерирования говорящих голов. Данные хранятся в ChromaDB в виде векторных баз данных. ## Результаты В ходе экспериментов с участием университетских кандидатов SimInterview показал высокую точность в оценке интервью и высокую удовлетворенность пользователей. Он выдал точные результаты в многоязычной среде (английский и японский), где пользователи особенно ценили то, как система сохраняла индивидуальность кандидатов и учёла культурные различия. Например, японский формат резюме был лучше захвачен со всеми важными деталями, тогда как разнообразие английских резюме привносило более высокий уровень сложности и вариативности в процессе. ## Значимость SimInterview может применяться в области обучения мягким навыкам, глобализации бизнеса и работе с многократной культурой. Он предоставляет выгоды в виде точной индивидуальной подготовки, гибкости в работе с разными культурами и языками, а также высокой точности во взаимодействии. Это может стать ключевым инструментом для успешной карьерной подготовки в международных компаниях. ## Выводы Разработанная система продемонстрировала успех в

Annotation:

Business interview preparation demands both solid theoretical grounding and refined soft skills, yet conventional classroom methods rarely deliver the individualized, culturally aware practice employers currently expect. This paper introduces SimInterview, a large language model (LLM)-based simulated multilingual interview training system designed for business professionals entering the AI-transformed labor market. Our system leverages an LLM agent and synthetic AI technologies to create realist...

ID: 2508.11873v1 cs.CY, cs.AI, cs.HC, cs.MM

arXiv PDF

📄 RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis

2025-08-19

Авторы:

Wenqing Wang, Yun Fu

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п

Annotation:

Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational a...

ID: 2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2

arXiv PDF

📄 "My productivity is boosted, but ..." Demystifying Users' Perception on AI Coding Assistants

2025-08-19

Авторы:

Yunbo Lyu, Zhou Yang, Jieke Shi, Jianming Chang, Yue Liu, David Lo

## Контекст В последние годы AI-кодинг-ассистенты, такие как GitHub Copilot, стали всё более популярными среди разработчиков. Они предлагают удобные инструменты для повышения производительности, помогая в писании кода, идентификации ошибок и развитии новых решений. Однако, несмотря на обширную администрацию, остаются многочисленные вопросы относительно того, что именно разработчики ожидают от таких инструментов и какие проблемы они сталкиваются при использовании. Недостаточное понимание этих аспектов может привести к неэффективному использованию и неудовлетворенности. Данная статья проверяет эти проблемы, основываясь на первых-лиценных отзывах разработчиков, чтобы получить более обоснованное понимание их нужд и ожиданий. ## Метод Исследование основывается на анализе 1,085 AI-кодинг-ассистентов, извлеченных из Visual Studio Code Marketplace. Хотя они составляют всего 1.64% всех расширений, их число стремительно растёт — более 90% были выпущены в течение последних двух лет. Для получения более глубоких пониманий взаимодействия пользователей с этими инструментами, авторы проводят ручной анализ отзывов от 32 популярных наборов. Они создают подробную категоризацию отзывов, охватывающую спектр взглядов пользователей, включая ожидания, удовлетворение и неудовлетворенность. Это позволяет получить детализированный обзор проблем, с которыми сталкиваются разработчики при использовании AI-кодинг-ассистентов. ## Результаты Основные полученные результаты показывают, что пользователи ожидают не только интеллектуальных подсказок, но и контекстно-ориентированных, настраиваемых и ресурсо-эффективных функций. Анализ отзывов выявил несколько ключевых проблем, включая несоответствия предлагаемых подсказок реальным потребностям пользователя, сложности в настройке инструментов и нехватку ресурсо-эффективности. Также выявлено, что некоторые пользователи выражают неудовлетворенность связанной с производительностью и надежностью инструментов. Эти результаты предоставляют полезные подсказки для улучшения AI-кодинг-ассистентов, чтобы они могли лучше соответствовать потребностям разработчиков. ## Значимость Результаты имеют значительное значение для разработчиков, производителей AI-инструментов и для общей индустрии программного обеспечения. Они открывают видимость в том, что разработчики не только нуждаются в интеллектуальных подсказах, но и в инструментах, которые могут быть легко настроены, контекстно-ориентированы и эффективны в использовании ресурсов. Эти полученные понятия могут помочь в развитии более эффективных и полезных AI-инструмен

Annotation:

This paper aims to explore fundamental questions in the era when AI coding assistants like GitHub Copilot are widely adopted: what do developers truly value and criticize in AI coding assistants, and what does this reveal about their needs and expectations in real-world software development? Unlike previous studies that conduct observational research in controlled and simulated environments, we analyze extensive, first-hand user reviews of AI coding assistants, which capture developers' authenti...

ID: 2508.12285v1 cs.SE, cs.AI, cs.HC

arXiv PDF

📄 Not There Yet: Evaluating Vision Language Models in Simulating the Visual Perception of People with Low Vision

2025-08-19

Авторы:

Rosiana Natalie, Wenqian Xu, Ruei-Che Chang, Rada Mihalcea, Anhong Guo

#### Контекст Область визуально-языковых моделей (VLMs) позволила создавать модели разума, которые могут решать проблемы и принимать решения в различных тематиках. Однако до сих пор не было изучено, насколько эффективно эти модели могут воспроизводить визуальное восприятие, особенно у людей с низким зрением. У людей с низким зрением существуют уникальные паттерны восприятия, которые могут быть затруднительными для реализации в моделях. В нашей исследовательской работе мы исследуем, насколько VLMs способны воспроизводить визуальное восприятие людей с низким зрением, а также выявляем факторы, которые могут повысить точность моделирования. #### Метод Мы создали бенчмарк-датасет, содержащий ответы от 40 участников с низким зрением, которые прошли процесс оценки и описания визуальных реакций на 25 изображений. Ответы были записаны как в открытой форме, так и в виде множественного выбора. Далее мы использовали этот датасет для обучения модели GPT-4o, создав для каждого участника "виртуального агента" с разным количеством введенной информации — от минимального до полного набора ответов. Мы сравнивали реакции модели с ответами участников, чтобы определить точность воспроизведения визуального восприятия. #### Результаты Наши результаты показали, что VLMs с низкой информационной базой — только с открытыми ответами или с определенными визуальными примерами — показывают низкую точность (0.59). Однако при использовании объединенной информации (открытые ответы + примеры визуальных реакций), точность увеличивается до 0.70 (p < 0.0001). Мы также установили, что добавление дополнительных примеров не оказывает существенного влияния на точность (p > 0.05). #### Значимость Наши результаты могут быть применены в разработке более точных моделей визуально-языкового моделирования, которые будут учитывать уникальные особенности визуального восприятия людей с низким зрением. Это может привести к более точным интерфейсам, которые будут адаптированы для людей с специальными потребностями. Будущие исследования будут сфокусированы на улучшении точности моделей с использованием различных стратегий обучения и дополнительных данных. #### Выводы Мы проанализировали способность VLMs воспроизводить визуальное восприятие людей с низким зрением и определили, что сочетание открытых ответов и примеров визуальных реакций значительно повышает точность моделей. Это открывает новые возможности для создания более удобных интерфейсов для людей с специальными потребностями. В дальнейших исследованиях мы собираемся расши

Annotation:

Advances in vision language models (VLMs) have enabled the simulation of general human behavior through their reasoning and problem solving capabilities. However, prior research has not investigated such simulation capabilities in the accessibility domain. In this paper, we evaluate the extent to which VLMs can simulate the vision perception of low vision individuals when interpreting images. We first compile a benchmark dataset through a survey study with 40 low vision participants, collecting ...

ID: 2508.10972v1 cs.CV, cs.AI, cs.HC

arXiv PDF

📄 Utilizing Vision-Language Models as Action Models for Intent Recognition and Assistance

2025-08-19

Авторы:

Cesar Alan Contreras, Manolis Chiou, Alireza Rastegarpanah, Michal Szulik, Rustam Stolkin

## Контекст В современной индустрии и жизни существуют возрастающие требования к быстрому и эффективному взаимодействию между людьми и роботами. Одним из ключевых аспектов этого взаимодействия является возможность робота быстро и точно определить намерения пользователя, предоставить прозрачную логику решения и оказать наиболее эффективную помощь. Однако на данный момент существуют значительные проблемы в этой области, включая недостаточную точность в решении задач и ограниченные возможности адаптации к изменению намерений пользователя. Данная работа направлена на развитие методов, которые позволят роботам не только быстро определять намерения, но и обеспечивать более точную и понятную помощь пользователям. ## Метод Для достижения поставленных целей в работе предлагается использовать сочетание существующей модели GUIDER для определения намерений с помощью визуально-языковых моделей (VLM) и текстовых языковых моделей (LLM). Методология включает в себя несколько ключевых этапов: 1. Использование визуального моделирования (YOLO и Segment Anything Model) для обнаружения объектов и их инстансного сегментирования. 2. Использование VLM для оценки релевантности обнаруженных объектов по отношению к заданной задаче. 3. Использование LLM для оценки релевантности объектов в текстовом виде. 4. Объединение результатов VLM и LLM для формирования вероятностного белка, который используется в GUIDER для динамического изменения намерений. 5. Автономное поведение робота, включая навигацию к объекту и его получение. ## Результаты Проведенные эксперименты показали, что сочетание VLM и LLM с GUIDER значительно повышает точность определения намерений пользователя. Использование визуальных моделей позволяет более точно определять объекты в реальном времени, тогда как текстовые модели обеспечивают дополнительную релевантность в текстовой области. Эти дополнения к GUIDER позволяют роботу быстрее адаптироваться к изменениям в намерениях пользователя и обеспечивают более точную помощь в выполнении задач. ## Значимость Разработанная система может быть применена в различных областях, включая автоматизацию производственных процессов, управление роботами в сложных средах и помощь в случае необходимости. Основное преимущество системы заключается в ее возможности быстро учитывать входные данные из разных источников и оптимизировать помощь на основе контекста. Это может привести к повышению производительности и улучшению качества взаимодействия с роботами. ## Выводы Результаты экспериментов показали, что использование VLM и LLM в сочетании с GUIDER значительно повышает точность определения намерений пользователя и улучшает общую эфф

Annotation:

Human-robot collaboration requires robots to quickly infer user intent, provide transparent reasoning, and assist users in achieving their goals. Our recent work introduced GUIDER, our framework for inferring navigation and manipulation intents. We propose augmenting GUIDER with a vision-language model (VLM) and a text-only language model (LLM) to form a semantic prior that filters objects and locations based on the mission prompt. A vision pipeline (YOLO for object detection and the Segment Any...

ID: 2508.11093v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 CRAFT-GUI: Curriculum-Reinforced Agent For GUI Tasks

2025-08-19

Авторы:

Songqin Nong, Jingxuan Xu, Sheng Zhou, Jianfeng Chen, Xiaoxuan Tang, Tao Jiang, Wenhao Xu

#### Контекст В глобальной эпохе интернета и мобильных технологий графические пользовательские интерфейсы (GUI) стали важной частью повседневной жизни. Их взаимодействие с автоматизированными системами позволяет улучшить эффективность работы с информационными системами. Однако существуют трудности в адаптации автоматизированных агентов к различным тестовым сценариям в GUI. Учитывая разнообразие сложности задач, необходимо разработать более удобный и эффективный метод обучения агентов, который может адаптироваться к разной сложности задач. #### Метод CRAFT-GUI представляет собой инновационный метод, основанный на алгоритме Group Relative Policy Optimization (GRPO). Он учитывает разное трудности динамических задач в GUI, разбивая обучение на уровни сложности (курсум). Это позволяет агенту структурировать свое обучение и учиться постепенно, начиная с простых задач и плавно переходя к сложным. Более того, проектированная система внутренней оценки результатов (reward function) сочетает простые правила и модельный анализ, что позволяет агенту получать более тонкий и эффективный обратный сигнал во время обучения. #### Результаты Выполнены эксперименты на двух типах бенчмарков: Android Control и внутренних онлайн-тестов. Результаты показали, что CRAFT-GUI превышает предыдущие результаты стандартных методов на 5.6% на Android Control и 10.3% на внутренних бенчмарках. Это свидетельствует о том, что интеграция курсума и reinforcement learning действительно способствует эффективному обучению агентов в GUI-задачах. #### Значимость CRAFT-GUI может применяться в различных областях, где требуется автоматизация взаимодействия с разнообразными GUI-системами. Это могут быть системы мониторинга, автоматизированные тестирования приложений, а также системы поддержки пользователей. Этот подход обеспечивает более точное и удобное взаимодействие с приложениями, повышая качество и эффективность автоматизации. #### Выводы Целевой подход CRAFT-GUI показался эффективным в обучении агентов для GUI-задач. Он расширяет возможности автоматизации в различных сферах, повышая качество и удобство работы с графическими системами. Будущие исследования будут направлены на улучшение точности оценки сложности задач и повышение универсальности метода для различных типов приложений.

Annotation:

As autonomous agents become adept at understanding and interacting with graphical user interface (GUI) environments, a new era of automated task execution is emerging. Recent studies have demonstrated that Reinforcement Learning (RL) can effectively enhance agents' performance in dynamic interactive GUI environments. However, these methods face two key limitations: (1) they overlook the significant variation in difficulty across different GUI tasks by treating the entire training data as a unifo...

ID: 2508.11360v1 cs.AI, cs.HC

arXiv PDF

📄 An Exploratory Study on Crack Detection in Concrete through Human-Robot Collaboration

2025-08-19

Авторы:

Junyeon Kim, Tianshu Ruan, Cesar Alan Contreras, Manolis Chiou

## Контекст Обследование инфраструктурных объектов, в том числе ядерных установок, является критически важной задачей для обеспечения безопасности и долговечности этих систем. Однако существующие методы ручных проверок обладают значительными недостатками, включая высокие риски для безопасности, высокую утомляемость операторов и потенциальные ошибки вследствие человеческих ограничений. На сегодняшний день недостаточно эффективности и точности таких методов приводят к необходимости развития новых подходов. Одним из таких подходов является Human-Robot Collaboration (HRC), который предполагает использование роботов, оснащенных визуальными алгоритмами детектирования. Этот подход может значительно улучшить точность исправности и эффективность работ, а также уменьшить человеческую нагрузку. ## Метод В данном исследовании использовались современные технологии, включая мобильную платформу робота Jackal и алгоритмы визуального распознавания, основанные на AI. Jackal оборудован видеокамерой для съемки видео изображений, которые анализируются в реальном времени с помощью предварительно обученного модели распознавания трещин. Эта модель была реализована с использованием компьютерного зрения и нейронных сетей. Работа робота координируется с человеком, который осуществляет управление узких местами интереса. Это сочетание человеческого зрения и роботских алгоритмов позволяет обеспечить более точное и эффективное обнаружение трещин. ## Результаты Исследование включало практические эксперименты на реальных объектах. Робот Jackal был задействован для съемки видео трещин в конкретных объектах, а затем проводился анализ изображений с помощью распознавания. Эксперименты показали, что HRC позволяет улучшить точность детектирования трещин в сравнении с ручными методами. Было также отмечено, что использование HRC позволяет сократить нагрузку на операторов, уменьшая вероятность человеческих ошибок. Эксперименты также показали, что HRC может быть применен в различных сценариях, включая операции в ядерных установках и других критичных структурах. ## Значимость Результаты исследования имеют значительное значение для различных отраслей, включая ядерную инфраструктуру, строительство и промышленность. В частности, HRC может использоваться для повышения точности и эффективности проверок в ядерных центрах, уменьшая вероятность ошибок и рисков безопасности. Этот подход также может уменьшить нагрузку на человеческое трудоустройство, позволяя операторам сосредоточиться на более сложных задачах. Таким образом, HRC может стать к

Annotation:

Structural inspection in nuclear facilities is vital for maintaining operational safety and integrity. Traditional methods of manual inspection pose significant challenges, including safety risks, high cognitive demands, and potential inaccuracies due to human limitations. Recent advancements in Artificial Intelligence (AI) and robotic technologies have opened new possibilities for safer, more efficient, and accurate inspection methodologies. Specifically, Human-Robot Collaboration (HRC), levera...

ID: 2508.11404v1 cs.RO, cs.AI, cs.HC

arXiv PDF

📄 Advancing Data Equity: Practitioner Responsibility and Accountability in NLP Data Practices

2025-08-16

Авторы:

Jay L. Cunningham, Kevin Zhongyang Shao, Rock Yuren Pang, Nathaniel Mengist

## Контекст В последние годы в сфере искусственного интеллекта (ИИ) наблюдается возрастающий интерес к вопросам уравновешивания и улучшения эквити (данное понятие можно определить как справедливость и сплоченность в процессе развития и применения технологий ИИ). Особое внимание уделяется естественному языку обработки (NLP), где проблемы негативного влияния моделей ИИ на различные социальные группы становятся все более заметными. Несмотря на то, что много работ посвящено выявлению и анализу алгоритмической стереотипности, меньше внимания уделяется вопросу о том, как практикующие NLP-специалисты (например, те, кто занимается созданием, аннотацией и развертыванием данных) воспринимают проблемы эквити в процессе работы с данными NLP. Этот исследовательский подход становится ключевым для понимания ключевых проблем в области ИИ и для формирования решений, которые могут влиять на будущие технологические развития. ## Метод Работа основывается на опросе, проведенном в 2024 году, и на материалах фокус-группы. Основной акцент в подходе делается на исследование представлений и практик U.S.-based NLP-практиков, которые занимаются работой над данными, аннотацией и развертыванием моделей. Центральное внимание уделяется пониманию того, как эти специалисты понимают понятие "справедливости" в ИИ, какие вызовы и ограничения они сталкиваются в своей работе, и каким образом они взаимодействуют с новыми подходами к государственному управлению, такими как У.С. AI Bill of Rights. Методология исследования включает в себя анализ ответов, проведение интервью и использование концепции многоуровневого кадра государственного управления (multi-scalar AI governance framework), который позволяет выявить связь между техническими аспектами, политическими решениями и социальными запросами. ## Результаты На основе проведенных исследований были выявлены несколько основных находок. Во-первых, существует значительное расхождение между коммерческими целями и приверженностью к принципам справедливости в NLP-данных. Во-вторых, NLP-практикующие сталкиваются с ограничениями в работе, включая системные ограничения, организационные барьеры и технические затруднения. Несмотря на это, они призывают к более участительным и ответственным подходам к работе с данными, чтобы обеспечить более честную и справедливую систему. Третьим основным результатом является появление вызовов для нормативных подходов: практикующие NLP-специалисты выражают интерес к внедрению таких мер, как У.С. AI Bill of Rights, но при этом выделяют необходимость в более широком участии сообщества и более четкой струк

Annotation:

While research has focused on surfacing and auditing algorithmic bias to ensure equitable AI development, less is known about how NLP practitioners - those directly involved in dataset development, annotation, and deployment - perceive and navigate issues of NLP data equity. This study is among the first to center practitioners' perspectives, linking their experiences to a multi-scalar AI governance framework and advancing participatory recommendations that bridge technical, policy, and communit...

ID: 2508.10071v1 cs.CY, cs.AI, cs.HC

arXiv PDF

📄 Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech

2025-08-16

Авторы:

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

#### Контекст Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса. #### Метод В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов. #### Результаты Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%. #### Значимость Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения

Annotation:

Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively...

ID: 2508.10332v1 eess.AS, cs.AI, cs.HC, cs.LG, cs.SD

arXiv PDF

1
2
20
21
22
23
24

Показано 211 - 220 из 238 записей