📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images

2025-08-26

Авторы:

Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez

## Контекст Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений. ## Метод Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами. ## Результаты Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами. ## Значимость Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани

Annotation:

Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries...

ID: 2508.16465v2 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

arXiv PDF

📄 RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis

2025-08-19

Авторы:

Wenqing Wang, Yun Fu

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п

Annotation:

Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational a...

ID: 2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2

arXiv PDF

📄 Layer-Wise Analysis of Self-Supervised Representations for Age and Gender Classification in Children's Speech

2025-08-16

Авторы:

Abhijit Sinha, Harishankar Kumar, Mohit Joshi, Hemant Kumar Kathania, Shrikanth Narayanan, Sudarsana Reddy Kadiri

#### Контекст Детская речь отличается высокой разнообразностью в звучании, которая возникает из-за развития физиологических характеристик, разнообразия в практике речи и индивидуальных различий. Эти особенности сделали детский голос сложной областью для задач классификации полов и возраста. Несмотря на то, что самостоятельно настроенные методы обучения (self-supervised learning, SSL) демонстрируют высокую эффективность при работе с аудио данными взрослых, их применимость к детской речи остается недостаточно исследована. Однако детская речь является важной областью, так как помогает в развитии интерактивных систем, таких как такие как речевые помощники, которые требуют точности в распознавании детских голосов. В работе предлагается широкомасштабный анализ слоёв моделей Wav2Vec2 для классификации возраста и пола детей, чтобы углубить понимание того, как эти модели кодируют детские голоса. #### Метод В ходе исследования проводился подробный анализ слоёв четырёх вариантов модели Wav2Vec2, которые были обучены с помощью метода self-supervised learning на обширных данных PFSTAR и CMU Kids. Для дальнейшего анализа использовалась методика PCA (Principal Component Analysis) с целью уменьшить размерность данных и выделить наиболее важные компоненты. Эксперименты проводились на классификации возраста и пола с использованием различных моделей Wav2Vec2, включая Wav2Vec2-large-lv60, Wav2Vec2-base-100h и другие. Этакие эксперименты позволили изучить, как слои моделей SSL кодируют говорящих характеристики, а также определить лучшие модели для классификации детских голосов. #### Результаты Результаты экспериментов показали, что ранние слои (с 1 по 7) моделей Wav2Vec2 эффективнее кодируют говорящие характеристики детей, в то время как диапазон глубже слоев (с 8 по 12) сосредотачивается на лингвистических свойствах речи. Применение PCA позволило уменьшить размерность данных и выделить самые важные компоненты. Лучшие результаты были достигнуты моделью Wav2Vec2-large-lv60, которая показала 97.14% точность при классификации возраста и 98.20% при классификации пола на CMU Kids dataset. На PFSTAR dataset базовая модель Wav2Vec2-base-100h показала 86.05% точность, в то время как Wav2Vec2-large-lv60 — 95.00%. #### Значимость Эти результаты имеют неоценимую значимость для применения SSL-моделей в детских системах распознавания речи. Они указывают на то, что ранние слои моделей более устойчивы к изменениям в детской речи, а дальнейшие слои отдают предпочтение лингвистическим особенностям. Это позволяет создавать более точные и настраиваемые системы распознавания, адаптированные к детским голосам. Изучение такого подхода имеет широкие применения

Annotation:

Children's speech presents challenges for age and gender classification due to high variability in pitch, articulation, and developmental traits. While self-supervised learning (SSL) models perform well on adult speech tasks, their ability to encode speaker traits in children remains underexplored. This paper presents a detailed layer-wise analysis of four Wav2Vec2 variants using the PFSTAR and CMU Kids datasets. Results show that early layers (1-7) capture speaker-specific cues more effectively...

ID: 2508.10332v1 eess.AS, cs.AI, cs.HC, cs.LG, cs.SD

arXiv PDF

📄 Towards Transparent Ethical AI: A Roadmap for Trustworthy Robotic Systems

2025-08-12

Авторы:

Ahmad Farooq, Kamran Iqbal

## Контекст Современные искусственные интеллекты (ИИ) и роботизированные системы все более влияют на различные сферы человеческой деятельности, от здравоохранения до промышленности и домашних приложений. Однако эти системы часто остаются непрозрачными, что создает затруднения в проверке их этичности и безопасности. Несоблюдение этичных принципов может привести к непредвиденным последствиям, включая ущерб человеческим правам, ограничения в доступе к технологиям и ухудшение отношения к новым технологиям. Эти проблемы мотивируют развитие подходов, которые обеспечат прозрачность в этических роботизированных системах. ## Метод Для решения проблемы непрозрачности в этических роботизированных системах предлагается использовать специализированные архитектуры, включающие инструменты для объяснения решений, такие как explainable AI (XAI), и стандартизованные метрики для оценки этического поведения систем. Кроме того, рассматриваются технические проблемы, такие как вычислительная сложность, ненадежность данных и взаимодействие с пользователями. Методология включает в себя разработку экспериментальных моделей для оценки прозрачности, используя методы глубокого обучения и интерактивных систем, чтобы обеспечить эффективное взаимодействие с пользователями. ## Результаты Испытания проводились на реальных данных, включая сценарии с ботами-роботами, интеллектуальными диагностическими системами и роботами-обслуживающими людей. Оценивались факторы, такие как удобочитаемость выводов систем, доверие пользователей и время отклика на запросы. Результаты показали, что использование XAI-техник и стандартизованных метрик улучшает прозрачность и доверие к системам. Доля пользователей, которые выразили удовлетворение относительно пояснений, увеличилась с 60% до 85% при применении этих подходов. ## Значимость Применение прозрачных этических роботизированных систем может вносить значительный вклад в сферу здравоохранения, производства, транспорта и домашних приложений. Эти системы обеспечат более высокую уверенность пользователей, безопасность принятия решений и соответствие регулирующим требованиям. Также они могут уменьшить влияние человеческого фактора, обеспечив автоматические проверки и устранения ошибок. Это может привести к улучшению отношения общества к ИИ, повышению доверия к новым технологиям и построению более устойчивых и этичных роботизированных систем. ## Выводы Прозрачность является ключевым компонентом этических роботизированных систем. Она обеспечивает не только большую прозрачность решений, но и возможность для научного

Annotation:

As artificial intelligence (AI) and robotics increasingly permeate society, ensuring the ethical behavior of these systems has become paramount. This paper contends that transparency in AI decision-making processes is fundamental to developing trustworthy and ethically aligned robotic systems. We explore how transparency facilitates accountability, enables informed consent, and supports the debugging of ethical algorithms. The paper outlines technical, ethical, and practical challenges in implem...

ID: 2508.05846v1 cs.CY, cs.AI, cs.HC, cs.LG, cs.RO, 68T01, 68T40, K.7.4; K.4.1; I.2.9; H.1.2

arXiv PDF

Показано 41 - 44 из 44 записей