📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DynaMind: Reconstructing Dynamic Visual Scenes from EEG by Aligning Temporal Dynamics and Multimodal Semantics to Guided Diffusion

2025-09-05

Авторы:

Junxiang Liu, Junming Lin, Jiangtong Li, Jie Li

## Контекст Моделирование динамических визуальных сцен из электроэнцефалограмм (EEG) является ключевым вопросом в области мозгового декодирования. Однако существующие методы сталкиваются с недостатками в решении проблем, связанных с низкой специфичностью EEG, временным несоответствием записей нейросигналов и видеоинформации, а также недостаточным использованием семантической информации. Эти ограничения приводят к недостаточной динамической целостности и недостаточной семантической контекстуализации. Поэтому необходимо разработать систему, которая сможет эффективно комбинировать эти аспекты для точного моделирования визуальных сцен. ## Метод DynaMind представляет собой современный разработанный подход, который сочетает нейродинамические признаки и семантические компоненты в рамках трех модулей: Regional-aware Semantic Mapper (RSM), Temporal-aware Dynamic Aligner (TDA) и Dual-Guidance Video Reconstructor (DGVR). RSM использует региональный подход к извлечению семантических признаков из EEG, агрегируя их в общую структуру для дальнейшего применения. TDA генерирует динамический латентный секвенс, обеспечивая гармоничность в ходе временных изменений. DGVR синтезирует видео, используя эти семантические признаки и динамический секвенс для достижения самой высокой точности и коректности. ## Результаты Проведенные эксперименты показали, что DynaMind достигает значительных улучшений в сравнении с предыдущими методами. На SEED-DV датасете, он повысил точность воспроизведения видео на 12.5% (видео-уровень) и 10.3% (фрейм-уровень). Этот подход также показал предвосхитительную разрешающую способность, повысив SSIM на 9.4% и снизив FVMD на 19.7%. Эти результаты подтверждают высокую точность и визуальное качество, установив новый состояние техники в области видеореконструкции из EEG. ## Значимость DynaMind открывает путь к новым возможностям в области динамического моделирования визуальных сцен, имея широкие применения в технологиях интерактивных систем, робототехнике и медицине. Он предлагает высокую точность, динамическую целостность и визуальную четкость, которые отсутствуют в существующих решениях. Будущие исследования будут сконцентрированы на расширении применений, улучшении точности и исследовании повышения моделирования зависимости между нейродинамикой и семантическими признаками. ## Выводы DynaMind становится ключевым развитием в области моделирования визуальных сцен с помощью EEG. Он выделяется своей уникальной архитектурой, объединяющей нейродинамические и семантические компоненты, что позволяет достигать высокого качества реконструкции. Будущие работы будут с

Annotation:

Reconstruction dynamic visual scenes from electroencephalography (EEG) signals remains a primary challenge in brain decoding, limited by the low spatial resolution of EEG, a temporal mismatch between neural recordings and video dynamics, and the insufficient use of semantic information within brain activity. Therefore, existing methods often inadequately resolve both the dynamic coherence and the complex semantic context of the perceived visual stimuli. To overcome these limitations, we introduc...

ID: 2509.01177v1 cs.CV, cs.AI, cs.HC, eess.SP

arXiv PDF

📄 Strefer: Empowering Video LLMs with Space-Time Referring and Reasoning via Synthetic Instruction Data

2025-09-05

Авторы:

Honglu Zhou, Xiangyu Peng, Shrikant Kendre, Michael S. Ryoo, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

## Контекст На сегодняшний день существуют Video Large Language Models (Video LLMs), которые в наибольшей степени обладают пониманием динамических видеозаписей. Однако они сталкиваются с рядом ограничений при решении задач, затрагивающих спатиотмениальные ссылки в средством обычного видеопонимания. Такие модели не умеют работать с запросами, которые требуют легкого интерпретирования положения объектов в пространстве, а также временальных ссылок для понимания их расположения во времени. Более того, они не могут распространяться на сложные задачи в контексте реальных условий. В этом контексте возникает потребность в развитии Video LLMs, которые бы могли также работать с конкретными спатиотмениальными задачами и ситуациями. ## Метод Для этого была разработана новая синтетическая фреймворка Strefer. Она основывается на подходе, который генерирует инструкции на основе видеометаданных. Данные фреймворка позволяют получить масштабируемый набор данных, содержащий информацию о расположении и действиях объектов в пространстве и времени. Метод Strefer использует данные о масклетах, временных диапазонах, объектах, их свойствах и действиях. Такой подход позволяет создавать синтетический набор данных, который может корректно интерпретировать видео-LLMs для работы с запросами, требующими определенных спатиотмениальных ссылок. ## Результаты Результаты испытаний и экспериментов показали, что с помощью фреймворка Strefer модели Video LLMs становятся более точными в понимании спатиотмениальных характеристик. Модели, обученные на данных, сгенерированных Strefer, показали значительное улучшение в выполнении задач, которые требуют различения спатиотмениальных ссылок, сопоставления объектов и расположения в течение времени. Эти модели показали свое превосходство в сравнении с базовыми моделями в задачах решения спатиотмениальных проблем. ## Значимость Полученные модели могут быть применены в различных областях, в том числе в сфере робототехники, видеомониторинга, здравоохранения и развитии AI-компаньонов. Strefer обеспечивает моделям Video LLMs более тонкий интерпретации пространственных и временных связей, что позволяет им быть более удобными в сложных и реальных условиях. Этот подход также снижает затраты на аннотацию данных, так как основывается на синтетической генерировании метаданных вместо ручной работы. ## Выводы Выводы, сделанные на основе экспериментов, показали, что модели, обученные на данных, сгенерированных фреймворком Strefer, обладают более развитыми возможностями в спатиотмениальном рассуждении. Это стало новым шагом в развитии Video LLMs для использования в реальных ситуациях. В бу

Annotation:

Next-generation AI companions must go beyond general video understanding to resolve spatial and temporal references in dynamic, real-world environments. Existing Video Large Language Models (Video LLMs), while capable of coarse-level comprehension, struggle with fine-grained, spatiotemporal reasoning, especially when user queries rely on time-based event references for temporal anchoring, or gestural cues for spatial anchoring to clarify object references and positions. To bridge this critical g...

ID: 2509.03501v1 cs.CV, cs.AI, cs.HC, cs.LG

arXiv PDF

📄 Explain and Monitor Deep Learning Models for Computer Vision using Obz AI

2025-08-27

Авторы:

Neo Christopher Chung, Jakub Binda

## Контекст Deep learning (DL) сделал переломный прорыв в области компьютерного зрения (CV), достигнув впечатляющих результатов в таких задачах, как классификация, сегментация и другие. Теперь эти AI-базированные системы CV распространяются на различные сферы, включая медицинское изображение, технологии слежения и безопасность. Однако современные модели CV, такие как ленивые сверточные сети (CNNs) и трансформеры для видюх (ViTs), часто относятся к "черным ящикам", т.к. их решения остаются непонятными, что затрудняет понимание и ответственное использование. Хотя в последнее время развивается область explainable AI (XAI), её применение в производстве CV до сих пор ограничено. Основной причиной является отсутствие интегрированных решений, которые объединяли бы XAI-техники с системами управления знаниями и мониторинга. Это является фундаментальной проблемой, которую мы пытаемся решить с помощью Obz AI. ## Метод Obz AI представляет собой инновационную платформу, которая объединяет XAI-технологии и мониторинг в реальном времени в унифицированном экосистеме. Её центральная часть — Python client library, позволяющая интегрировать XAI-методологии, такие как SHAP, LIME, и Grad-CAM, прямо в ваши DL-модели. Далее, платформа предлагает мощный аналитический дашборд, работающий в реальном времени, для отображения результатов XAI, анализа outlier detection и мониторинга производительности моделей. Отдельно отметим архитектуру, основанную на микросервисных технологиях, что обеспечивает высокую масштабируемость и надежность. Эти инструменты позволяют ML-инженерам не только понять работу своих моделей, но и отслеживать их в процессе работы, что обеспечивает доверие и ответственность в их развёртывании. ## Результаты Мы проводили эксперименты с различными моделями CV, включая CNNs и ViTs, чтобы оценить эффективность Obz AI в ряде сценариев. Использовались данные с различных источников, включая ImageNet и наборы данных медицинской импедиметрии. Результаты показали, что Obz AI обеспечивает повышенную транспарентность в решениях моделей, улучшает отслеживаемость процесса обучения, и позволяет отслеживать временные шкалы поведения моделей на живых данных. Например, использование Grad-CAM в сочетании с Obz AI позволило выявить нестандартные сценарии в данных, связанные с outliers, что демонстрирует важность нашего подхода в реальном мире. ## Значимость Obz AI имеет широкое применение в различных областях, где XAI и мониторинг важны для успешного развёртывания AI-систем. Например, в медицинской импедиметрии, модели могут объяснить свои решения, что повышает доверие врачей. В слеженческих систем

Annotation:

Deep learning has transformed computer vision (CV), achieving outstanding performance in classification, segmentation, and related tasks. Such AI-based CV systems are becoming prevalent, with applications spanning from medical imaging to surveillance. State of the art models such as convolutional neural networks (CNNs) and vision transformers (ViTs) are often regarded as ``black boxes,'' offering limited transparency into their decision-making processes. Despite a recent advancement in explainab...

ID: 2508.18188v1 cs.CV, cs.AI, cs.HC, cs.SE

arXiv PDF

📄 HOSt3R: Keypoint-free Hand-Object 3D Reconstruction from RGB images

2025-08-26

Авторы:

Anilkumar Swamy, Vincent Leroy, Philippe Weinzaepfel, Jean-Sébastien Franco, Grégory Rogez

## Контекст Руко-предметное взаимодействие и трехмерное воспроизведение сцен являются ключевыми аспектами в приложениях для человеко-роботного взаимодействия и иммерсивных AR/VR-опытов. Однако, трехмерное воспроизведение рук и предметов на основе RGB-видео становится сложной задачей из-за различной геометрии объектов, слабых текстур, и руко-предметных оккультаций. Наиболее распространенным подходом является двухэтапная модель, включающую 3D-трекинг руки и предмета, а затем много birds-eye-view 3D-воспроизведение. В настоящее время, существующие методы полагаются на детекторы ключевых точек, такие как Structure from Motion (SfM) и руко-ключевая оптимизация, которые страдают от недостатка гибкости, нестеганности и ограниченной общимости. Мы предлагаем HOSt3R, первый технологический подход к руко-предметному трехмерному воспроизведению без использования ключевых точек, который обеспечивает широкую гибкость и улучшенную общимость для различных приложений. ## Метод Чтобы справиться со сложностями трехмерного воспроизведения руки и предмета, мы предлагаем HOSt3R, новый класс методов, основанный на детектировании 3D-трансформаций руки и предмета без использования ключевых точек. Мы используем сильно нейросетевые архитектуры для автоматического выявления руки и предмета в каждом кадре. Далее, мы реализуем много birds-eye-view 3D-воспроизведение, используя последовательность изображений. Мы интегрируем наши модели с общедоступным SHOWMe-benchmark-датасетом, а также нашей собственной моделью тренировки, которая позволяет проверить нашу подходную модель в нескольких сценах. Наше 3D-моделирующее решение выдает гораздо точные и гибкие результаты по сравнению с другими методами. ## Результаты Мы проверили нашу модель на двух открытых датасетах: SHOWMe и HO3D. Мы проводили эксперименты с различными руко-предметными сценами, включая нестандартные объекты и сильно оккультирующие руки и предметы, чтобы проверить гибкость и общимость наших методов. Мы получили результаты, которые превосходят существующие методы в трехмерном воспроизведении рук и предметов, используя только RGB-изображения без дополнительных сенсоров. Наш предложенный подход показал самые высокие показатели точности и обобщаемости по сравнению с другими текущими системами. ## Значимость Наш подход имеет широкие применения в области человеко-роботного взаимодействия, иммерсивных AR/VR-технологий и даже в сфере глубокого обучения. Наш метод освобождает пользователей от требовани

Annotation:

Hand-object 3D reconstruction has become increasingly important for applications in human-robot interaction and immersive AR/VR experiences. A common approach for object-agnostic hand-object reconstruction from RGB sequences involves a two-stage pipeline: hand-object 3D tracking followed by multi-view 3D reconstruction. However, existing methods rely on keypoint detection techniques, such as Structure from Motion (SfM) and hand-keypoint optimization, which struggle with diverse object geometries...

ID: 2508.16465v2 cs.CV, cs.AI, cs.HC, cs.LG, cs.RO

arXiv PDF

📄 RealTalk: Realistic Emotion-Aware Lifelike Talking-Head Synthesis

2025-08-19

Авторы:

Wenqing Wang, Yun Fu

#### Контекст Эмоции являются ключевым компонентом искусственного социального интеллекта. Однако, несмотря на то, что нынешние методы достигли высокой точности в синтезе говорящих голов и качества изображения, они часто сталкиваются с проблемой точного генерирования эмоциональных выражений, сохраняя при этом точность идентификации субъекта. Это приводит к неестественности и неподходящим эмоциональным реакциям. Для решения этой проблемы мы предлагаем RealTalk — новую систему для создания реалистичных эмоциональных говорящих голов, которая обеспечивает высокую точность в определении эмоций, эмоциональную контролируемость и надежные результаты в сохранении идентичности. #### Метод RealTalk основывается на комбинации вариационного автоэнкодера (VAE) и модели ResNet-based landmark deformation model (LDM). Аудиосигнал обучает VAE для генерирования 3D-фасетов лица. Эти фасетов затем конкатенируются с эмоциональными этикетками, используя LDM, чтобы создавать эмоционально-специфические фасетовые деформации. Эти деформации, вместе с фасетовыми коэффициентами лица, подаются в NeRF с три-плоскостным аутентификатором для создания реалистичных эмоциональных говорящих голов. Наша архитектура работает на базе NeRF, но применяет дополнительные эмоциональные признаки для улучшения реализма и контроля. #### Результаты Мы провели серию экспериментов на различных данных, включая говорящие головы с различными эмоциями. Наши результаты показывают, что RealTalk превосходит существующие методы в области точности, контроля и сохранения идентичности. Мы также провели сравнительный анализ с наиболее популярными моделями, подтвердив, что RealTalk обеспечивает более естественные и точные эмоциональные выражения. Эти результаты подтверждают ценность нашего подхода в создании систем, которые могут эмоционально взаимодействовать с пользователями. #### Значимость Применение RealTalk может иметь значительные последствия в области искусственного интеллекта, в частности для создания социально интеллектуальных систем. Наши результаты демонстрируют повышенную точность и контроль эмоциональных выражений, что может быть удобно для видеоконференций, геймдизайна, робототехники и других приложений, требующих эмоциональной интерактивности. Помимо этого, RealTalk может быть использован в области психологии для исследования эмоциональных реакций и в обучении искусственного интеллекта. #### Выводы Мы представили RealTalk — новую модель для эмоционального синтеза говорящих голов, которая обеспечивает высокую точность эмоционального выражения, эмоциональную контролируемость и надежную идентичность. Наши результаты показывают, что RealTalk п

Annotation:

Emotion is a critical component of artificial social intelligence. However, while current methods excel in lip synchronization and image quality, they often fail to generate accurate and controllable emotional expressions while preserving the subject's identity. To address this challenge, we introduce RealTalk, a novel framework for synthesizing emotional talking heads with high emotion accuracy, enhanced emotion controllability, and robust identity preservation. RealTalk employs a variational a...

ID: 2508.12163v1 cs.CV, cs.AI, cs.HC, cs.LG, I.4; I.3; I.2

arXiv PDF

📄 Not There Yet: Evaluating Vision Language Models in Simulating the Visual Perception of People with Low Vision

2025-08-19

Авторы:

Rosiana Natalie, Wenqian Xu, Ruei-Che Chang, Rada Mihalcea, Anhong Guo

#### Контекст Область визуально-языковых моделей (VLMs) позволила создавать модели разума, которые могут решать проблемы и принимать решения в различных тематиках. Однако до сих пор не было изучено, насколько эффективно эти модели могут воспроизводить визуальное восприятие, особенно у людей с низким зрением. У людей с низким зрением существуют уникальные паттерны восприятия, которые могут быть затруднительными для реализации в моделях. В нашей исследовательской работе мы исследуем, насколько VLMs способны воспроизводить визуальное восприятие людей с низким зрением, а также выявляем факторы, которые могут повысить точность моделирования. #### Метод Мы создали бенчмарк-датасет, содержащий ответы от 40 участников с низким зрением, которые прошли процесс оценки и описания визуальных реакций на 25 изображений. Ответы были записаны как в открытой форме, так и в виде множественного выбора. Далее мы использовали этот датасет для обучения модели GPT-4o, создав для каждого участника "виртуального агента" с разным количеством введенной информации — от минимального до полного набора ответов. Мы сравнивали реакции модели с ответами участников, чтобы определить точность воспроизведения визуального восприятия. #### Результаты Наши результаты показали, что VLMs с низкой информационной базой — только с открытыми ответами или с определенными визуальными примерами — показывают низкую точность (0.59). Однако при использовании объединенной информации (открытые ответы + примеры визуальных реакций), точность увеличивается до 0.70 (p < 0.0001). Мы также установили, что добавление дополнительных примеров не оказывает существенного влияния на точность (p > 0.05). #### Значимость Наши результаты могут быть применены в разработке более точных моделей визуально-языкового моделирования, которые будут учитывать уникальные особенности визуального восприятия людей с низким зрением. Это может привести к более точным интерфейсам, которые будут адаптированы для людей с специальными потребностями. Будущие исследования будут сфокусированы на улучшении точности моделей с использованием различных стратегий обучения и дополнительных данных. #### Выводы Мы проанализировали способность VLMs воспроизводить визуальное восприятие людей с низким зрением и определили, что сочетание открытых ответов и примеров визуальных реакций значительно повышает точность моделей. Это открывает новые возможности для создания более удобных интерфейсов для людей с специальными потребностями. В дальнейших исследованиях мы собираемся расши

Annotation:

Advances in vision language models (VLMs) have enabled the simulation of general human behavior through their reasoning and problem solving capabilities. However, prior research has not investigated such simulation capabilities in the accessibility domain. In this paper, we evaluate the extent to which VLMs can simulate the vision perception of low vision individuals when interpreting images. We first compile a benchmark dataset through a survey study with 40 low vision participants, collecting ...

ID: 2508.10972v1 cs.CV, cs.AI, cs.HC

arXiv PDF

📄 Pose-Robust Calibration Strategy for Point-of-Gaze Estimation on Mobile Phones

2025-08-15

Авторы:

Yujie Zhao, Jiabei Zeng, Shiguang Shan

## Контекст Существующие системы по углу обзора (point-of-gaze, PoG) основываются на визуальных признаках, которые позволяют определить направление взгляда пользователя. Тем не менее, эти системы часто сталкиваются с проблемой отклонений в персональных характеристиках, таких как размер глаз, форма лица и положение головы. Эти отличия требуют личной калибровки, чтобы обеспечить точность. Кроме того, наиболее распространенные виды калибровки требуют статического или ограниченного диапазона движений, что делает их неудобными для повседневного использования в мобильных устройствах. Это препятствует эффективному использованию PoG-систем в реальном мире. Наша мотивация заключается в разработке более простой и удобной стратегии калибровки, которая бы увеличила точность и стабильность оценки угла обзора на мобильных устройствах. ## Метод Мы предлагаем подход, который учитывает широкий диапазон головных положений в процессе калибровки. Наша процедура построена на наборе данных MobilePoG, содержащем 32 индивидуальных наборы снимков с разными углами головы и уровнями статичности или динамичности. Для того, чтобы система могла оптимально адаптироваться к разным телам и положениям головы, мы выявили ключевые факторы, влияющие на точность PoG. Мы исследовали влияние разнообразия калибровочных точек и углов головы на уровень ошибки. Также мы разработали динамическую стратегию калибровки, в которой пользователи двигают свои устройства во время калибровки. Это позволяет автоматически воспроизводить различные головные положения, улучшая общую точность и устойчивость системы. ## Результаты Мы провели эксперименты с MobilePoG, сравнивая динамическую стратегию калибровки с существующими статическими подходами. Результаты показали, что наш подход способствует существенному улучшению точности PoG-оценки при изменении головных положений. Например, в статических условиях головных положений наш способ показал уменьшение ошибки на 15-20% по сравнению с существующими методами. Еще одним важным результатом является возможность лучшего подстройки под индивидуальные характеристики, такие как форма лица и размер глаз. Это приводит к более точной оценке угла обзора без необходимости постоянной реадаптации. ## Значимость Наше решение имеет практическое применение в сферах, где точная оценка угла обзора критично важна, таких как виртуальная и расширенная реальность, интерактивные системы и управление устройствами без кнопок. Этот подход также обеспечивает более удобную и эффективную калибровку, увеличивая принятость у пользо

Annotation:

Although appearance-based point-of-gaze (PoG) estimation has improved, the estimators still struggle to generalize across individuals due to personal differences. Therefore, person-specific calibration is required for accurate PoG estimation. However, calibrated PoG estimators are often sensitive to head pose variations. To address this, we investigate the key factors influencing calibrated estimators and explore pose-robust calibration strategies. Specifically, we first construct a benchmark, M...

ID: 2508.10268v1 cs.CV, cs.AI, cs.HC

arXiv PDF

Показано 21 - 27 из 27 записей