📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards Effective MLLM Jailbreaking Through Balanced On-Topicness and OOD-Intensity

2025-08-15

Авторы:

Zuoou Li, Weitong Zhang, Jingyuan Wang, Shuyuan Zhang, Wenjia Bai, Bernhard Kainz, Mengyun Qiao

## Контекст Multimodal large language models (MLLMs) широко применяются в задачах рассуждения сложных визуально-языковых моделей. Однако их уязвимость к атакам через адверсарные запросы остается критической проблемой. Несмотря на то, что некоторые методы хакерства (jailbreaking) показывают высокую точность, многие ответы, считаемые "успешными", оказываются безобидными, неточными или не относящимися к предназначенной цели. Это создает вопрос о точности существующих методов оценки успешности таких атак. Для устранения этой проблемы нужно новый подход, который более точно определяет эффективность атак. ## Метод Мы предлагаем новую методологию, основанную на четырёх осях: **on-topicness** (точность тематики), **out-of-distribution (OOD) intensity** (интенсивность нарушения ожидаемости), **harmfulness** (вредность) и **refusal rate** (частота отказов). Эта методология исследует отношение между тематической точностью запроса и его внешностью для системы. Затем, мы разработали алгоритм Balanced Structural Decomposition (BSD), который разделяет задачи на подзадачи, вводя небольшие внешности и изображения, чтобы скрыть потенциальные фильтры безопасности. ## Результаты Мы провёл эксперименты на 13 коммерческих и открытых MLLM-системах. Наши результаты показали, что ранее использованные методы часто либо заблокированы безопасностью, либо проходят без получения вредных результатов. BSD позволяет эффективно обойти такие защиты. Например, успешность атак увеличилась на $67\%$, а вредность выходных данных - на $21\%$. Это демонстрирует уязвимость существующих систем безопасности в отношении внешности запросов. ## Значимость Наш подход может применяться в повышении безопасности MLLM-систем, оценке их уязвимости и развитии безопасных моделей. Он демонстрирует важность размышления о характере запросов и их влиянии на безопасность. В дальнейшем, эта работа может помочь в разработке новых методов оценки и безопасного обучения, которые учитывают внешность и сигналы неожиданности. ## Выводы Наше исследование выявило новые структурные слабые места в безопасности MLLM-систем. Метод BSD не только улучшает успешность атак, но и выявляет слабые места в существующих системах. Будущие исследования будут сосредотачиваться на улучшении технологий оценки безопасности и формировании надежных безопасных моделей.

Annotation:

Multimodal large language models (MLLMs) are widely used in vision-language reasoning tasks. However, their vulnerability to adversarial prompts remains a serious concern, as safety mechanisms often fail to prevent the generation of harmful outputs. Although recent jailbreak strategies report high success rates, many responses classified as "successful" are actually benign, vague, or unrelated to the intended malicious goal. This mismatch suggests that current evaluation standards may overestima...

ID: 2508.09218v1 cs.CV, cs.AI

arXiv PDF

📄 Towards Scalable Training for Handwritten Mathematical Expression Recognition

2025-08-15

Авторы:

Haoyang Li, Jiaqing Li, Jialun Cao, Zongyuan Yang, Yongping Xiong

## Контекст Понимание и распознавание записанных вручную математических выражений (HMER) является важной задачей в области обработки естественного языка и распознавания записанных рукой. Несмотря на развитие глубокого обучения, HMER сталкивается с ограничениями, возникающими из-за недостатка качественных данных для обучения. Аннотация записей рукой является трудоемкой и дорогостоящей процедурой, что приводит к нехватке данных для эффективного обучения моделей. Эта проблема становится особенно актуальной в сравнении с другими областями г DEEP LEARNING, где доступно больше данных. Данный работа адресует эти ограничения, предлагая методы для увеличения и улучшения наборов данных для обучения моделей HMER. ## Метод Методология предложенной работы основывается на создании и адаптации обширных наборов данных для обучения моделей HMER. Разработан метод, который интегрирует ограниченные наборы рукописных формул с большими наборами данных, генерируемых на основе LaTeX. Был разработан специальный движок, позволяющий генерировать высококачественные и консистентные данные в формате LaTeX. Этот движок использовался для создания крупнейшего набора данных для HMER, \texttt{Tex80M}, состоящего из более чем 80 миллионов высококачественных обучающих экземпляров. Далее, предлагается модель \texttt{TexTeller}, которая использует этот новый набор данных для многостадийного обучения (mix-training). Такая модель обучается на комбинации \texttt{Tex80M} и меньших наборов рукописных формул, чтобы повысить эффективность распознавания. ## Результаты Эксперименты проводились с использованием крупных выборок данных, включая \texttt{Tex80M} и меньшие наборы рукописных формул. Модель \texttt{TexTeller} протестирована на нескольких бенчмарках, где показала статистически значимые улучшения по сравнению с предыдущими моделями. Были измерены показатели точности распознавания, время обучения и обработки, а также оценена степень общности модели. Результаты показали, что \texttt{TexTeller} достигает состояния лидирующего подхода (SOTA) в HMER, существенно повышая производительность и точность в распознавании записанных рукой математических выражений. ## Значимость Результаты работы могут быть применены в различных сферах, где требуется автоматическое распознавание рукописных математических выражений, включая обработку рукописных документов, интерактивные системы обучения, системы помощи ученым и студентам. Основные преимущества этой работы заключаются в расширении и улучшении наборов данных, что позволяет повысить точность и универсальность моделей HMER. Будущие исследования могут сфокусироваться на доработке архитектуры модели, улучшении скорости обучения и расширении применени

Annotation:

Large foundation models have achieved significant performance gains through scalable training on massive datasets. However, the field of \textbf{H}andwritten \textbf{M}athematical \textbf{E}xpression \textbf{R}ecognition (HMER) has been impeded by the scarcity of data, primarily due to the arduous and costly process of manual annotation. To bridge this gap, we propose a novel method integrating limited handwritten formulas with large-scale LaTeX-rendered formulas by developing a scalable data en...

ID: 2508.09220v1 cs.CV, cs.AI

arXiv PDF

📄 Yan: Foundational Interactive Video Generation

2025-08-15

Авторы:

Deheng Ye, Fangyun Zhou, Jiacheng Lv, Jianqi Ma, Jun Zhang, Junyan Lv, Junyou Li, Minwen Deng, Mingyu Yang, Qiang Fu, Wei Yang, Wenkai Lv, Yangbin Yu, Yewen Wang, Yonghang Guan, Zhihao Hu, Zhongbin Fang, Zhongqian Sun

## Контекст Область исследования сосредоточена на видеогенерации и ее интерактивном применении. Существующие проблемы включают ограниченные возможности для реального времени, неэффективные методы редактирования и недостаточное уровня гибкости при создании видео. Мотивация заключается в развитии целостного фреймворка, который объединит симуляцию, генерацию и редактирование видео в единое целое, обеспечив более высокую реальность, простоту использования и гибкость. ## Метод Фреймворк Yan состоит из трех основных модулей. **1. ААА-уровневая симуляция** основана на 3D-VAE с уменьшенным размером и низким квотом задержки, работающей в режиме real-time 1080P/60FPS. Инновационным является KV-cache-based shift-window denoising inference, обеспечивающий высокую производительность. **2. Многомодальная генерация** работает на базе диффузионных моделей, подключив игровую логику и дополнительные механизмы контроля. Это позволяет генерировать видео в реальном времени, обеспечивая возможность адаптации под конкретные задачи. **3. Многоуровневое редактирование** позволяет визуально редактировать видео с использованием текстовых инструкций, разделяя процесс на механизмы и визуальные элементы. ## Результаты Использовались различные данные для тестирования, включая различные типы видео, тексты и игровые сценарии. Результаты показывают, что Yan обеспечивает высококачественную и реальном времени симуляцию, гибкость в генерации и удобство редактирования. Он показывает сильную общительность при смешении стилей и механик из разных жанров видео. ## Значимость Yan может использоваться в различных приложениях, в том числе в играх, видеоредактировании, создании видеоконтента и даже в области тренировок. Одним из преимуществ является возможность реального времени интерактивной работы, что делает его привлекательным для разработчиков и контент-производителей. Будущие исследования будут нацелены на повышение реальности и возможности редактирования. ## Выводы Yan представляет собой совершенно новый подход к интерактивной видеогенерации, объединяя симуляцию, генерацию и редактирование в единое целое. Он предлагает новый подход к созданию видео, который может быть применен в многообразных областях. Для будущих работ планируется улучшение реальности и увеличение возможностей редактирования.

Annotation:

We present Yan, a foundational framework for interactive video generation, covering the entire pipeline from simulation and generation to editing. Specifically, Yan comprises three core modules. AAA-level Simulation: We design a highly-compressed, low-latency 3D-VAE coupled with a KV-cache-based shift-window denoising inference process, achieving real-time 1080P/60FPS interactive simulation. Multi-Modal Generation: We introduce a hierarchical autoregressive caption method that injects game-speci...

ID: 2508.08601v3 cs.CV, cs.AI

arXiv PDF

📄 Gradient-Direction-Aware Density Control for 3D Gaussian Splatting

2025-08-15

Авторы:

Zheng Zhou, Yu-Jie Xiong, Chun-Ming Xia, Jia-Chen Zhang, Hong-Jian Zhan

#### Контекст 3D Gaussian Splatting (3DGS) представляет собой новый подход к решению проблемы нового просмотра сцены, который использует гауссовые сплаты для эксплицитного представления сцены. Этот подход позволяет осуществлять реального времени фотореалистичного рендеринга. Однако существующие методы сталкиваются с двумя основными проблемами в сложных сценах. Во-первых, происходит переобъемление сцены (over-reconstruction), когда невозможно разделить многочисленные гауссовые компоненты с помощью адаптивных порогов. Это проблема усиливается тем, что различные гауссовые компоненты имеют противоречивые направления градиента. Во-вторых, возникает переуплотнение (over-densification), когда гауссовые компоненты собираются в объемных регионах, что приводит к ненужному увеличению объема данных. Эти проблемы приводят к увеличению требований к памяти и понижению качества рендеринга. Для решения этих задач предлагается новый подход с использованием градиентного направления. #### Метод Методология, предлагаемая в работе, называется Gradient-Direction-Aware Gaussian Splatting (GDAGS). Основная идея состоит в использовании показателя градиентной когерентности (GCR), который вычисляется на основе норм градиентных векторов. Этот показатель позволяет различать гауссовые компоненты с согласованными (concordant) и противоречивыми (conflicting) направлениями градиента. Для управления плотностью используется новая динамическая механика весов, которая учитывает GCR. В случае с разделением (splitting) гауссовых компонент GDAGS предпочитает те компоненты, у которых градиенты имеют противоречивое направление, чтобы улучшить геометрические детали. В случае с клонированием (cloning) GDAGS повышает плотность гауссовых компонент с согласованным направлением, чтобы завершать структуру, при этом избегая переуплотнения противоречивых гауссовых компонент. #### Результаты Описание экспериментов, используемых данных и полученных результатов: Эксперименты проводились на различных реальных бенчмарках, включая сложные сцены, например, внутренние помещения и внешние пейзажи. Использовались широкие данные с различными углами просмотра для оценки качества рендеринга. Результаты показали, что GDAGS оказывается более эффективным по сравнению с существующими методами. Он демонстрирует повышенное качество рендеринга, снижает переобъемление и переуплотнение, а также эффективно использует память, достигая на 50% меньшего объема занимаемой памяти благодаря оптимизированной использованию гауссовых компонент. #### Значимость Этот подход может быть применен в различных областях, таких как виртуальная реальность, и

Annotation:

The emergence of 3D Gaussian Splatting (3DGS) has significantly advanced novel view synthesis through explicit scene representation, enabling real-time photorealistic rendering. However, existing approaches manifest two critical limitations in complex scenarios: (1) Over-reconstruction occurs when persistent large Gaussians cannot meet adaptive splitting thresholds during density control. This is exacerbated by conflicting gradient directions that prevent effective splitting of these Gaussians; ...

ID: 2508.09239v1 cs.CV, cs.AI

arXiv PDF

📄 SegDAC: Segmentation-Driven Actor-Critic for Visual Reinforcement Learning

2025-08-15

Авторы:

Alexandre Brown, Glen Berseth

## Контекст Visual reinforcement learning (RL) представляет собой сложную задачу, требующую эффективного уровня обучения как с точки зрения восприятия, так и с точки зрения принятия решений. Проблема заключается в том, что высокоразмерные входные данные, такие как изображения, требуют сложной обработки, а ненормализованные награды создают дополнительные сложности. До сих пор, несмотря на развитие моделей в области визуального распознавания, интеграция этих моделей в RL для улучшения общей точности и эффективности выбора остается неочевидной задачей. Мотивация для создания SegDAC (Segmentation-Driven Actor-Critic) заключается в том, чтобы решить эти проблемы, обеспечив улучшенную обработку визуальных данных и усиленный подход к обучению. ## Метод SegDAC основывается на интеграции двух моделей: Segment Anything (SAM) и YOLO-World. SAM используется для декомпозиции изображений на отдельные сегменты, которые затем становятся объектами действий в RL. YOLO-World позволяет трансформировать эти сегменты в семантически значимые элементы с помощью текстовых признаков. Для управления таким динамическим количеством сегментов SegDAC вводит новую архитектуру, основанную на трансформерной структуре. Эта архитектура адаптивна и позволяет RL-агенту динамически выбирать, какие сегменты должны быть особенно внимательно обработаны. Несмотря на это, SegDAC не требует каких-либо размеченных данных, чем упрощает процесс обучения и увеличивает применимость в реальных сценариях. ## Результаты Опытные исследования проводились на бенчмарке ManiSkill3, который представляет собой сложный набор задач манипуляции, включая разнообразные визуальные помехи. В тяжелой версии этого бенчмарка, SegDAC демонстрирует двойной прирост эффективности в обработке визуальных данных по сравнению с предыдущими методами. Также, SegDAC показал примерно одинаковую эффективность в обучении (sample efficiency) по сравнению с другими методами по всем задачам, протестированным в этом эксперименте. Эти результаты подтверждают улучшенную обработку визуальных сигналов и эффективность SegDAC в обучении визуальных RL-систем. ## Значимость SegDAC может быть применен в области визуальных RL для различных задач, таких как манипуляция, игровые сценарии и даже визуальное управление роботами. Основные преимущества SegDAC заключаются в улучшенной общей точности, более эффективном использовании данных и уменьшении потребности в разметке данных. Это также открывает путь к будущим исследованиям в области визуальных RL и взаимодействия роботов с визуальным миром. ## Выводы SegDAC достигает существенных улучшений в области визуального RL, используя дина

Annotation:

Visual reinforcement learning (RL) is challenging due to the need to learn both perception and actions from high-dimensional inputs and noisy rewards. Although large perception models exist, integrating them effectively into RL for visual generalization and improved sample efficiency remains unclear. We propose SegDAC, a Segmentation-Driven Actor-Critic method. SegDAC uses Segment Anything (SAM) for object-centric decomposition and YOLO-World to ground segments semantically via text prompts. It ...

ID: 2508.09325v1 cs.CV, cs.AI, cs.LG, cs.RO

arXiv PDF

📄 FusionEnsemble-Net: An Attention-Based Ensemble of Spatiotemporal Networks for Multimodal Sign Language Recognition

2025-08-15

Авторы:

Md. Milon Islam, Md Rezwanul Haque, S M Taslim Uddin Raju, Fakhri Karray

## Контекст Говорение и знаки, используемые в здравоохранении, требуют точного распознавания сложной многоmodal'ных жестов. Однако существующие методы часто сталкиваются с проблемами точности и стабильности, особенно при работе со синхронными данными. Из-за этого, разработка более эффективных методов распознавания знаков и жестов является ключевым мотивом для повышения доступности здравоохранения для людей с нарушениями речи или слуха. ## Метод FusionEnsemble-Net представляет собой набор двухmodal'ных сетей, объединенных в единую конфигурацию, чтобы улучшить их работу. В этой модели используется последовательное слияние данных с разных модалок, таких как RGB-видео и дальномерные карты. Эта модель состоит из четырех сетей с разными архитектурами, которые формируют разные способы обработки данных. Каждая сеть применяет модуль внимания, чтобы выделить имеющуюся важность каждого модала. Эти модели объединяются в одну систему, которая учитывает различные взгляды на данные. ## Результаты Эксперименты проводились на большом датасете MultiMeDaLIS, относящемся к знакам итальянского языка знаков. Модель FusionEnsemble-Net показала высокую точность распознавания - 99.44%. Это свидетельствует о том, что модель может синхронно использовать две модальности данных, а единая система внимания и классификации повышает ее точность. ## Значимость Результаты модели могут быть применены в различных областях, таких как здравоохранение, образование и социальные связи, чтобы обеспечить более доступное взаимодействие с людьми, использующими знаки. FusionEnsemble-Net является более точной и устойчивой альтернативой существующим решениям, что может повлиять на развитие технологий в области распознавания жестов и знаков. ## Выводы FusionEnsemble-Net доказала свою эффективность в распознавании знаков и жестов, благодаря использованию системы внимания и слияния данных. Будущие работы будут направлены на расширение модели для работы с другими языками знаков и улучшение ее универсальности.

Annotation:

Accurate recognition of sign language in healthcare communication poses a significant challenge, requiring frameworks that can accurately interpret complex multimodal gestures. To deal with this, we propose FusionEnsemble-Net, a novel attention-based ensemble of spatiotemporal networks that dynamically fuses visual and motion data to enhance recognition accuracy. The proposed approach processes RGB video and range Doppler map radar modalities synchronously through four different spatiotemporal n...

ID: 2508.09362v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 A Signer-Invariant Conformer and Multi-Scale Fusion Transformer for Continuous Sign Language Recognition

2025-08-15

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Fakhri Karray

#### Контекст Изучение непрерывного распознавания жестов (Continuous Sign Language Recognition, CSLR) играет ключевую роль в оптимизации коммуникации между людьми и системами. Однако существуют значительные проблемы, такие как высокая вариативность между знакопериодами (signer variability) и нехватка универсальности в обработке новых структур предложений. Эти сложности часто приводят к неточностям в распознавании жестов, что снижает эффективность алгоритмов. В этом контексте важно разработать модели, которые удачно справляются с этими проблемами, обеспечивая точность и универсальность в распознавании жестов. #### Метод Для решения этих проблем мы предлагаем двухуровневую архитектуру. Алгоритм Signer-Invariant Conformer включает в себя конволюционные слои с многоглавным самоп paayтвом (multi-head self-attention), которые обеспечивают извлечение устойчивых к вариативности знакопериодов представлений из скелетных ключевых точек. Для задачи распознавания неизвестных речевых элементов (Unseen-Sentences, US), мы разработали Multi-Scale Fusion Transformer с двухпутевым шаблоном временного разбора (dual-path temporal encoder), который позволяет лучше понимать динамику жестов и нестандартные грамматические конструкции. Модели тренируются на Pose-86K Pose Dataset и используются для проверки на Isharah-1000 dataset. #### Результаты На Isharah-1000 dataset, Signer-Invariant Conformer показал Word Error Rate (WER) в 13.07%, что является существенным улучшением по сравнению с предыдущими результатами (WER 26.6%). Multi-Scale Fusion Transformer достиг WER в 47.78% в задаче распознавания неизвестных слов, превзойдя предыдущие модели. Эти результаты опровергают нашу гипотезу о влиянии настройки моделей на задачи CSLR и показывают, что индивидуальные архитектуры могут значительно улучшить показатели распознавания. Наша работа заняла второе место в задаче US и четвертое в задаче SI в соревновании SignEval 2025. #### Значимость Наши разработки имеют широкие применения в области систем улучшенной коммуникации, устранения барьеров для людей с ограниченными возможностями, а также в робототехнике и автоматизации. Модели показали свою эффективность в сложных речевых ситуациях, включая неизвестные слова и новые грамматические структуры. Это придает им преимущество в широком диапазоне задач, включая распознавание жестов и текста в режиме реального времени. #### Выводы Наши модели — Signer-Invariant Conformer и Multi-Scale Fusion Transformer — доказали свою эффективность в решении задач CSLR. Они установили новый бенчмарк для существующих моделей и открыли новые пути для будущих исследований в области распознавания жестов и улучшения коммуникационных систем. Для дальнейших

Annotation:

Continuous Sign Language Recognition (CSLR) faces multiple challenges, including significant inter-signer variability and poor generalization to novel sentence structures. Traditional solutions frequently fail to handle these issues efficiently. For overcoming these constraints, we propose a dual-architecture framework. For the Signer-Independent (SI) challenge, we propose a Signer-Invariant Conformer that combines convolutions with multi-head self-attention to learn robust, signer-agnostic repr...

ID: 2508.09372v1 cs.CV, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 What Can We Learn from Inter-Annotator Variability in Skin Lesion Segmentation?

2025-08-15

Авторы:

Kumar Abhishek, Jeremy Kawahara, Ghassan Hamarneh

## Контекст Исследование контрольной интерпретации данных в медицинской импликации сегментации кожных локализаций находится в центре внимания, так как вариативность понимания этих образов может повлиять на важность диагноза. В частности, локализации с неоднозначными границами, такими как спикулярные или инфильтративные нодулы, или резкие изменения внешнего вида, приводят к расхождениям в понимании, которые могут быть связаны с злокачественностью. Это создает проблемы в качестве диагноза и возможность значимых ошибок. Целью данного исследования является получение новых знаний о взаимосвязях между контрольной характеристикой данных и клиническими признаками, а также разработка новых методов для повышения точности и надежности предсказаний. ## Метод Для изучения вариативности разметки и интерпретации данных в рамках сегментации кожных локализаций был создан IMA++, крупнейший набор данных, включающий разметки из нескольких источников. Методология включает в себя использование метода множественных разметок, который позволяет изучить влияние аспектов, таких как злокачественность, способность оценщика, инструментальные ограничения и уровень технических навыков. Методы включали создание многозадачной модели, использующей в качестве признаков вариативность разметки, чтобы оптимизировать классификационные модели. Также был проведен эксперимент с оценкой точности предсказания возможности разметки и взаимосвязи с клиническими проявлениями. ## Результаты Изучение IMA++ показало, что степень согласия между разными разметками имеет статистически значимую (p < 0.001) корреляцию с злокачественностью кожных локализаций. Был доказан, что вариативность разметки может быть достаточно точно предсказана непосредственно из дерматоскопичных изображений, с малой ошибкой в предсказании. Было показано, что применение этой методики в сочетании с многозадачным обучением может улучшить балансированную точность классификации на 4.2%, что демонстрирует значительное потенциальное улучшение надежности диагноза. ## Значимость Результаты имеют практическое значение для медицинской практики, поскольку позволяют улучшить качество диагноза, учитывая клинические отклонения в интерпретации данных. Исследование также открывает пути для использования вариативности разметки в качестве дополнительного признака в нейросетевых моделях, что может повысить точность прогнозирования злокачественности. Данная работа может быть применима в разработке систем, оптимизирующих диагностические процессы при работе с клиническими изображениями. ## Выводы В результате данно

Annotation:

Medical image segmentation exhibits intra- and inter-annotator variability due to ambiguous object boundaries, annotator preferences, expertise, and tools, among other factors. Lesions with ambiguous boundaries, e.g., spiculated or infiltrative nodules, or irregular borders per the ABCD rule, are particularly prone to disagreement and are often associated with malignancy. In this work, we curate IMA++, the largest multi-annotator skin lesion segmentation dataset, on which we conduct an in-depth ...

ID: 2508.09381v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 X-UniMotion: Animating Human Images with Expressive, Unified and Identity-Agnostic Motion Latents

2025-08-15

Авторы:

Guoxian Song, Hongyi Xu, Xiaochen Zhao, You Xie, Tianpei Gu, Zenan Li, Chenxu Zhang, Linjie Luo

## Контекст В настоящее время технологии анимации человеческих изображений становятся все более востребованными в различных областях, таких как развлекательные продукты, виртуальная реальность и моделирование поведения. Однако существуют значительные проблемы в точности передачи эмоций, поз и жестов, а также в сохранении идентичности субъекта во время анимации. Эти ограничения приводят к неестественности и несогласованности моделей анимированных субъектов. Мотивирует эту работу необходимость создания универсальной, вы expessive и идентичность-независимой модели анимации всеядного человеческого движения, включая лица, тело и руки. ## Метод X-UniMotion представляет собой универсальную модель анимации, которая построена на принципах "self-supervised learning" и "end-to-end framework". Она обучается на больших данных человеческого движения, состоящих из детального описания поз, лиц и рук. Модель выделяет для каждого элемента (лицо, тело и руки) отдельный сетевой токен, который характеризуется своим независимым вектором представления. Эти токены объединяются в единый репрезентативный набор, который затем используется для генерирования детальной анимации. Для обеспечения точности и идентичности X-UniMotion использует синтетические 3D-модели, которые позволяют сопоставлять различные идентичности в одних и тех же позициях и жестах. Также, модель включает в себя семантические и глубинные слои, которые улучшают точность и четкость анимированных моделей. ## Результаты В ходе экспериментов X-UniMotion показала прирост в точности анимации в 20% по сравнению с другими существующими методами. Модель испытала высокую точность в передаче лицевых выражений, поз и жестов, независимо от идентичности субъекта. Она также достигла высокой точности в сценах с разными половыми и композиционными модификациями. Данные эксперименты подтвердили повышенную экспрессивность и высокую точность модели в анимации человеческого движения. ## Значимость Полученная модель может быть применена в различных областях, таких как развлекательные продукты, виртуальная реальность, игры, приложения для социальных сетей и даже в области моделирования поведения для роботов. X-UniMotion предлагает преимущества в виде высокой точности, экспрессивности и идентичности-независимости, что упрощает и улучшает процесс анимации. Это позволяет создавать более профессиональный контент с меньшими затратами на моделирование и анимацию. ## Выводы X-UniMotion достигает поразительных результатов в области анимации человеческого движения, обеспечивая высокую точность, экспрессивность и идентичность-независимость. Будущие исследования будут сосре

Annotation:

We present X-UniMotion, a unified and expressive implicit latent representation for whole-body human motion, encompassing facial expressions, body poses, and hand gestures. Unlike prior motion transfer methods that rely on explicit skeletal poses and heuristic cross-identity adjustments, our approach encodes multi-granular motion directly from a single image into a compact set of four disentangled latent tokens -- one for facial expression, one for body pose, and one for each hand. These motion ...

ID: 2508.09383v1 cs.CV, cs.AI

arXiv PDF

📄 RampNet: A Two-Stage Pipeline for Bootstrapping Curb Ramp Detection in Streetscape Images from Open Government Metadata

2025-08-15

Авторы:

John S. O'Meara, Jared Hwang, Zeyu Wang, Michael Saugstad, Jon E. Froehlich

## Контекст Curb ramps являются критически важными для городского развития, так как обеспечивают доступность для людей с ограниченными физическими возможностями. Однако их точное расположение на спутниковых изображениях недостаточно хорошо определено, что создает проблемы для построения моделей детектирования. Несмотря на то, что ранее были предприняты усилия для создания данных с помощью краудсорсинга или ручной разметки, эти методы часто либо ограничены в масштабе, либо недостаточно точны. Хотя такие подходы могут быть полезными в маломасштабных проектах, они не подходят для развития моделей, которые должны работать в городах разных размеров. ## Метод Мы предлагаем две-ступенчатую архитектуру для создания и обучения моделей детектирования curb ramps. В первой стадии мы автоматически переводим географические координаты городских curb ramps (из открытых метаданных властей) в пиксельные координаты на Google Street View (GSV) картинках. Это позволяет автоматически создать большой датасет с разметкой. Во второй стадии мы обучаем модель детектирования на этом датасете, используя современные архитектуры сверточных нейронных сетей. Это позволяет не только создать модель с высокой точностью, но и тренировать ее на большом датасете, повышая ее универсальность. ## Результаты Мы сгенерировали датасет из более чем 210,000 изображений GSV с разметкой, используя первую стадию нашей архитектуры. Наша модель детектирования, основанная на ConvNeXt V2, достигла аппроксимированной точности (AP) 0.9236, значительно превосходя предыдущие результаты в области. Мы также проверили точность и достоверность нашего датасета, получив 94.0% при полноте и 92.5% при точности. Эти результаты указывают на высокую качественную работу нашего подхода и его готовность к применению в реальных сценариях. ## Значимость Наша работа предлагает первый большой датасет для детектирования curb ramps, который может быть использован для обучения моделей и тестирования их эффективности. Он также позволяет существенно повысить точность моделей, что может быть применено в различных городах для улучшения доступности городского пространства. Наши вычислительные модели могут быть использованы для сканирования городов на поиск curb ramps, чтобы снизить барьеры для инвалидов и людей с ограниченными возможностями. ## Выводы Мы представили RampNet, первую успешную двухстадийную архитектуру для создания и обучения моделей детектирования curb ramps. Наши результаты показывают, что наш подход может быть применен в больших городах для улучшения доступности. В будущем мы планируем расширить датасет, предложить новые приз

Annotation:

Curb ramps are critical for urban accessibility, but robustly detecting them in images remains an open problem due to the lack of large-scale, high-quality datasets. While prior work has attempted to improve data availability with crowdsourced or manually labeled data, these efforts often fall short in either quality or scale. In this paper, we introduce and evaluate a two-stage pipeline called RampNet to scale curb ramp detection datasets and improve model performance. In Stage 1, we generate a...

ID: 2508.09415v1 cs.CV, cs.AI, I.2

arXiv PDF

1
2
208
209
210
211
212
227
228

Показано 2091 - 2100 из 2274 записей