📚 Саммари научных статей из arXiv

Найдено 12073 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 Spatial Traces: Enhancing VLA Models with Spatial-Temporal Understanding

2025-08-14

Авторы:

Maxim A. Patratskiy, Alexey K. Kovalev, Aleksandr I. Panov

## Контекст В последнее десятилетие, визуально-языковые модели стали одним из основных направлений в искусственном интеллекте. Они позволяют агентам визуально-языковых моделей (VLA) воспринимать визуальные сигналы и текстовые команды для точного прогнозирования динамики действий в реальных и виртуальных средах. Однако существуют некоторые проблемы, связанные с недостаточным пониманием спatial и temporal аспектов. Несмотря на то, что ранее разработанные подходы привносили улучшения, они по-прежнему сталкиваются с ограничениями в данных и сложностью внедрения этих подходов для решения реальных задач. Этот факт мотивирует разработку более эффективных методов, которые могут объединить spatial и temporal с той же степенью эффективности. ## Метод Метод Spatial Traces состоит в том, чтобы проецировать ключевые точки, отслеживаемые на входных визуальных кадрах, на depth maps (глубинные карты). Это происходит с помощью технологии visual prompting, которая интегрирует spatial и temporal слои в одном процессе. Модель получает входные данные в виде глубинных карт и текстовых признаков, а затем выполняет последовательное обучение, чтобы обеспечить одновременное понимание пространственных и временных зависимостей. Была разработана архитектура, включающая convolutional layers для обработки depth maps и transformer-based encoder для обработки текстовых данных. Эта методика позволяет улучшить прогнозирование действий в пространстве и времени, объединяя их в единую модель. ## Результаты Эксперименты проводились на SimplerEnv, где использовались данные, содержащие визуальные сигналы и текстовые команды. Модель Spatial Traces показала значительное улучшение в процессе решения задач в сравнении с двумя конкурирующими моделями: SpatialVLA и TraceVLA. Для Spatial Traces, mean success rate увеличился на 4% в сравнении с SpatialVLA и на 19% в сравнении с TraceVLA. Кроме того, Spatial Traces показала высокую точность при минимальном количестве данных для обучения, что делает её привлекательной для реальных сценариев, где сбор данных может быть ограниченным. ## Значимость Этот подход может быть применен в различных областях, таких как robotics, augmented reality, и computer vision. Он позволяет улучшить точность прогнозирования динамики в средах, где spatial и temporal данные имеют важное значение. Благодаря тому, что модель показала высокую эффективность с минимальным объемом данных, она может стать ключевым инструментом для решения задач в реальном мире, где сбор данных может быть сложным. ## Выводы В ходе работы был разработан метод, который улучшает точность прогнозирования действий в пространстве и времени, объединяя spatial и temporal слои в единой модели. Этот подход продемонстрировал существенное улучшение производительности в сравнении с подходами, которые работают с spatial и temporal данными отдельно

Annotation:

Vision-Language-Action models have demonstrated remarkable capabilities in predicting agent movements within virtual environments and real-world scenarios based on visual observations and textual instructions. Although recent research has focused on enhancing spatial and temporal understanding independently, this paper presents a novel approach that integrates both aspects through visual prompting. We introduce a method that projects visual traces of key points from observations onto depth maps,...

ID: 2508.09032v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 OpenCUA: Open Foundations for Computer-Use Agents

2025-08-14

Авторы:

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Yiheng Xu, Chen Henry Wu, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Peihang Li, Fangyu Lei, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Jiarui Hu, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Danyang Zhang, Dikang Du, Hao Hu, Huarong Chen, Zaida Zhou, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong, Flood Sung, Y. Charles, Zhilin Yang, Tao Yu

#### Контекст В настоящее время видение-языковые модели (Vision-Language Models, VLMs) продемонстрировали выдающиеся возможности в качестве компьютер-участников агентов (Computer-Use Agents, CUAs), способных автоматизировать широкий спектл работ на компьютере. Однако как только эти агенты начали осуществлять коммерческую деятельность, их разработчики часто ограничивались закрытой информацией, что мешало исследователям изучить их функциональные возможности, ограничения и риски. Несмотря на то, что компьютер-участники будут все больше осуществлять цифровые взаимодействия и принимать важные решения в ответственных областях, отсутствие открытых решений становится критичным. Чтобы обойти эту проблему, мы предлагаем OpenCUA, открытый фреймворк для компьютер-участников, который способен масштабировать данные и модели в этой области. Он включает: (1) инфраструктуру для аннотации, которая захватывает человеческие демонстрации использования компьютера; (2) AgentNet, первый большой датасет для компьютер-участников, охватывающий 3 операционных системы и 200+ приложений и веб-сайтов; и (3) процесс, который превращает демонстрации в пары состояние-действие с логикой рефлексивного обдумывания длинного цепного мышления, что позволяет быть эффективным при масштабировании данных. Модели OpenCUA показали выдающиеся результаты в сравнении с другими CUA-системами. #### Метод Мы разработали OpenCUA как базовую платформу для работы с компьютер-участниками, которая может масштабироваться для работы с различными типами данных и моделей. Основные компоненты фреймворка: - **Annotation Infrastructure**: Используемая инструментарий для захвата человеческих демонстраций использования компьютера. Она позволяет пользователям легко создавать метки на видеозаписях и снимках экрана, чтобы отражать поведения компьютер-участника. - **AgentNet**: Большой датасет, охватывающий интерфейсы 3 операционных систем (Windows, macOS, Linux) и 200+ приложений и веб-сайтов. Он демонстрирует различные компьютер-участники, включая кликовые, нажатие клавиш, мышь, формы, интерактивные элементы и другие. - **Scalable Pipeline**: Метод преобразования демонстраций в пары состояние-действие. Он включает в себя цепное мышление, которое позволяет модели воспроизводить действия в длинных последовательностях и улучшать удобочитаемость. #### Результаты Мы проводили ряд экспериментов, чтобы проверить эффективность OpenCUA. Мы использовали данные AgentNet для обучения и проверки моделей. Модель OpenCUA-32B достигла следующих результатов: - **OSWorld-Verified Benchmark**: OpenCUA-32B показала среднюю успешность

Annotation:

Vision-language models have demonstrated impressive capabilities as computer-use agents (CUAs) capable of automating diverse computer tasks. As their commercial potential grows, critical details of the most capable CUA systems remain closed. As these agents will increasingly mediate digital interactions and execute consequential decisions on our behalf, the research community needs access to open CUA frameworks to study their capabilities, limitations, and risks. To bridge this gap, we propose O...

ID: 2508.09123v1 cs.AI, cs.CV

arXiv PDF

📄 Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer

2025-08-14

Авторы:

Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel M. Ni, Lei Zhang, Heung-Yeung Shum

#### Контекст Текст-управляемое редактирование цвета изображений и видео является ключевым, но еще не решенным проблемой в области компьютерного зрения. Оно предполагает тонкую манипуляцию цветных атрибутов, таких как призма, цвет источника света и освещение, при этом сохраняя физическую консистенцию в геометрии, материальных свойствах и взаимодействиях света с материалом. Существующие методы, особенно те, которые не требуют обучения, оказываются применимы в широком круге задач, однако часто страдают от недостаточной точности управления цветом и внешних несоответствиям в редактируемых и не редактируемых областях. Целью нашей работы является развитие метода, который обеспечивает точность и консистентность в цветовом редактировании без необходимости тренировочных данных, расширяя при этом возможности методов MM-DiT. #### Метод Мы предлагаем **ColorCtrl**, метод, основанный на трансформерах MM-DiT, который использует их возможности в области внимательного анализа. Наш подход разделяет цвет и структуру изображения с помощью настраиваемых attention maps и value tokens. Это позволяет точно контролировать цвета только в указанных областях, не влияя на остальные части изображения. Эта дискретность достигается за счет особых манипуляций с attention maps, которые делают редактирование точным и управляемым. Благодаря этим усовершенствованиям, ColorCtrl позволяет решать задачи, где требуется как тонкое управление цветом, так и гарантия консистентности в различных редактируемых областях. #### Результаты Мы провели эксперименты на двух стандартных датасетах, SD3 и FLUX.1-dev, чтобы оценить качество редактирования и консистентность. Наши результаты показывают, что ColorCtrl превосходит существующие методы без обучения в плане качества редактирования и консистентности. Мы также сравнили наш метод с коммерческими моделями, такими как FLUX.1 Kontext Max и GPT-4o Image Generation, и показали значительные преимущества в цветовой консистентности и точности. Также мы проверили нашу модель на видеомодели CogVideoX и получили наилучшие результаты в области временной консистентности и стабильности редактирования. Эти результаты подтверждают широкую применимость и высокую производительность ColorCtrl в различных сценариях. #### Значимость Метод ColorCtrl может быть применен в различных областях, таких как визуальные эффекты, редактирование видео, маркетинг и дизайн. Он обеспечивает новый уровень точности и консистентности в цветовом редактировании, что делает его выгодным для профессионального использования. Важное преимущество ColorCtrl заключается в его тренировочно-свободной природе, что упрощает его применение и

Annotation:

Text-guided color editing in images and videos is a fundamental yet unsolved problem, requiring fine-grained manipulation of color attributes, including albedo, light source color, and ambient lighting, while preserving physical consistency in geometry, material properties, and light-matter interactions. Existing training-free methods offer broad applicability across editing tasks but struggle with precise color control and often introduce visual inconsistency in both edited and non-edited regio...

ID: 2508.09131v2 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

2025-08-13

Авторы:

Lixuan He, Jie Feng, Yong Li

## Контекст В последние годы Large Language Models (LLMs) стали неотъемлемой частью различных интеллектуальных задач, таких как математическое моделирование, визуальное рассуждение и взаимодействие с визуальными средами. Однако достижение высокого уровня производительности в этих областях часто требует сложной подготовки моделей, включающей в себя и супервизированную оптимизацию (SFT), и реинфорсмент (RL). Несмотря на выгоды от удовлетворения параллельных потребностей моделей, существуют затруднения в достижении гармоничного баланса, что приводит к таким проблемам, как катастрофическое забывание, неоптимальный баланс между имитацией и экспериментом, а также сложности в выборе правильной стратегии для конкретных задач. Эти трудности приводят к увеличению времени обучения и снижению стабильности результатов. В этой работе мы применяем теоретическое осмысление гибкого имплицитного механизма регулирования взаимодействия SFT и RL для лучшего достижения баланса. ## Метод Мы предлагаем новую модель **Adaptive Meta Fine-Tuning (AMFT)**, которая представляет собой уникальную методологию для улучшения баланса между SFT и RL. Центральная идея заключается в том, чтобы трактовать SFT и RL не как независимые технологии, а как взаимосвязанные регуляторы, зависящие от задачи. AMFT вводит **мета-градиентный адаптивный контроллер**, который анализирует и динамически создает веса для SFT и RL, максимизируя не только производительность, но и стабильность. Особенностью метода является ввод **политии энтропии** для повышения стабильности тренировочного процесса, что позволяет модели автоматически выбирать наиболее подходящую стратегию в зависимости от специфических входных данных. Данная архитектура гарантирует оптимальный режим тренировки и сохраняет достаточную гибкость для решения OOD-задач. ## Результаты Мы проводим эксперименты на трех основных типах задач: математическом рассуждении, визуальном рассуждении (в том числе General Points) и взаимодействии с визуальными средами (V-IRL). В результате, AMFT демонстрирует значительные улучшения по сравнению с другими существующими методами. Мы исследуем эффективность мета-контроллера и производительность модели в многостадийных ситуациях. Эксперименты показывают, что AMFT не только повышает общую производительность, но и демонстрирует более стабильные результаты в нестандартных ситуациях. Анализ динамики обучения подтверждает, что мета-контроллер не только улучшает скорость обучения, но и помогает модели избегать потерь связанных с катастрофическим забыванием. ## Значимость AMFT демонстрирует потенциал для использования в широком

Annotation:

Large Language Models (LLMs) are typically fine-tuned for reasoning tasks through a two-stage pipeline of Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL), a process fraught with catastrophic forgetting and suboptimal trade-offs between imitation and exploration. Recent single-stage methods attempt to unify SFT and RL using heuristics, but lack a principled mechanism for dynamically balancing the two paradigms. In this paper, we reframe this challenge through the theoretical ...

ID: 2508.06944v2 cs.LG, cs.AI, cs.CL, cs.CV

arXiv PDF

📄 SLRTP2025 Sign Language Production Challenge: Methodology, Results, and Future Work

2025-08-13

Авторы:

Harry Walsh, Ed Fish, Ozge Mercanoglu Sincan, Mohamed Ilyes Lakhal, Richard Bowden, Neil Fox, Bencie Woll, Kepeng Wu, Zecheng Li, Weichao Zhao, Haodong Wang, Wengang Zhou, Houqiang Li, Shengeng Tang, Jiayi He, Xu Wang, Ruobei Zhang, Yaxiong Wang, Lechao Cheng, Meryem Tasyurek, Tugce Kiziltepe, Hacer Yalim Keles

## Контекст Задача генерирования жестов знаковых языков (Sign Language Production, SLP) заключается в конвертации речи в видео с жестовыми выражениями. Несмотря на недавние прогрессы, особенно с внедрением глубокого обучения, существуют проблемы, такие как несогласованные методы оценки и отсутствие стандартных метрик для SLP. Это существенно сковывает возможности сравнения различных подходов и сводит к минимуму возможность прогресса в этой области. Мы предлагаем первую Sign Language Production Challenge, проведенную в рамках третьей SLRTP Workshop на CVPR 2025. Главная цель этого соревнования — оценить архитектуры, конвертирующие речевые запросы в последовательности скелетных поз, известные как Text-to-Pose (T2P) перевод, с использованием различных метрик. Мы используем RWTH-PHOENIX-Weather-2014T, базу данных для знакового языка Немецкой Дезартерспроагс (DGS) с тематикой погодных прогнозов. Дополнительно, мы создали пользовательский тестовый набор из похожих данных дискурса. Это соревнование привлекло 33 участников, которые представили 231 моделей. Лидирующая команда достигла BLEU-1 значения 31.40 и DTW-MJE 0.0574, используя рамку на основе восстановления и предварительно обученную модель языка. В рамках этого соревнования мы выпустили стандартизированную систему оценки, включающую высококачественные скелетные ключевые точки, позволяющие создать надежный бенчмарк для дальнейших исследований в этой области. ## Метод Разработанная методология состояла из двух основных компонентов: универсальной системы оценки и соревновательного фреймворка. Для оценки входных запросов в виде речи и выходных данных в виде скелетных поз, мы предлагаем стандартизированную сеть, основанную на выделении скелетных ключевых точек. Эта система обеспечивает согласованность и последовательность в сравнении различных моделей. Главный соревновательный фреймворк включал в себя три основных задачи: оценка визуализации жестов, временной динамики и точности трансляции. Мы применяли RWTH-PHOENIX-Weather-2014T в качестве данных тренировки и тестовых наборов, а также создали пользовательский тестовый набор для повышения уровня сложности и реалистичности. Участники были поощрены для разработки моделей, ориентированных на жесты, естественность и точность в генерации знакового языка. ## Результаты За счет участия 33 команд, было представлено 231 моделей, прошедших этапы стандартизированной оценки. Лидирующая команда показала BLEU-1 оценку 31.40 и DTW-MJE 0.0574, используя сочетание ретриев-базисной модели и предварительно обученной модели языка. Б

Annotation:

Sign Language Production (SLP) is the task of generating sign language video from spoken language inputs. The field has seen a range of innovations over the last few years, with the introduction of deep learning-based approaches providing significant improvements in the realism and naturalness of generated outputs. However, the lack of standardized evaluation metrics for SLP approaches hampers meaningful comparisons across different systems. To address this, we introduce the first Sign Language ...

ID: 2508.06951v1 cs.CV, eess.IV, eess.SP

arXiv PDF

📄 Beyond Frequency: Seeing Subtle Cues Through the Lens of Spatial Decomposition for Fine-Grained Visual Classification

2025-08-13

Авторы:

Qin Xu, Lili Zhu, Xiaoxia Cheng, Bo Jiang

## Контекст Область fine-grained visual classification (FGVC) сосредоточена на распознавании тонких, классо-специфичных черт, которые отличают одни объекты от других внутри одной категории. Эта задача требует активного мининга деталей, которые часто заключены в нетривиальных, но важных областях изображения. Несмотря на прогрессы, существующие подходы часто сталкиваются с ограничениями в динамичности и гибкости. Например, методы, основанные на преобразованиех частоты, хотя и мощны, ограничены фиксированными базисами, которые не могут адаптироваться к изображениям в зависимости от их уникальных особенностей. Эта статья описывает новый подход, SCOPE, который адресует эти ограничения, предлагая гибкую архитектуру для эффективного представления информации в пространственной области. ## Метод SCOPE, или Subtle-Cue Oriented Perception Engine, является прорывом в области FGVC, предлагая адаптивные механизмы для улучшения представительности низкоуровневых деталей и высокоуровневых семантических структур. Основоположная идея заключается в двух модулях: **Subtle Detail Extractor (SDE)** и **Salient Semantic Refiner (SSR)**. SDE ориентирован на динамическое повышение чувствительности к небольшим деталям, таким как ребра и текстуры, в начальных слоях. SSR, в свою очередь, объединяет этот подход с высокоуровневыми семантическими структурами, чтобы улучшить целостность и контекст. Модули SDE и SSR работают в рекуррентном режиме, позволяя последовательному улучшению представления. Этот подход мотивирован тем, что FGVC чувствителен к деталям, которые могут быть пропущены фиксированными базисами. ## Результаты Эксперименты проводились на четырех ключевых бенчмарках FGVC: CUB-200-2011, Stanford Cars, FGVC-Aircraft и iNaturalist. Использовались различные метрики, включая top-1 accuracy. Результаты показали, что SCOPE превосходит существующие методы, достигая новых рекордов по точности распознавания. Кроме того, анализируя вклад каждого модуля, было показано, что SDE и SSR совместно способствуют улучшению, а степень детализации и семантики в каждом модуле варьируется в зависимости от сложности изображения. ## Значимость Предлагаемый подход расширяет мощность FGVC, предлагая гибкость в обработке сложных изображений. Он применим в таких областях, как автоматический распознаватель, анализ изображений в робототехнике и медицине. Развитие динамических модулей SCOPE открывает путь для более точного распознавания в будущих исследованиях, особенно в сферах, где тонкие черты играют ключевую роль. ## Выводы В целом, SCOPE достигает новых результатов в FGVC, становясь мощным инструментом для распозна

Annotation:

The crux of resolving fine-grained visual classification (FGVC) lies in capturing discriminative and class-specific cues that correspond to subtle visual characteristics. Recently, frequency decomposition/transform based approaches have attracted considerable interests since its appearing discriminative cue mining ability. However, the frequency-domain methods are based on fixed basis functions, lacking adaptability to image content and unable to dynamically adjust feature extraction according t...

ID: 2508.06959v1 cs.CV, cs.AI

arXiv PDF

📄 Adversarial Video Promotion Against Text-to-Video Retrieval

2025-08-13

Авторы:

Qiwei Tian, Chenhao Lin, Zhengyu Zhao, Qian Li, Shuai Liu, Chao Shen

#################################### ## Контекст #################################### В последние годы развитие сетевых моделей, позволяющих выполнять текст-к-видео-просмотр (Text-to-Video Retrieval, T2VR), стало одной из самых привлекательных областей в области машинного обучения. Эта технология используется для поиска видеопотоков, соответствующих заданному текстовому запросу, и находит применение в различных сферах, включая поиск, рекомендации и анализ видеоконтента. Несмотря на эффективность, существующие модели T2VR недостаточно отзывчивы к новым типам атак, которые могут существенно повлиять на их работу. Особенно заслуживает внимания то, что не было исследовано возможность атак, направляющихся на продвижение видео в результатах поиска, в отличие от обычных атак, направленных на их исключение из результатов. Эта недостаточно изученная сторона является мотивацией для настоящего исследования. #################################### ## Метод #################################### В данной работе мы предлагаем **Video Promotion Attack (ViPro)**, что является первым экспериментом, призванным продвигать видео в результатах T2VR. Для улучшения качества продвижения мы также предлагаем **Modal Refinement (MoRe)** — метод, который улучшает тонкую, интересную взаимосвязь между визуальными и текстовыми модальностями. Метод ViPro работает в условиях белых, серых и черных ящиков, что делает его широко применимым. В ходе работы мы также исследуем возможности защиты от таких атак и изучаем возможность выявления их присутствия. #################################### ## Результаты #################################### Мы проводили эксперименты на трех ведущих моделях T2VR с использованием трех популярных датасетов, содержащих более 10 000 видео. Оценивались результаты под тремя сценариями: белый, серый и черный ящик. Наши исследования показали, что ViPro достигает существенного прогресса в продвижении видео в результатах по отношению к базовым моделям. Также мы изучили эффективность ViPro в сопротивлении различным защитным мерам и оценили его незаметность для пользователей. #################################### ## Значимость #################################### Результаты работы имеют необходимость в следующих областях: - **Безопасность информационных систем**: Обнаружение новых угроз для T2VR может помочь в развитии защитных механизмов. - **Машинное обучение**: Наше исследование показывает, что существуют недостатки в существующих моделях T2VR, что может стимулировать развитие новых архитектур. - **Социальная сеть и реклама**: Учитывая потенциал использования ViPro для манипуляций с продвижением контента, понимание этой угрозы важно для создателей контента и рекламодателей. #################################### ## Выводы #################################### Наше исследование демонстрирует, что возможности продвижения видео в T2VR являются реаль

Annotation:

Thanks to the development of cross-modal models, text-to-video retrieval (T2VR) is advancing rapidly, but its robustness remains largely unexamined. Existing attacks against T2VR are designed to push videos away from queries, i.e., suppressing the ranks of videos, while the attacks that pull videos towards selected queries, i.e., promoting the ranks of videos, remain largely unexplored. These attacks can be more impactful as attackers may gain more views/clicks for financial benefits and widespr...

ID: 2508.06964v2 cs.CV

arXiv PDF

📄 Evaluating Fisheye-Compatible 3D Gaussian Splatting Methods on Real Images Beyond 180 Degree Field of View

2025-08-13

Авторы:

Ulas Gunes, Matias Turkulainen, Juho Kannala, Esa Rahtu

## Контекст Область трехмерной реконструкции широко применяется в сферах компьютернографии, виртуальной реальности и геоматериальных измерений. Существующие методы, ориентированные на стандартные линзовые камеры, часто сталкиваются с ограничениями при работе с данными, полученными с помощью фишекой-камер, из-за их высокой корректируемости и тесной связи с полями зрения выше 180 градусов. Это создает значительные проблемы в обработке реальных данных, где такие сцены широко распространены. В нашем исследовании мы адресовали эту проблему, оценив новые фишекой-адаптивные 3D Gaussian Splatting (GS) методы, включая Fisheye-GS и 3DGUT, на реальных изображениях с полями зрения, превышающими 180 градусов. ## Метод Мы использовали две основные методологии для оценки: Fisheye-GS и 3DGUT. Для инициализации трехмерных моделей применялся UniK3D, не обученный на данных фишекой-камер, но способный генерировать точные точечные модели в условиях сильной дисторсии, в том числе без явного обучения на реальных данных. Вычисления проводились на реальных изображениях с 200-градусными фишекой-камерами, изучая поведение методов при различных полях зрения (200 градусов, 160 градусов и 120 градусов). Мы изучали торможение дисторсии и его влияние на качество реконструкции. ## Результаты Оценка показала, что Fisheye-GS эффективно справляется с дисторсией при уменьшении поля зрения, особенно при 160 градусов, что приводит к улучшению качества реконструкции. 3DGUT, напротив, поддерживает высокое качество во всех условиях, включая полный 200-градусный полюс. UniK3D доказал свою эффективность, даже в сложных сценах, например, при наличии тумана, сияния или неба, где SfM часто терпит неудачу. Данные результаты подтверждают возможность использования фишекой-адаптивных 3DGS методов для широкого поля зрения в реальных сценах. ## Значимость Наши результаты открывают пути для применения фишекой-камер в трехмерной реконструкции, обеспечивая практическую альтернативу к стандартным методам. Методы, оцененные в нашей работе, выделяются над соревнующимися решениями по своей высокой точности и устойчивости в условиях сильной дисторсии. Это может способствовать широкому развитию в области виртуальной и дополненной реальности, геоматериальных измерений и автоматизированных систем контроля. ## Выводы Наше исследование показало, что фишекой-гибкие 3DGS методы могут эффективно работать в широких полях зрения, даже в условиях высокой дисторсии. Мы также показали, что UniK3D может быть эффективным для инициализации трех

Annotation:

We present the first evaluation of fisheye-based 3D Gaussian Splatting methods, Fisheye-GS and 3DGUT, on real images with fields of view exceeding 180 degree. Our study covers both indoor and outdoor scenes captured with 200 degree fisheye cameras and analyzes how each method handles extreme distortion in real world settings. We evaluate performance under varying fields of view (200 degree, 160 degree, and 120 degree) to study the tradeoff between peripheral distortion and spatial coverage. Fish...

ID: 2508.06968v1 cs.CV, cs.GR

arXiv PDF

📄 WeatherDiffusion: Weather-Guided Diffusion Model for Forward and Inverse Rendering

2025-08-13

Авторы:

Yixin Zhu, Zuoliang Zhu, Miloš Hašan, Jian Yang, Jin Xie, Beibei Wang

## Контекст Forward и inverse rendering являются ключевыми технологиями для понимания и реконструкции объектов в контексте автономного вождения (AD). Однако сложные условия погоды и освещения представляют значительные проблемы для этих задач. Новые большие модели размещения (diffusion models) показали свою эффективность в обучении на 2D-признаках, но их управление остается сложным, а надежность оставляет желать лучшего. В этой работе мы предлагаем WeatherDiffusion, расширенную рамку работы на основе diffusion для forward и inverse rendering в сценах AD, охватывающих различные погодные и освещенные условия. Наше решение предназначено для точного определения материальных свойств, геометрии сцены и освещения, а также поддерживает редактирование погодных и освещенных условий с помощью прогнозируемых интринсических карт, управляемых текстовыми описаниями. ## Метод WeatherDiffusion работает на основе размещения (diffusion) и использует текстовую информацию для контроля процесса. Мы предлагаем Intrinsic Map-aware Attention (MAA), которая учитывает различные регионы исходного изображения, что позволяет повысить качество inverse rendering. Для обучения и оценки метода мы создали две высококачественные выборки данных: WeatherSynthetic (синтетическая) и WeatherReal (реальная). Метод WeatherDiffusion предлагает уникальные возможности для решения задач воздействия погоды на AD-технологии, таких как обнаружение объектов и сегментация изображений в сложных условиях. ## Результаты Мы провести небольшой эксперимент, чтобы продемонстрировать применение WeatherDiffusion к задаче forward и inverse rendering. Использовались данные из синтетической и реальной выборок. Наши результаты показали, что WeatherDiffusion значительно превосходит состояние технологии по метрикам качества и точности. Мы также провели эксперименты на реальных сценах AD, в которых метод показал высокую точность и надежность при различных условиях погоды и освещения. ## Значимость WeatherDiffusion может быть применен в различных сферах, включая автономное вождение, виртуальную реальность, моделирование информации для систем управления транспортом и другие. Метод имеет преимущества в точности, эффективности и управляемости. Мы считаем, что WeatherDiffusion может стать новым стандартом для forward и inverse rendering в AD и далее подкрепиться в области визуальных технологий для сложных сцен с различными погодными и освещенными условиями. ## Выводы WeatherDiffusion представляет собой мощный метод для forward и inverse rendering в сценах AD с разными погодными и освещенными условиями. Мы продемонстрировали его эффективность на двух выборках данных и показали преимущества по сравнению с другими методами. Наша работа может способствовать развитию технологий AD в будущем, улучшению обнаружения объектов и сегментации изображений в сложных условиях. Мы также планируем расширить моде

Annotation:

Forward and inverse rendering have emerged as key techniques for enabling understanding and reconstruction in the context of autonomous driving (AD). However, complex weather and illumination pose great challenges to this task. The emergence of large diffusion models has shown promise in achieving reasonable results through learning from 2D priors, but these models are difficult to control and lack robustness. In this paper, we introduce WeatherDiffusion, a diffusion-based framework for forward ...

ID: 2508.06982v1 cs.CV, cs.AI

arXiv PDF

1
2
1124
1125
1126
1127
1128
1207
1208

Показано 11251 - 11260 из 12073 записей