📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 ProtoN: Prototype Node Graph Neural Network for Unconstrained Multi-Impression Ear Recognition

2025-08-09

Авторы:

Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Отпечатки ушей являются уникальным и стабильным биометрическим признаком, который может быть использован для контактного распознавания личности. Однако, несмотря на их потенциал, их эффективность ограничена несколькими факторами. Во-первых, существует недостаток аннотированных данных, что существенно ограничивает возможности обучения точных моделей распознавания. Во-вторых, высокая внутриклассовая изменчивость (intra-class variability) — это типичная проблема, которая возникает из-за того, что разные фотографии одного и того же уха могут значительно отличаться в своей форме, освещении и угле обзора. Традиционные методы распознавания ушей обычно обрабатывают каждый отпечаток уха по отдельности, что не позволяет эффективно захватывать согласованные и дискриминативные (разделяющие классы) представления. Эта проблема усугубляется в сценариях «несколько выстрелов» (англ. multi-shot), когда необходимо обработать несколько изображений одного уха для повышения точности распознавания. Другой важной проблемой является то, что существующие методы недостаточно эффективны в ситуациях, когда доступно ограниченное количество данных, что характерно для некоторых приложений, таких как распознавание личности в условиях ограниченных ресурсов. Чтобы решить эти проблемы, необходимо разработать метод, который может эффективно обрабатывать несколько изображений уха, сохраняя при этом консистентность и различимость между разными классами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод под названием ProtoN (Prototype Node Graph Neural Network) для распознавания ушей в условиях нескольких изображений (multi-impression). Основная идея заключается в использовании графовой структуры, где каждое изображение уха представлено как узел в графе, а также используется так называемый "прототипный узел" (prototype node), который представляет собой общий эмбеддинг (вложение) для всех изображений одного уха. Эти узлы обрабатываются с помощью специально разработанного слоя графовой нейронной сети, называемого Prototype Graph Neural Network (PGNN). PGNN состоит из двух путей обработки: один для обработки узлов, соответствующих изображениям ушей, и другой для обработки прототипных узлов. Этот двунаправленный механизм обмена информацией (dual-path message-passing mechanism) позволяет улучшить качество представлений как отдельных изображений, так и прототипного узла. Для повышения дискриминативности (разделяющей способности), PGNN использует стратегию выравнивания прототипов между графами (cross-graph prototype alignment). Это позволяет улучшить компактность внутриклассовых представлений и поддерживать разделение между классами. Дополнительно, в методе используется гибридная функция потерь (hybrid loss function), которая балансирует между эпизодической и глобальной классификацией, что позволяет улучшить структуру пространства эмбеддингов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода ProtoN проведены эксперименты на пяти различных бенчмарк-наборах данных ушей. Результаты показывают, что ProtoN достигает высокой точности распознавания, с максимальной Rank-1 точностью распознавания до 99.60% и низким значением Equal Error Rate (EER) всего 0.025. Эти результаты означают, что ProtoN эффективен в решении задачи распознавания ушей в условиях ограниченных данных, что является важной чертой для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ProtoN может быть применен в различных областях, где необходимо распознавание личности на основе биометрических данных, в том числе в системах безопасности, контроля доступа или в приложениях розничной торговли. Благодаря тому, что метод эффективен в условиях ограниченных данных, он может быть полезен в ситуациях, где невозможно собрать большой набор данных для обучения. Это может быть особенно полезно в сфере биометрии, где часто требуется обработка данных с высокой внутриклассовой изменчивостью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ProtoN представляет собой новый подход к распознаванию ушей, который позволяет эффективно обрабатывать несколько изображений одного уха и достигает высоких результатов в условиях ограниченных данных. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры PGNN, а также на расширение его применимости к другим биометрическим модалитетам, таким как лицо или почерк. Также может быть интересно исследовать возможность применения этого метода в реальном времени для более быстрого и точного распознавания.

Annotation:

Ear biometrics offer a stable and contactless modality for identity recognition, yet their effectiveness remains limited by the scarcity of annotated data and significant intra-class variability. Existing methods typically extract identity features from individual impressions in isolation, restricting their ability to capture consistent and discriminative representations. To overcome these limitations, a few-shot learning framework, ProtoN, is proposed to jointly process multiple impressions of ...

ID: 2508.04381v1 cs.CV, cs.AI

arXiv PDF

📄 Deep Learning-based Scalable Image-to-3D Facade Parser for Generating Thermal 3D Building Models

2025-08-09

Авторы:

Yinan Yu, Alex Gonzalez-Caceres, Samuel Scheidegger, Sanjay Somanath, Alexander Hollberg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реновация существующих зданий является ключевой задачей в борьбе с климатическими изменениями. Для оптимального планирования реставрации на ранней стадии необходимы точные термические 3D-модели зданий, которые должны быть представлены на уровне детализации (LoD) 3. Такие модели должны включать важные элементы, такие как окна, чтобы обеспечить точные симуляции энергоэффективности. Однако создание таких моделей представляет собой сложную задачу, особенно когда речь идет о масштабируемости и точности определения таких элементов. Существующие подходы часто основываются на сегментации изображений и последующем проецировании геометрических данных, но эти методы могут страдать от перспективных искажений и недостаточной точности. Кроме того, многие существующие решения не могут эффективно обрабатывать различные типы данных, такие как изображения из Google Street View или фотографии, сделанные ручным способом. Это создает значительные ограничения для применения в реальных условиях, особенно когда речь идет о масштабировании процессов реставрации и планирования. Таким образом, существует актуальная потребность в разработке методологии, которая могла бы обеспечить точное и масштабируемое создание 3D-моделей зданий, основываясь на изображениях различных источников. Такой подход должен уменьшить ошибки, связанные с перспективными искажениями, и обеспечить высокую точность для применения в ранних стадиях планирования реставрации. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен метод Scalable Image-to-3D Facade Parser (SI3FP), который предназначен для генерации термических 3D-моделей зданий на уровне LoD 3. Основная инновационность этого подхода заключается в том, что он непосредственно моделирует геометрические примитивы (такие как окна) в ортогональной плоскости изображения, что позволяет избежать перспективных искажений, характерных для традиционных методов. SI3FP использует сочетание компьютерного зрения и техник глубокого обучения для извлечения геометрии из изображений. Этот подход обеспечивает единый интерфейс для обработки различных типов данных, включая разреженные данные (например, изображения из Google Street View) и плотные данные (например, фотографии, сделанные с ручным камерой). Это позволяет обрабатывать данные из различных источников, что значительно расширяет применимость метода. Архитектура SI3FP основывается на нейронных сетях, которые обучены распознавать и извлекать геометрические формы из изображений. Особенностью этого метода является то, что он не зависит от конкретного типа данных и может быть применен к различным источникам изображений. Это позволяет создавать 3D-модели с высокой точностью, которые могут быть использованы для раннего планирования реставрации и улучшения энергоэффективности зданий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода были проведены эксперименты на данных, полученных из типичных шведских жилых зданий. Эти данные включали изображения различных типов, в том числе изображения из Google Street View и фотографии, сделанные ручным способом. Результаты экспериментов показали, что SI3FP достигает примерно 5% ошибки при оценке отношения площади окон к площади стен (window-to-wall ratio). Эта точность достаточна для раннего планирования реставрации и позволяет использовать полученные модели для энергетических симуляций. Кроме того, метод показал высокую стабильность и точность при обработке различных типов данных, что демонстрирует его применимость в реальных условиях. Эксперименты также показали, что SI3FP может эффективно обрабатывать данные из различных источников, что делает его универсальным инструментом для масштабирования процессов реставрации и улучшения энергоэффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SI3FP имеет широкое применение в области энергетической реставрации и планирования. Благодаря точности и масштабируемости метода, он может быть использован для создания термических 3D-моделей зданий, которые необходимы для раннего этапа планирования реставрации. Это позволяет оптимизировать процессы улучшения энергоэффективности и снижения эмиссий при реставрации существующих зданий. Кроме того, метод может быть применен в более широкой области, такой как урбанистическое планирование и развитие. Его способность обрабатывать различные типы данных делает его полезным инструментом для разработки и анализа городских пространств, что может быть использовано для создания более устойчивых и энергоэффективных городов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен метод SI3FP, который позволяет создавать точные термические 3D-модели зданий на основе изображений различных источников. Этот метод обеспечивает высокую точность и масштабируемость, что делает его подходящим для применения в реальных условиях. В будущем планируется дальнейшее улучшение метода, в том числе расширение его возможностей для обработки более сложных типов данных и улучшение точности моделей. Также предполагается исследование дополнительных приложений метода в области урбанистического планирования и развития.

Annotation:

Renovating existing buildings is essential for climate impact. Early-phase renovation planning requires simulations based on thermal 3D models at Level of Detail (LoD) 3, which include features like windows. However, scalable and accurate identification of such features remains a challenge. This paper presents the Scalable Image-to-3D Facade Parser (SI3FP), a pipeline that generates LoD3 thermal models by extracting geometries from images using both computer vision and deep learning. Unlike exis...

ID: 2508.04406v1 cs.CV, cs.AI

arXiv PDF

📄 Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2025-08-09

Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Annotation:

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...

ID: 2508.04472v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

2025-08-09

Авторы:

Xueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное развитие искусственного интеллекта приблизило человечество к реализации мечты о создании универсальных цифровых ассистентов, подобных J.A.R.V.I.S из киновселенной Marvel. Традиционные подходы к автоматизации задач ограничивались узкоспециализированными решениями, способными выполнять лишь предопределенный набор операций в строго контролируемых средах. Однако появление мультимодальных больших языковых моделей ((M)LLM) открыло принципиально новые возможности для создания агентов, способных взаимодействовать с вычислительными устройствами через стандартные интерфейсы пользователя, такие как графические интерфейсы (GUI). Ключевая проблема заключается в том, что современные операционные системы и приложения разработаны для человеческого взаимодействия, а не для машинной автоматизации. Это создает ряд фундаментальных вызовов: необходимость понимания визуального контента экрана, интерпретации семантики элементов интерфейса, планирования сложных многошаговых задач и адаптации к изменениям в интерфейсах различных приложений. Существующие решения либо требуют специализированного программирования под каждое приложение, либо обладают ограниченной обобщающей способностью. Особенно остро стоит проблема "grounding" - способности агента связать высокоуровневые инструкции на естественном языке с конкретными действиями в интерфейсе. Например, команда "отправь отчет менеджеру по электронной почте" требует понимания, где находится приложение почты, как прикрепить файл, как выбрать нужного получателя и множества других контекстно-зависимых действий. Эта проблема усугубляется разнообразием операционных систем, версий приложений и индивидуальных настроек пользователей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Статья предлагает комплексную системную методологию создания OS Agents - агентов, способных автономно управлять вычислительными устройствами через стандартные интерфейсы операционных систем. Методология базируется на трех фундаментальных компонентах: среда наблюдения, пространство действий и архитектура агента. Среда наблюдения представлена как мультимодальное пространство, включающее визуальную информацию экрана (screenshots), структурное представление интерфейса (accessibility tree), текстовый контент и историю взаимодействий. Для обработки этой информации используются специализированные MLLM, обученные на синтетических и реальных датасетах, содержащих пары "screenshot-описание-действие". Пространство действий охватывает все возможные способы взаимодействия с GUI: клики мышью, клавиатурный ввод, прокрутка, перетаскивание, а также системные действия (запуск приложений, переключение между окнами). Для обеспечения надежности действий используется двухуровневая система: высокоуровневое планирование генерирует последовательность абстрактных действий, которые затем конкретизируются на уровне grounding в конкретные координаты и типы взаимодействий. Архитектура агента включает четыре ключевых модуля: модуль понимания (переводит наблюдения в семантическое представление), модуль планирования (разбивает высокоуровневые задачи на последовательность действий), модуль grounding (сопоставляет действия с конкретными элементами интерфейса) и модуль исполнения (выполняет действия и контролирует их результат). Для эффективного обучения используется комбинация обучения с подкреплением, имитационного обучения и самостоятельного улучшения через взаимодействие со средой. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Оценка эффектiveness OS Agents проводилась на 15 специализированных бенчмарках, охватывающих различные сценарии использования: веб-навигация (Mind2Web, WebArena), работа с офисными приложенияами (OfficeBench), управление мобильными устройствами (AndroidControl) и сложные многоприложные сценарии (OSWorld). На бенчмарке Mind2Web, включающем 2000 задач веб-навигации, лучшие OS Agents достигли 65.2% точности, что на 23% превышает предыдущие методы. В более сложной среде WebArena с динамическими веб-сайтами достигнута точность 38.7%, приблизившись к человеческому уровню в 45.2%. Особенно впечатляющие результаты показаны в задачах многошаговой автоматизации: в среднем агенты справлялись с задачами, требующими 8-12 последовательных

Annotation:

The dream to create AI assistants as capable and versatile as the fictional J.A.R.V.I.S from Iron Man has long captivated imaginations. With the evolution of (multi-modal) large language models ((M)LLMs), this dream is closer to reality, as (M)LLM-based Agents using computing devices (e.g., computers and mobile phones) by operating within the environments and interfaces (e.g., Graphical User Interface (GUI)) provided by operating systems (OS) to automate tasks have significantly advanced. This p...

ID: 2508.04482v1 cs.AI, cs.CL, cs.CV, cs.LG

arXiv PDF

📄 Learning Robust Intervention Representations with Delta Embeddings

2025-08-09

Авторы:

Panagiotis Alimisis, Christos Diou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование каузального представления данных (causal representation learning) является одним из ключевых направлений в области машинного обучения, направленного на повышение устойчивости и общей эффективности моделей. Основная идея каузального представления заключается в том, что модели могут лучше обобщаться и быть более устойчивыми к изменениям в данных, если они учитывают причинные связи между элементами сцены. Традиционно, большинство исследований в этой области сосредоточены на выявлении и представлении переменных сцены в рамках каузальной модели, однако меньше внимания уделялось представлению самих вмешательств (interventions) в пространстве латентных переменных (latent space). Взаимодействия между элементами сцены и внешними действиями (такими как движения объектов, изменения положения или других факторов) часто требуют специальных методов для их представления и обработки. Однако, существующие методы часто не могут эффективно обрабатывать ситуации, когда данные распределены неравномерно или когда происходят изменения в незначительных частях сцены. Это может привести к снижению качества модели при обработке данных, которые не входят в оригинальный набор данных (out-of-distribution, OOD). В этой работе авторы предлагают решение этой проблемы, сосредоточившись на представлении вмешательств (interventions) в пространстве латентных переменных. Они предлагают использовать "Causal Delta Embeddings", которые характеризуются свойством инвариантности к визуальной сцене (то есть, они не зависят от конкретных визуальных признаков сцены) и являются разреженными (sparse) в отношении причинных переменных, которые они влияют. Эта концепция позволяет модели концентрироваться только на тех частях сцены, которые изменяются в результате вмешательства, улучшая тем самым общую устойчивость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод для представления вмешательств (interventions) в пространстве латентных переменных, который они называют "Causal Delta Embeddings". Это представление основывается на идее того, что вмешательство может быть описано как изменение в пространстве латентных переменных, которое затрагивает только те переменные, которые были изменены в результате вмешательства. Это позволяет создавать компактное и инвариантное представление вмешательства, которое не зависит от конкретных визуальных признаков сцены. Ключевой момент метода заключается в том, что Causal Delta Embeddings построены таким образом, чтобы они были разреженными (sparse), то есть затрагивали только те причинные переменные, которые были изменены в результате вмешательства. Это позволяет уменьшить дименensionality и сделать представление более эффективным. Метод включает в себя несколько этапов: 1. **Извлечение латентных переменных**: Из исходных изображений извлекаются латентные переменные, которые представляют собой компактное представление сцены. 2. **Обучение Causal Delta Embeddings**: На основе извлеченных латентных переменных модель обучается находить изменения, вызванные вмешательством. Это достигается путем минимизации функции потерь, которая штрафует за несоответствие между изменениями в латентном пространстве и реальными изменениями, вызванными вмешательством. 3. **Инвариантность к визуальным признакам**: Метод обеспечивает, чтобы Causal Delta Embeddings были инвариантны к визуальным признакам сцены, что позволяет модели лучше обобщаться на новые данные. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборе данных из Causal Triplet challenge, который включает в себя изображения пар, где вмешательство приводит к изменениям в сцене. Эксперименты проводились в двух режимах: синтетический (synthetic) и реальный (real-world). В синтетическом режиме, где изменения в сцене были хорошо контролируемыми, метод показал значительное улучшение по сравнению с базовыми подходами. В частности, Causal Delta Embeddings показали лучшую точность в определении изменений, вызванных вмешательством, даже в случаях, когда данные были сильно изменены. В реальном режиме, где данные были получены из реальных сцен, метод также показал высокую эффективность. Он превосходил базовые модели в выявлении изменений, вызванных вмешательством, даже когда сцены были сложными и содержали множество деталей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходимо учитывать причинные связи между элементами сцены. Он может быть использован в таких приложениях, как анализ видеопотоков, обработка изображений, а также в системах автоматического управления, где важно понимать, как различные действия влияют на систему. Одним из главных преимуществ этого метода является его способность обрабатывать данные вне оригинального набора данных (OOD), что делает его особенно полезным в ситуациях, когда модели должны работать в непредвиденных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Causal Delta Embeddings являются эффективным инструментом для представления вмешательств в пространстве латентных переменных, что приводит к значительному улучшению общей устойчивости модели. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, включая исследование более сложных сцен и применение этого метода к другим областям, таким как анализ видео и решение задач в области робототехники.

Annotation:

Causal representation learning has attracted significant research interest during the past few years, as a means for improving model generalization and robustness. Causal representations of interventional image pairs, have the property that only variables corresponding to scene elements affected by the intervention / action are changed between the start state and the end state. While most work in this area has focused on identifying and representing the variables of the scene under a causal mode...

ID: 2508.04492v1 cs.CV, cs.AI

arXiv PDF

📄 CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework

2025-08-09

Авторы:

Sriram Mandalika, Lalitha V

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы самостоятельное обучение (self-supervised learning, SSL) стало ключевым подходом в области глубокого обучения, позволяющим извлекать мощные представления из неразмеченных данных. Техники такие, как контрастное обучение (contrastive learning) и маскированное моделирование изображений (masked image modeling), демонстрируют высокую эффективность в обучении моделей на больших неразмеченных датасетах. Однако эти подходы обычно применяются в изолированном режиме, что ограничивает их потенциал извлечения дополнительных семантических и контекстуальных приоритетов. Кроме того, модели, обученные в рамках таких парадигм, часто имеют большой размер и требуют значительных вычислительных ресурсов, что делает их непригодными для развертывания в условиях ограниченных ресурсов. Проблема заключается в том, что существующие методы не эффективно используют взаимодополняющие знания, которые могут быть извлечены из различных самостоятельно обученных моделей. Большинство из них фокусируются на отдельных методах, таких как MAE, MoCo v3 или iBOT, не учитывая возможности их комбинации. Также существует необходимость в разработке компактных и эффективных моделей, которые могут эффективно использовать знания из нескольких источников, не увеличивая сложность и размер модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Рассмотренный метод, Consensus-oriented Masked Distillation (CoMAD), предлагает новую парадигму для компактного и эффективного переноса знаний из нескольких самостоятельно обученных моделей в одну компактную студенческую сеть. CoMAD основывается на использовании трех предобученных Vision Transformers (ViT-Base) – MAE, MoCo v3 и iBOT – которые представляют собой модели с различными семантическими и контекстуальными приоритетами. Основная идея CoMAD заключается в использовании асимметричного маскирования (asymmetric masking). В этом подходе студенческая модель видит только 25% патчей изображения, в то время как каждая из преподавательских моделей получает уникальную, прогрессивно легкую маску. Это заставляет студенческую модель выполнять интерполяцию пропущенных функций в более богатом контексте. Для выравнивания выходных представлений преподавателей с пространством студенческой модели используются линейные адаптеры и слои нормализации. Затем, для комбинации представлений из разных преподавателей применяется метод joint consensus gating, который основывается на косинусной схожести (cosine affinity) и согласованности между преподавателями (inter-teacher agreement). Это позволяет дать большее весовое значение токенам, которые имеют высокую схожесть и согласованность между преподавателями. Студенческая модель обучается с помощью двухуровневого KL-дивергенции (dual-level KL divergence), который учитывает видимые токены и восстановленные карты признаков. Это позволяет захватить как локальную, так и глобальную структуру данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете ImageNet-1K, где компактная студенческая модель ViT-Tiny, обученная с помощью CoMAD, достигла точности 75.4% Top-1, что на 0.4% выше результатов предыдущего лучшего метода. Дополнительно, CoMAD показал высокую эффективность в задачах плотного прогнозирования (dense prediction), таких как сегментация и детекция объектов. На датасете ADE20K, CoMAD достиг 47.3% mIoU, что является новым рекордом для компактных моделей в задачах сегментации. Также, на датасете MS-COCO, CoMAD показал результаты в 44.5% box average precision и 40.5% mask average precision, опять же превосходя предыдущие результаты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CoMAD предлагает практически значимые преимущества в области компактных и эффективных моделей для реального мира. Благодаря его способности объединять знания из нескольких предобученных моделей в единую компактную модель, CoMAD может быть использован в различных приложениях, где критичны ограничения по вычислительным ресурсам, таких как мобильные устройства, IoT-устройства или автономные системы. Кроме того, CoMAD может быть использован для улучшения производительности в задачах, требующих высокой точности, таких как сегментация изображений, детекция объектов и классификация. Его эффективность в работе с небольшими моделями делает его пригодным для использования в областях, где важно сочетание высокой точности и низких вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CoMAD является перспективным подходом к компактному и эффективному переносу знаний из нескольких самостоятельно обученных моделей. Он показывает высокую эффективность в различных задачах, от классификации изображений до плотного прогнозирования. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и компактности моделей, а также на расширении его применимости к другим доменам, таким как видеоанализ и естественный язык.

Annotation:

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, learn powerful representations from unlabeled data but are typically pretrained in isolation, overlooking complementary insights and yielding large models that are impractical for resource-constrained deployment. To overcome these challenges, we introduce Consensus-oriented Masked Distillation (CoMAD), a lightweight, parameter-free framework that unifies knowledge from multiple current state-of-t...

ID: 2508.04816v1 cs.CV, cs.AI

arXiv PDF

📄 Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

2025-08-09

Авторы:

Seungyong Lee, Jeong-gi Kwak

## КОНТЕКСТ И ПРОБЛЕМАТИКА Виртуальный трай-он (virtual try-on) представляет собой технологию, позволяющую синтезировать реалистичное изображение человека в выбранной одежде, которая адаптируется к его фигуре и позе. Однако до сих пор одной из ключевых проблем в этой области остается точная моделирование соответствия между телом и одеждой, особенно при изменениях положения тела и внешнего вида. Традиционные подходы часто требуют специализированных сетей, дополнительных целей оптимизации или дополнительных меток, что увеличивает сложность и затраты вычислений. Мотивацией для исследования является необходимость разработки более универсального и эффективного решения, которое могло бы обеспечить высококачественный результат для обеих задач – виртуального трай-она и трай-оффа (удаления одежды) – в рамках единого фреймворка. Такой подход мог бы упростить процесс обучения и расширить возможности применения, обеспечивая лучшее понимание взаимодействия между одеждой и телом без необходимости дополнительных ресурсов. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе авторы предлагают **Voost** – унифицированный и масштабируемый фреймворк, основанный на диффузионном трансформере, который совместно обучается на задачах виртуального трай-она и трай-оффа. Основная идея заключается в том, чтобы использовать обучение взаимно-двойному направлению (try-on и try-off) для улучшения моделирования взаимосвязи между телом и одеждой. Архитектура Voost основана на диффузионном трансформере, который позволяет эффективно обрабатывать контекстные зависимости и генерировать высококачественные изображения. Фреймворк поддерживает гибкую кондиционированию (conditioning) по направлению генерации (трай-он или трай-офф) и категории одежды. Это позволяет модели улучшить понимание взаимодействия между одеждой и телом без необходимости в специализированных сетей или дополнительных метках. Кроме того, авторы вводят два инновационных технических решения для улучшения качества генерации во время вывода (inference): 1. **Attention Temperature Scaling** – это техника, которая позволяет улучшить устойчивость модели к изменениям разрешения или масок, которые могут возникать в реальных условиях. 2. **Self-Corrective Sampling** – это метод, который использует двунаправленную консистентность между задачами трай-она и трай-оффа для самокоррекции выходных изображений, что повышает их точность и качество. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят обширные эксперименты, чтобы оценить эффективность Voost на различных датасетах и сравнить его с современными базовыми моделями. Используемые данные включают различные бенчмарки для задач трай-она и трай-оффа, которые позволяют оценить точность выравнивания, визуальную правдоподобность и общую обобщающую способность модели. Результаты показывают, что Voost достигает лучших результатов по сравнению с современными базовыми моделями. Он показывает значительное улучшение в точности выравнивания одежды относительно тела, а также визуальной фиделити (качество изображения) и общей обобщающей способности на различных датасетах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк Voost имеет широкое применение в области моды, ритейла и виртуального фитинга. Его способность выполнять оба направления – трай-он и трай-офф – в рамках одной модели делает его высоко эффективным и гибким инструментом для разработчиков и пользователей. Преимущества Voost включают в себя: - Улучшенное понимание взаимодействия между телом и одеждой. - Упрощенная модель без необходимости дополнительных сетей или меток. - Высокое качество генерации изображений с повышенной точностью и визуальной правдоподобностью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк **Voost**, который успешно решает проблему моделирования взаимодействия между телом и одеждой в задачах виртуального трай-она и трай-оффа. Данный подход не только достигает лучших результатов по сравнению с современными базовыми моделями, но также открывает новые возможности для будущих исследований в области виртуального фитинга. Будущие исследования могут фокусироваться на дальнейшем улучшении качества генерации, в том числе на расширении диапазона категорий одежды и поддержке более сложных поз и форм тела. Также могут быть исследованы новые методы оптимизации для дальнейшего повышения эффективности и качества вывода.

Annotation:

Virtual try-on aims to synthesize a realistic image of a person wearing a target garment, but accurately modeling garment-body correspondence remains a persistent challenge, especially under pose and appearance variation. In this paper, we propose Voost - a unified and scalable framework that jointly learns virtual try-on and try-off with a single diffusion transformer. By modeling both tasks jointly, Voost enables each garment-person pair to supervise both directions and supports flexible condi...

ID: 2508.04825v1 cs.GR, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Revealing Temporal Label Noise in Multimodal Hateful Video Classification

2025-08-09

Авторы:

Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимедийный контент в сети Интернет растет с быстрым темпом, что приводит к широкому распространению ненавистной речи (hate speech). Это создает серьезные социальные и регуляторные вызовы. В последние годы было достигнуто значительное прогрессирование в области мультимодальной детекции ненавистных видео, однако большинство существующих подходов основываются на грубых, видео-уровневых аннотациях, которые игнорируют временную гранулярность ненавистного контента. Это приводит к существенному шуму в метках (label noise), так как видео, отмеченные как ненавистные, часто содержат длительные сегменты, не относящиеся к ненавистной речи. Эта проблема особенно критична, потому что ненавистная речь часто выражается в контекстно-зависимом и временно-непрерывном формате. Грубые аннотации могут вводить в заблуждение модели, препятствуя точной классификации и пониманию контекста. Исследование, посвященное временным динамикам и характеристикам ненавистного контента, необходимо для создания более надежных и интерпретируемых моделей. В этой работе авторы предлагают файн-гранулярный подход для анализа временного шума в метках. Они используют временные метки (timestamps) для того, чтобы изолировать явно ненавистные сегменты из видео, а затем проводят анализ распределения и характеристик ненавистного и не-ненавистного контента. Целью этого исследования является выявление степени семантического перекрытия и путаницы, введенной грубыми аннотациями на уровне видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, которая включает в себя точное отсечение (trimming) видео с ненавистным контентом из датасетов HateMM и MultiHateClip. Это достигается путем использования аннотированных временных меток, которые позволяют изолировать только те сегменты, которые содержат явно ненавистную речь. Затем эти отрезки анализируются с точки зрения их семантических характеристик и распределения. Этот подход позволяет выявить степень перекрытия между ненавистным и не-ненавистным контентом, а также уровень путаницы, который вводится грубыми, видео-уровневыми аннотациями. Далее, авторы проводят контролируемые эксперименты для изучения влияния временного шума на модели классификации. Они демонстрируют, что шум во временных метках фундаментально изменяет границы принятия решений моделей и снижает уверенность в классификации. Это подчеркивает важность временно-зависимых моделей и бенчмарков для улучшения точности и интерпретируемости классификации ненавистной речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух датасетах: HateMM и MultiHateClip. Они используют аннотированные временные метки для изоляции явно ненавистных сегментов видео. Затем они проводят анализ этих сегментов, выявляя распределение и характеристики как ненавистного, так и не-ненавистного контента. Результаты показывают высокий уровень семантического перекрытия между этими категориями, что подтверждает наличие значительного шума в метках. Кроме того, авторы проводят контролируемые эксперименты, в которых они анализируют влияние временного шума на процесс классификации. Они демонстрируют, что шум во временных метках приводит к существенным изменениям в границах принятия решений моделей и снижению уверенности в классификации. Эти результаты подтверждают, что ненавистная речь является контекстно-зависимой и требует временно-зависимых моделей для более точного анализа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Настоящее исследование имеет значительное практическое значение для разработки более эффективных методов детекции и классификации ненавистной речи в мультимодальных видео. Оно подчеркивает необходимость разработки моделей, которые учитывают временную гранулярность и контекстную зависимость ненавистной речи. Такие модели могут быть использованы для улучшения точности классификации, а также для повышения интерпретируемости и надежности систем детекции ненавистной речи. Кроме того, данное исследование может быть применено в областях регулирования и модернизации социальных медиа-платформ, где необходимо эффективное обнаружение и модерирование ненавистного контента. Преимуществами этого подхода являются улучшенная точность, более глубокое понимание временных динамик и потенциальное снижение ложноположительных результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Выводы данного исследования показывают, что временной шум в метках имеет фундаментальное влияние на процесс классификации ненавистного контента в мультимодальных видео. Авторы выделяют необходимость разработки более точных и временно-зависимых моделей, которые могут лучше учитывать контекст и временную непрерывность ненавистной речи. Будущие исследования могут сосредоточиться на разработке более продвинутых алгоритмов, способных обрабатывать временной шум и улучшать точность классификации. Также может быть полезно создание новых бенчмарков, которые будут учитывать временную гранулярность ненавистного контента. Это может привести к более надежным и интерпретируемым системам детекции ненавистной речи.

Annotation:

The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such labe...

ID: 2508.04900v1 cs.CV, cs.AI

arXiv PDF

📄 Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2025-08-09

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.

Annotation:

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...

ID: 2508.04928v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring

2025-08-09

Авторы:

Zhu Xu, Ting Lei, Zhimin Li, Guan Wang, Qingchao Chen, Yuxin Peng, Yang liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Dynamic Scene Graph Generation (DSGG) — это задача, направленная на построение сценовых графов для каждого кадра видео, включая детекцию объектов и прогнозирование их взаимодействий. Данная задача является ключевой для понимания динамических сцен в видео, однако традиционные подходы к DSGG требуют значительных ресурсов на разметку данных, что становится критическим препятствием для практического применения. Для снижения затрат на разметку была предложена Weakly Supervised DSGG (WS-DSGG), которая использует для обучения нелокализованные сценовые графы, полученные из одного кадра на видео. Однако существующие методы WS-DSGG строятся на основе внешних объектных детекторов, обученных на статических изображениях, что приводит к проблемам в динамических, отношениями-ориентированных сценах. Внешние объектные детекторы часто не справляются с задачей точной локализации объектов в динамической области видимости, особенно когда речь идет о сложных сценах с большим количеством взаимодействующих элементов. Такие детекторы часто выдают неточные позиции объектов и низкие уровни достоверности предложений, что существенно снижает качество WS-DSGG. Эта несогласованность между обучением детекторов на статических данных и их применением в динамических сценах является ключевой проблемой, которую необходимо решить для эффективного использования WS-DSGG. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы неточности внешних объектных детекторов в динамических сценах был предложен метод TRKT (Temporal-enhanced Relation-aware Knowledge Transferring). TRKT состоит из двух ключевых компонентов. Первый компонент — **Relation-aware Knowledge Mining**. В этом компоненте используются объектные и отношенческие декодеры для генерации категорийных attention maps, которые подчеркивают области объектов и их взаимодействий. Для улучшения качества attention maps используется стратегия Inter-frame Attention Augmentation, которая использует оптический поток из соседних кадров для создания motion-aware attention maps. Это позволяет улучшить устойчивость к движениям и размытию, обеспечивая более точную локализацию и выделение взаимодействующих областей. Второй компонент — **Dual-stream Fusion Module**. Этот модуль интегрирует категорийные attention maps во внешние детекции, улучшая локализацию объектов и повышая уровень достоверности предложений. Это позволяет добиться более точного выделения объектов и их отношений в динамических сценах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете Action Genome, который представляет собой набор видео с размеченными сценовыми графами. TRKT демонстрирует высокую эффективность по сравнению со существующими методами WS-DSGG. Благодаря интеграции motion-aware attention maps и Dual-stream Fusion Module, TRKT показывает значительное улучшение точности детекции объектов и предсказания отношений в динамических сценах. Метод TRKT достигает лучших результатов по всем ключевым метрикам по сравнению с другими методами WS-DSGG. Эксперименты показывают, что TRKT не только улучшает качество детекции, но также снижает влияние неточных предложений, полученных из внешних объектных детекторов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ TRKT может быть применен в различных областях, требующих понимания динамических сцен, таких как анализ видео, распознавание действий, автоматическое описание сцен и взаимодействие с роботами. Благодаря своей способности точно локализовывать объекты и их отношения в динамических сценах, TRKT может быть использован в системах компьютерного зрения для повышения точности и надежности. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ TRKT представляет собой значительный шаг вперед в области Weakly Supervised DSGG, решая проблему неточных детекторов в динамических сценах. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и устойчивости метода, а также на расширении его применимости к более широкому классу данных видео.

Annotation:

Dynamic Scene Graph Generation (DSGG) aims to create a scene graph for each video frame by detecting objects and predicting their relationships. Weakly Supervised DSGG (WS-DSGG) reduces annotation workload by using an unlocalized scene graph from a single frame per video for training. Existing WS-DSGG methods depend on an off-the-shelf external object detector to generate pseudo labels for subsequent DSGG training. However, detectors trained on static, object-centric images struggle in dynamic, ...

ID: 2508.04943v1 cs.CV, cs.AI

arXiv PDF

1
2
1154
1155
1156
1157
1158
1161
1162

Показано 11551 - 11560 из 11614 записей