📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective

2025-08-09

Авторы:

Yan Zhang, Gangyan Zeng, Daiqing Wu, Huawen Shen, Binbin Li, Yu Zhou, Can Ma, Xiaojun Bi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Видеотекстовая визуальная вопросо-ответная система (Video TextVQA) — это задача, целью которой является ответ на вопросы путем чтения и анализа текстовой информации, содержащейся в видео. Традиционные методы, основанные на работе с отдельными кадрами (frame-level), сталкиваются с двумя ключевыми проблемами: избыточность текстовых объектов и неявное моделирование отношений между ними. Эти ограничения приводят к снижению точности и эффективности. Кроме того, существующие модели часто не учитывают динамические изменения текстовых элементов во времени, что является ключевым аспектом видеоданных. Современные подходы к Video TextVQA обычно работают на уровне кадров, где каждый кадр анализируется независимо, что приводит к повторению вычислений и неэффективному использованию ресурсов. Кроме того, недостаточное учету динамики текста во времени приводит к неточным ответам на вопросы, особенно когда текст меняется или перемещается в рамках видео. Эти проблемы подчеркивают необходимость разработки более эффективных и точных методов, которые учитывают контекст и временное развитие текстовых элементов в видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый подход к Video TextVQA, основанный на инстанс-ориентированной перспективе, которая позволяет более точно обрабатывать текстовые элементы в видео. Модель, называемая GAT (Gather and Trace), состоит из двух основных модулей: **контекстно-агрегирующего модуля сбора экземпляров** и **модуля трассировки траекторий экземпляров**. 1. **Контекстно-агрегирующий модуль**: Этот модуль интегрирует визуальные, текстовые и пространственные характеристики каждого текстового экземпляра в видео. Он собирает информацию о внешнем виде, расположении и содержании текста, объединяя ее в единое текстовое представление. Это позволяет повысить точность распознавания текста, учитывая контекст и связи между экземплярами. 2. **Модуль трассировки траекторий**: Для захвата динамических изменений текста во времени используется модуль, который устанавливает пространственно-временные связи между текстовыми экземплярами в различных кадрах. Этот модуль позволяет отслеживать траектории текстовых объектов и определяет их взаимосвязи в рамках видеопотока. Эти модули в совокупности обеспечивают более точное и эффективное чтение текста, а также улучшают моделирование взаимоотношений между текстовыми экземплярами в динамическом видеоконтексте. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предлагаемого метода проведены расширенные эксперименты на нескольких общедоступных наборах данных для Video TextVQA. GAT достигает высоких результатов по точности, превосходя существующие подходы. В частности, GAT превзошел состояние искусства в Video TextVQA на 3,86% по точности и одновременно обеспечил скорость вывода, превышающую скорость видео-языковых моделей в десять раз. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод GAT имеет широкое применение в областях, требующих анализа видеоданных, таких как автоматический анализ видеоконтента, поддержка принятия решений на основе видеоинформации и разработка интеллектуальных систем взаимодействия с видео. Преимущества GAT включают высокую точность, быструю скорость вывода и эффективное моделирование динамики текстовых элементов, что делает его применимым в реальных сценариях, требующих обработки видео в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предлагаемый метод GAT представляет новый подход к Video TextVQA, который учитывает контекст и динамику текстовых элементов во времени. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и эффективности, а также на расширении применимости метода к более сложным видеоданным, включая мультимодальные контексты.

Annotation:

Video text-based visual question answering (Video TextVQA) aims to answer questions by explicitly reading and reasoning about the text involved in a video. Most works in this field follow a frame-level framework which suffers from redundant text entities and implicit relation modeling, resulting in limitations in both accuracy and efficiency. In this paper, we rethink the Video TextVQA task from an instance-oriented perspective and propose a novel model termed GAT (Gather and Trace). First, to o...

ID: 2508.04197v1 cs.CV, cs.AI

arXiv PDF

📄 ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs

2025-08-09

Авторы:

Ben Zhang, LuLu Yu, Lei Gao, Jing Liu, QuanJiang Guo, Hui Gao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальные языковые модели (VLM) становятся все более важными в области искусственного интеллекта, особенно для задач, требующих решения сложных визуально-языковых задач. Однако одним из ключевых проблем в таких моделях является наличие ложных положительных результатов (False Positives, FP) в процессе резонирования. Такие ошибки возникают, когда модель предоставляет правильный ответ, но при этом использует некорректный или нелогичный путь резонирования. Такие ошибки могут привести к недоверию в результаты модели, особенно в критических приложениях, где надежность и точность резонирования играют ключевую роль. Традиционные подходы к улучшению резонирования в VLM, такие как многошаговые методы резонирования и стратегии обучения с подкреплением, часто страдают от высоких затрат на обучение и ограниченной генерализации. Они требуют крупных, специализированных наборов данных, что ограничивает их применимость на практике. Кроме того, существующие методы не всегда способны эффективно обнаруживать и исправлять ошибки в процессе резонирования. Это создает потребность в разработке более универсальных и эффективных методов, которые могут улучшить как точность ответов, так и надежность процесса резонирования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы предлагают ViFP (Visual False Positive detection Framework), который представляет собой общий фреймворк для улучшения надежности резонирования в VLM. Основная идея ViFP заключается в использовании подзадач (sub-question templates), основанных на ключевых аспектах визуального резонирования, таких как локализация объектов, описание их характеристик и их обнаружение. Эти подзадачи помогают создать более надежные пути резонирования через многократный вопрос-ответ (multi-turn QA). ViFP также использует динамический анализ консистентности пути резонирования для обнаруживания потенциальных FP. Для этого введен механизм chain-of-thought (CoT), который адаптивно руководствуется как положительными, так и отрицательными примерами, что позволяет снизить логические ошибки в процессе резонирования, сохраняя при этом высокую точность ответов. Этот подход позволяет ViFP обнаруживать и исправлять ошибки в процессе резонирования без необходимости в больших вычислительных ресурсах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на закрытых VLM, чтобы оценить эффективность ViFP. Эксперименты были проведены на трех наборах данных: A-OKVQA, OKVQA, и FVQA. Результаты показали, что ViFP существенно улучшает точность ответов и снижает количество FP. Например, на наборе данных A-OKVQA, ViFP повысил точность на 5.4% по сравнению со стандартными подходами, превзойдя прежние лучшие результаты на 4.3%. Кроме того, ViFP значительно снизил количество FP, что демонстрирует его эффективность в повышении надежности резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ViFP может быть применен в различных областях, где критически важна надежность и точность резонирования визуальных данных. Например, в областях медицинского изображения, автономных транспортных системах, или даже в образовательных приложениях, где важно получать точные и логически согласованные ответы. Благодаря своей универсальности и эффективности, ViFP может стать важной составляющей в разработке более надежных и точных VLM для различных практических приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк ViFP, который улучшает надежность резонирования в VLM, снижая количество ложных положительных результатов и повышая точность ответов. Это достигается благодаря использованию подзадач, динамического анализа консистентности и механизма chain-of-thought. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности ViFP, а также на его применении в более широком диапазоне задач и наборов данных.

Annotation:

In visual-language model (VLM) reasoning, false positive(FP) reasoning occurs when a model generates a correct answer but follows an incorrect reasoning path. Existing methods based on specific multi-step reasoning datasets and reinforcement learning strategies, leading to high training costs and limited generalization. In this work, we propose ViFP, a general framework for enhancing visual reasoning reliability. It improves both answer accuracy and reasoning soundness by detecting FPs. ViFP tac...

ID: 2508.04201v1 cs.CV, cs.AI

arXiv PDF

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Annotation:

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...

ID: 2508.04260v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 ProtoN: Prototype Node Graph Neural Network for Unconstrained Multi-Impression Ear Recognition

2025-08-09

Авторы:

Santhoshkumar Peddi, Sadhvik Bathini, Arun Balasubramanian, Monalisa Sarma, Debasis Samanta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Отпечатки ушей являются уникальным и стабильным биометрическим признаком, который может быть использован для контактного распознавания личности. Однако, несмотря на их потенциал, их эффективность ограничена несколькими факторами. Во-первых, существует недостаток аннотированных данных, что существенно ограничивает возможности обучения точных моделей распознавания. Во-вторых, высокая внутриклассовая изменчивость (intra-class variability) — это типичная проблема, которая возникает из-за того, что разные фотографии одного и того же уха могут значительно отличаться в своей форме, освещении и угле обзора. Традиционные методы распознавания ушей обычно обрабатывают каждый отпечаток уха по отдельности, что не позволяет эффективно захватывать согласованные и дискриминативные (разделяющие классы) представления. Эта проблема усугубляется в сценариях «несколько выстрелов» (англ. multi-shot), когда необходимо обработать несколько изображений одного уха для повышения точности распознавания. Другой важной проблемой является то, что существующие методы недостаточно эффективны в ситуациях, когда доступно ограниченное количество данных, что характерно для некоторых приложений, таких как распознавание личности в условиях ограниченных ресурсов. Чтобы решить эти проблемы, необходимо разработать метод, который может эффективно обрабатывать несколько изображений уха, сохраняя при этом консистентность и различимость между разными классами. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод под названием ProtoN (Prototype Node Graph Neural Network) для распознавания ушей в условиях нескольких изображений (multi-impression). Основная идея заключается в использовании графовой структуры, где каждое изображение уха представлено как узел в графе, а также используется так называемый "прототипный узел" (prototype node), который представляет собой общий эмбеддинг (вложение) для всех изображений одного уха. Эти узлы обрабатываются с помощью специально разработанного слоя графовой нейронной сети, называемого Prototype Graph Neural Network (PGNN). PGNN состоит из двух путей обработки: один для обработки узлов, соответствующих изображениям ушей, и другой для обработки прототипных узлов. Этот двунаправленный механизм обмена информацией (dual-path message-passing mechanism) позволяет улучшить качество представлений как отдельных изображений, так и прототипного узла. Для повышения дискриминативности (разделяющей способности), PGNN использует стратегию выравнивания прототипов между графами (cross-graph prototype alignment). Это позволяет улучшить компактность внутриклассовых представлений и поддерживать разделение между классами. Дополнительно, в методе используется гибридная функция потерь (hybrid loss function), которая балансирует между эпизодической и глобальной классификацией, что позволяет улучшить структуру пространства эмбеддингов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода ProtoN проведены эксперименты на пяти различных бенчмарк-наборах данных ушей. Результаты показывают, что ProtoN достигает высокой точности распознавания, с максимальной Rank-1 точностью распознавания до 99.60% и низким значением Equal Error Rate (EER) всего 0.025. Эти результаты означают, что ProtoN эффективен в решении задачи распознавания ушей в условиях ограниченных данных, что является важной чертой для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ProtoN может быть применен в различных областях, где необходимо распознавание личности на основе биометрических данных, в том числе в системах безопасности, контроля доступа или в приложениях розничной торговли. Благодаря тому, что метод эффективен в условиях ограниченных данных, он может быть полезен в ситуациях, где невозможно собрать большой набор данных для обучения. Это может быть особенно полезно в сфере биометрии, где часто требуется обработка данных с высокой внутриклассовой изменчивостью. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ProtoN представляет собой новый подход к распознаванию ушей, который позволяет эффективно обрабатывать несколько изображений одного уха и достигает высоких результатов в условиях ограниченных данных. Будущие исследования могут быть направлены на дальнейшее улучшение архитектуры PGNN, а также на расширение его применимости к другим биометрическим модалитетам, таким как лицо или почерк. Также может быть интересно исследовать возможность применения этого метода в реальном времени для более быстрого и точного распознавания.

Annotation:

Ear biometrics offer a stable and contactless modality for identity recognition, yet their effectiveness remains limited by the scarcity of annotated data and significant intra-class variability. Existing methods typically extract identity features from individual impressions in isolation, restricting their ability to capture consistent and discriminative representations. To overcome these limitations, a few-shot learning framework, ProtoN, is proposed to jointly process multiple impressions of ...

ID: 2508.04381v1 cs.CV, cs.AI

arXiv PDF

📄 Deep Learning-based Scalable Image-to-3D Facade Parser for Generating Thermal 3D Building Models

2025-08-09

Авторы:

Yinan Yu, Alex Gonzalez-Caceres, Samuel Scheidegger, Sanjay Somanath, Alexander Hollberg

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реновация существующих зданий является ключевой задачей в борьбе с климатическими изменениями. Для оптимального планирования реставрации на ранней стадии необходимы точные термические 3D-модели зданий, которые должны быть представлены на уровне детализации (LoD) 3. Такие модели должны включать важные элементы, такие как окна, чтобы обеспечить точные симуляции энергоэффективности. Однако создание таких моделей представляет собой сложную задачу, особенно когда речь идет о масштабируемости и точности определения таких элементов. Существующие подходы часто основываются на сегментации изображений и последующем проецировании геометрических данных, но эти методы могут страдать от перспективных искажений и недостаточной точности. Кроме того, многие существующие решения не могут эффективно обрабатывать различные типы данных, такие как изображения из Google Street View или фотографии, сделанные ручным способом. Это создает значительные ограничения для применения в реальных условиях, особенно когда речь идет о масштабировании процессов реставрации и планирования. Таким образом, существует актуальная потребность в разработке методологии, которая могла бы обеспечить точное и масштабируемое создание 3D-моделей зданий, основываясь на изображениях различных источников. Такой подход должен уменьшить ошибки, связанные с перспективными искажениями, и обеспечить высокую точность для применения в ранних стадиях планирования реставрации. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен метод Scalable Image-to-3D Facade Parser (SI3FP), который предназначен для генерации термических 3D-моделей зданий на уровне LoD 3. Основная инновационность этого подхода заключается в том, что он непосредственно моделирует геометрические примитивы (такие как окна) в ортогональной плоскости изображения, что позволяет избежать перспективных искажений, характерных для традиционных методов. SI3FP использует сочетание компьютерного зрения и техник глубокого обучения для извлечения геометрии из изображений. Этот подход обеспечивает единый интерфейс для обработки различных типов данных, включая разреженные данные (например, изображения из Google Street View) и плотные данные (например, фотографии, сделанные с ручным камерой). Это позволяет обрабатывать данные из различных источников, что значительно расширяет применимость метода. Архитектура SI3FP основывается на нейронных сетях, которые обучены распознавать и извлекать геометрические формы из изображений. Особенностью этого метода является то, что он не зависит от конкретного типа данных и может быть применен к различным источникам изображений. Это позволяет создавать 3D-модели с высокой точностью, которые могут быть использованы для раннего планирования реставрации и улучшения энергоэффективности зданий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода были проведены эксперименты на данных, полученных из типичных шведских жилых зданий. Эти данные включали изображения различных типов, в том числе изображения из Google Street View и фотографии, сделанные ручным способом. Результаты экспериментов показали, что SI3FP достигает примерно 5% ошибки при оценке отношения площади окон к площади стен (window-to-wall ratio). Эта точность достаточна для раннего планирования реставрации и позволяет использовать полученные модели для энергетических симуляций. Кроме того, метод показал высокую стабильность и точность при обработке различных типов данных, что демонстрирует его применимость в реальных условиях. Эксперименты также показали, что SI3FP может эффективно обрабатывать данные из различных источников, что делает его универсальным инструментом для масштабирования процессов реставрации и улучшения энергоэффективности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SI3FP имеет широкое применение в области энергетической реставрации и планирования. Благодаря точности и масштабируемости метода, он может быть использован для создания термических 3D-моделей зданий, которые необходимы для раннего этапа планирования реставрации. Это позволяет оптимизировать процессы улучшения энергоэффективности и снижения эмиссий при реставрации существующих зданий. Кроме того, метод может быть применен в более широкой области, такой как урбанистическое планирование и развитие. Его способность обрабатывать различные типы данных делает его полезным инструментом для разработки и анализа городских пространств, что может быть использовано для создания более устойчивых и энергоэффективных городов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе был представлен метод SI3FP, который позволяет создавать точные термические 3D-модели зданий на основе изображений различных источников. Этот метод обеспечивает высокую точность и масштабируемость, что делает его подходящим для применения в реальных условиях. В будущем планируется дальнейшее улучшение метода, в том числе расширение его возможностей для обработки более сложных типов данных и улучшение точности моделей. Также предполагается исследование дополнительных приложений метода в области урбанистического планирования и развития.

Annotation:

Renovating existing buildings is essential for climate impact. Early-phase renovation planning requires simulations based on thermal 3D models at Level of Detail (LoD) 3, which include features like windows. However, scalable and accurate identification of such features remains a challenge. This paper presents the Scalable Image-to-3D Facade Parser (SI3FP), a pipeline that generates LoD3 thermal models by extracting geometries from images using both computer vision and deep learning. Unlike exis...

ID: 2508.04406v1 cs.CV, cs.AI

arXiv PDF

📄 Zero-Residual Concept Erasure via Progressive Alignment in Text-to-Image Model

2025-08-09

Авторы:

Hongxu Chen, Zhen Wang, Taoran Mei, Lin Li, Bowei Zhu, Runshi Li, Long Chen

**Резюме** В статье предлагается метод **ErasePro** для решения проблемы **Concept Erasure** в моделях текст-к-изображению. Задача Concept Erasure заключается в том, чтобы предотвратить модель от генерации контента, связанного с нежелательными семантическими понятиями (target concepts). Основные ограничения существующих методов заключаются в том, что они могут оставлять в мешанине неполностью удаленные понятия (недостаточная гармонизация) и приводят к потере качества генерации, сконцентрировав параметрические изменения в небольших глубинных слоях модели. **ErasePro** предлагает решение этих проблем с помощью **строгого нулевого-резидуального ограничения** в оптимизационной задаче, обеспечивая полное удаление нежелательных понятий, и **прогрессивной стратегией обновления**, где изменения параметров происходят слой за слоем, начиная от глубинных до слоев более высокого уровня. Это позволяет снизить влияние на качество генерации и улучшить точность удаления. Эмпирические исследования подтвердили, что ErasePro эффективно решает задачу concept erasure во всех тестах (instance, art style и nudity erasure). Результаты показывают, что этот подход является более точным и сохраняет более высокое качество генерации.

Annotation:

Concept Erasure, which aims to prevent pretrained text-to-image models from generating content associated with semantic-harmful concepts (i.e., target concepts), is getting increased attention. State-of-the-art methods formulate this task as an optimization problem: they align all target concepts with semantic-harmless anchor concepts, and apply closed-form solutions to update the model accordingly. While these closed-form methods are efficient, we argue that existing methods have two overlooked...

ID: 2508.04472v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Learning Robust Intervention Representations with Delta Embeddings

2025-08-09

Авторы:

Panagiotis Alimisis, Christos Diou

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование каузального представления данных (causal representation learning) является одним из ключевых направлений в области машинного обучения, направленного на повышение устойчивости и общей эффективности моделей. Основная идея каузального представления заключается в том, что модели могут лучше обобщаться и быть более устойчивыми к изменениям в данных, если они учитывают причинные связи между элементами сцены. Традиционно, большинство исследований в этой области сосредоточены на выявлении и представлении переменных сцены в рамках каузальной модели, однако меньше внимания уделялось представлению самих вмешательств (interventions) в пространстве латентных переменных (latent space). Взаимодействия между элементами сцены и внешними действиями (такими как движения объектов, изменения положения или других факторов) часто требуют специальных методов для их представления и обработки. Однако, существующие методы часто не могут эффективно обрабатывать ситуации, когда данные распределены неравномерно или когда происходят изменения в незначительных частях сцены. Это может привести к снижению качества модели при обработке данных, которые не входят в оригинальный набор данных (out-of-distribution, OOD). В этой работе авторы предлагают решение этой проблемы, сосредоточившись на представлении вмешательств (interventions) в пространстве латентных переменных. Они предлагают использовать "Causal Delta Embeddings", которые характеризуются свойством инвариантности к визуальной сцене (то есть, они не зависят от конкретных визуальных признаков сцены) и являются разреженными (sparse) в отношении причинных переменных, которые они влияют. Эта концепция позволяет модели концентрироваться только на тех частях сцены, которые изменяются в результате вмешательства, улучшая тем самым общую устойчивость модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод для представления вмешательств (interventions) в пространстве латентных переменных, который они называют "Causal Delta Embeddings". Это представление основывается на идее того, что вмешательство может быть описано как изменение в пространстве латентных переменных, которое затрагивает только те переменные, которые были изменены в результате вмешательства. Это позволяет создавать компактное и инвариантное представление вмешательства, которое не зависит от конкретных визуальных признаков сцены. Ключевой момент метода заключается в том, что Causal Delta Embeddings построены таким образом, чтобы они были разреженными (sparse), то есть затрагивали только те причинные переменные, которые были изменены в результате вмешательства. Это позволяет уменьшить дименensionality и сделать представление более эффективным. Метод включает в себя несколько этапов: 1. **Извлечение латентных переменных**: Из исходных изображений извлекаются латентные переменные, которые представляют собой компактное представление сцены. 2. **Обучение Causal Delta Embeddings**: На основе извлеченных латентных переменных модель обучается находить изменения, вызванные вмешательством. Это достигается путем минимизации функции потерь, которая штрафует за несоответствие между изменениями в латентном пространстве и реальными изменениями, вызванными вмешательством. 3. **Инвариантность к визуальным признакам**: Метод обеспечивает, чтобы Causal Delta Embeddings были инвариантны к визуальным признакам сцены, что позволяет модели лучше обобщаться на новые данные. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на наборе данных из Causal Triplet challenge, который включает в себя изображения пар, где вмешательство приводит к изменениям в сцене. Эксперименты проводились в двух режимах: синтетический (synthetic) и реальный (real-world). В синтетическом режиме, где изменения в сцене были хорошо контролируемыми, метод показал значительное улучшение по сравнению с базовыми подходами. В частности, Causal Delta Embeddings показали лучшую точность в определении изменений, вызванных вмешательством, даже в случаях, когда данные были сильно изменены. В реальном режиме, где данные были получены из реальных сцен, метод также показал высокую эффективность. Он превосходил базовые модели в выявлении изменений, вызванных вмешательством, даже когда сцены были сложными и содержали множество деталей. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в различных областях, где необходимо учитывать причинные связи между элементами сцены. Он может быть использован в таких приложениях, как анализ видеопотоков, обработка изображений, а также в системах автоматического управления, где важно понимать, как различные действия влияют на систему. Одним из главных преимуществ этого метода является его способность обрабатывать данные вне оригинального набора данных (OOD), что делает его особенно полезным в ситуациях, когда модели должны работать в непредвиденных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что Causal Delta Embeddings являются эффективным инструментом для представления вмешательств в пространстве латентных переменных, что приводит к значительному улучшению общей устойчивости модели. Будущие исследования могут фокусироваться на дальнейшем улучшении этого подхода, включая исследование более сложных сцен и применение этого метода к другим областям, таким как анализ видео и решение задач в области робототехники.

Annotation:

Causal representation learning has attracted significant research interest during the past few years, as a means for improving model generalization and robustness. Causal representations of interventional image pairs, have the property that only variables corresponding to scene elements affected by the intervention / action are changed between the start state and the end state. While most work in this area has focused on identifying and representing the variables of the scene under a causal mode...

ID: 2508.04492v1 cs.CV, cs.AI

arXiv PDF

📄 CoMAD: A Multiple-Teacher Self-Supervised Distillation Framework

2025-08-09

Авторы:

Sriram Mandalika, Lalitha V

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы самостоятельное обучение (self-supervised learning, SSL) стало ключевым подходом в области глубокого обучения, позволяющим извлекать мощные представления из неразмеченных данных. Техники такие, как контрастное обучение (contrastive learning) и маскированное моделирование изображений (masked image modeling), демонстрируют высокую эффективность в обучении моделей на больших неразмеченных датасетах. Однако эти подходы обычно применяются в изолированном режиме, что ограничивает их потенциал извлечения дополнительных семантических и контекстуальных приоритетов. Кроме того, модели, обученные в рамках таких парадигм, часто имеют большой размер и требуют значительных вычислительных ресурсов, что делает их непригодными для развертывания в условиях ограниченных ресурсов. Проблема заключается в том, что существующие методы не эффективно используют взаимодополняющие знания, которые могут быть извлечены из различных самостоятельно обученных моделей. Большинство из них фокусируются на отдельных методах, таких как MAE, MoCo v3 или iBOT, не учитывая возможности их комбинации. Также существует необходимость в разработке компактных и эффективных моделей, которые могут эффективно использовать знания из нескольких источников, не увеличивая сложность и размер модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Рассмотренный метод, Consensus-oriented Masked Distillation (CoMAD), предлагает новую парадигму для компактного и эффективного переноса знаний из нескольких самостоятельно обученных моделей в одну компактную студенческую сеть. CoMAD основывается на использовании трех предобученных Vision Transformers (ViT-Base) – MAE, MoCo v3 и iBOT – которые представляют собой модели с различными семантическими и контекстуальными приоритетами. Основная идея CoMAD заключается в использовании асимметричного маскирования (asymmetric masking). В этом подходе студенческая модель видит только 25% патчей изображения, в то время как каждая из преподавательских моделей получает уникальную, прогрессивно легкую маску. Это заставляет студенческую модель выполнять интерполяцию пропущенных функций в более богатом контексте. Для выравнивания выходных представлений преподавателей с пространством студенческой модели используются линейные адаптеры и слои нормализации. Затем, для комбинации представлений из разных преподавателей применяется метод joint consensus gating, который основывается на косинусной схожести (cosine affinity) и согласованности между преподавателями (inter-teacher agreement). Это позволяет дать большее весовое значение токенам, которые имеют высокую схожесть и согласованность между преподавателями. Студенческая модель обучается с помощью двухуровневого KL-дивергенции (dual-level KL divergence), который учитывает видимые токены и восстановленные карты признаков. Это позволяет захватить как локальную, так и глобальную структуру данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на датасете ImageNet-1K, где компактная студенческая модель ViT-Tiny, обученная с помощью CoMAD, достигла точности 75.4% Top-1, что на 0.4% выше результатов предыдущего лучшего метода. Дополнительно, CoMAD показал высокую эффективность в задачах плотного прогнозирования (dense prediction), таких как сегментация и детекция объектов. На датасете ADE20K, CoMAD достиг 47.3% mIoU, что является новым рекордом для компактных моделей в задачах сегментации. Также, на датасете MS-COCO, CoMAD показал результаты в 44.5% box average precision и 40.5% mask average precision, опять же превосходя предыдущие результаты. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CoMAD предлагает практически значимые преимущества в области компактных и эффективных моделей для реального мира. Благодаря его способности объединять знания из нескольких предобученных моделей в единую компактную модель, CoMAD может быть использован в различных приложениях, где критичны ограничения по вычислительным ресурсам, таких как мобильные устройства, IoT-устройства или автономные системы. Кроме того, CoMAD может быть использован для улучшения производительности в задачах, требующих высокой точности, таких как сегментация изображений, детекция объектов и классификация. Его эффективность в работе с небольшими моделями делает его пригодным для использования в областях, где важно сочетание высокой точности и низких вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CoMAD является перспективным подходом к компактному и эффективному переносу знаний из нескольких самостоятельно обученных моделей. Он показывает высокую эффективность в различных задачах, от классификации изображений до плотного прогнозирования. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности и компактности моделей, а также на расширении его применимости к другим доменам, таким как видеоанализ и естественный язык.

Annotation:

Numerous self-supervised learning paradigms, such as contrastive learning and masked image modeling, learn powerful representations from unlabeled data but are typically pretrained in isolation, overlooking complementary insights and yielding large models that are impractical for resource-constrained deployment. To overcome these challenges, we introduce Consensus-oriented Masked Distillation (CoMAD), a lightweight, parameter-free framework that unifies knowledge from multiple current state-of-t...

ID: 2508.04816v1 cs.CV, cs.AI

arXiv PDF

📄 Revealing Temporal Label Noise in Multimodal Hateful Video Classification

2025-08-09

Авторы:

Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимедийный контент в сети Интернет растет с быстрым темпом, что приводит к широкому распространению ненавистной речи (hate speech). Это создает серьезные социальные и регуляторные вызовы. В последние годы было достигнуто значительное прогрессирование в области мультимодальной детекции ненавистных видео, однако большинство существующих подходов основываются на грубых, видео-уровневых аннотациях, которые игнорируют временную гранулярность ненавистного контента. Это приводит к существенному шуму в метках (label noise), так как видео, отмеченные как ненавистные, часто содержат длительные сегменты, не относящиеся к ненавистной речи. Эта проблема особенно критична, потому что ненавистная речь часто выражается в контекстно-зависимом и временно-непрерывном формате. Грубые аннотации могут вводить в заблуждение модели, препятствуя точной классификации и пониманию контекста. Исследование, посвященное временным динамикам и характеристикам ненавистного контента, необходимо для создания более надежных и интерпретируемых моделей. В этой работе авторы предлагают файн-гранулярный подход для анализа временного шума в метках. Они используют временные метки (timestamps) для того, чтобы изолировать явно ненавистные сегменты из видео, а затем проводят анализ распределения и характеристик ненавистного и не-ненавистного контента. Целью этого исследования является выявление степени семантического перекрытия и путаницы, введенной грубыми аннотациями на уровне видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, которая включает в себя точное отсечение (trimming) видео с ненавистным контентом из датасетов HateMM и MultiHateClip. Это достигается путем использования аннотированных временных меток, которые позволяют изолировать только те сегменты, которые содержат явно ненавистную речь. Затем эти отрезки анализируются с точки зрения их семантических характеристик и распределения. Этот подход позволяет выявить степень перекрытия между ненавистным и не-ненавистным контентом, а также уровень путаницы, который вводится грубыми, видео-уровневыми аннотациями. Далее, авторы проводят контролируемые эксперименты для изучения влияния временного шума на модели классификации. Они демонстрируют, что шум во временных метках фундаментально изменяет границы принятия решений моделей и снижает уверенность в классификации. Это подчеркивает важность временно-зависимых моделей и бенчмарков для улучшения точности и интерпретируемости классификации ненавистной речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух датасетах: HateMM и MultiHateClip. Они используют аннотированные временные метки для изоляции явно ненавистных сегментов видео. Затем они проводят анализ этих сегментов, выявляя распределение и характеристики как ненавистного, так и не-ненавистного контента. Результаты показывают высокий уровень семантического перекрытия между этими категориями, что подтверждает наличие значительного шума в метках. Кроме того, авторы проводят контролируемые эксперименты, в которых они анализируют влияние временного шума на процесс классификации. Они демонстрируют, что шум во временных метках приводит к существенным изменениям в границах принятия решений моделей и снижению уверенности в классификации. Эти результаты подтверждают, что ненавистная речь является контекстно-зависимой и требует временно-зависимых моделей для более точного анализа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Настоящее исследование имеет значительное практическое значение для разработки более эффективных методов детекции и классификации ненавистной речи в мультимодальных видео. Оно подчеркивает необходимость разработки моделей, которые учитывают временную гранулярность и контекстную зависимость ненавистной речи. Такие модели могут быть использованы для улучшения точности классификации, а также для повышения интерпретируемости и надежности систем детекции ненавистной речи. Кроме того, данное исследование может быть применено в областях регулирования и модернизации социальных медиа-платформ, где необходимо эффективное обнаружение и модерирование ненавистного контента. Преимуществами этого подхода являются улучшенная точность, более глубокое понимание временных динамик и потенциальное снижение ложноположительных результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Выводы данного исследования показывают, что временной шум в метках имеет фундаментальное влияние на процесс классификации ненавистного контента в мультимодальных видео. Авторы выделяют необходимость разработки более точных и временно-зависимых моделей, которые могут лучше учитывать контекст и временную непрерывность ненавистной речи. Будущие исследования могут сосредоточиться на разработке более продвинутых алгоритмов, способных обрабатывать временной шум и улучшать точность классификации. Также может быть полезно создание новых бенчмарков, которые будут учитывать временную гранулярность ненавистного контента. Это может привести к более надежным и интерпретируемым системам детекции ненавистной речи.

Annotation:

The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such labe...

ID: 2508.04900v1 cs.CV, cs.AI

arXiv PDF

1
2
221
222
223
224
225
227
228

Показано 2221 - 2230 из 2274 записей