📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence

2025-10-25

Авторы:

Jiahao Meng, Xiangtai Li, Haochen Wang, Yue Tan, Tao Zhang, Lingdong Kong, Yunhai Tong, Anran Wang, Zhiyang Teng, Yujing Wang, Zhuochen Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Most video reasoning models only generate textual reasoning traces without indicating when and where key evidence appears. Recent models such as OpenAI-o3 have sparked wide interest in evidence-centered reasoning for images, yet extending this ability to videos is more challenging, as it requires joint temporal tracking and spatial localization across dynamic scenes. We introduce Open-o3 Video, a non-agent framework that integrates explicit spatio-temporal evidence into video reasoning, and care...

ID: 2510.20579v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 Improving Temporal Understanding Logic Consistency in Video-Language Models via Attention Enhancement

2025-10-11

Авторы:

Chengzhi Li, Heyan Huang, Ping Jian, Zhen Yang, Yaning Tian

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Large language models (LLMs) often generate self-contradictory outputs, which severely impacts their reliability and hinders their adoption in practical applications. In video-language models (Video-LLMs), this phenomenon recently draws the attention of researchers. Specifically, these models fail to provide logically consistent responses to rephrased questions based on their grounding outputs. However, the underlying causes of this phenomenon remain underexplored. In this work, we adopt an inte...

ID: 2510.08138v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 SFANet: Spatial-Frequency Attention Network for Deepfake Detection

2025-10-08

Авторы:

Vrushank Ahire, Aniruddh Muley, Shivam Zample, Siddharth Verma, Pranav Menon, Surbhi Madan, Abhinav Dhall

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Detecting manipulated media has now become a pressing issue with the recent rise of deepfakes. Most existing approaches fail to generalize across diverse datasets and generation techniques. We thus propose a novel ensemble framework, combining the strengths of transformer-based architectures, such as Swin Transformers and ViTs, and texture-based methods, to achieve better detection accuracy and robustness. Our method introduces innovative data-splitting, sequential training, frequency splitting,...

ID: 2510.04630v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 From Satellite to Street: A Hybrid Framework Integrating Stable Diffusion and PanoGAN for Consistent Cross-View Synthesis

2025-10-01

Авторы:

Khawlah Bajbaa, Abbas Anwar, Muhammad Saqib, Hafeez Anwar, Nabin Sharma, Muhammad Usman

## Контекст Стрит-виев изображения стали неотъемлемой частью коллекции геоспациальных данных и анализа городских ландшафтов. Они обеспечивают возможность извлечь ценные сведения, улучшающие принятие решений в различных областях. Однако синтез изображений стрит-виев из спутниковых снимков характеризуется значительными проблемами, включая различия в аппаратуре, различные углы обзора и погрешности в масштабировании. Настоящая работа предлагает развитие гибридного подхода, который использует методы текстово-визуального моделирования с глубинным обучением и кондоциональные условные модели генетического атаки, чтобы обеспечить консистентность при синтезе изображений с разных плоскостей (спутникового и стрит-виев). ## Метод Предлагаемый подход объединяет Stable Diffusion и PanoGAN в билинейную архитектуру с двойными ветвями. Stable Diffusion выступает в качестве основного компонента, который обеспечивает генерацию стилизованных стрит-виев, а PanoGAN используется для создания панорамных перспективных изображений. Для повышения консистентности между двумя моделями вводится стратегия слияния, которая складывает сильные стороны каждой модели. Это позволяет улучшить геометрическую точность и качество визуального отображения. Выборка данных для обучения и тестирования включает в себя Cross-View USA (CVUSA), одной из самых трудных выборок для задачи синтеза между разными плоскостями. ## Результаты Исследования показали, что предложенный подход существенно превосходит уникальные модели Stable Diffusion на различных метриках, в том числе точность, цветовое соответствие и геометрическое согласование. Он также показал сравнительную эффективность с лучшими методами на основе GAN, достигая реалистичных и консистентных изображений стрит-виев. Эксперименты показали, что модель сохраняет тонкие детали, такие как полосы, дорожные узоры, атмосферные элементы, включая облака. ## Значимость Предложенный подход может быть использован в различных областях, включая геоспациальный анализ, планирование городов и виртуальную реальность. Он предлагает выгоды в том, что может генерировать качественное и подробное изображение, которое может быть использовано для повышения точности и надежности в задачах, основанных на стрит-виев изображениях. Это может повлиять на развитие технологий, таких как виртуальные туры, моделирование городских ландшафтов и улучшение анализа данных. ## Выводы Предложенный гибридный подход, комбинирующий Stable Diffusion и PanoGAN, достигает высокой точности и качества в синтезе между разными плоскостями. Он успешно устраняет проблемы ма

Annotation:

Street view imagery has become an essential source for geospatial data collection and urban analytics, enabling the extraction of valuable insights that support informed decision-making. However, synthesizing street-view images from corresponding satellite imagery presents significant challenges due to substantial differences in appearance and viewing perspective between these two domains. This paper presents a hybrid framework that integrates diffusion-based models and conditional generative ad...

ID: 2509.24369v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 WAVECLIP: Wavelet Tokenization for Adaptive-Resolution CLIP

2025-09-27

Авторы:

Moshe Kimhi, Erez Koifman, Ehud Rivlin, Eli Schwartz, Chaim Baskin

#### Контекст На сегодняшний день, модели глубокого обучения, особенно в области зрительных задач, требуют больших вычислительных ресурсов. Многие из них работают с фиксированной разрешенностью входных данных, что ограничивает их эффективность при работе с изображениями различных размеров и качеств. Наличие необходимости учитывать все такие факторы подталкивает к разработке моделей, способных адаптироваться к задаче в любом времени. Одной из таких задач является adaptive resolution inference в CLIP (Contrastive Language-Image Pretraining). CLIP — мощная модель, которая признана эффективной в широком кругу задач зрительного понимания. Однако, возникают проблемы, связанные с расходом ресурсов на вычисления при работе с изображениями разного разрешения. Модель WAVECLIP предлагает решение этой проблемы, обеспечивая эффективную инференцию с выбором уровня разрешения "на лету". #### Метод WAVECLIP является первой моделью, использующей wavelet-based tokenization для adaptive resolution inference в CLIP. В этой модели изображения не обрабатываются как патчи, а представляются в виде многоуровневого wavelet-преобразования. Последовательность wavelet-составляющих (LL, LH, HL, HH) соответствуют уровням разрешения, начиная с конечного, и заканчивая полным разрешением. Затем изображение передается через сеть со слоями wavelet-трансформации и автокодировщиком. Архитектура также включает key-value caching и causal cross-level attention, что позволяет модели разделять усиленные вычисления только по мере необходимости. Эта структура позволяет WAVECLIP стимулировать вычисление только уровней, где это необходимо, что экономит вычислительные ресурсы. #### Результаты WAVECLIP была проверена в целом спектре зрительных задач, включая zero-shot classification. Для этих целей, модель использовала механизм gated confidence, который позволяет выполнять вычисления только при уверенности в точности. Результаты показали, что модель WAVECLIP достигает высокой точности с значительной экономией ресурсов по сравнению с другими моделями. Например, при использовании той же архитектуры, WAVECLIP реализует adaptive resolution inference, что позволяет выбирать степень разрешения и эффективность вычислений. Это демонстрирует преимущество модели в ситуациях, где требуется высокая скорость вывода при ограниченных ресурсах. #### Значимость WAVECLIP имеет широкие области применения в компьютерном зрении, где необходимо обрабатывать изображения разных размеров и качеств, таких как медицинские изображения, снимки с авиационных спутников, видеонаблюдение и т.д. Для таких задач, модель WAVECLIP может значительно сократить вычислительные затраты, в то же время сохраняя высокую точность. Благодаря своей универсальности, WAVECLIP может быть легко интегрирована в различные системы

Annotation:

We introduce WAVECLIP, a single unified model for adaptive resolution inference in CLIP, enabled by wavelet-based tokenization. WAVECLIP replaces standard patch embeddings with a multi-level wavelet decomposition, enabling the model to process images coarse to fine while naturally supporting multiple resolutions within the same model. At inference time, the model begins with low resolution tokens and refines only when needed, using key-value caching and causal cross-level attention to reuse comp...

ID: 2509.21153v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 LEAF-Mamba: Local Emphatic and Adaptive Fusion State Space Model for RGB-D Salient Object Detection

2025-09-25

Авторы:

Lanhu Wu, Zilin Gao, Hao Fei, Mong-Li Lee, Wynne Hsu

## Контекст RGB-D salient object detection (SOD) — это задача, призванная определить наиболее выразительные объекты в сцене, используя краткородименсионные (RGB) и глубинные (D) сигналы. Она широко применяется в сферах, таких как видеонаблюдение, виртуальная реальность и робототехника. Однако существующие подходы часто сталкиваются с проблемами. Методы на основе CNNs ограничиваются ресипросными полями и показывают ограниченную локальную семантику. В то же время, Vision Transformers, хотя и обладают широким полем вида, страдают от высокой вычислительной сложности, что создает проблемы в балансировке производительности и эффективности. Недавно, state space models (SSM), такие как Mamba, показали свой потенциал в моделировании длинных зависимостей с линейной сложностью. Однако, применение SSM непосредственно к RGB-D SOD может привести к недостатку локальных семантик и недостаточной интеграции кросс-модальности. Данное исследование стремится решить эти проблемы, предлагая новую модель LEAF-Mamba. ## Метод LEAF-Mamba основывается на Mamba, но включает два основных компонента, способствующих улучшению производительности. 1) **Локальный эмпатический модуль SSM (LE-SSM)**: он предназначен для построения многомерных зависимостей внутри каждой модальности (RGB и D). Это достигается путем введения эмпатического признака, который выделяет важные локальные детали. 2) **СМ-адаптивный модуль слияния (AFM)**: это модуль, работающий на основе SSM, который обеспечивает дополнительную интерактивность между RGB и D-модальностями. Это позволяет добиться более устойчивого и надежного слияния кросс-модальности. Архитектура LEAF-Mamba адаптивно регулирует локальные зависимости и межмодальные взаимодействия, обеспечивая более точное и эффективное определение выделенных объектов. ## Результаты Исследования проводились на нескольких ключевых RGB-D SOD датасетах, включая NJU2K, SIP, DUT-RGBD и RT-RGBD. На проведенных экспериментах LEAF-Mamba показала значительное превосходство по метрикам, таким как S-Measure, E-Measure и MAE, по сравнению с 16 современными методами. Например, на датасете NJU2K LEAF-Mamba показала S-Measure 0,923, что является наилучшим результатом среди конкурентов. Также, отмечена высокая эффективность, показанная временем работы на GPU. Дополнительно, LEAF-Mamba демонстрирует отличные результаты на задаче RGB-T SOD (RGB-Thermal), указывая на высокую гибкость и общую применимость. ## Значимость Исследование имеет большое значение в сферах, где необходима точная и эффективная идентификация выделенных объектов. Это включает видеонаблюдение, видеоредактирование, интерактивные системы, а также робототехнику. У

Annotation:

RGB-D salient object detection (SOD) aims to identify the most conspicuous objects in a scene with the incorporation of depth cues. Existing methods mainly rely on CNNs, limited by the local receptive fields, or Vision Transformers that suffer from the cost of quadratic complexity, posing a challenge in balancing performance and computational efficiency. Recently, state space models (SSM), Mamba, have shown great potential for modeling long-range dependency with linear complexity. However, direc...

ID: 2509.18683v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 AToken: A Unified Tokenizer for Vision

2025-09-22

Авторы:

Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

## Контекст Область исследования рассматривает проблемы рендеринга и семантического понимания визуальных данных в различных модальностях, таких как изображения, видео и 3D-ресурсы. Существующие методы обычно сосредоточены на одной модальности или задаче, что приводит к ограниченности и неэффективности в многомодальных сценариях. Мотивацией для разработки AToken является необходимость в единой модели, которая могла бы обеспечить высокую точность реконструкции и семантическое понимание во всех визуальных модальностях. Это позволит создавать универсальные многомодальные AI-системы, объединяющие в себе задачи распознавания и генерации визуальных данных. ## Метод AToken представляет собой первый единообразный визуальный токенизатор, который объединяет задачи реконструкции и семантического понимания в разных визуальных модальностях. Он использует полностью трансформерный подход с 4D-ротационными позиционными плотностями (4D rotary position embeddings), что позволяет обрабатывать визуальные данные различных разрешений и продолжительности. Для обеспечения стабильного обучения, вместо адверсариальных функций, используется комбинация целевых функций на основе перцептуальных показателей и грамматических матриц. Обучение происходит по курсиву, начиная с отдельных изображений, затем переходя к видео и 3D-ресурсам. Это позволяет AToken поддерживать как непрерывные, так и дискретные визуальные токены. ## Результаты Используя широкий набор экспериментов, AToken показал свою эффективность на различных показателях. Для изображений, он достиг 0.21 rFID и 82.2% точности классификации по ImageNet. Для видео, он показал 3.01 rFVD и 40.2% точности поиска в MSRVTT. Для 3D-ресурсов, он достиг 28.28 PSNR и 90.9% точности классификации. Эти результаты показывают высокую точность в реконструкции и понимании визуальных данных во всех модальностях. AToken также доказал свою эффективность в задачах генерации визуальных данных, таких как текстовое построение видео и синтез 3D-ресурсов из изображений, а также в задачах многомодальных глубоких сетей. ## Значимость AToken может применяться в различных областях, включая создание многомодальных AI-систем, искусственного генерирования визуальных данных и понимание таких данных. Он обеспечивает высокую точность реконструкции и понимания, что делает его подходом к развитию будущих многомодальных систем. Его прогрессивный подход и универсальная архитектура делает AToken подходящим для обработки сложных визуальных задач и для развития широкого круга приложений. ## Выводы AToken достиг высокой точности в реконструкции и по

Annotation:

We present AToken, the first unified visual tokenizer that achieves both high-fidelity reconstruction and semantic understanding across images, videos, and 3D assets. Unlike existing tokenizers that specialize in either reconstruction or understanding for single modalities, AToken encodes these diverse visual inputs into a shared 4D latent space, unifying both tasks and modalities in a single framework. Specifically, we introduce a pure transformer architecture with 4D rotary position embeddings...

ID: 2509.14476v2 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 AToken: A Unified Tokenizer for Vision

2025-09-20

Авторы:

Jiasen Lu, Liangchen Song, Mingze Xu, Byeongjoo Ahn, Yanjun Wang, Chen Chen, Afshin Dehghan, Yinfei Yang

#### Контекст Актуальность исследования возрастает в условиях развития многомодальных систем, которым требуется обрабатывать разнообразные визуальные данные, такие как изображения, видео и 3D-сцены. Несмотря на прогресс в области визуальных токенизаторов, существуют значительные проблемы, связанные с ограниченной модельной гибкостью и эффективностью. Текущие токенизаторы обычно ограничиваются одной моделью для каждой модальности, что приводит к неэффективности и недостаточной семантической точности при обработке многомодальных входных данных. Это способствует необходимости создания универсальной модели, которая могла бы объединить в себе множество задач и модальностей. #### Метод AToken представляет собой инновационный подход к токенизации, основанный на преобразовательной архитектуре. Он вводит 4D-косинусные позиционные признаки, которые позволяют обрабатывать визуальные данные разных размерностей, включая изображения, видео и 3D-активы. Для обеспечения стабильной обученности и высокого качества реконструкции введена новая структура функций потерь, основанная на перцептивных и грамматических матрицах. Эта модель успешно объединяет задачи реконструкции и семантического понимания в рамках одной системы, обладая универсальной архитектурой, которая может быть применена к разным видам визуальных данных. #### Результаты Работа проводилась на основе различных наборов данных, включая ImageNet для изображений, MSRVTT для видео, а также наборы данных для 3D-активов. Результаты показывают, что AToken достигает необычно высокого качества реконструкции с низким rFID (0.21 для изображений), высокой семантической точностью для видео (32.6% MSRVTT) и высокой PSNR для 3D-данных (28.19). Эти результаты свидетельствуют о возможности модели не только токенизировать, но и эффективно работать в многомодальных задачах, таких как текст-в-видео, текст-в-3D, и даже в обучении многомодальных глубоких сетей. #### Значимость AToken может применяться в различных областях, таких как генерация визуальных данных, многомодальные глубокие сети, а также в области создания многомодальных моделей естественного языка. Оно предоставляет способность для многомодальных моделей обрабатывать визуальные данные с высокой точностью и эффективностью, что значительно расширяет спектр приложений в многомодальном машинном обучении. #### Выводы Работа показывает, что AToken является первым в своем роде универсальным токенизатором, который может обрабатывать визуальные данные различных модальностей. Он подтверждает значимость многомодальных токенизаторов в современных многомодальных системах AI. В будущем, направ

Annotation:

ID: 2509.14476v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 SoccerHigh: A Benchmark Dataset for Automatic Soccer Video Summarization

2025-09-05

Авторы:

Artur Díaz-Juan, Coloma Ballester, Gloria Haro

## Контекст Видео-суммирование — это задача, которая заключается в извлечении ключевых моментов из длинных видеозаписей для создания краткой, но информативной суммарной версии. Одной из наиболее распространенных областей применения этой задачи является спорт, где выделенные моменты (highlight reels) позволяют показать наиболее важные события матча, реакции игроков и конкретные контекстуальные моменты. Автоматическое генерирование таких суммарий может значительно упростить работу спортивных редакторов, сократив время и усилия, необходимые для выделения ключевых моментов. Однако существующая проблема заключается в отсутствии доступных для общественности данных, которые могли бы поддерживать развитие эффективных моделей для генерирования выделенных моментов в спортивных видео. Для устранения этой проблемы в данной работе представлена новая, кураторски созданная база данных SoccerHigh, которая предназначена для задачи автоматического суммирования видео в сфере спорта, а именно, в футболе. ## Метод База данных SoccerHigh была создана на основе широко известной базы данных SoccerNet и включает в себя 237 записанных матчей из трех крупных лиг — Испании, Франции и Италии. Для каждого матча были извлечены границы кадров (shot boundaries), что позволяет разделить видео на отдельные моменты. Базовая модель, предложенная в работе, была специально разработана для этой задачи и использует техники нейронных сетей для выделения ключевых моментов в видео. Для более точной оценки качества генерируемых суммариев была разработана новая метрика, учитывающая ограничение длины каждого извлеченного момента. Эта метрика позволяет провести более строгий и объективный анализ результатов. ## Результаты Используя предложенную базу данных SoccerHigh, была проведена крупномасштабная экспериментальная часть, в которой была оценена эффективность базовой модели. Основной показатель — F1-меру — для тестовой выборки составил 0.3956. Это свидетельствует о начальной эффективности модели в выделении ключевых моментов. Более того, новая метрика позволила повысить точность и четкость оценки, учитывая ограничение длины каждого выделенного момента. Это делает разработанную метрику более целесообразной для оценки моделей, специально разработанных для генерирования выделенных моментов в спортивных видео. ## Значимость Область применения данной базы данных и разработанного подхода очень широка. Она может быть использована в сфере спортивных медиа, где выделенные моменты играют ключевую роль в создании хайлайтов матчей. Благодаря разработанной модели, можно сократить время и усилия, необходимые для выделения ключевых моментов, что позволит экономить рес

Annotation:

Video summarization aims to extract key shots from longer videos to produce concise and informative summaries. One of its most common applications is in sports, where highlight reels capture the most important moments of a game, along with notable reactions and specific contextual events. Automatic summary generation can support video editors in the sports media industry by reducing the time and effort required to identify key segments. However, the lack of publicly available datasets poses a ch...

ID: 2509.01439v1 cs.CV, cs.AI, cs.MM

arXiv PDF

📄 FakeParts: a New Family of AI-Generated DeepFakes

2025-08-30

Авторы:

Gaetan Brison, Soobash Daiboo, Samy Aimeur, Awais Hussain Sani, Xi Wang, Gianni Franchi, Vicky Kalogeiton

## Контекст Область исследования включает развитие глубоких искусственных нейронных сетей (ДИНС) для создания и обнаружения глубоких подделок (deepfakes) — технологий, позволяющих генерировать реалистичные изображения и видео. Одной из основных проблем является развитие методов, способных обнаруживать поддельные видео, порожденные алгоритмами глубокого обучения. Актуальность работы связана с ростом числа лживых видео, используемых в массовых средствах массовой информации, социальных сетях и даже юридических процессах. Недостаток эффективных алгоритмов обнаружения детонаций в видео ставит под угрозу безопасность и доверие к искусственным технологиям. ## Метод Работа предлагает FakeParts, новую классификацию детонаций в видео, характеризующуюся скрытыми, локализованными изменениями в определенных областях изображения или временных интервалах. Методология включает в себя создание FakePartsBench — большого датасета, содержащего порядка 25 тысяч видео, полностью аннотированных на уровне пикселей и кадров. Данные использовались для тренировки и оценки модели, включая тестирование современных методов обнаружения deepfakes. Архитектура основывается на нейронных сетях трансформеров (Transformer-based models), которые анализируют поток видео в трехмерной плоскости. ## Результаты Эксперименты показали, что FakeParts обнаруживаются менее эффективно стандартными методами обнаружения deepfakes. Обнаружена снижение точности человеческого распознавания в 30%, а также понижение эффективности автоматических моделей. Датасет FakePartsBench позволил выявить слабые места текущих моделей и подтвердить необходимость развития методов, ориентированных на обнаружение локализованных детонаций. ## Значимость FakeParts и FakePartsBench могут применяться в различных технологических сферах, таких как безопасность информации, медиа-анализ и проверка достоверности видео. Они обеспечивают новые возможности для развития более устойчивых алгоритмов обнаружения deepfakes. Благодаря новому классу детонаций, работа направляет исследователей на создание методов, способных более эффективно различать глубокие подделки и исключить поддельные сигналы. ## Выводы Работа представляет новую классификацию глубоких подделок — FakeParts, и определяет FakePartsBench как идеальный инструмент для их исследования. Основные достижения включают в себя создание первого большого датасета для проверки методов обнаружения локализованных детонаций и выявление уязвимостей текущих моделей. Будущие исследования будут сфокусированы на развитии более развитых алгоритмов, которые смогут эффективно рас

Annotation:

We introduce FakeParts, a new class of deepfakes characterized by subtle, localized manipulations to specific spatial regions or temporal segments of otherwise authentic videos. Unlike fully synthetic content, these partial manipulations, ranging from altered facial expressions to object substitutions and background modifications, blend seamlessly with real elements, making them particularly deceptive and difficult to detect. To address the critical gap in detection capabilities, we present Fake...

ID: 2508.21052v1 cs.CV, cs.AI, cs.MM

arXiv PDF

Показано 11 - 20 из 26 записей