📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Shaobin Zhuang, Yiwei Guo, Canmiao Fu, Zhipeng Huang, Zeyue Tian, Ying Zhang, Chen Li, Yali Wang

**Резюме** Визуальные токенизаторы играют ключевую роль в задачах визуальной генерации, но существующие модели часто сталкиваются со сложностями в балансировке компрессии и высокой точности восстановления. Мы предлагаем **WeTok** — мощный токенизатор, решающий эти проблемы за счет двух ключевых инноваций. **Групповая Локальная Квантования (GQ)** позволяет эффективно уменьшить памяти и вычислительных затрат, достигая более стабильного восстановления до мелких деталей. **Генерирующее Декодирование (GD)** с добавленным шумовым представлением позволяет моделировать распределение визуальных данных с учетом токенов, обеспечивая высококачественное восстановление даже при высоких степенях компрессии. В экспериментах на ImageNet-50k WeTok показал рекордно низкие rFID-значения (0.12 при нейтральной компрессии и 3.49 при сжатии 768), превосходя конкурентов, такие как FLUX-VAE и SD-VAE. Модель WeTok демонстрирует переломный прорыв в сочетании высокой компрессии и точности восстановления, что делает ее привлекательной для применения в визуальных задачах. Код и модели доступны по ссылке.
Annotation:
Visual tokenizer is a critical component for vision generation. However, the existing tokenizers often face unsatisfactory trade-off between compression ratios and reconstruction fidelity. To fill this gap, we introduce a powerful and concise WeTok tokenizer, which surpasses the previous leading tokenizers via two core innovations. (1) Group-wise lookup-free Quantization (GQ). We partition the latent features into groups, and perform lookup-free quantization for each group. As a result, GQ can e...
ID: 2508.05599v1 cs.CV
Авторы:

Tao Sun, Oliver Liu, JinJin Li, Lan Ma

**Резюме** Работа **LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model** рассматривает проблему оценки значимости сочетаний изображений и текста в контексте двухклассовой оценки («Значимый» vs. «Не значимый»). Эта задача ключевая для оценки качества моделей генерирующих объединенные реплики, но сложна в решении из-за широкого диапазона форматов текста и субъективности определения значимости в различных сценариях. Авторы предлагают использовать мультимодальные большие языковые модели (MLLMs) как оптимальные средства для решения этой проблемы, так как они способны обрабатывать сложные текстовые форматы и использовать дополнительные задачные сведения. В ходе работы разработана LLaVA-RE — первая модель для двоичной оценки значимости изображения-текст, основанная на LLaVA-архитектуре. Модель использует подробные инструкции, набор мультимодальных примеров в контекстной обучающей выборке, что позволяет улучшить точность и универсальность решения. Проведенные эксперименты подтверждают высокую эффективность предложенного подхода. Данная работа является важной шагом в создании достоверных методов оценки значимости внутри моделей генерирующих объединенные модели текста и изображений.
Annotation:
Multimodal generative AI usually involves generating image or text responses given inputs in another modality. The evaluation of image-text relevancy is essential for measuring response quality or ranking candidate responses. In particular, binary relevancy evaluation, i.e., ``Relevant'' vs. ``Not Relevant'', is a fundamental problem. However, this is a challenging task considering that texts have diverse formats and the definition of relevancy varies in different scenarios. We find that Multimo...
ID: 2508.05602v1 cs.CV
Авторы:

Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li

Универсальная цепочка-мышлия (Uni-CoT) — это проработанная фреймворк для объединенного многомодального логического мышления, который позволяет объединить моделирование текста и изображений в одной модели. Деление логического процесса на высокоуровневую планировку (Macro-Level CoT) и низкоуровневую реализацию (Micro-Level CoT) позволяет эффективно распределить ресурсы и сократить вычислительные затраты. Эта модель использует модель распознавания и порождения изображений для анализа и генерации визуальных состояний, что обеспечивает корректное моделирование визуальных процессов. Основная инновация в Uni-CoT — внедрение структурированной подготовки модели с интерлейсом обучения на текстовых и изображениевых данных для макроуровня и многозадачного обучения для микроуровня. Эксперименты по бенчмаркам WISE, RISE и KRIS показали, что Uni-CoT показывает лидирующие результаты, доказав свою эффективность и гибкость в многомодальном логическом мышлении.
Annotation:
Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large Language Models (LLMs) by decomposing complex tasks into simpler, sequential subtasks. However, extending CoT to vision-language reasoning tasks remains challenging, as it often requires interpreting transitions of visual states to support reasoning. Existing methods often struggle with this due to limited capacity of modeling visual state transitions or incoherent visual trajectories caused by fragmented architectures. ...
ID: 2508.05606v1 cs.CV, cs.CL
Авторы:

Yuhan Zhang, Long Zhuo, Ziyang Chu, Tong Wu, Zhibing Li, Liang Pan, Dahua Lin, Ziwei Liu

**Резюме** В статье предлагается Hi3DEval — новый фреймворк для оценки 3D-генерируемого контента, который расширяет характеристики выбора объектов сравнением их локальных деталей, материальной аутентичности и пространственной когерентности. Проблема заключается в том, что существующие методы оценки ограничены, основываясь только на изображениях и не учитывая пространственные свойства генерируемых 3D-активов. Решением становится Hi3DEval, который включает ранжирование на уровне объекта и части, а также анализ компонент, таких как альбедо, насыщенность и металличность, для экспериментального оценивания качества. Для поддержки этого фреймворка, разработана Hi3DBench — большая база данных с 3D-активами и верхнекачественными 2D-аннотациями, а также система 3D-осведомленных аналитических сетей, использующих объединенные 3D-представления для обеспечения оценки стабильности в пространстве и времени. Оценки Hi3DEval показали значительное улучшение по сравнению с изображением-основными метриками, выдавая результаты, более согласующиеся с человеческими предпочтениями.
Annotation:
Despite rapid advances in 3D content generation, quality assessment for the generated 3D assets remains challenging. Existing methods mainly rely on image-based metrics and operate solely at the object level, limiting their ability to capture spatial coherence, material authenticity, and high-fidelity local details. 1) To address these challenges, we introduce Hi3DEval, a hierarchical evaluation framework tailored for 3D generative content. It combines both object-level and part-level evaluation...
ID: 2508.05609v1 cs.CV
Авторы:

Chris Careaga, Yağız Aksoy

Исследователи предлагают метод физически контролируемого переосвещения фотографий, который объединяет точность традиционного рендеринга с фотореализмом нейрографики. Основная проблема заключается в том, что существующие способы переосвещения требуют ручного настройки или неттонных данных, что ограничивает их применение в реальных сценах. Предложенное решение включает монокулярное определение геометрии и интринсических компонент сцены, позволяя пользователю определять освещение в 3D. Затем используется дифференцируемый рендеринг для реконструкции иллюминации и обучения нейронного рендерера в самостоятельном режиме. Результат — система, обеспечивающая контроль над источниками света в 3D и фотографический результат. Основные выводы: метод позволяет легко редактировать освещение в сложных сценах, делая его более точным и фотореалистичным.
Annotation:
We present a self-supervised approach to in-the-wild image relighting that enables fully controllable, physically based illumination editing. We achieve this by combining the physical accuracy of traditional rendering with the photorealistic appearance made possible by neural rendering. Our pipeline works by inferring a colored mesh representation of a given scene using monocular estimates of geometry and intrinsic components. This representation allows users to define their desired illumination...
ID: 2508.05626v1 cs.GR, cs.CV, I.4
Авторы:

Weiqi Zhang, Junsheng Zhou, Haotian Geng, Wenyuan Zhang, Yu-Shen Liu

3D Gaussian Splatting (3DGS) широко применяется для быстрого и качественного рендеринга трёхмерных объектов. Однако прямая конвертация цветных точечных множеств в Гауссовы функции остается неразрешённой проблемой. В статье предлагается GAP — новая методика, которая способна изменять точечные множества в высококачественные 3D-Гауссовы функции с помощью текстового указания. Авторы предлагают многогранный подход, включающий: оптимизацию на множестве многопрозрачных видов с помощью диффузионной модели, закрепляющуюся за поверхностью, и стратегию полного восстановления сложно-обнаруживаемых областей. Эти методы гарантируют верность геометрии и обогащают детализацию. Исследование GAP проводилось на искусственных и реальных точечных множествах, включая большие сцены. Результаты показывают, что GAP эффективно решает проблему перехода от точечных множеств к Гауссовым моделям, демонстрируя высокую точность и качество.
Annotation:
3D Gaussian Splatting (3DGS) has demonstrated its advantages in achieving fast and high-quality rendering. As point clouds serve as a widely-used and easily accessible form of 3D representation, bridging the gap between point clouds and Gaussians becomes increasingly important. Recent studies have explored how to convert the colored points into Gaussians, but directly generating Gaussians from colorless 3D point clouds remains an unsolved challenge. In this paper, we propose GAP, a novel approac...
ID: 2508.05631v1 cs.CV
Авторы:

Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai

Video object segmentation (VOS) — задача, которая предполагает выделение целевых объектов на протяжении всего видео. Несмотря на то, что современные методы показывают высокую точность на таких многоклассовых датасетах, как DAVIS и YouTube-VOS, они почти не сталкиваются с сложными реальностями, такими как малые объекты, постоянные изменения видимости, помехи и непредсказуемость сцен. Чтобы сдвинуть границы VOS в сторону более реалистичных сценариев, мы предлагаем **MOSEv2** — улучшенный датасет, предлагающий 5024 видео, более 701,976 масок и 10,074 объектов в 200 категориях. Он включает такие новые сложности, как малые объекты, туман, снег, ночное время, искажения вида, укрытые и скрытые объекты, также необходимость использовать внешние знания. Мы проводили эксперименты с 20 методами VOS и 9 трекинговых алгоритмами: все они показали существенные потери точности. Этот результат подтверждает, что улучшения на стандартных датасетах не гарантируют устойчивости в реальной жизни. Наш датасет — MOSEv2 — доступен по адресу **https://MOSE.video**.
Annotation:
Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research ...
ID: 2508.05630v1 cs.CV
Авторы:

Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren

**Резюме** Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач. Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении. Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.
Annotation:
We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajec...
ID: 2508.05635v1 cs.RO, cs.CV
Авторы:

Mohammed Talha Alam, Fahad Shamshad, Fakhri Karray, Karthik Nandakumar

**Резюме** Современные технологии лицевого распознавания (Face Recognition, FR) становятся все более распространенными, что вызывает угрозы для частной жизни и необходимость в методах защиты идентичности. Однако существующие методы анонимизации лиц не удовлетворяют ключевым требованиям биометрической защиты шаблонов: возможность отзыва, невозможность связать лицо с его владельцем и необратимость. Мы предлагаем FaceAnonyMixer — рамочную модель для генерации канцелябельных лиц, основанную на латентном пространстве предобученной генерирующей модели. Метод использует революционную концепцию: мультиобъективное смешивание латентного кода реального лица с генерируемым кодом, связанным с безопасной, отзываемой ключевой информацией. Это дает возможность получить канцелябельное лицо, сохраняющее высокую точность распознавания в существующих FR-системах, без необходимости в их модификации. Эксперименты на масштабных датасетах показали, что FaceAnonyMixer обеспечивает мощную защиту частной жизни и демонстрирует результаты, превосходящие топовые методы анонимизации лиц на 11% в точности распознавания. Исходный код доступен по адресу: https://github.com/talha-alam/faceanonymixer.
Annotation:
Advancements in face recognition (FR) technologies have amplified privacy concerns, necessitating methods that protect identity while maintaining recognition utility. Existing face anonymization methods typically focus on obscuring identity but fail to meet the requirements of biometric template protection, including revocability, unlinkability, and irreversibility. We propose FaceAnonyMixer, a cancelable face generation framework that leverages the latent space of a pre-trained generative model...
ID: 2508.05636v1 cs.CV
Авторы:

Byeonggyu Park, Hee-Yeun Kim, Byonghyok Choi, Hansang Cho, Byungkwan Kim, Soomok Lee, Mingu Jeon, Seong-Woo Kim

Детектирование пешеходов в условиях Non-Line-of-Sight (NLoS) — ключевая проблема для систем автоматизированного вождения, особенно в сложных транспортных ситуациях, таких как T-пересечения. Несмотря на то что мм-волновые радары оказываются эффективными для обнаружения объектов в таких ситуациях, их 2D-пространственная модель (PCD) часто подвержена деформациям из-за многопутных отражений, что снижает точность расположения объектов. Другой подход, основанный на использовании камер, может обеспечить высококачественные изображения, но их недостаток в глубинном видении затрудняет определение геометрии среды. Мы предлагаем новую систему, которая объединяет 2D-данные радара с интерпретацией 3D-сцены, полученной из изображений камеры. Эта система позволяет восстановить пространственную модель для точного расположения пешеходов в NLoS-регионах. Эксперименты на реальном транспортном средстве показали, что предложенный подход достаточно эффективен для решения данной задачи в реальных условиях.
Annotation:
Pedestrians Localization in Non-Line-of-Sight (NLoS) regions within urban environments poses a significant challenge for autonomous driving systems. While mmWave radar has demonstrated potential for detecting objects in such scenarios, the 2D radar point cloud (PCD) data is susceptible to distortions caused by multipath reflections, making accurate spatial inference difficult. Additionally, although camera images provide high-resolution visual information, they lack depth perception and cannot d...
ID: 2508.02348v1 cs.CV, cs.AI, cs.RO
Показано 11511 - 11520 из 11614 записей