📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model

2025-08-09

Авторы:

Tao Sun, Oliver Liu, JinJin Li, Lan Ma

**Резюме** Работа **LLaVA-RE: Binary Image-Text Relevancy Evaluation with Multimodal Large Language Model** рассматривает проблему оценки значимости сочетаний изображений и текста в контексте двухклассовой оценки («Значимый» vs. «Не значимый»). Эта задача ключевая для оценки качества моделей генерирующих объединенные реплики, но сложна в решении из-за широкого диапазона форматов текста и субъективности определения значимости в различных сценариях. Авторы предлагают использовать мультимодальные большие языковые модели (MLLMs) как оптимальные средства для решения этой проблемы, так как они способны обрабатывать сложные текстовые форматы и использовать дополнительные задачные сведения. В ходе работы разработана LLaVA-RE — первая модель для двоичной оценки значимости изображения-текст, основанная на LLaVA-архитектуре. Модель использует подробные инструкции, набор мультимодальных примеров в контекстной обучающей выборке, что позволяет улучшить точность и универсальность решения. Проведенные эксперименты подтверждают высокую эффективность предложенного подхода. Данная работа является важной шагом в создании достоверных методов оценки значимости внутри моделей генерирующих объединенные модели текста и изображений.

Annotation:

Multimodal generative AI usually involves generating image or text responses given inputs in another modality. The evaluation of image-text relevancy is essential for measuring response quality or ranking candidate responses. In particular, binary relevancy evaluation, i.e., ``Relevant'' vs. ``Not Relevant'', is a fundamental problem. However, this is a challenging task considering that texts have diverse formats and the definition of relevancy varies in different scenarios. We find that Multimo...

ID: 2508.05602v1 cs.CV

arXiv PDF

📄 Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

2025-08-09

Авторы:

Luozheng Qin, Jia Gong, Yuqing Sun, Tianjiao Li, Mengping Yang, Xiaomeng Yang, Chao Qu, Zhiyu Tan, Hao Li

Универсальная цепочка-мышлия (Uni-CoT) — это проработанная фреймворк для объединенного многомодального логического мышления, который позволяет объединить моделирование текста и изображений в одной модели. Деление логического процесса на высокоуровневую планировку (Macro-Level CoT) и низкоуровневую реализацию (Micro-Level CoT) позволяет эффективно распределить ресурсы и сократить вычислительные затраты. Эта модель использует модель распознавания и порождения изображений для анализа и генерации визуальных состояний, что обеспечивает корректное моделирование визуальных процессов. Основная инновация в Uni-CoT — внедрение структурированной подготовки модели с интерлейсом обучения на текстовых и изображениевых данных для макроуровня и многозадачного обучения для микроуровня. Эксперименты по бенчмаркам WISE, RISE и KRIS показали, что Uni-CoT показывает лидирующие результаты, доказав свою эффективность и гибкость в многомодальном логическом мышлении.

Annotation:

Chain-of-Thought (CoT) reasoning has been widely adopted to enhance Large Language Models (LLMs) by decomposing complex tasks into simpler, sequential subtasks. However, extending CoT to vision-language reasoning tasks remains challenging, as it often requires interpreting transitions of visual states to support reasoning. Existing methods often struggle with this due to limited capacity of modeling visual state transitions or incoherent visual trajectories caused by fragmented architectures. ...

ID: 2508.05606v1 cs.CV, cs.CL

arXiv PDF

📄 Hi3DEval: Advancing 3D Generation Evaluation with Hierarchical Validity

2025-08-09

Авторы:

Yuhan Zhang, Long Zhuo, Ziyang Chu, Tong Wu, Zhibing Li, Liang Pan, Dahua Lin, Ziwei Liu

**Резюме** В статье предлагается Hi3DEval — новый фреймворк для оценки 3D-генерируемого контента, который расширяет характеристики выбора объектов сравнением их локальных деталей, материальной аутентичности и пространственной когерентности. Проблема заключается в том, что существующие методы оценки ограничены, основываясь только на изображениях и не учитывая пространственные свойства генерируемых 3D-активов. Решением становится Hi3DEval, который включает ранжирование на уровне объекта и части, а также анализ компонент, таких как альбедо, насыщенность и металличность, для экспериментального оценивания качества. Для поддержки этого фреймворка, разработана Hi3DBench — большая база данных с 3D-активами и верхнекачественными 2D-аннотациями, а также система 3D-осведомленных аналитических сетей, использующих объединенные 3D-представления для обеспечения оценки стабильности в пространстве и времени. Оценки Hi3DEval показали значительное улучшение по сравнению с изображением-основными метриками, выдавая результаты, более согласующиеся с человеческими предпочтениями.

Annotation:

Despite rapid advances in 3D content generation, quality assessment for the generated 3D assets remains challenging. Existing methods mainly rely on image-based metrics and operate solely at the object level, limiting their ability to capture spatial coherence, material authenticity, and high-fidelity local details. 1) To address these challenges, we introduce Hi3DEval, a hierarchical evaluation framework tailored for 3D generative content. It combines both object-level and part-level evaluation...

ID: 2508.05609v1 cs.CV

arXiv PDF

📄 Physically Controllable Relighting of Photographs

2025-08-09

Авторы:

Chris Careaga, Yağız Aksoy

Исследователи предлагают метод физически контролируемого переосвещения фотографий, который объединяет точность традиционного рендеринга с фотореализмом нейрографики. Основная проблема заключается в том, что существующие способы переосвещения требуют ручного настройки или неттонных данных, что ограничивает их применение в реальных сценах. Предложенное решение включает монокулярное определение геометрии и интринсических компонент сцены, позволяя пользователю определять освещение в 3D. Затем используется дифференцируемый рендеринг для реконструкции иллюминации и обучения нейронного рендерера в самостоятельном режиме. Результат — система, обеспечивающая контроль над источниками света в 3D и фотографический результат. Основные выводы: метод позволяет легко редактировать освещение в сложных сценах, делая его более точным и фотореалистичным.

Annotation:

We present a self-supervised approach to in-the-wild image relighting that enables fully controllable, physically based illumination editing. We achieve this by combining the physical accuracy of traditional rendering with the photorealistic appearance made possible by neural rendering. Our pipeline works by inferring a colored mesh representation of a given scene using monocular estimates of geometry and intrinsic components. This representation allows users to define their desired illumination...

ID: 2508.05626v1 cs.GR, cs.CV, I.4

arXiv PDF

📄 GAP: Gaussianize Any Point Clouds with Text Guidance

2025-08-09

Авторы:

Weiqi Zhang, Junsheng Zhou, Haotian Geng, Wenyuan Zhang, Yu-Shen Liu

3D Gaussian Splatting (3DGS) широко применяется для быстрого и качественного рендеринга трёхмерных объектов. Однако прямая конвертация цветных точечных множеств в Гауссовы функции остается неразрешённой проблемой. В статье предлагается GAP — новая методика, которая способна изменять точечные множества в высококачественные 3D-Гауссовы функции с помощью текстового указания. Авторы предлагают многогранный подход, включающий: оптимизацию на множестве многопрозрачных видов с помощью диффузионной модели, закрепляющуюся за поверхностью, и стратегию полного восстановления сложно-обнаруживаемых областей. Эти методы гарантируют верность геометрии и обогащают детализацию. Исследование GAP проводилось на искусственных и реальных точечных множествах, включая большие сцены. Результаты показывают, что GAP эффективно решает проблему перехода от точечных множеств к Гауссовым моделям, демонстрируя высокую точность и качество.

Annotation:

3D Gaussian Splatting (3DGS) has demonstrated its advantages in achieving fast and high-quality rendering. As point clouds serve as a widely-used and easily accessible form of 3D representation, bridging the gap between point clouds and Gaussians becomes increasingly important. Recent studies have explored how to convert the colored points into Gaussians, but directly generating Gaussians from colorless 3D point clouds remains an unsolved challenge. In this paper, we propose GAP, a novel approac...

ID: 2508.05631v1 cs.CV

arXiv PDF

📄 MOSEv2: A More Challenging Dataset for Video Object Segmentation in Complex Scenes

2025-08-09

Авторы:

Henghui Ding, Kaining Ying, Chang Liu, Shuting He, Xudong Jiang, Yu-Gang Jiang, Philip H. S. Torr, Song Bai

Video object segmentation (VOS) — задача, которая предполагает выделение целевых объектов на протяжении всего видео. Несмотря на то, что современные методы показывают высокую точность на таких многоклассовых датасетах, как DAVIS и YouTube-VOS, они почти не сталкиваются с сложными реальностями, такими как малые объекты, постоянные изменения видимости, помехи и непредсказуемость сцен. Чтобы сдвинуть границы VOS в сторону более реалистичных сценариев, мы предлагаем **MOSEv2** — улучшенный датасет, предлагающий 5024 видео, более 701,976 масок и 10,074 объектов в 200 категориях. Он включает такие новые сложности, как малые объекты, туман, снег, ночное время, искажения вида, укрытые и скрытые объекты, также необходимость использовать внешние знания. Мы проводили эксперименты с 20 методами VOS и 9 трекинговых алгоритмами: все они показали существенные потери точности. Этот результат подтверждает, что улучшения на стандартных датасетах не гарантируют устойчивости в реальной жизни. Наш датасет — MOSEv2 — доступен по адресу **https://MOSE.video**.

Annotation:

Video object segmentation (VOS) aims to segment specified target objects throughout a video. Although state-of-the-art methods have achieved impressive performance (e.g., 90+% J&F) on existing benchmarks such as DAVIS and YouTube-VOS, these datasets primarily contain salient, dominant, and isolated objects, limiting their generalization to real-world scenarios. To advance VOS toward more realistic environments, coMplex video Object SEgmentation (MOSEv1) was introduced to facilitate VOS research ...

ID: 2508.05630v1 cs.CV

arXiv PDF

📄 Genie Envisioner: A Unified World Foundation Platform for Robotic Manipulation

2025-08-09

Авторы:

Yue Liao, Pengfei Zhou, Siyuan Huang, Donglin Yang, Shengcong Chen, Yuxin Jiang, Yue Hu, Jingbin Cai, Si Liu, Jianlan Luo, Liliang Chen, Shuicheng Yan, Maoqing Yao, Guanghui Ren

**Резюме** Роботизированная манипуляция является ключевым видом современной интеллектуальной активности, но существуют значительные проблемы с её обучением и реализацией в реальных условиях. Особенно трудно достичь общего использования, так как существующие подходы часто требуют больших объёмов данных или специализированных моделей для различных задач. Мы предлагаем **Genie Envisioner (GE)** — универсальную платформу для обучения и оценки манипулятивных задач на основе видео-генерирующей модели. Основой GE лежит нейронный модельный комплекс, включающий в себя обучение политик, их оценку и моделирование в одной структуре размера видео. GE-Base, основная модель, является крупномасштабной моделью на основе распределения видео, логически условную инструкцию. GE-Act развивает потоки действий на основе полученных координат и предлагает легковесный подход к гибкой интерпретации политик. Для эффективного моделирования и оценки, GE-Sim служит для выполнения задач с помощью роллаутов в высоком разрешении. Мы также предлагаем EWMBench, многомерный бенчмарк для оценки визуального качества, физической консистентности и инструкционной алгоритмической корреляции. Этот подход к обучению и оценке роботов с общими навыками упрощает и повышает качество реализации в больших масштабах. Мы открыли доступ коду, моделям и бенчмаркам, чтобы поощрить дальнейшую разработку в области универсальных систем манипуляции.

Annotation:

We introduce Genie Envisioner (GE), a unified world foundation platform for robotic manipulation that integrates policy learning, evaluation, and simulation within a single video-generative framework. At its core, GE-Base is a large-scale, instruction-conditioned video diffusion model that captures the spatial, temporal, and semantic dynamics of real-world robotic interactions in a structured latent space. Built upon this foundation, GE-Act maps latent representations to executable action trajec...

ID: 2508.05635v1 cs.RO, cs.CV

arXiv PDF

📄 FaceAnonyMixer: Cancelable Faces via Identity Consistent Latent Space Mixing

2025-08-09

Авторы:

Mohammed Talha Alam, Fahad Shamshad, Fakhri Karray, Karthik Nandakumar

**Резюме** Современные технологии лицевого распознавания (Face Recognition, FR) становятся все более распространенными, что вызывает угрозы для частной жизни и необходимость в методах защиты идентичности. Однако существующие методы анонимизации лиц не удовлетворяют ключевым требованиям биометрической защиты шаблонов: возможность отзыва, невозможность связать лицо с его владельцем и необратимость. Мы предлагаем FaceAnonyMixer — рамочную модель для генерации канцелябельных лиц, основанную на латентном пространстве предобученной генерирующей модели. Метод использует революционную концепцию: мультиобъективное смешивание латентного кода реального лица с генерируемым кодом, связанным с безопасной, отзываемой ключевой информацией. Это дает возможность получить канцелябельное лицо, сохраняющее высокую точность распознавания в существующих FR-системах, без необходимости в их модификации. Эксперименты на масштабных датасетах показали, что FaceAnonyMixer обеспечивает мощную защиту частной жизни и демонстрирует результаты, превосходящие топовые методы анонимизации лиц на 11% в точности распознавания. Исходный код доступен по адресу: https://github.com/talha-alam/faceanonymixer.

Annotation:

Advancements in face recognition (FR) technologies have amplified privacy concerns, necessitating methods that protect identity while maintaining recognition utility. Existing face anonymization methods typically focus on obscuring identity but fail to meet the requirements of biometric template protection, including revocability, unlinkability, and irreversibility. We propose FaceAnonyMixer, a cancelable face generation framework that leverages the latent space of a pre-trained generative model...

ID: 2508.05636v1 cs.CV

arXiv PDF

📄 FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment

2025-08-09

Авторы:

Wentao Zhang, Yilei Zhao, Chuqiao Zong, Xinrun Wang, Bo An

**Резюме** Modern finance стремится к широкому применению AI для решения задач, таких как прогнозирование рынков, управление портфелями и квантитативная торговля. Однако существующие платформы ограничены в объеме задач, не поддерживают разноплановый многомодальный анализ и эффективное обучение и развертывание больших языковых моделей (LLM). Для решения этих проблем представлена FinWorld — открытая платформа для полного цикла работы в области финансового AI. Она объединяет в себе неоднородные финансовые данные, поддерживает различные AI-парадигмы и автоматизирует процессы разработки. Фреймворк основывается на данных из двух рынков, четырёх групп активов и более 800 миллионов точек данных. Эмпирические исследования подтвердили, что FinWorld улучшает репродуцируемость исследований, обеспечивает честный бенчмаркинг и упрощает развертывание моделей. Это делает платформу FinWorld важной компонентой для построения современных решений в финансовом AI.

Annotation:

Financial AI holds great promise for transforming modern finance, with the potential to support a wide range of tasks such as market forecasting, portfolio management, quantitative trading, and automated analysis. However, existing platforms remain limited in task coverage, lack robust multimodal data integration, and offer insufficient support for the training and deployment of large language models (LLMs). In response to these limitations, we present FinWorld, an all-in-one open-source platfor...

ID: 2508.02292v1 cs.AI, cs.LG

arXiv PDF

📄 CAPO: Towards Enhancing LLM Reasoning through Verifiable Generative Credit Assignment

2025-08-09

Авторы:

Guofu Xie, Yunsheng Shi, Hongtao Tian, Ting Yao, Xiao Zhang

**Резюме** В статье предлагается CAPO (Credit Assignment Policy Optimization) — метод, улучшающий точность подкрепленного обучения с верифицируемыми наградами (RLVR) для бо LLM. Проблема заключается в том, что традиционные методы RLVR назначают одинаковый вес всем токенам ответа, что затрудняет точное присвоение кредита за успех или неудачу каждого токена. Разработанный CAPO использует общецелевую обработку естественных языков для построения шаг за шагом критики ответа, что позволяет назначить точные, проверяемые награды на уровне токенов. Для повышения точности используется механизм голосования, основанный на нескольких генерируемых критиках. Эксперименты показали, что CAPO превосходит супервизированные и другие RL-методы на математических и других бенчмарках, подтверждая его эффективность в улучшении точности и эффективности обучения бол LLMs.

Annotation:

Reinforcement Learning with Verifiable Rewards (RLVR) has improved the reasoning abilities of Large Language Models (LLMs) by using rule-based binary feedback, helping to mitigate reward hacking. However, current RLVR methods typically treat whole responses as single actions, assigning the same reward to every token. This coarse-grained feedback hampers precise credit assignment, making it hard for models to identify which reasoning steps lead to success or failure, and often results in suboptim...

ID: 2508.02298v1 cs.LG, cs.AI, cs.CL

arXiv PDF

1
2
3359
3360
3361
3362
3363
3412
3413

Показано 33601 - 33610 из 34123 записей