📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня
Авторы:

Fan Hu, Zijie Xin, Xirong Li

**Резюме** **Проблема:** Ад-хок Video Search (AVS) предполагает использование текстового запроса для поиска видео, отвечающих условию, в большой коллекции неотмеченных коротких видеороликов. Основная сложность заключается в том, что ответные видео могут отличаться сильно по характеристикам, что создает сложности для эффективного поиска. Например, короткий запрос, такой как "Найди видео с танцующими мужчиной и женщиной внутри", может включать в себя видео из разных среды, обстановки и даже стилей (например, ярких залов, теневых баров или черновозного анимации). Таким образом, для покрытия такого широкого круга вариантов необходимо давать результаты, которые будут как можно более разнообразными. **Решение:** Для улучшения системы поиска и увеличения разнообразия результатов, предлагается новый подход, названный LPD (Learning Partially Decorrelated Common Spaces), который стремится к построению раздельных пространств для каждого из видео и текстовых признаков. Основные новинки в данном подходе заключаются в том, что каждая компонента системы имеет свой собственный пространство, а также в том, что система использует новую форму уровня неравномерности (de-correlation loss) для разнообразия отрицательных выборок внутри каждого пространства. Для обеспечения согласованности между разными пространствами, предлагается использовать информационный метод, основанный на энтропии, чтобы эффективно сформировать общий поисковый пространство. **Основные выводы:** На основании экспериментов на данных TRECVID AVS (2016-2023), показано, что LPD повышает точность поиска и увеличивает разнообразие результатов. Анализ пространств в LPD также подтверждает, что этот подход эффективно работает на различных видах видео, давая более разнообразные результаты.
Annotation:
Ad-hoc Video Search (AVS) involves using a textual query to search for multiple relevant videos in a large collection of unlabeled short videos. The main challenge of AVS is the visual diversity of relevant videos. A simple query such as "Find shots of a man and a woman dancing together indoors" can span a multitude of environments, from brightly lit halls and shadowy bars to dance scenes in black-and-white animations. It is therefore essential to retrieve relevant videos as comprehensively as p...
ID: 2508.02340v1 cs.CV, cs.IR, cs.MM
Авторы:

Shuo Lu, Yanyin Chen, Wei Feng, Jiahao Fan, Fengheng Li, Zheng Zhang, Jingjing Lv, Junjie Shen, Ching Law, Jian Liang

Локальная оптимизация и несовпадение метрик оценки с предпочтениями пользователей стали серьезными проблемами в генерации и оценке макетов. Работа предлагает Uni-Layout — расширенный подход, который объединяет генерацию различных типов макетов в единую модель, основанную на естественном языке, и вводит инновационную методику оценки, адаптированную под человеческие предпочтения. Для этого был создан Layout-HF100k, первый большой датасет с экспертной оценкой макетов, позволяющий учитывать визуальные и геометрические свойства. Механизм Chain-of-Thought и модуль оценки достоверности позволяют осуществлять квалитативные и квантитативные оценки. Для уточнения соответствия модели пользовательским предпочтениям, разработана Dynamic-Margin Preference Optimization. Исследования показали, что Uni-Layout превосходит существующие методы как в генерировании, так и в оценке макетов, обеспечивая более человеческий и точный подход.
Annotation:
Layout generation plays a crucial role in enhancing both user experience and design efficiency. However, current approaches suffer from task-specific generation capabilities and perceptually misaligned evaluation metrics, leading to limited applicability and ineffective measurement. In this paper, we propose \textit{Uni-Layout}, a novel framework that achieves unified generation, human-mimicking evaluation and alignment between the two. For universal generation, we incorporate various layout tas...
ID: 2508.02374v1 cs.CV, cs.IR, cs.LG
Авторы:

Wenxuan Shen, Mingjia Wang, Yaochen Wang, Dongping Chen, Junjie Yang, Yao Wan, Weiwei Lin

**Резюме** В статье предлагается Double-Bench — новая крупномасштабная, многоязыковая и мультимодальная система оценки для Retrieval-Augmented Generation (RAG) систем, использующих Multimodal Large Language Models (MLLMs). Недостаточное тестирование является ключевой проблемой в развитии таких систем, так как существующие бенчмарки фокусируются на частичных аспектах RAG-систем и используют синтетические данные с неполными меток правдивости и значимости. Double-Bench предлагает полную оценку каждого компонента RAG-системы, включая 72 880 страниц данных в 6 языках и 4 типах документов. Эта система поддерживает динамическое обновление для борьбы с загрязнением данных и использует экспертные оценки для гарантии высокого качества. Основные выводы экспериментов показывают, что разница в эффективности между текстовыми и визуальными моделями снижается, что демонстрирует необходимость в развитии мощных моделей документного поиска. Также выявлена "проблема переоценки": текущие RAG-системы часто выдают ответы даже при отсутствии доказательств. Double-Bench предлагается как универсальный инструмент для поиска решений этих проблем и будет обновляться ежегодно.
Annotation:
Retrieval-Augmented Generation (RAG) systems using Multimodal Large Language Models (MLLMs) show great promise for complex document understanding, yet their development is critically hampered by inadequate evaluation. Current benchmarks often focus on specific part of document RAG system and use synthetic data with incomplete ground truth and evidence labels, therefore failing to reflect real-world bottlenecks and challenges. To overcome these limitations, we introduce Double-Bench: a new large-...
ID: 2508.03644v1 cs.CL, cs.CV, cs.IR
Авторы:

Junyi Wang, Jinjiang Li, Guodong Fan, Yakun Ju, Xiang Fang, Alex C. Kot

Одной из основных задач в семантической сегментации изображений дистанционного зондирования земли является получение точных и полных результатов, что затрудняется двумя главными проблемами: высокой внутриклассовой вариативностью и высокой межклассовой схожестью. Традиционные методы часто приводят к неполной сегментации из-за неэффективного объединения классовых представлений и неудачного различения похожих фич. Даже алгоритмы, ориентирующиеся на классы, страдают от грубых классовых прототипов и невнимательности к структурной информации. Для решения этих проблем предложен алгоритм Prototype-Driven Structure Synergy Network (PDSSNet). Он основывается на принципе, что полный объект определяется как сочетание неизменных классовых признаков и переменной пространственной структуры. Алгоритм включает три модуля: Adaptive Prototype Extraction Module (APEM) для получения точных классовых прототипов, Semantic-Structure Coordination Module (SSCM) для синхронизации семантики и структуры, и Channel Similarity Adjustment Module (CSAM) для усиления дискриминативности фич. Эксперименты показали, что PDSSNet превосходит современные методы, демонстрируя высокую точность и полноту сегментации. Исходный код доступен по ссылке.
Annotation:
In the semantic segmentation of remote sensing images, acquiring complete ground objects is critical for achieving precise analysis. However, this task is severely hindered by two major challenges: high intra-class variance and high inter-class similarity. Traditional methods often yield incomplete segmentation results due to their inability to effectively unify class representations and distinguish between similar features. Even emerging class-guided approaches are limited by coarse class proto...
ID: 2508.04022v1 cs.CV, cs.IR
Авторы:

Yifan Wang, Tao Wang, Chenwei Tang, Caiyang Yu, Zhengqing Zang, Mengmi Zhang, Shudong Huang, Jiancheng Lv

Данная работа адресует проблему применения динамического обучения с помощью предложений (prompt learning) для адаптации визуально-языковых моделей (Vision-Language Models, VLMs) к задаче изображение-текст поиска (image-text retrieval, ITR). Ранее продемонстрированная эффективность prompt learning в изображении-классификации оказывается менее устойчивой для задач ITR из-за сложности отличительного описания тонких атрибутов и подкатегорий в потоке данных. Чтобы устранить эту проблему, предложено дополнительное решение Dual Prompt Learning with Joint Category-Attribute Reweighting (DCAR), которое включает двухуровневую параметризацию. Оно позволяет многообразию классов и атрибутов на уровне точного совпадения для изображений и текстов. Технология изучает признаки категорий и атрибутов в рамках двух промптов, динамически адаптируя веса в зависимости от корреляции текста и изображения, что позволяет улучшить точность и яркость представления. Эксперименты на созданной Fine-class Described Retrieval Dataset (FDRD) показали, что DCAR превосходит существующие базовые системы, устанавливая новый состояние ведущей модели в такой области интеллектуальных технологий.
Annotation:
Recently, prompt learning has demonstrated remarkable success in adapting pre-trained Vision-Language Models (VLMs) to various downstream tasks such as image classification. However, its application to the downstream Image-Text Retrieval (ITR) task is more challenging. We find that the challenge lies in discriminating both fine-grained attributes and similar subcategories of the downstream data. To address this challenge, we propose Dual prompt Learning with Joint Category-Attribute Reweighting ...
ID: 2508.04028v1 cs.CV, cs.IR
Показано 31 - 35 из 35 записей