📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 SQUARE: Semantic Query-Augmented Fusion and Efficient Batch Reranking for Training-free Zero-Shot Composed Image Retrieval

2025-10-02

Авторы:

Ren-Di Wu, Yu-Yen Lin, Huei-Fang Yang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Composed Image Retrieval (CIR) aims to retrieve target images that preserve the visual content of a reference image while incorporating user-specified textual modifications. Training-free zero-shot CIR (ZS-CIR) approaches, which require no task-specific training or labeled data, are highly desirable, yet accurately capturing user intent remains challenging. In this paper, we present SQUARE, a novel two-stage training-free framework that leverages Multimodal Large Language Models (MLLMs) to enhan...

ID: 2509.26330v1 cs.CV, cs.IR, 68U10, 68P20, 68T10, 68T07, 68T45, 68T50, I.4; H.3; I.5

arXiv PDF

📄 GBSK: Skeleton Clustering via Granular-ball Computing and Multi-Sampling for Large-Scale Data

2025-10-01

Авторы:

Yewang Chen, Junfeng Li, Shuyin Xia, Qinghong Lai, Xinbo Gao, Guoyin Wang, Dongdong Cheng, Yi Liu, Yi Wang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

To effectively handle clustering task for large-scale datasets, we propose a novel scalable skeleton clustering algorithm, namely GBSK, which leverages the granular-ball technique to capture the underlying structure of data. By multi-sampling the dataset and constructing multi-grained granular-balls, GBSK progressively uncovers a statistical "skeleton" -- a spatial abstraction that approximates the essential structure and distribution of the original data. This strategy enables GBSK to dramatica...

ID: 2509.23742v1 cs.LG, cs.CV, cs.IR

arXiv PDF

📄 ADAM: A Diverse Archive of Mankind for Evaluating and Enhancing LLMs in Biographical Reasoning

2025-10-01

Авторы:

Jasin Cekinmez, Omid Ghahroodi, Saad Fowad Chandle, Dhiman Gupta, Ehsaneddin Asgari

## Контекст Biographical причиняются существуют значительные проблемы, такие как ошибки в тексте, недостаточное внимание к культурным контекстам и отсутствие многоязычного подхода. Эти проблемы становятся важными в связи с возрастающим использованием Масштабных Многомодальных Языковых Моделей (ММЯЯММ) в различных сферах, от образования до медицины. Однако существующие методы оценки и улучшения этих моделей недостаточно учитывают их способность работать с биографическими данными. Биографические причиняются являются ключевым аспектом человеческого знания и требуют специализированных подходов для точного понимания и генерации. ADAM предлагает первый полностью оценку и улучшение ММЯЯММ в этом критическом домене. ## Метод ADAM состоит из двух основных компонентов: **AdamDB** и **AdamBench**. **AdamDB** — это многоязычная и мультимодальная база данных, содержащая информацию о 4 миллионах индивидуумов, упорядоченных по географии, времени и профессиям. **AdamBench** включает в себя задачи оценки, основанные на Bloom's taxonomy, с различными уровнями логического роста, охватывающими индуктивное, дедуктивное и другие типы рассуждений. Для снижения ошибок и совершенствования генерации для менее известных личностей, ADAM предлагает **AdamRAG** — систему, основанную на восстановлении и генерации, которая интегрирует контекстные данные, такие как личные фотограммы, для более точного понимания. ## Результаты Исследования показали, что AdamRAG значительно повышает качество генерации в открытых моделях и приносит ограниченные, но заметные улучшения в закрытых. Особо высокие результаты были наблюдаемы в более простых формах логического роста, таких как воспроизведение и разъяснение фактов. Использование изображений лиц показало незначительное улучшение, но менее стабильное по сравнению с восстановлением информации. Эксперименты также показали, что модели лучше справляются с известными личностями, но их производительность значительно ухудшается при работе с менее известными. ## Значимость ADAM устанавливает новый стандарт для оценки и улучшения ММЯЯММ в биографических задачах. Он может применяться в областях, таких как образование, социальные сети и исследования. Его главные преимущества заключаются в улучшении точности генерации, снижении ошибок в выводе и расширении поддержки многоязычности. Этот подход может повлиять на развитие технологий, которые требуют точного понимания и генерации биографических данных, таких как искусственный интеллект в учебных системах или создание профилей в социальных сетях. ## Выводы

Annotation:

We introduce ADAM (A Diverse Archive of Mankind), a framework for evaluating and improving multimodal large language models (MLLMs) in biographical reasoning. To the best of our knowledge, this is the first work to systematically examine LLM capabilities in biography, a critical yet underexplored dimension of factual knowledge. At its core, AdamDB is a multilingual and multimodal dataset covering over 4 million individuals across geography, time, and profession, while AdamBench provides cognitiv...

ID: 2509.22991v1 cs.CL, cs.AI, cs.CV, cs.IR, cs.LG

arXiv PDF

📄 Joint graph entropy knowledge distillation for point cloud classification and robustness against corruptions

2025-09-30

Авторы:

Zhiqiang Tian, Weigang Li, Junwei Hu, Chunhua Deng

## Контекст Работа с 3D-объектами часто основывается на предположении, что классы распределены независимо друг от друга и идентично (IID). Однако это предположение не учитывает связи между классами, что может привести к неточностям в классификации. Эта проблема актуальна для области классификации 3D-точечных сетей (point cloud classification), где необходимо учитывать корреляции между классами для повышения точности и устойчивости моделей. Основной мотивацией для данного исследования является разработка метода, который учитывает такие связи и повышает устойчивость моделей к различным формам помех и нарушений данных. ## Метод Для решения поставленных задач предлагается методология, основанная на графе и технике knowledge distillation (передачи знаний). В этой модели вводится loss-функция, основанная на joint graph entropy, что позволяет передавать знания о корреляциях между классами. Для обработки 3D-точечных сетей, гипотетически не меняющихся под воздействием пространственных преобразований, предлагается использовать сиамские структуры. Для увеличения устойчивости к помехам разработаны два подхода: self-knowledge distillation и teacher-knowledge distillation. Они позволяют передавать знания между разными преобразованиями одного и того же датасета. Для увеличения устойчивости к помехам разработана методика передачи знаний между целыми точечными сетками и их поврежденными формами. ## Результаты Исследования проводились на таких датасетах, как ScanObject, ModelNet40, ScanNetV2\_cls и ModelNet-C. Метод JGEKD (Joint Graph Entropy Knowledge Distillation) показал себя конкурентоспособно, показывая высокую точность и устойчивость к различным типам помех в 3D-данных. Также показано, что модель не только повышает точность классификации, но и обладает робастностью к различным формам шума и помех, что делает ее более надежной в реальных условиях. ## Значимость Предлагаемый подход может быть применен в различных областях, где требуется классификация 3D-точечных сетей, например, в автоматизированных системах управления, робототехнике, видеонаблюдении и др. Одним из преимуществ является повышение устойчивости моделей к различным видам помех и формам данных. Это может привести к более надежным и эффективным решениям в технических системах, где четкость и точность классификации являются ключевыми факторами. ## Выводы В результате данного исследования был разработан метод JGEKD, который позволяет учитывать зависимости между классами при классификации 3D-точечных сетей. Метод демонстрирует высокую точность и устойчивость к различным формам помех. В дальнейшем, планируется расширить функционал модели для обработки более сложных сц

Annotation:

Classification tasks in 3D point clouds often assume that class events \replaced{are }{follow }independent and identically distributed (IID), although this assumption destroys the correlation between classes. This \replaced{study }{paper }proposes a classification strategy, \textbf{J}oint \textbf{G}raph \textbf{E}ntropy \textbf{K}nowledge \textbf{D}istillation (JGEKD), suitable for non-independent and identically distributed 3D point cloud data, \replaced{which }{the strategy } achieves knowledg...

ID: 2509.22150v1 cs.CV, cs.IR

arXiv PDF

📄 Chain-of-Thought Re-ranking for Image Retrieval Tasks

2025-09-20

Авторы:

Shangrong Wu, Yanghong Zhou, Yang Chen, Feng Zhang, P. Y. Mok

## Контекст Изображение восстановление остается одной из наиболее важных задач в области компьютерного зрения. Несмотря на необходимость высокого уровня точности и скорости, существуют проблемы, такие как неточность оценки качества и неэффективность методов восстановления. Эти проблемы часто возникают в ситуациях, когда качество исходных данных ограничено или восстановленные изображения должны соответствовать высоким стандартам точности. Из-за этих нарушений часто возникают недопустимые результаты, которые не могут быть использованы для дальнейшего анализа или принятия решений. Таким образом, необходимо разработать методы, которые могут обеспечить надежную и быструю восстановление качества изображений, даже при ограниченных ресурсах. ## Метод Предложенный метод Chain-of-Thought Re-Ranking (CoTRR) использует процедуру рейтинга, основанную на многомодальных моделях языка. Эта модель использует списковую оценку кандидатов, которая позволяет модели MLLM (Multimodal Large Language Model) принимать участие в рейтинговом процессе, а не только оценивать результаты. Модель CoTRR включает в себя два основных элемента: а) **Image Evaluation Prompt**, который определяет точность кандидатов по отношению к запросу пользователя, и b) **Query Deconstruction Prompt**, который деконструирует запрос на несколько семантических компонент. Эти компоненты используются для гибкой и точной оценки каждого кандидата. Таким образом, CoTRR обеспечивает интерпретируемую и консистентную оценку, которая важна для точного рендеринга изображений. ## Результаты Результаты экспериментов проводились на пяти различных наборах данных, включая datasets для text-to-image retrieval (TIR), composed image retrieval (CIR) и chat-based image retrieval (Chat-IR). Метод CoTRR показал значительные улучшения по сравнению с имеющимися версиями, в том числе нарушения точности и скорости. Например, на датасете TIR, CoTRR достиг 95.3% точности, что на 4.7% выше лучшей из существующих моделей. То же самое относится к другим датасетам, где CoTRR также показал не только высокую точность, но и эффективность. Эти результаты подтверждают, что CoTRR может обеспечивать точное и структурированное восстановление изображений, даже в условиях ограниченных данных и высоких стандартов точности. ## Значимость Результаты CoTRR демонстрируют значительный потенциал этого метода в различных областях применения. В частности, он может быть эффективно использован в текстовой изображений (TIR), композиционном восстановлении изображений (CIR), а также во взаимодействии с пользователем в чате для поиска изображений (Chat-IR). Одним из основных преимуществ является его точность, которая значительно превосходит существующ

Annotation:

Image retrieval remains a fundamental yet challenging problem in computer vision. While recent advances in Multimodal Large Language Models (MLLMs) have demonstrated strong reasoning capabilities, existing methods typically employ them only for evaluation, without involving them directly in the ranking process. As a result, their rich multimodal reasoning abilities remain underutilized, leading to suboptimal performance. In this paper, we propose a novel Chain-of-Thought Re-Ranking (CoTRR) metho...

ID: 2509.14746v1 cs.CV, cs.IR

arXiv PDF

📄 RED: Robust Event-Guided Motion Deblurring with Modality-Specific Disentangled Representation

2025-09-10

Авторы:

Yihong Leng, Siming Zheng, Jinwei Chen, Bo Li, Jiaojiao Li, Peng-Tao Jiang

## Контекст Event cameras, такие как Dynamic Vision Sensors (DVS), предлагают возможность получения данных с высокой частотой кадров и низким задержанием, что делает их полезными для задач, таких как движение деблюринга. Однако существуют значительные проблемы, связанные с интерпретацией этих данных. Например, динамические сенсоры DVS используют трейдоff между чувствительностью и шумом, что приводит к повреждению и потере важных деталей в потоке событий. Это ограничивает эффективность существующих методов, которые не полностью учитывают эти ограничения. Мотивация заключается в развитии метода, который бы способствовал более точному и надежному использованию данных event-based, преодолевая эти узкие места. ## Метод Наша подходящая методика, называемая Robust Event-guided Deblurring (RED), имеет две основные компоненты. Во-первых, мы вводим "Robustness-Oriented Perturbation Strategy" (RPS), которая применяет случайную маскировку к событиям, обучая модель, как справиться с неполными данными. Во-вторых, мы предлагаем модуль OmniAttention, который моделирует интра-модальные, inters-модальные и потоковые корреляции от двух различных, но дополняющих друг друга источников: туманные изображения и частично поврежденные события. Эти модели расширяются на два модуля: один, улучшающий движущиеся области на туманных изображениях, и другой, внедряющий семантический контекст в неполные представления событий. ## Результаты Мы проводили эксперименты на обе synthetics так и реальных данных, выбрав несколько метрик для оценки точности и надежности результатов. RED показал значительный прогресс по сравнению с современными методами, показывая стабильно высокую точность в различных условиях. Мы также провели обширные анализы, чтобы доказать точность и надежность нашего подхода в случаях с незначительными и существенными изменениями в условиях. ## Значимость Подход RED имеет потенциал для применения в различных областях, таких как робототехника, детектирование объектов и анализ движения в реальном времени. Он предоставляет более надежную и точную интерпретацию данных event-based, что может улучшить различные приложения, от безопасности до того, как организмы осуществляют движение. Наши выводы указывают на будущие направления исследований, включая расширение модели для работы с более сложными сценариями и выравнивание синхронизации между event-based и RGB-изображениями. ## Выводы В итоге, RED представляет собой продвинутый подход к движущемуся деблюрингу, который эффективно справляется с трудностями, связанными с данными event-based. Наш метод показал значительные достижения в точности и надежности, демонстрируя расширенную способность интерпретировать и исполь

Annotation:

Event cameras provide sparse yet temporally high-temporal-resolution motion information, demonstrating great potential for motion deblurring. Existing methods focus on cross-modal interaction, overlooking the inherent incompleteness of event streams, which arises from the trade-off between sensitivity and noise introduced by the thresholding mechanism of Dynamic Vision Sensors (DVS). Such degradation compromises the integrity of motion priors and limits the effectiveness of event-guided deblurri...

ID: 2509.05554v1 cs.CV, cs.IR

arXiv PDF

📄 Ecologically Valid Benchmarking and Adaptive Attention: Scalable Marine Bioacoustic Monitoring

2025-09-09

Авторы:

Nicholas R. Rasmussen, Rodrigue Rizk, Longwei Wang, KC Santosh

## Контекст Устьевый пассивный акустический мониторинг (UPAM) предоставляет богатые данные по пространству и времени для длительного экологического анализа. Однако наличие встроенного шума и сложных зависимостей сигналов ставит под угрозу устойчивость моделей и их общезначимость. Несмотря на то, что мультислойная гладь улучшила локализацию целевых звуков, проблемы, такие как изменчивость изменчивого шума, различные эффекты распространения и смешанные биологические и антропогенные источники, требуют устойчивых архитектур и строгих экологических оценок. Поэтому требуется развитие методов, позволяющих эффективно работать с этими проблемами. ## Метод Разработан новый фреймворк для кросс-валидации, названный GetNetUPAM. Он разделяет данные на отдельные сегменты "сайт-год", сохраняя характеристики записи и обеспечивая, что каждая валидационная партия представляет собой уникальную экологическую подгруппу. Это снижает вероятность переобучения к местным шумам и артефактам сенсоров. Блокировка "сайт-год" включает общую экологическую разнообразность, в то время как классическая кросс-валидация на случайных подмножествах измеряет общую общую общую генерализацию, которая отсутствует в существующих бенчмарках. Используя GetNetUPAM, предлагается модель ARPA-N с адаптивным резолюционным пулингом и вниманием. Адаптивная пульпация с пространственным вниманием расширяет рецептурное поле, ловит крупномасштабную контекстную информацию без избытка параметров. ## Результаты В GetNetUPAM-окружении ARPA-N показала 14,4% увеличение средней точности по сравнению с DenseNet-базлами. Это привело к порядку меньшей вариабельности результатов во всех метриках. Эти результаты доказывают целесообразность ARPA-N в решении проблем устойчивости и общей эффективности моделей в UPAM. ## Значимость Разработанная архитектура и фреймворк могут быть применены в различных задачах мониторинга биоакустики, а также в других областях, где требуется обработка сложных акустических данных. Они обеспечивают более точную и консистентную обработку, что вносит вклад в улучшение оценок экосистем и развитие стоимостно эффективных решений для биоакустического мониторинга. ## Выводы Основным достижением является разработка универсального фреймворка для кросс-валидации и модели с адаптивным вниманием, которые позволяют увеличить точность и стабильность моделей в UPAM. Будущие исследования будут направлены на расширение возможностей модели для обработки более сложных сценариев и включения дополнительных источников данных для

Annotation:

Underwater Passive Acoustic Monitoring (UPAM) provides rich spatiotemporal data for long-term ecological analysis, but intrinsic noise and complex signal dependencies hinder model stability and generalization. Multilayered windowing has improved target sound localization, yet variability from shifting ambient noise, diverse propagation effects, and mixed biological and anthropogenic sources demands robust architectures and rigorous evaluation. We introduce GetNetUPAM, a hierarchical nested cross...

ID: 2509.04682v1 cs.SD, cs.AI, cs.CV, cs.IR, cs.LG, eess.AS

arXiv PDF

📄 TrajSV: A Trajectory-based Model for Sports Video Representations and Applications

2025-08-19

Авторы:

Zheng Wang, Shihao Xu, Wei Shi

## Контекст Область спортивных аналитики на сегодняшний день является ключевым направлением исследований как в учёной, так и в промышленной сферах. Однако в этой области существуют ряд проблем, в том числе недостаток доступных данных, отсутствие эффективных траекторий-ориентированных фреймворков и необходимость использования многочисленных супервайзед лайблов. Данные проблемы ограничивают возможности развития спортивных аналитик и снижают их точность. В данной работе предлагается модель TrajSV, которая адресует эти проблемы, обеспечивая эффективное представление траекторий видеороликов спортивных мероприятий. ## Метод TrajSV представляет собой полностью траекторий-ориентированный фреймворк, состоящий из трёх основных модулей: препроцессинга данных, сети Clip Representation Network (CRNet) и Video Representation Network (VRNet). Модуль препроцессинга извлекает траектории игроков и мяча из трансляционных видео спортивных мероприятий. CRNet, в свою очередь, использует модуль Trajectory-enhanced Transformer для извлечения клип-репрезентаций, а VRNet — для объединения этих клип-репрезентаций в единую видео-репрезентацию с помощью архитектуры encoder-decoder. Для оптимизации обучения вводится тройной контрастирующий loss, который позволяет значительно повысить качество траекторий и видео-репрезентаций, даже при отсутствии супервайзед лайблов. ## Результаты Тестирование TrajSV проводилось на трёх разных датасетах, относящихся к трём видам спорта — футболу, баскетболу и волейболу. Для сравнения использовались три важных downstream задачи: sports video retrieval, action spotting и video captioning. Результаты показали, что TrajSV превосходит существующие базовые модели, набирая почти 70% в sports video retrieval, превышая базовые модели в action spotting в 9 из 17 категорий и получая более 20% улучшения в video captioning. Эти результаты указывают на перспективность и эффективность применения TrajSV в реальных ситуациях. ## Значимость TrajSV может быть применена в различных областях, включая анализ спортивных трансляций, статистический анализ игровых действий и генерацию видео-описаний. Она обеспечивает более точное и эффективное представление траекторий, что может повысить точность других спортивных аналитических моделей. Благодаря своей траекторий-ориентированной архитектуре, TrajSV может превзойти существующие модели в трёх основных задачах, что делает её более универсальной и полезной в промышленных приложениях. ## Выводы TrajSV представляет собой прорыв в области траекторий-ориентированных моделей для представления спортивных видео. Она доказала свою эффективность на трёх различных спортивных датасетах и трёх раз

Annotation:

Sports analytics has received significant attention from both academia and industry in recent years. Despite the growing interest and efforts in this field, several issues remain unresolved, including (1) data unavailability, (2) lack of an effective trajectory-based framework, and (3) requirement for sufficient supervision labels. In this paper, we present TrajSV, a trajectory-based framework that addresses various issues in existing studies. TrajSV comprises three components: data preprocessin...

ID: 2508.11569v1 cs.CV, cs.IR

arXiv PDF

📄 Multi-Label Plant Species Prediction with Metadata-Enhanced Multi-Head Vision Transformers

2025-08-16

Авторы:

Hanna Herasimchyk, Robin Labryga, Tomislav Prusina

## Контекст Формирования и присвоения номенклатурных признаков растений — важной задачей в экологии, биологии и агрономии. Изучение растительных сообществ позволяет выявить их структуру, динамику и влияние на окружающую среду. Однако автоматическое распознавание растений с помощью изображений часто сталкивается с проблемами, такими как разнообразие форм и размеров растений, вариабельность условий съемки, и несовпадение между локальными и глобальными признаками. Точное распознавание множественных видов на изображениях квадрата может существенно облегчить процесс оценки растительных сообществ и поддержать усилия по консервации биоразнообразия. Наша исследовательская группа проанализировала проблемы, связанные с подобным видом задач, и предлагает новую модель, которая учитывает эти трудности. ## Метод Мы предлагаем метод, основанный на преобразованиях видящих моделей (Vision Transformers, ViT) для решения задачи множественного меток распознавания растений. В центре нашего подхода лежит DINOv2 Vision Transformer Base (ViT-B/14), тренируемый на одиночных изображениях видов растений. Для того, чтобы адаптироваться к задаче распознавания множественных видов в квадратах, мы использовали несколько классификационных голов для различных типов признаков (вид, подвид, семейство). Для повышения точности, мы внедрили алгоритмы многослойной обработки (multi-scale tiling) для привлечения растений различных размеров, оптимизацию динамических порогов на основе средней длины предсказаний и стратегии сборки моделей (bagging и Hydra). Наши эксперименты проводились на выборке, состоящей из примерно 1,4 миллиона изображений, представляющих 7 806 видов растений. ## Результаты Мы провели эксперименты с нашим подходом на тренировочных данных с 7 806 видов растений. Модель показала высокую точность распознавания видов, достигая 95% для видов, 92% для подвидов и 89% для семейств. Наше решение показало себя эффективно, оказавшись 3-й по результатам в частном лидербورде PlantCLEF 2025. Мы также проверили наш подход на отдельных квадратах, найдя, что он демонстрирует высокую точность в распознавании множественных видов, даже при наличии небольших растений на изображениях. ## Значимость Наш подход имеет широкое применение в различных областях, в том числе в экологии, агрономии, и охране природы. Он может быть использован для автоматизации процессов сбора данных в растительных сообществах, упрощения идентификации видов и поддержки задач консервации биоразнообразия. Также, наш подход может быть применен в агротехнических задачах, таких как раннее выявление болезней растений и определение их видов, что помо

Annotation:

We present a multi-head vision transformer approach for multi-label plant species prediction in vegetation plot images, addressing the PlantCLEF 2025 challenge. The task involves training models on single-species plant images while testing on multi-species quadrat images, creating a drastic domain shift. Our methodology leverages a pre-trained DINOv2 Vision Transformer Base (ViT-B/14) backbone with multiple classification heads for species, genus, and family prediction, utilizing taxonomic hiera...

ID: 2508.10457v1 cs.CV, cs.IR, cs.LG

arXiv PDF

📄 I2CR: Intra- and Inter-modal Collaborative Reflections for Multimodal Entity Linking

2025-08-09

Авторы:

Ziyan Liu, Junwen Li, Kaiwen Li, Tong Ruan, Chao Wang, Xinyan He, Zongyu Wang, Xuezhi Cao, Jingping Liu

**Резюме** Multimodal entity linking — задача связывания сущностей из разных модальностей (текста и изображений) — широко применяется в компьютерном зрении, естественном обучении и других областях. Несмотря на успех текущих моделей на основе трансформеров, они сталкиваются со следующими проблемами: ненужная включенность изображений в некоторых случаях и подход с однократным извлечением визуальных признаков, который может снизить точность. Для решения этих проблем мы предлагаем I2CR — новую LLM-базную модель, основанную на стратегии Intra- и Inter-modal Collaborative Reflections. Модель использует текстовые данные в первую очередь, но при нехватке информации для точного связывания применяет многократный поиск ключевых визуальных признаков, улучшая точность. Результаты на датасетах VG+WebQSP, PCME-VG и VG-SS-C показывают, что I2CR показывает лучший результат, выигрывая на 3.2%, 5.1% и 1.6% в сравнении с состоянием искусства. Это свидетельствует об эффективности и гибкости нового подхода.

Annotation:

Multimodal entity linking plays a crucial role in a wide range of applications. Recent advances in large language model-based methods have become the dominant paradigm for this task, effectively leveraging both textual and visual modalities to enhance performance. Despite their success, these methods still face two challenges, including unnecessary incorporation of image data in certain scenarios and the reliance only on a one-time extraction of visual features, which can undermine their effecti...

ID: 2508.02243v1 cs.CV, cs.IR

arXiv PDF

Показано 21 - 30 из 35 записей