📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 DET-GS: Depth- and Edge-Aware Regularization for High-Fidelity 3D Gaussian Splatting

2025-08-09

Авторы:

Zexu Huang, Min Xu, Stuart Perry

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является передовым методом для эффективного и высококачественного синтеза новых видов в трехмерном пространстве. Однако, несмотря на значительные достижения в этой области, существуют существенные проблемы, связанные с точностью геометрического восстановления при использовании разреженных видов. Традиционные методы регуляризации глубины, основанные на нелокальных подходах, часто не могут точно восстановить тонкие структурные детали, оказываясь чрезвычайно чувствительными к шумам в оценке глубины. Это приводит к потере деталей и неточностям в геометрическом моделировании. Другой ключевой проблемой является игнорирование семантических границ в процессе регуляризации. Методы, использующие обычные сглаживающие методы, часто ухудшают качество реконструкции, так как они не различают важные ребра и текстурные детали, что приводит к ухудшению общего качества визуализации. Эти ограничения не позволяют достичь высокого уровня точности и визуальной достоверности при синтезе новых видов, особенно в условиях разреженного набора входных данных. Мотивацией данной работы является разработка метода, который мог бы преодолеть эти ограничения, обеспечивая точное и высококачественное восстановление геометрии и сохраняя тонкие детали и семантические границы. Такой подход должен быть устойчив к шумам в оценке глубины и способен сохранять важные текстурные особенности, чтобы повысить общую точность и качество реконструкции. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод под названием DET-GS (Depth- and Edge-Aware Regularization for 3D Gaussian Splatting), который является унифицированной рамочной структурой для регуляризации глубины и сохранения ребер. Основная идея метода заключается в использовании иерархической геометрической регуляризации глубины, которая адаптивно обеспечивает согласованность на различных уровнях детализации. Это позволяет улучшить точность геометрической реконструкции и увеличить устойчивость к шумам в оценке глубины. Для сохранения семантических границ, метод использует регуляризацию глубины, основанную на детекции ребер (Canny edge detection), которая помогает определить семантически важные границы сцены. Это позволяет сохранить важные детали и ребра, которые могут быть потеряны при использовании традиционных методов сглаживания. Кроме того, в методе используется RGB-guided edge-preserving Total Variation (TV) loss, которая способна сглаживать однородные области, сохраняя при этом высокочастотные детали и текстуры. Это позволяет достичь более высокого качества визуализации, уменьшая шум и неточности в областях, где они могут возникнуть. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных данных, включая разреженные виды сцен, для оценки эффективности предложенного метода. Данные включали высококачественные 3D модели и сцены с различными уровнями сложности. Результаты показали, что DET-GS значительно улучшает точность геометрического восстановления и качество визуализации по сравнению со стандартными методами 3DGS. При использовании DET-GS было получено более точное восстановление тонких деталей и структур, а также лучшее сохранение ребер и текстурных особенностей. Метод также показал высокую устойчивость к шумам в данных глубины, что является ключевым преимуществом в сравнении с другими подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод DET-GS имеет широкое применение в области трехмерного моделирования и синтеза новых видов. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, где важна высокая точность и качество визуализации. Преимущества DET-GS включают в себя улучшенную точность геометрического моделирования, сохранение важных деталей и ребер, а также устойчивость к шумам в данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что DET-GS является эффективным методом для улучшения точности и качества трехмерного моделирования. Он предоставляет новые возможности для создания более достоверных и высококачественных 3D моделей, особенно при работе с разреженными видами. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая использование более совершенных методов детекции ребер и расширение его применимости на более широкий класс данных.

Annotation:

3D Gaussian Splatting (3DGS) represents a significant advancement in the field of efficient and high-fidelity novel view synthesis. Despite recent progress, achieving accurate geometric reconstruction under sparse-view conditions remains a fundamental challenge. Existing methods often rely on non-local depth regularization, which fails to capture fine-grained structures and is highly sensitive to depth estimation noise. Furthermore, traditional smoothing methods neglect semantic boundaries and i...

ID: 2508.04099v1 cs.CV, cs.AI

arXiv PDF

📄 Unlocking the Potential of MLLMs in Referring Expression Segmentation via a Light-weight Mask Decoder

2025-08-09

Авторы:

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Referring Expression Segmentation (RES) — это задача, направленная на выделение регионов изображения, описанных специфическими справочными выражениями. В последнее время эта область привлекла значительное внимание благодаря появлению Multimodal Large Models (MLLMs), способных эффективно обрабатывать семантическую информацию. Однако, несмотря на их продвинутые способности к пониманию смысла, MLLMs сталкиваются с трудностями в выполнении пиксельно-густых прогнозов, что является ключевой проблемой в RES. Данная проблема усугубляется тем, что существующие подходы либо используют тяжеловесные модели, такие как Segment Anything Model (SAM) с 632 миллионами параметров, либо прибегают к легковесным, но менее точным решениям. Эта дихотомия между производительностью и затратами на вычисления создает существенный барьер для практического применения RES. Основная мотивация данного исследования заключается в том, чтобы преодолевать эту проблему, максимально используя встроенные визуальные детали, инкодированные в визуальном энкодере MLLM, без необходимости дополнительных моделей. Также, требуется эффективное объединение визуальных и семантических функций для повышения точности предсказания масок. Исследование направлено на разработку нового фреймворка, который сочетает высокую точность с низкими затратами на вычисления, обеспечивая баланс между эффективностью и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен MLLMSeg — инновационный фреймворк, предназначенный для решения проблемы точности и стоимости в RES. Основные компоненты MLLMSeg включают в себя: 1. **Использование встроенных визуальных деталей**: Фреймворк полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, не требуя дополнительного визуального энкодера. Это снимает необходимость в тяжеловесных дополнительных компонентах, таких как SAM. 2. **Detail-enhanced and Semantic-consistent Feature Fusion (DSFF)**: Этот модуль является ключевым для интеграции визуальных деталей и семантических функций, выводимых из Large Language Model (LLM) в MLLM. DSFF обеспечивает гармоничное слияние этих двух типов информации, улучшая точность предсказания масок. 3. **Легковесный масковый декодер**: Для достижения высокой точности с минимальными затратами, MLLMSeg использует легковесный масковый декодер с всего 34 миллионами параметров. Этот декодер эффективно обрабатывает детализированные пространственные функции из визуального энкодера и семантические функции из LLM, обеспечивая точные предсказания масок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MLLMSeg произведены обширные эксперименты, в которых использовались различные наборы данных, специализирующиеся на RES. Результаты показывают, что MLLMSeg превосходит как SAM-based, так и SAM-free решения, достигая высокой точности при значительно меньших вычислительных затратах. Благодаря инновационному подходу к функциональному слиянию и легковесному декодеру, MLLMSeg достигает баланса между производительностью и стоимостью, что делает его привлекательным для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MLLMSeg имеет широкий спектр практических приложений в таких областях, как компьютерное зрение, медицинское изображение и автономные системы. Его способность обрабатывать сложные справочные выражения и точно выделять регионы изображения делает его полезным для задач, требующих высокой точности в работе с визуальными данными. Кроме того, легковесная архитектура MLLMSeg позволяет использовать его на устройствах с ограниченными вычислительными ресурсами, что расширяет его применимость в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MLLMSeg представляет собой балансирующее решение для RES, которое обеспечивает высокую точность при низких затратах на вычисления. Будущие исследования могут расширить этот подход, оптимизируя его для более широкого спектра задач и улучшая его адаптивность к различным доменным данным.

Annotation:

Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address ...

ID: 2508.04107v2 cs.CV, cs.AI

arXiv PDF

📄 DS$^2$Net: Detail-Semantic Deep Supervision Network for Medical Image Segmentation

2025-08-09

Авторы:

Zhaohong Huang, Yuxin Zhang, Mingbao Lin, Taojian Zhou, Guorong Cai, Rongrong Ji

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинская имиджевая сегментация является ключевой задачей в медицинском образовании и клинической практике, так как она позволяет выделять и классифицировать различные структуры в медицинских изображениях, таких как УЗИ, колоноскопия и микроскопия. Однако, несмотря на значительные успехи в области глубокого обучения, существующие методы сегментации часто сталкиваются с проблемами, связанными с качеством и точностью результатов. Одной из основных причин этих проблем является недостаточная эксплуатация взаимодействия между низкоуровневыми детальными функциями и высокоуровневыми семантическими функциями во время процесса обучения. Традиционные методы глубокого надзора (Deep Supervision Networks) обычно фокусируются либо на детальных низкоуровневых функциях, либо на высокоуровневых семантических функциях, но редко учитывают их взаимодействие. Это может привести к потере важной информации и ухудшению качества сегментации. Кроме того, многие существующие подходы используют жестко заданные параметры для управления силой надзора, что может приводить к под оптимальным результатам. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем, авторы предлагают новую архитектуру под названием DS$^2$Net (Detail-Semantic Deep Supervision Network). Эта архитектура включает два ключевых модуля: Detail Enhance Module (DEM) и Semantic Enhance Module (SEM). DEM работает на низкоуровневых детальных функциях, выделяя мелкие детали изображений, которые могут быть критически важными для точной сегментации. SEM, с другой стороны, фокусируется на высокоуровневых семантических функциях, которые помогают в идентификации более общих структур и форм. Оба модуля работают вместе, чтобы обеспечить комплементарное надзорное обучение, где детальные и семантические функции совместно улучшают качество сегментации. Кроме того, DS$^2$Net вводит новый подход к управлению силой надзора с помощью неопределенности (uncertainty-based supervision loss). Это позволяет адаптивно регулировать силу надзора для различных уровней функций в зависимости от их неопределенности, что помогает избежать под оптимальных решений, которые часто возникают в традиционных методах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на шести различных бенчмарках, включая данные из колоноскопии, УЗИ и микроскопии. Результаты показывают, что DS$^2$Net постоянно превосходит современные методы сегментации в медицинской области. Например, на колоноскопических данных, DS$^2$Net показал значительное улучшение точности сегментации, особенно в выделении мелких деталей. Кроме того, авторы продемонстрировали, что использование неопределенности в качестве меры для регулирования силы надзора позволяет DS$^2$Net достигать лучших результатов по сравнению с традиционными методами, которые используют фиксированные параметры. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ DS$^2$Net имеет широкое применение в медицинской практике. Точная сегментация медицинских изображений критически важна для диагностики и планирования лечения. Например, в колоноскопии, где точность выделения полипов и других аномалий может быть фактором жизни или смерти, DS$^2$Net может значительно улучшить качество диагностики. Благодаря своей способности обрабатывать как детальные, так и семантические функции, DS$^2$Net может быть применен в различных медицинских областях, где высококачественная сегментация имеет решающее значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ DS$^2$Net представляет собой новую парадигму в медицинской имиджевой сегментации, которая объединяет детальные и семантические функции в единый фреймворк. Это позволяет достичь лучших результатов по сравнению с традиционными методами. В будущем, исследования могут быть направлены на дальнейшее улучшение архитектуры, включая интеграцию дополнительных модулей для обработки более сложных медицинских данных.

Annotation:

Deep Supervision Networks exhibit significant efficacy for the medical imaging community. Nevertheless, existing work merely supervises either the coarse-grained semantic features or fine-grained detailed features in isolation, which compromises the fact that these two types of features hold vital relationships in medical image analysis. We advocate the powers of complementary feature supervision for medical image segmentation, by proposing a Detail-Semantic Deep Supervision Network (DS$^2$Net)....

ID: 2508.04131v1 cs.CV, cs.AI

arXiv PDF

📄 UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval

2025-08-09

Авторы:

Hongyu Guo, Kuan Zhu, Xiangzhao Hao, Haiyun Guo, Ming Tang, Jinqiao Wang

Решение проблемы недостаточной точности в few-shot fine-grained visual classification (FGVC) предлагается в статье UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval. Авторы предлагают UniFGVC — универсальный тренировочно-свободный подход, превращающий FGVC в задачу multimodal retrieval. Используя Category-Discriminative Visual Captioner (CDV-Captioner), они эксплуатируют open-world knowledge multimodal large language models (MLLMs) для генерации структурированных текстовых описаний, отражающих тонкие атрибуты отличающих классов. Эти описания, в сочетании с visually similar reference images, повышают точность и уменьшают hallucination. UniFGVC конвертирует каждую картинку в image-description pair, обеспечивая боRизнее полные feature representations для затемняющегося retrieval pipeline. Отличительным признаком UniFGVC является его обширная совместимость с различными MLLMs и encoders, обеспечивая надежную generalization и adaptability в различных сценариях few-shot FGVC. Эксперименты на 12 FGVC benchmarks подтверждают выдающуюся эффективность UniFGVC по сравнению с предыдущими few-shot CLIP-based и даже several fully-supervised MLLMs-based approaches.

Annotation:

Few-shot fine-grained visual classification (FGVC) aims to leverage limited data to enable models to discriminate subtly distinct categories. Recent works mostly finetuned the pre-trained visual language models to achieve performance gain, yet suffering from overfitting and weak generalization. To deal with this, we introduce UniFGVC, a universal training-free framework that reformulates few-shot FGVC as multimodal retrieval. First, we propose the Category-Discriminative Visual Captioner (CDV-Ca...

ID: 2508.04136v1 cs.CV, cs.AI

arXiv PDF

📄 Gather and Trace: Rethinking Video TextVQA from an Instance-oriented Perspective

2025-08-09

Авторы:

Yan Zhang, Gangyan Zeng, Daiqing Wu, Huawen Shen, Binbin Li, Yu Zhou, Can Ma, Xiaojun Bi

## КОНТЕКСТ И ПРОБЛЕМАТИКА Видеотекстовая визуальная вопросо-ответная система (Video TextVQA) — это задача, целью которой является ответ на вопросы путем чтения и анализа текстовой информации, содержащейся в видео. Традиционные методы, основанные на работе с отдельными кадрами (frame-level), сталкиваются с двумя ключевыми проблемами: избыточность текстовых объектов и неявное моделирование отношений между ними. Эти ограничения приводят к снижению точности и эффективности. Кроме того, существующие модели часто не учитывают динамические изменения текстовых элементов во времени, что является ключевым аспектом видеоданных. Современные подходы к Video TextVQA обычно работают на уровне кадров, где каждый кадр анализируется независимо, что приводит к повторению вычислений и неэффективному использованию ресурсов. Кроме того, недостаточное учету динамики текста во времени приводит к неточным ответам на вопросы, особенно когда текст меняется или перемещается в рамках видео. Эти проблемы подчеркивают необходимость разработки более эффективных и точных методов, которые учитывают контекст и временное развитие текстовых элементов в видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый подход к Video TextVQA, основанный на инстанс-ориентированной перспективе, которая позволяет более точно обрабатывать текстовые элементы в видео. Модель, называемая GAT (Gather and Trace), состоит из двух основных модулей: **контекстно-агрегирующего модуля сбора экземпляров** и **модуля трассировки траекторий экземпляров**. 1. **Контекстно-агрегирующий модуль**: Этот модуль интегрирует визуальные, текстовые и пространственные характеристики каждого текстового экземпляра в видео. Он собирает информацию о внешнем виде, расположении и содержании текста, объединяя ее в единое текстовое представление. Это позволяет повысить точность распознавания текста, учитывая контекст и связи между экземплярами. 2. **Модуль трассировки траекторий**: Для захвата динамических изменений текста во времени используется модуль, который устанавливает пространственно-временные связи между текстовыми экземплярами в различных кадрах. Этот модуль позволяет отслеживать траектории текстовых объектов и определяет их взаимосвязи в рамках видеопотока. Эти модули в совокупности обеспечивают более точное и эффективное чтение текста, а также улучшают моделирование взаимоотношений между текстовыми экземплярами в динамическом видеоконтексте. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предлагаемого метода проведены расширенные эксперименты на нескольких общедоступных наборах данных для Video TextVQA. GAT достигает высоких результатов по точности, превосходя существующие подходы. В частности, GAT превзошел состояние искусства в Video TextVQA на 3,86% по точности и одновременно обеспечил скорость вывода, превышающую скорость видео-языковых моделей в десять раз. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод GAT имеет широкое применение в областях, требующих анализа видеоданных, таких как автоматический анализ видеоконтента, поддержка принятия решений на основе видеоинформации и разработка интеллектуальных систем взаимодействия с видео. Преимущества GAT включают высокую точность, быструю скорость вывода и эффективное моделирование динамики текстовых элементов, что делает его применимым в реальных сценариях, требующих обработки видео в реальном времени. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предлагаемый метод GAT представляет новый подход к Video TextVQA, который учитывает контекст и динамику текстовых элементов во времени. Будущие исследования могут фокусироваться на дальнейшем улучшении точности и эффективности, а также на расширении применимости метода к более сложным видеоданным, включая мультимодальные контексты.

Annotation:

Video text-based visual question answering (Video TextVQA) aims to answer questions by explicitly reading and reasoning about the text involved in a video. Most works in this field follow a frame-level framework which suffers from redundant text entities and implicit relation modeling, resulting in limitations in both accuracy and efficiency. In this paper, we rethink the Video TextVQA task from an instance-oriented perspective and propose a novel model termed GAT (Gather and Trace). First, to o...

ID: 2508.04197v1 cs.CV, cs.AI

arXiv PDF

📄 ViFP: A Framework for Visual False Positive Detection to Enhance Reasoning Reliability in VLMs

2025-08-09

Авторы:

Ben Zhang, LuLu Yu, Lei Gao, Jing Liu, QuanJiang Guo, Hui Gao

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальные языковые модели (VLM) становятся все более важными в области искусственного интеллекта, особенно для задач, требующих решения сложных визуально-языковых задач. Однако одним из ключевых проблем в таких моделях является наличие ложных положительных результатов (False Positives, FP) в процессе резонирования. Такие ошибки возникают, когда модель предоставляет правильный ответ, но при этом использует некорректный или нелогичный путь резонирования. Такие ошибки могут привести к недоверию в результаты модели, особенно в критических приложениях, где надежность и точность резонирования играют ключевую роль. Традиционные подходы к улучшению резонирования в VLM, такие как многошаговые методы резонирования и стратегии обучения с подкреплением, часто страдают от высоких затрат на обучение и ограниченной генерализации. Они требуют крупных, специализированных наборов данных, что ограничивает их применимость на практике. Кроме того, существующие методы не всегда способны эффективно обнаруживать и исправлять ошибки в процессе резонирования. Это создает потребность в разработке более универсальных и эффективных методов, которые могут улучшить как точность ответов, так и надежность процесса резонирования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Чтобы решить эти проблемы, авторы предлагают ViFP (Visual False Positive detection Framework), который представляет собой общий фреймворк для улучшения надежности резонирования в VLM. Основная идея ViFP заключается в использовании подзадач (sub-question templates), основанных на ключевых аспектах визуального резонирования, таких как локализация объектов, описание их характеристик и их обнаружение. Эти подзадачи помогают создать более надежные пути резонирования через многократный вопрос-ответ (multi-turn QA). ViFP также использует динамический анализ консистентности пути резонирования для обнаруживания потенциальных FP. Для этого введен механизм chain-of-thought (CoT), который адаптивно руководствуется как положительными, так и отрицательными примерами, что позволяет снизить логические ошибки в процессе резонирования, сохраняя при этом высокую точность ответов. Этот подход позволяет ViFP обнаруживать и исправлять ошибки в процессе резонирования без необходимости в больших вычислительных ресурсах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов на закрытых VLM, чтобы оценить эффективность ViFP. Эксперименты были проведены на трех наборах данных: A-OKVQA, OKVQA, и FVQA. Результаты показали, что ViFP существенно улучшает точность ответов и снижает количество FP. Например, на наборе данных A-OKVQA, ViFP повысил точность на 5.4% по сравнению со стандартными подходами, превзойдя прежние лучшие результаты на 4.3%. Кроме того, ViFP значительно снизил количество FP, что демонстрирует его эффективность в повышении надежности резонирования. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ViFP может быть применен в различных областях, где критически важна надежность и точность резонирования визуальных данных. Например, в областях медицинского изображения, автономных транспортных системах, или даже в образовательных приложениях, где важно получать точные и логически согласованные ответы. Благодаря своей универсальности и эффективности, ViFP может стать важной составляющей в разработке более надежных и точных VLM для различных практических приложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен фреймворк ViFP, который улучшает надежность резонирования в VLM, снижая количество ложных положительных результатов и повышая точность ответов. Это достигается благодаря использованию подзадач, динамического анализа консистентности и механизма chain-of-thought. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности ViFP, а также на его применении в более широком диапазоне задач и наборов данных.

Annotation:

In visual-language model (VLM) reasoning, false positive(FP) reasoning occurs when a model generates a correct answer but follows an incorrect reasoning path. Existing methods based on specific multi-step reasoning datasets and reinforcement learning strategies, leading to high training costs and limited generalization. In this work, we propose ViFP, a general framework for enhancing visual reasoning reliability. It improves both answer accuracy and reasoning soundness by detecting FPs. ViFP tac...

ID: 2508.04201v1 cs.CV, cs.AI

arXiv PDF

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Annotation:

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...

ID: 2508.04260v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Chain of Questions: Guiding Multimodal Curiosity in Language Models

2025-08-09

Авторы:

Nima Iji, Kia Dashtipour

**Резюме** В статье представлен фреймворк Chain of Questions (CoQ), расширяющий метод chain-of-thought для повышения логических и рациональных способностей в multimodal language models. Основная проблема заключается в том, что нынешние модели сталкиваются с трудностями при работе с multimodal data, не в состоянии активно выбирать и использовать информацию из разных модальностей (вид, звук, спациальная перцепция) для точного рассуждения. CoQ предлагает стратегию, в которой модель сама формирует и задает targeted questions, ориентируясь на потребности в конкретных модальностях для построения правильного решения. Результаты экспериментов на собственном multimodal датасете, объединяющем WebGPT, ScienceQA, AVSD и ScanQA, показали, что CoQ улучшает модельную точность, при этом увеличивая интерпретируемость и адекватность процесса рассуждения к задаче. Таким образом, CoQ демонстрирует свою эффективность в работе с multimodal сценариями, повышая качество интеллектуальных задач.

Annotation:

Reasoning capabilities in large language models (LLMs) have substantially advanced through methods such as chain-of-thought and explicit step-by-step explanations. However, these improvements have not yet fully transitioned to multimodal contexts, where models must proactively decide which sensory modalities such as vision, audio, or spatial perception to engage when interacting with complex real-world environments. In this paper, we introduce the Chain of Questions (CoQ) framework, a curiosity-...

ID: 2508.04350v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MA

arXiv PDF

1
2
1153
1154
1155
1156
1157
1161
1162

Показано 11541 - 11550 из 11614 записей