📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Katsuyoshi Hotta

Person Re-identification (ReID) в условиях Unsupervised Domain Adaptation (UDA) остается вызовом из-за искажений в изображениях, возникающих при использовании различных камер. Для решения этой проблемы предлагается CORE-ReID — фреймворк, объединяющий подходы к оптимизации и рефинингу через пакетное обучение с использованием Ensemble Fusion. Трех этапный подход включает предварительное обучение с CycleGAN для генерации разнообразных данных, корректировку с использованием нескольких видов признаков, а также новый механизм Ensemble Fusion для уточненного использования местных деталей в глобальных признаках. Это позволяет избежать неоднозначности в кластеризации и улучшить точность. Тестирование на трех UDA-выборках показало, что CORE-ReID превосходит современные методы по таким метрикам, как Mean Average Precision, Top-1, Top-5 и Top-10. Наши результаты и модели доступны по ссылке [https://github.com/TrinhQuocNguyen/CORE-ReID].
Annotation:
This study introduces a novel framework, "Comprehensive Optimization and Refinement through Ensemble Fusion in Domain Adaptation for Person Re-identification (CORE-ReID)", to address an Unsupervised Domain Adaptation (UDA) for Person Re-identification (ReID). The framework utilizes CycleGAN to generate diverse data that harmonizes differences in image characteristics from different camera sources in the pre-training stage. In the fine-tuning stage, based on a pair of teacher-student networks, th...
ID: 2508.03064v1 cs.CV, cs.AI
Авторы:

Sai Ma, Zhuang Li, John A Taylor

Landsat30-AU — это крупномасштабный датасет для семантического понимания данных спутниковой съемки, сфокусированный на 30-метровом разрешении Landsat (5, 7, 8, 9) для Австралии за 36+ лет. Он включает две части: Landsat30-AU-Cap с 196,262 парами изображения-текст и Landsat30-AU-VQA с 17,725 визуальных задач вопроса-ответа (VQA), подтвержденными людьми. Датасет создан через итеративный процесс с использованием VLMs и ручной проверкой. Результаты нашего эксперимента показывают, что в спутниковой съемке существуют затруднения в понимании, даже с использованием существующих VLMs, в том числе EarthDial. Однако легкий файнтюнинг Qwen2.5-VL-7B на Landsat30-AU улучшил качество полученных ответов, что подтверждает потенциал таких подходов для дальнейшего оптимизации. Данные и код доступны на GitHub.
Annotation:
Vision language models (VLMs) that enable natural language interaction with satellite imagery can democratize Earth observation by accelerating expert workflows, making data accessible to non-specialists, and enabling planet-scale automation. However, existing datasets focus mainly on short-term, high-resolution imagery from a limited number of satellites, overlooking low-resolution, multi-satellite, long-term archives, such as Landsat, that are essential for affordable and bias-robust global mo...
ID: 2508.03127v2 cs.CV, cs.AI
Авторы:

Junyoung Lim, Jaewoo Ahn, Gunhee Kim

Генерирование точных и структурированных подписей для диаграмм остается сложной задачей для визуально-языковых моделей, в основном из-за недостатка больших, высококачественных датасетов реальных диаграмм. Основная проблема в том, что существующие датасеты часто включают лишнюю информацию, которая нельзя вывести из диаграмм, и недостаточно хорошо охватывают структурные элементы и основные выводы. Чтобы решить эту проблему, мы представляем ChartCap — большой датасет из 565К реальных диаграмм, покрывающий широкий спектр типов диаграмм. Наш датасет включает в себя точные, детальные подписи, которые исключают лишнюю информацию и сосредоточены на структуре и ключевых выводах. Чтобы повысить качество, мы разработали 4-х этапную методику с использованием циклической консистентности для проверки гуманными экспертами. Мы также предложили новый метрику — Visual Consistency Score — для оценки качества подписей, сравнивая регенерируемую диаграммой с оригиналом. Наши эксперименты показали, что модели, приточенные на ChartCap, генерируют более точные и информативные подписи с меньшим количеством халлуцинаций, превосходя даже профессионально аннотированные данные.
Annotation:
Generating accurate, informative, and hallucination-free captions for charts remains challenging for vision language models, primarily due to the lack of large-scale, high-quality datasets of real-world charts. However, existing real-world chart datasets suffer from the inclusion of extraneous information that cannot be inferred from the chart and failure to sufficiently capture structural elements and key insights. Therefore, we introduce ChartCap, a large-scale dataset of 565K real-world chart...
ID: 2508.03164v1 cs.CV, cs.AI, cs.CL
Авторы:

Yihan Ma, Zeyang Yu, Rohitash Chandra

## КОНТЕКСТ И ПРОБЛЕМАТИКА Импактные кратеры являются одними из наиболее заметных геоморфологических объектов на поверхности планет и спутников солнечной системы. Их распределение по пространству и морфологические характеристики несут важную информацию о композиции поверхности, геологической истории и процессах, вызванных внешним воздействием. Изучение кратеров играет ключевую роль в планетарной науке, поскольку они служат индикаторами временных рамков и интенсивности космических ударов, а также показателями эволюции поверхности. Традиционные методы детектирования кратеров основывались на ручной идентифицировании по изображениям, что требовало больших временных и трудовых затрат, особенно при анализе больших объемов данных с планетарных орбитальных миссий. В последние годы развитие искусственного интеллекта и глубоких нейронных сетей открыло новые возможности для автоматизированного детектирования кратеров. Однако существующие модели часто сталкиваются с проблемами, такими как недостаточная точность распознавания, ограниченность обучения на конкретных типах поверхностей и неоптимальное балансирование между скоростью и точностью. Эта проблематика ставит вопрос о создании эффективного и универсального фреймворка для автоматического детектирования и идентификации кратеров, способного работать на различных планетарных поверхностях с высокой точностью. В данной статье авторы предлагают решение на основе глубокого обучения, ориентированное на детектирование и идентификацию кратеров на Луне и Марсе, используя данные дистанционного зондирования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют фреймворк для детектирования кратеров, основанный на глубоком обучении, который включает два этапа. На первом этапе используются классические модели, такие как Convolutional Neural Networks (CNNs), ResNet-50 и YOLO (You Only Look Once), для идентификации кратеров. ResNet-50 представляет собой глубокую архитектуру с 50 слоями, известную своей способностью к эффективному обучению на больших данных. YOLO, в свою очередь, является одной из самых быстрых моделей для детектирования объектов в режиме реального времени. На втором этапе фреймворк использует YOLO-базированный подход для точной локализации кратеров. Этот подход позволяет обеспечить высокую точность распознавания различных типов кратеров, включая крупные и мелкие формы. Архитектура фреймворка оптимизирована для работы с данными дистанционного зондирования, полученными с Луны и Марса, что позволяет анализировать различные типы поверхностей и геологических условий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности фреймворка проведены эксперименты на данных дистанционного зондирования с Луны и Марса. Использовались высокоразрешенные изображения, позволяющие распознать мелкие детали кратеров. Результаты показали, что YOLO демонстрирует наиболее сбалансированную производительность в детектировании кратеров, обеспечивая высокую скорость и точность. ResNet-50, с другой стороны, показал лучшие результаты в идентификации крупных кратеров с высокой точностью. Эксперименты также подтвердили, что фреймворк способен обрабатывать разнообразные типы поверхностей, обнаруживая кратеры различных размеров и форм. Отчеты, сгенерированные фреймворком, включали детальную информацию о расположении и характеристиках кратеров, что демонстрирует практическую применимость метода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк имеет широкие возможности применения в планетарной науке и космических исследованиях. Он позволяет быстро и точно обрабатывать большие объемы данных, что значительно ускоряет процессы исследования поверхностей Луны и Марса. Это может быть использовано для изучения геологической истории планет, оценки возраста поверхностных форм и анализа динамики космических ударов. Кроме того, фреймворк может быть интегрирован в космические миссии для реального времени анализа данных, что повышает эффективность миссий и позволяет быстрее принимать научные решения. Его универсальность и высокая точность делают его полезным инструментом для будущих космических проектов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен фреймворк для автоматического детектирования и идентификации кратеров на Луне и Марсе, который демонстрирует высокую эффективность и точность. Основными достижениями являются балансированное детектирование YOLO и высокая точность ResNet-50 в распознавании крупных кратеров. В будущем можно рассмотреть расширение фреймворка для работы с другими планетарными поверхностями, а также интеграцию дополнительных моделей для улучшения точности и скорости. Также возможно исследование возможностей фреймворка в реальном времени для применения в будущих космических миссиях.
Annotation:
Impact craters are among the most prominent geomorphological features on planetary surfaces and are of substantial significance in planetary science research. Their spatial distribution and morphological characteristics provide critical information on planetary surface composition, geological history, and impact processes. In recent years, the rapid advancement of deep learning models has fostered significant interest in automated crater detection. In this paper, we apply advancements in deep le...
ID: 2508.03920v1 cs.CV, cs.AI
Авторы:

Xiangcen Wu, Shaheer U. Saeed, Yipei Wang, Ester Bonmati Coll, Yipeng Hu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Диагностика рака простаты требует тщательного анализа медицинских изображений, таких как многопараметрическая МРТ (mpMRI). Радиологи часто используют комбинированные стратегии чтения изображений, включая просмотр отдельных модальностей и локальных регионов изображения. Они анализируют информацию из разных изображений и разных регионов как независимо, так и одновременно, чтобы точно определить местоположение опухолей. Тем не менее, эта задача часто является высокосубъективной и трудоемкой, особенно при наличии сложной патологии. Существующие модели машинного обучения для сегментации опухолей часто используют всю доступную информацию из всех модальностей одновременно, что может привести к неэффективному использованию данных. Требуется более интеллектуальный подход, который мог бы оптимизировать процесс выбора модальностей и локализации регионов для анализа. Такой подход мог бы повысить эффективность аннотации и улучшить точность сегментации, особенно в случаях сложной патологии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье предлагается система политик (policy network), которая помогает сегментационным моделям машинного обучения путем рекомендации наиболее подходящих изображений и регионов для анализа. Эта система обучается выбора оптимальной модальности и конкретных сегментов изображений, которые должны быть проанализированы для максимизации точности сегментации рака простаты. При обучении используется предварительно обученная модель сегментации, которая имитирует действия радиологов, просматривая отдельные модальности или их комбинации, выбранные политикой. На основе выбранных регионов выполняется локальная сегментация, и результаты используются в качестве входа для следующего цикла рекомендаций. Этот итеративный процесс продолжается до тех пор, пока все опухоли не будут точно локализованы. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности метода использовалась база данных из 1325 меткированных mpMRI-изображений пациентов с раком простаты. Эксперименты показали, что предлагаемый подход может значительно улучшить качество сегментации и эффективность аннотации, особенно при сложной патологии. Результаты демонстрируют, что система политик может превосходить стандартные сегментационные модели, особенно в случаях, когда существуют труднодиагностируемые опухоли. Интересно то, что обученная политика разработала собственную стратегию выбора модальностей и регионов, которая может отличаться от текущих клинических рекомендаций, таких как PI-RADS. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в клинической практике. Он может повысить эффективность работы радиологов, помогая им сосредоточиться на наиболее релевантных регионах и модальностях. Это может существенно сократить время, необходимое для аннотации и диагностики. Кроме того, предложенная система может быть использована в интерактивных приложениях, где она будет помогать радиологам в реальном времени, оптимизируя процесс диагностики. Это может способствовать улучшению качества медицинского обследования и уменьшению вероятности пропуска опухолей. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Представленный метод демонстрирует высокую эффективность в оптимизации процесса локализации рака простаты. Он не только улучшает точность сегментации, но и позволяет разрабатывать новые стратегии анализа, которые могут быть интегрированы в клиническую практику. В будущем могут быть исследованы возможности дальнейшей интеграции таких политик в клинические рабочие процессы, а также исследования того, как они могут сотрудничать с радиологами в интерактивном режиме для улучшения диагностики.
Annotation:
Radiologists often mix medical image reading strategies, including inspection of individual modalities and local image regions, using information at different locations from different images independently as well as concurrently. In this paper, we propose a recommend system to assist machine learning-based segmentation models, by suggesting appropriate image portions along with the best modality, such that prostate cancer segmentation performance can be maximised. Our approach trains a policy ne...
ID: 2508.03953v1 cs.CV, cs.AI
Авторы:

Trinh Quoc Nguyen, Oky Dicky Ardiansyah Prima, Syahid Al Irfan, Hindriyanto Dwi Purnomo, Radius Tanone

## КОНТЕКСТ И ПРОБЛЕМАТИКА Область Object Re-Identification (ReID) — одна из ключевых задач в компьютерном зрении, которая нацелена на идентификацию объектов, таких как люди или автомобили, на различных камерах или в разных сценариях. Несмотря на значительные успехи в этой области, решение задач ReID остается сложной задачей, особенно в контексте Unsupervised Domain Adaptation (UDA). Традиционные подходы к ReID часто страдают от проблемы доменной разницы, когда модели, обученные на одном наборе данных, не эффективно работают на другом из-за различий в распределении данных. Это особенно актуально для практических приложений, где данные могут быть собраны в различных условиях, таких как разные местоположения, освещение или ракурсы. Проблема UDA в ReID заключается в том, чтобы адаптировать модель, обученную на исходном домене (source domain), к новому, целевому домену (target domain), где метки данных недоступны. Это требует разработки эффективных методов для борьбы с проблемами различий в данных и генерации качественных представлений объектов. Кроме того, многие существующие решения страдают от недостатков в точности и сложности, что ограничивает их применимость в реальных сценариях. В этом контексте, CORE-ReID V2 предлагает улучшенный подход, который стремится решить эти проблемы, используя расширенные методы предобработки данных, улучшенную архитектуру модели и эффективные механизмы фьюзинга для повышения точности и эффективности ReID в различных доменах. ## ПРЕДЛОЖЕННЫЙ МЕТОД CORE-ReID V2 — это усовершенствованный фреймворк, который строится на основе предшественника CORE-ReID, но включает в себя несколько ключевых улучшений для решения проблем UDA в Object ReID. Основным компонентом этого фреймворка является использование CycleGAN для синтеза данных в процессе предобработки. CycleGAN позволяет генерировать синтетические изображения, которые помогают переносить характеристики изображений из исходного домена в целевой, тем самым снижая разрыв между распределениями данных. Во время файн-тюнинга, CORE-ReID V2 использует совершенствованный механизм ensemble fusion, который состоит из Efficient Channel Attention Block (ECAB) и Simplified Efficient Channel Attention Block (SECAB). Эти блоки позволяют эффективно обрабатывать как локальные, так и глобальные функции представлений объектов, что помогает уменьшить неопределенность в псевдо-метках для целевых образцов. ECAB и SECAB обеспечивают более глубокое понимание данных, улучшая качество представлений и повышая точность классификации. Архитектура CORE-ReID V2 также поддерживает легковесные бэкбоны, такие как ResNet18 и ResNet34, что делает его более эффективным с точки зрения вычислительных ресурсов. Это позволяет фреймворку быть более масштабируемым и пригодным для различных практических приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности CORE-ReID V2 проведены эксперименты на различных наборах данных, включая UDA Person ReID и Vehicle ReID. Результаты демонстрируют, что CORE-ReID V2 значительно превосходит современные методы по ключевым метрикам, таким как Mean Average Precision (mAP) и Rank-k Accuracy (Top-1, Top-5, Top-10). Например, на некоторых наборах данных, CORE-ReID V2 достигает высочайших показателей mAP и Rank-1 Accuracy, что подтверждает его лидирующую позицию среди современных подходов. В экспериментах также было показано, что использование CycleGAN для синтеза данных в предобработке существенно повышает качество адаптации модели к новым доменам. Благодаря эффективным механизмам фьюзинга, CORE-ReID V2 успешно справляется с неопределенностью в псевдо-метках, что является ключевым фактором для достижения высокой точности. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ CORE-ReID V2 имеет широкий спектр применений в различных областях, включая безопасность, транспорт и розничную торговлю. Благодаря его способности эффективно адаптироваться к различным доменам, этот фреймворк может быть использован для решения задач ReID в реальных условиях, где данные могут быть получены из различных источников. Преимущества CORE-ReID V2 включают в себя не только высокую точность и эффективность, но и масштабируемость благодаря поддержке легковесных бэкбонов. Это делает его пригодным для использования на различных платформах, включая мобильные устройства. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ CORE-ReID V2 является значительным шагом вперед в области Unsupervised Domain Adaptation для Object ReID. Он не только показывает высокую эффективность на различных наборах данных, но и открывает новые возможности для дальнейших исследований в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении архитектуры, включая использование более продвинутых моделей и методов для еще более эффективной адаптации к новым доменам. Открытый код и модели также позволят другим исследователям продолжить работу над улучшением этого фреймворка.
Annotation:
This study presents CORE-ReID V2, an enhanced framework building upon CORE-ReID. The new framework extends its predecessor by addressing Unsupervised Domain Adaptation (UDA) challenges in Person ReID and Vehicle ReID, with further applicability to Object ReID. During pre-training, CycleGAN is employed to synthesize diverse data, bridging image characteristic gaps across different domains. In the fine-tuning, an advanced ensemble fusion mechanism, consisting of the Efficient Channel Attention Blo...
ID: 2508.04036v1 cs.CV, cs.AI
Авторы:

Zexu Huang, Min Xu, Stuart Perry

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является передовым методом для эффективного и высококачественного синтеза новых видов в трехмерном пространстве. Однако, несмотря на значительные достижения в этой области, существуют существенные проблемы, связанные с точностью геометрического восстановления при использовании разреженных видов. Традиционные методы регуляризации глубины, основанные на нелокальных подходах, часто не могут точно восстановить тонкие структурные детали, оказываясь чрезвычайно чувствительными к шумам в оценке глубины. Это приводит к потере деталей и неточностям в геометрическом моделировании. Другой ключевой проблемой является игнорирование семантических границ в процессе регуляризации. Методы, использующие обычные сглаживающие методы, часто ухудшают качество реконструкции, так как они не различают важные ребра и текстурные детали, что приводит к ухудшению общего качества визуализации. Эти ограничения не позволяют достичь высокого уровня точности и визуальной достоверности при синтезе новых видов, особенно в условиях разреженного набора входных данных. Мотивацией данной работы является разработка метода, который мог бы преодолеть эти ограничения, обеспечивая точное и высококачественное восстановление геометрии и сохраняя тонкие детали и семантические границы. Такой подход должен быть устойчив к шумам в оценке глубины и способен сохранять важные текстурные особенности, чтобы повысить общую точность и качество реконструкции. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый метод под названием DET-GS (Depth- and Edge-Aware Regularization for 3D Gaussian Splatting), который является унифицированной рамочной структурой для регуляризации глубины и сохранения ребер. Основная идея метода заключается в использовании иерархической геометрической регуляризации глубины, которая адаптивно обеспечивает согласованность на различных уровнях детализации. Это позволяет улучшить точность геометрической реконструкции и увеличить устойчивость к шумам в оценке глубины. Для сохранения семантических границ, метод использует регуляризацию глубины, основанную на детекции ребер (Canny edge detection), которая помогает определить семантически важные границы сцены. Это позволяет сохранить важные детали и ребра, которые могут быть потеряны при использовании традиционных методов сглаживания. Кроме того, в методе используется RGB-guided edge-preserving Total Variation (TV) loss, которая способна сглаживать однородные области, сохраняя при этом высокочастотные детали и текстуры. Это позволяет достичь более высокого качества визуализации, уменьшая шум и неточности в областях, где они могут возникнуть. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на различных данных, включая разреженные виды сцен, для оценки эффективности предложенного метода. Данные включали высококачественные 3D модели и сцены с различными уровнями сложности. Результаты показали, что DET-GS значительно улучшает точность геометрического восстановления и качество визуализации по сравнению со стандартными методами 3DGS. При использовании DET-GS было получено более точное восстановление тонких деталей и структур, а также лучшее сохранение ребер и текстурных особенностей. Метод также показал высокую устойчивость к шумам в данных глубины, что является ключевым преимуществом в сравнении с другими подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод DET-GS имеет широкое применение в области трехмерного моделирования и синтеза новых видов. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, где важна высокая точность и качество визуализации. Преимущества DET-GS включают в себя улучшенную точность геометрического моделирования, сохранение важных деталей и ребер, а также устойчивость к шумам в данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе было показано, что DET-GS является эффективным методом для улучшения точности и качества трехмерного моделирования. Он предоставляет новые возможности для создания более достоверных и высококачественных 3D моделей, особенно при работе с разреженными видами. Будущие исследования могут фокусироваться на дальнейшем улучшении метода, включая использование более совершенных методов детекции ребер и расширение его применимости на более широкий класс данных.
Annotation:
3D Gaussian Splatting (3DGS) represents a significant advancement in the field of efficient and high-fidelity novel view synthesis. Despite recent progress, achieving accurate geometric reconstruction under sparse-view conditions remains a fundamental challenge. Existing methods often rely on non-local depth regularization, which fails to capture fine-grained structures and is highly sensitive to depth estimation noise. Furthermore, traditional smoothing methods neglect semantic boundaries and i...
ID: 2508.04099v1 cs.CV, cs.AI
Авторы:

Jingchao Wang, Zhijian Wu, Dingjiang Huang, Yefeng Zheng, Hong Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Referring Expression Segmentation (RES) — это задача, направленная на выделение регионов изображения, описанных специфическими справочными выражениями. В последнее время эта область привлекла значительное внимание благодаря появлению Multimodal Large Models (MLLMs), способных эффективно обрабатывать семантическую информацию. Однако, несмотря на их продвинутые способности к пониманию смысла, MLLMs сталкиваются с трудностями в выполнении пиксельно-густых прогнозов, что является ключевой проблемой в RES. Данная проблема усугубляется тем, что существующие подходы либо используют тяжеловесные модели, такие как Segment Anything Model (SAM) с 632 миллионами параметров, либо прибегают к легковесным, но менее точным решениям. Эта дихотомия между производительностью и затратами на вычисления создает существенный барьер для практического применения RES. Основная мотивация данного исследования заключается в том, чтобы преодолевать эту проблему, максимально используя встроенные визуальные детали, инкодированные в визуальном энкодере MLLM, без необходимости дополнительных моделей. Также, требуется эффективное объединение визуальных и семантических функций для повышения точности предсказания масок. Исследование направлено на разработку нового фреймворка, который сочетает высокую точность с низкими затратами на вычисления, обеспечивая баланс между эффективностью и производительностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье представлен MLLMSeg — инновационный фреймворк, предназначенный для решения проблемы точности и стоимости в RES. Основные компоненты MLLMSeg включают в себя: 1. **Использование встроенных визуальных деталей**: Фреймворк полностью использует визуальные детали, закодированные в визуальном энкодере MLLM, не требуя дополнительного визуального энкодера. Это снимает необходимость в тяжеловесных дополнительных компонентах, таких как SAM. 2. **Detail-enhanced and Semantic-consistent Feature Fusion (DSFF)**: Этот модуль является ключевым для интеграции визуальных деталей и семантических функций, выводимых из Large Language Model (LLM) в MLLM. DSFF обеспечивает гармоничное слияние этих двух типов информации, улучшая точность предсказания масок. 3. **Легковесный масковый декодер**: Для достижения высокой точности с минимальными затратами, MLLMSeg использует легковесный масковый декодер с всего 34 миллионами параметров. Этот декодер эффективно обрабатывает детализированные пространственные функции из визуального энкодера и семантические функции из LLM, обеспечивая точные предсказания масок. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности MLLMSeg произведены обширные эксперименты, в которых использовались различные наборы данных, специализирующиеся на RES. Результаты показывают, что MLLMSeg превосходит как SAM-based, так и SAM-free решения, достигая высокой точности при значительно меньших вычислительных затратах. Благодаря инновационному подходу к функциональному слиянию и легковесному декодеру, MLLMSeg достигает баланса между производительностью и стоимостью, что делает его привлекательным для практического применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ MLLMSeg имеет широкий спектр практических приложений в таких областях, как компьютерное зрение, медицинское изображение и автономные системы. Его способность обрабатывать сложные справочные выражения и точно выделять регионы изображения делает его полезным для задач, требующих высокой точности в работе с визуальными данными. Кроме того, легковесная архитектура MLLMSeg позволяет использовать его на устройствах с ограниченными вычислительными ресурсами, что расширяет его применимость в реальных условиях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, MLLMSeg представляет собой балансирующее решение для RES, которое обеспечивает высокую точность при низких затратах на вычисления. Будущие исследования могут расширить этот подход, оптимизируя его для более широкого спектра задач и улучшая его адаптивность к различным доменным данным.
Annotation:
Reference Expression Segmentation (RES) aims to segment image regions specified by referring expressions and has become popular with the rise of multimodal large models (MLLMs). While MLLMs excel in semantic understanding, their token-generation paradigm struggles with pixel-level dense prediction. Existing RES methods either couple MLLMs with the parameter-heavy Segment Anything Model (SAM) with 632M network parameters or adopt SAM-free lightweight pipelines that sacrifice accuracy. To address ...
ID: 2508.04107v2 cs.CV, cs.AI
Авторы:

Zhaohong Huang, Yuxin Zhang, Mingbao Lin, Taojian Zhou, Guorong Cai, Rongrong Ji

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Медицинская имиджевая сегментация является ключевой задачей в медицинском образовании и клинической практике, так как она позволяет выделять и классифицировать различные структуры в медицинских изображениях, таких как УЗИ, колоноскопия и микроскопия. Однако, несмотря на значительные успехи в области глубокого обучения, существующие методы сегментации часто сталкиваются с проблемами, связанными с качеством и точностью результатов. Одной из основных причин этих проблем является недостаточная эксплуатация взаимодействия между низкоуровневыми детальными функциями и высокоуровневыми семантическими функциями во время процесса обучения. Традиционные методы глубокого надзора (Deep Supervision Networks) обычно фокусируются либо на детальных низкоуровневых функциях, либо на высокоуровневых семантических функциях, но редко учитывают их взаимодействие. Это может привести к потере важной информации и ухудшению качества сегментации. Кроме того, многие существующие подходы используют жестко заданные параметры для управления силой надзора, что может приводить к под оптимальным результатам. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения указанных проблем, авторы предлагают новую архитектуру под названием DS$^2$Net (Detail-Semantic Deep Supervision Network). Эта архитектура включает два ключевых модуля: Detail Enhance Module (DEM) и Semantic Enhance Module (SEM). DEM работает на низкоуровневых детальных функциях, выделяя мелкие детали изображений, которые могут быть критически важными для точной сегментации. SEM, с другой стороны, фокусируется на высокоуровневых семантических функциях, которые помогают в идентификации более общих структур и форм. Оба модуля работают вместе, чтобы обеспечить комплементарное надзорное обучение, где детальные и семантические функции совместно улучшают качество сегментации. Кроме того, DS$^2$Net вводит новый подход к управлению силой надзора с помощью неопределенности (uncertainty-based supervision loss). Это позволяет адаптивно регулировать силу надзора для различных уровней функций в зависимости от их неопределенности, что помогает избежать под оптимальных решений, которые часто возникают в традиционных методах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на шести различных бенчмарках, включая данные из колоноскопии, УЗИ и микроскопии. Результаты показывают, что DS$^2$Net постоянно превосходит современные методы сегментации в медицинской области. Например, на колоноскопических данных, DS$^2$Net показал значительное улучшение точности сегментации, особенно в выделении мелких деталей. Кроме того, авторы продемонстрировали, что использование неопределенности в качестве меры для регулирования силы надзора позволяет DS$^2$Net достигать лучших результатов по сравнению с традиционными методами, которые используют фиксированные параметры. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ DS$^2$Net имеет широкое применение в медицинской практике. Точная сегментация медицинских изображений критически важна для диагностики и планирования лечения. Например, в колоноскопии, где точность выделения полипов и других аномалий может быть фактором жизни или смерти, DS$^2$Net может значительно улучшить качество диагностики. Благодаря своей способности обрабатывать как детальные, так и семантические функции, DS$^2$Net может быть применен в различных медицинских областях, где высококачественная сегментация имеет решающее значение. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ DS$^2$Net представляет собой новую парадигму в медицинской имиджевой сегментации, которая объединяет детальные и семантические функции в единый фреймворк. Это позволяет достичь лучших результатов по сравнению с традиционными методами. В будущем, исследования могут быть направлены на дальнейшее улучшение архитектуры, включая интеграцию дополнительных модулей для обработки более сложных медицинских данных.
Annotation:
Deep Supervision Networks exhibit significant efficacy for the medical imaging community. Nevertheless, existing work merely supervises either the coarse-grained semantic features or fine-grained detailed features in isolation, which compromises the fact that these two types of features hold vital relationships in medical image analysis. We advocate the powers of complementary feature supervision for medical image segmentation, by proposing a Detail-Semantic Deep Supervision Network (DS$^2$Net)....
ID: 2508.04131v1 cs.CV, cs.AI
Авторы:

Hongyu Guo, Kuan Zhu, Xiangzhao Hao, Haiyun Guo, Ming Tang, Jinqiao Wang

Решение проблемы недостаточной точности в few-shot fine-grained visual classification (FGVC) предлагается в статье UniFGVC: Universal Training-Free Few-Shot Fine-Grained Vision Classification via Attribute-Aware Multimodal Retrieval. Авторы предлагают UniFGVC — универсальный тренировочно-свободный подход, превращающий FGVC в задачу multimodal retrieval. Используя Category-Discriminative Visual Captioner (CDV-Captioner), они эксплуатируют open-world knowledge multimodal large language models (MLLMs) для генерации структурированных текстовых описаний, отражающих тонкие атрибуты отличающих классов. Эти описания, в сочетании с visually similar reference images, повышают точность и уменьшают hallucination. UniFGVC конвертирует каждую картинку в image-description pair, обеспечивая боRизнее полные feature representations для затемняющегося retrieval pipeline. Отличительным признаком UniFGVC является его обширная совместимость с различными MLLMs и encoders, обеспечивая надежную generalization и adaptability в различных сценариях few-shot FGVC. Эксперименты на 12 FGVC benchmarks подтверждают выдающуюся эффективность UniFGVC по сравнению с предыдущими few-shot CLIP-based и даже several fully-supervised MLLMs-based approaches.
Annotation:
Few-shot fine-grained visual classification (FGVC) aims to leverage limited data to enable models to discriminate subtly distinct categories. Recent works mostly finetuned the pre-trained visual language models to achieve performance gain, yet suffering from overfitting and weak generalization. To deal with this, we introduce UniFGVC, a universal training-free framework that reformulates few-shot FGVC as multimodal retrieval. First, we propose the Category-Discriminative Visual Captioner (CDV-Ca...
ID: 2508.04136v1 cs.CV, cs.AI
Показано 2211 - 2220 из 2274 записей