📚 Саммари научных статей из arXiv

Найдено 11614 результатов по запросу 'cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Towards Robust Evaluation of Visual Activity Recognition: Resolving Verb Ambiguity with Sense Clustering

2025-08-09

Авторы:

Louie Hong Yao, Nicholas Jarvis, Tianyu Jiang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальная распознавательная система для распознавания действий является важной областью исследований в области компьютерного зрения и языковых технологий. Однако, оценка эффективности таких систем сталкивается с некоторыми проблемами, связанными с неоднозначностью семантики глаголов и разнообразием точек зрения на изображения. Например, одно и то же действие может быть описано разными синонимичными глаголами (например, "brushing" и "grooming") или может иметь различные описания в зависимости от контекста (например, "piloting" vs. "operating"). Традиционные методы оценки, основанные на точном совпадении с единственным "золотым" ответом, не могут учитывать эту неоднозначность, что приводит к неполной и неточной оценке производительности моделей. Данная проблематика становится особенно актуальной при работе с большими наборами данных, где изображения могут быть интерпретированы по-разному в зависимости от контекста или цели. Таким образом, необходимо разработать более гибкий и точный метод оценки, который учитывал бы различные толкования действий и обеспечил бы более корректную оценку моделей распознавания действий. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают использовать визуально-языковой кластеринговый фреймворк для решения проблемы неоднозначности семантики глаголов. Этот фреймворк построен на основе создания кластеров смыслов (sense clusters) для глаголов, которые представляют различные интерпретации действий. Каждый кластер соответствует определенному перспективному виду на действие, который может быть выражен разными глаголами. Метод включает в себя анализ набора данных imSitu, где для каждого изображения определяется среднее количество кластеров, соответствующих разным интерпретациям. Например, для одного изображения может быть определено 2,8 кластера, каждый из которых представляет отдельный взгляд на действие. Авторы также проводят сравнение различных моделей распознавания действий, используя кластеризацию смыслов в качестве более точного метода оценки, по сравнению с традиционными подходами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены ряд экспериментов на базе данных imSitu. Результаты показали, что каждое изображение может быть описано с помощью нескольких кластеров, что подтверждает наличие неоднозначности в интерпретации действий. Авторы также провели сравнение результатов различных моделей распознавания действий, используя как традиционный подход, так и кластеризацию смыслов. Результаты показали, что кластеризация смыслов лучше согласуется с человеческим суждением, что делает этот подход более точным и надежным. Кроме того, авторы провели анализ выравнивания моделей с человеческим опытом, который показал, что кластеризация смыслов лучше отражает различные точки зрения на действия, чем традиционные методы оценки. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод кластеризации смыслов имеет широкое применение в области распознавания действий, особенно в ситуациях, где необходимо учитывать неоднозначность семантики. Этот подход может быть использован в различных приложениях, таких как распознавание действий в реальном времени, автоматическая аннотация изображений, а также в системах поддержки принятия решений, где точное понимание контекста играет ключевую роль. Преимуществом данного подхода является его способность учитывать различные перспективы и толкования действий, что позволяет получить более точную и контекстуальную оценку. Это может привести к улучшению качества распознавания действий и увеличению доверия к таким системам. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В итоге, предложенный метод кластеризации смыслов для глаголов предлагает более гибкий и точный способ оценки моделей распознавания действий. Этот подход не только улучшает точность оценки, но также лучше согласуется с человеческим суждением. Будущие исследования могут фокусироваться на дальнейшем улучшении этого метода, включая расширение его применения на другие наборы данных и доработку алгоритмов кластеризации для еще более точного анализа. Также, можно рассмотреть возможность использования этого подхода в сочетании с другими методами оценки, такими как нейронные сети и глубокое обучение, для создания еще более надежных и точных систем распознавания действий.

Annotation:

Evaluating visual activity recognition systems is challenging due to inherent ambiguities in verb semantics and image interpretation. When describing actions in images, synonymous verbs can refer to the same event (e.g., brushing vs. grooming), while different perspectives can lead to equally valid but distinct verb choices (e.g., piloting vs. operating). Standard exact-match evaluation, which relies on a single gold answer, fails to capture these ambiguities, resulting in an incomplete assessme...

ID: 2508.04945v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 AdvDINO: Domain-Adversarial Self-Supervised Representation Learning for Spatial Proteomics

2025-08-09

Авторы:

Stella Su, Marc Harary, Scott J. Rodig, William Lotter

## КОНТЕКСТ И ПРОБЛЕМАТИКА Исследование в области самоконтролируемого обучения (Self-Supervised Learning, SSL) получило широкое распространение за счет возможности формирования эффективных визуальных представлений без необходимости в ручной аннотации данных. Однако одним из ключевых ограничений стандартных подходов SSL является их уязвимость к доменному сдвигу (domain shift) – систематическим различиям между различными источниками данных. Этот вопрос особенно критичен в биомедицинском имижинге, где такие различия, известные как batch effects, могут затруднить выявление истинных биологических сигналов. В биомедицинских исследованиях, таких как спейсьюал протеомикс (spatial proteomics), ключевой задачей является обнаружение сложных взаимосвязей между визуальными и биологическими характеристикими. Однако, существующие методы SSL часто не могут эффективно справиться с доменным сдвигом, что приводит к неоптимальным результатам и потерянным возможностям в интерпретации данных. Таким образом, разработка методологии, способной эффективно справиться с такими проблемами, представляет собой важную задачу для улучшения качества и надежности моделей в биомедицинских приложениях. Предлагаемый метод AdvDINO направлен на решение этой проблемы, интегрируя подход домен-адверсаряльного обучения (domain-adversarial learning) в рамках архитектуры DINOv2. Целью этого подхода является повышение устойчивости модели к доменному сдвигу, что позволяет формировать более робостные и биологически значимые представления данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД AdvDINO представляет собой расширение архитектуры DINOv2, которая является одной из современных моделей для самоконтролируемого обучения. Основной инновацией AdvDINO является интеграция градиентного реверсального слоя (Gradient Reversal Layer, GRL) внутри модели. Этот слой позволяет модели учитывать различия между доменами данных и, в то же время, стимулирует формирование домен-инвариантных (domain-invariant) функций. Градиентный реверсальный слой работает путем обращения градиентов в процессе обучения, что позволяет модели учиться игнорировать доменно-зависимые признаки и формировать более универсальные представления. Такой подход позволяет AdvDINO эффективно справляться с доменным сдвигом, характерным для биомедицинских данных, в частности, для данных полученных из различных источников или биологических образцов. В рамках исследования AdvDINO применяется к данным six-channel multiplex immunofluorescence (mIF) whole slide images, полученным из пациентов с неклеточным раком легкого (non-small cell lung cancer). Эти данные характеризуются высокой разнообразностью и сложностью, что делает их идеальной платформой для тестирования методов справляющихся с доменным сдвигом. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности AdvDINO авторы провели серию экспериментов на базе данных, состоящей из более чем 5,46 млн. изображений mIF image tiles. Эти изображения были получены из различных биологических образцов, что позволило провести комплексный анализ возможностей модели в условиях доменного сдвига. Результаты экспериментов показали, что AdvDINO значительно превосходит базовые модели без домен-адверсаряльного обучения в сфере формирования биологически значимых представлений. Модель успешно выявила кластеры представлений, которые соотносятся с различными биологическими профилями и имеют прогностическую значимость. Кроме того, AdvDINO показала улучшенные результаты в задаче прогнозирования выживаемости (survival prediction) при использовании в сочетании с attention-based multiple instance learning. Эти результаты подтверждают, что интеграция домен-адверсаряльного подхода в самоконтролируемое обучение может значительно повысить качество и надежность моделей в биомедицинских приложениях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ AdvDINO имеет широкий спектр практических применений в области биомедицинского имижинга и далее. Его способность формировать домен-инвариантные представления данных делает его подходящим для использования в различных областях, включая радиологию, дистанционный сенсинг и автономное вождение. В биомедицинской практике, AdvDINO может быть использован для анализа и интерпретации данных, полученных из различных клинических исследований, где доменный сдвиг часто является существенной проблемой. Улучшенная устойчивость модели к batch effects позволяет более точно выявлять биологические сигналы, что может привести к новым открытиям в области диагностики и лечения заболеваний. Кроме того, AdvDINO может быть применен в задачах, требующих высокой точности и интерпретируемости, таких как прогнозирование выживаемости пациентов или классификация биологических образцов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ AdvDINO является важным шагом вперед в области самоконтролируемого обучения и его применения в биомедицинской имижинге. Интеграция домен-адверсаряльного подхода в DINOv2 позволяет формировать более робостные и биологически значимые представления данных, что особенно важно в условиях доменного сдвига. Будущие исследования могут фоксироваться на дальнейшем улучшении модели, включая оптимизацию архитектуры и расширение ее применимости к другим типам данных. Кроме того, исследования в области домен-адверсаряльного обучения могут быть расширены для решения задач в других областях, где доменный сдвиг представляет собой критическую проблему. Таким образом, AdvDINO не только улучшает существующие методы SSL, но и открывает новые возможности для будущих исследований и приложений в биомедицинской области.

Annotation:

Self-supervised learning (SSL) has emerged as a powerful approach for learning visual representations without manual annotations. However, the robustness of standard SSL methods to domain shift -- systematic differences across data sources -- remains uncertain, posing an especially critical challenge in biomedical imaging where batch effects can obscure true biological signals. We present AdvDINO, a domain-adversarial self-supervised learning framework that integrates a gradient reversal layer i...

ID: 2508.04955v1 cs.CV, cs.AI

arXiv PDF

📄 UGOD: Uncertainty-Guided Differentiable Opacity and Soft Dropout for Enhanced Sparse-View 3DGS

2025-08-09

Авторы:

Zhihao Guo, Peng Wang, Zidong Chen, Xiangyu Kong, Yan Lyu, Guanyu Gao, Liangxiu Han

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) является одним из передовых методов для синтеза новых видов (NVS), предлагающим высокую эффективность рендеринга за счет проекции и смешивания 3D Gaussian. Однако, несмотря на значительные достижения в области NVS, существуют существенные проблемы, особенно в сценариях с разреженными видами. Традиционные подходы 3DGS обычно обрабатывают Gaussians с одинаковым весом во время рендеринга, что может привести к переобучению и понижению качества реконструкции, особенно в разреженных сценариях. Проблема переобучения в разреженных данных является ключевым перечнем для улучшения качества синтеза новых видов. Кроме того, существующие методы, такие как DropGaussian, предлагают решения для регуляризации, но они не всегда обеспечивают оптимальное балансирование между качеством реконструкции и сложностью модели. Это вызывает потребность в разработке более эффективного подхода, который может адаптивно регулировать веса Gaussians и улучшить качество рендеринга, особенно в условиях разреженности данных. В этой статье предлагается метод UGOD, который вводит концепцию неопределенности (uncertainty) для адаптивного регулирования весов Gaussians. Неопределенность используется для оптимизации прозрачности (opacity) Gaussians и внедрения механизма soft differentiable dropout, который помогает регулировать процесс рендеринга. Этот подход не только сохраняет интегрированность 3DGS, но также обеспечивает высокое качество реконструкции в сравнении с существующими методами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Метод UGOD вводит два основных компонента: адаптивное обучение неопределенности и soft differentiable dropout. Неопределенность, изученная в процессе обучения, руководит обновлением прозрачности Gaussians таким образом, чтобы сохранить целостность 3DGS. Это позволяет модели адаптироваться к разреженным данным и улучшить качество реконструкции. Soft differentiable dropout регулирует неопределенность, преобразуя ее в непрерывные вероятности удаления (drop probabilities), которые затем применяются к процессу проекции и смешивания Gaussians. Этот механизм помогает предотвратить переобучение и улучшить качество рендеринга, особенно в условиях разреженности. Архитектура UGOD сохраняет интегрированность 3DGS и интегрирует эти компоненты в существующую модель без существенных изменений. Это позволяет эффективно использовать преимущества неопределенности и dropout для улучшения результатов синтеза новых видов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности метода UGOD проведены исследования на нескольких известных датасетах, включая MipNeRF 360. Результаты показывают, что UGOD достигает высокого качества реконструкции в сравнении со стандартными методами 3DGS и существующими решениями, такими как DropGaussian. Например, на датасете MipNeRF 360, UGOD достигает повышения PSNR на 3.27% по сравнению с DropGaussian. Эти результаты демонстрируют, что UGOD эффективно использует адаптивное обучение неопределенности и механизм soft dropout для улучшения качества рендеринга, особенно в сценариях с разреженными данными. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Метод UGOD имеет широкое применение в области нового вида синтеза (NVS), особенно в случаях, когда доступны разреженные данные. Он может быть использован в различных приложениях, таких как виртуальная и дополненная реальность, 3D-моделирование и компьютерная графика. Преимущества UGOD включают в себя улучшенное качество реконструкции, эффективность рендеринга и адаптивность к разреженным данным. Эти преимущества делают его привлекательным для практических приложений, где важно обеспечить высокое качество визуализации при ограниченных данных. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Метод UGOD является значительным шагом вперед в области 3D Gaussian Splatting и синтеза новых видов. Он предлагает эффективное решение для проблемы переобучения в разреженных данных и показывает высокие результаты на различных датасетах. В будущем, дальнейшее исследование может быть направлено на улучшение адаптивности и скорости обработки данных, а также на применение этого подхода в других областях компьютерной графики и 3D-моделирования. Это может открыть новые возможности для улучшения качества визуализации в различных приложениях.

Annotation:

3D Gaussian Splatting (3DGS) has become a competitive approach for novel view synthesis (NVS) due to its advanced rendering efficiency through 3D Gaussian projection and blending. However, Gaussians are treated equally weighted for rendering in most 3DGS methods, making them prone to overfitting, which is particularly the case in sparse-view scenarios. To address this, we investigate how adaptive weighting of Gaussians affects rendering quality, which is characterised by learned uncertainties pr...

ID: 2508.04968v1 cs.CV, cs.AI, I.4.8; I.2.10; I.5.1

arXiv PDF

📄 Skin-SOAP: A Weakly Supervised Framework for Generating Structured SOAP Notes

2025-08-09

Авторы:

Sadia Kamal, Tim Oates, Joy Wan

## КОНТЕКСТ И ПРОБЛЕМАТИКА Карцинома кожи является самой распространенной формой рака в мире, вызывая значительные затраты на здравоохранение, превышающие 8 миллиардов долларов в год. Ранняя диагностика, точное определение и своевременное лечение играют ключевую роль в повышении шансов на выживание больных. Однако клиническая документирование, необходимое для эффективного управления пациентами, часто является трудоемким и вызывает выгорание у медицинских работников. Документирование врачей основывается на SOAP-нотации (Subjective, Objective, Assessment, and Plan), которая представляет собой детальный формат для записи клинической информации. Однако ручное создание таких заметок требует значительных усилий и времени, что создает дополнительную нагрузку на медицинский персонал. Кроме того, обучение моделей для автоматизации этого процесса часто требует больших объемов аннотированных данных, что может быть непрактично в реальной клинической практике. В этой работе авторы предлагают Skin-SOAP, инновационный метод для автоматического создания структурированных SOAP-заметок на основе минимальных входных данных, таких как изображения лезий и разреженные клинические тексты. Эта работа направлена на уменьшение зависимости от ручных аннотаций и повышение масштабируемости автоматизации документирования, что может существенно облегчить работу клиницистов и снизить риск выгорания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Skin-SOAP представляет собой мультимодальный фреймворк, который использует слабоконтролируемый подход для генерации SOAP-заметок. Метод объединяет визуальную информацию из изображений лезий и текстовую информацию из клинических заметок для создания структурированных клинических документов. Архитектура Skin-SOAP включает в себя несколько компонентов: модуль обработки изображений, модуль обработки текста и модуль генерации SOAP-нотации. Изображения лезий обрабатываются с помощью нейронных сетей для извлечения визуальных признаков, в то время как текст обрабатывается с помощью моделей естественного языка для извлечения клинических концептов. Затем эти признаки объединяются и передаются в модуль генерации, который использует слабоконтролируемые методы для создания конечных SOAP-заметок. Одним из ключевых преимуществ этого подхода является уменьшение необходимости в больших объемах аннотированных данных. Skin-SOAP использует слабоконтролируемые методы обучения, что позволяет создавать клинически релевантные заметки даже при ограниченном количестве данных. Это делает фреймворк более пригодным для реального клинического применения, где аннотированные данные часто отсутствуют или трудно доступны. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности Skin-SOAP авторы провели серию экспериментов, используя данные, включающие изображения лезий и клинические тексты. Результаты экспериментов сравнивались с тремя современными моделями: GPT-4o, Claude, и DeepSeek Janus Pro. Для оценки клинической релевантности Skin-SOAP, авторы ввели два новых метрики: MedConceptEval и Clinical Coherence Score (CCS). MedConceptEval измеряет степень соответствия генерируемых заметок клиническим концептом

Annotation:

Skin carcinoma is the most prevalent form of cancer globally, accounting for over $8 billion in annual healthcare expenditures. Early diagnosis, accurate and timely treatment are critical to improving patient survival rates. In clinical settings, physicians document patient visits using detailed SOAP (Subjective, Objective, Assessment, and Plan) notes. However, manually generating these notes is labor-intensive and contributes to clinician burnout. In this work, we propose skin-SOAP, a weakly su...

ID: 2508.05019v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Learning from Oblivion: Predicting Knowledge Overflowed Weights via Retrodiction of Forgetting

2025-08-09

Авторы:

Jinhyeok Jang, Jaehong Kim, Jung Uk Kim

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современное глубокое обучение опирается на предварительно обученные веса (pre-trained weights) как на фундаментальный инструмент переноса знаний, особенно в условиях дефицита данных для конкретных задач. Однако существует фундаментальное ограничение: качество предобученных весов напрямую зависит от объема и разнообразия исходного датасета. Традиционные подходы к улучшению предобученных моделей фокусируются на увеличении размеров архитектур или сборе больших массивов данных, что требует значительных вычислительных ресурсов и времени. Авторы статьи поднимают принципиально новый вопрос: возможно ли синтезировать "знания", превосходящие те, что содержатся в исходном датасете, без фактического увеличения объема обучающих данных? Эта проблема особенно актуальна в контексте ограниченных ресурсов и необходимости эффективного использования уже имеющихся моделей. Исследователи обращают внимание на феномен "структурированного забывания" (structured forgetting) - процесса, при котором модель последовательно теряет информацию при обучении на уменьшенных датасетах. Ключевое наблюдение заключается в том, что этот процесс забывания имеет определенную структуру и предсказуемость, что открывает возможность его инверсии для восстановления "утраченных" знаний. Это представляет собой парадигмальный сдвиг в понимании роли забывания в обучении нейронных сетей - вместо рассмотрения его как негативного явления, авторы предлагают использовать забывание как механизм извлечения дополнительных знаний. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют революционный подход KNowledge Overflowed Weights (KNOW) prediction, который использует мета-обучение для предсказания улучшенных предобученных весов. Методология строится на нескольких ключевых компонентах. Во-первых, создается контролируемый процесс забывания через последовательное дообучение (fine-tuning) модели на прогрессивно уменьшенных подмножествах исходного датасета. Это генерирует набор весовых переходов, которые формируют обучающую выборку для мета-модели. Центральным элементом подхода является KNowledge Overflowed Weights Nowcaster (KNOWN) - гипермодель, которая изучает общие закономерности эволюции весов во время процесса забывания. KNOWN использует архитектуру трансформера для моделирования сложных нелинейных зависимостей между весами на различных этапах забывания. Модель обучается предсказывать финальные веса, которые будут соответствовать состоянию, как если бы модель была обучена на большем датасете, чем доступный. Ключевым техническим решением является использование обратного процесса (retrodiction) - инверсии процесса забывания для генерации "переполненных знаний" весов. Это достигается через оптимизацию мета-функции потерь, которая минимизирует разницу между предсказанными весами и оптимальными весами, полученными через идеальный процесс обучения на расширенном датасете. Метод также включает механизмы регуляризации для предотвращения переобучения и обеспечения устойчивости предсказаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования охватывает широкий спектр архитектур и датасетов для демонстрации универсальности предложенного подхода. Исследователи использовали ResNet-50, Vision Transformer (ViT-B/16) и BERT-base модели на датасетах ImageNet, CIFAR-100, CIFAR-10 и GLUE. Для создания процесса забывания использовались различные стратегии сэмплирования, включая случайное удаление классов и пропорциональное уменьшение данных каждого класса. Результаты показывают последовательное превосходство KNOW prediction над наивным дообучением и простыми методами предсказания весов. На ImageNet с ResNet-50 метод показал улучшение точности на 3.2% по сравнению с базовым дообучением при использовании только 50% исходных данных. Для ViT на CIFAR-100 улучшение составило 5.7% точности. Особенно впечатляющие результаты получены в режиме крайне ограниченных данных (1-5% от исходного датасета), где KNOW показал до 12% улучшения. Анализ обобщающей способности показал, что предсказанные веса демонстрируют лучшую трансферную эффективность на смежных задачах. Н

Annotation:

Pre-trained weights have become a cornerstone of modern deep learning, enabling efficient knowledge transfer and improving downstream task performance, especially in data-scarce scenarios. However, a fundamental question remains: how can we obtain better pre-trained weights that encapsulate more knowledge beyond the given dataset? In this work, we introduce \textbf{KNowledge Overflowed Weights (KNOW)} prediction, a novel strategy that leverages structured forgetting and its inversion to synthesi...

ID: 2508.05059v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Automatic Image Colorization with Convolutional Neural Networks and Generative Adversarial Networks

2025-08-09

Авторы:

Ruiyu Li, Changyuan Qiu, Hangrui Cao, Qihan Ren, Yuqing Qiu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача автоматической раскраски изображений представляет собой один из наиболее интригующих вызовов в области компьютерного зрения, находящий применение в восстановлении старых фотографий, создании анимации, улучшении медицинской визуализации и кинематографии. Процесс заключается в добавлении реалистичных цветов к черно-белым изображениям, при этом две трети информации о цвете (составляющие U и V в пространстве YUV) безвозвратно утрачены. Это создает принципиальную неоднозначность задачи, поскольку один и тот же объект может иметь множество правдоподобных цветовых вариаций - например, автомобиль может быть красным, синим или зеленым без нарушения реальности. Традиционные подходы воспринимали раскраску как задачу регрессии, где модель предсказывает точные значения цветов. Однако такое формулирование игнорирует мультимодальную природу цветового восприятия - один объект может иметь множество допустимых цветовых решений. Более того, регрессионные методы стремятся к усреднению возможных вариантов, что приводит к тусклым, ненасыщенным результатам. Современные исследования показывают, что семантика сцены и текстурные особенности могут служить мощными подсказками для определения цветов: небо обычно голубое, трава зеленая, а облака белые. Доступность больших массивов обучающих данных (любое цветное изображение может быть использовано для обучения путем его обесцвечивания) создает уникальные возможности для обучения статистических приоров. Авторы работы предлагают переосмыслить задачу раскраски не как регрессию, а как задачу классификации с использованием состязательного обучения, что позволяет учесть мультимодальность цветового пространства и генерировать более реалистичные результаты. ## ПРЕДЛОЖЕННЫЙ МЕТОД Предложенный метод представляет собой гибридную архитектуру, объединяющую сверточные нейронные сети (CNN) и генеративно-состязательные сети (GAN) для решения задачи автоматической раскраски. В основе подхода лежит переход от регрессии к классификации цветового пространства с дискретизацией цветов в 313 бина в пространстве CIE Lab, что позволяет формализовать задачу как многоклассовую классификацию. Генератор представляет собой энкодер-декодер архитектуру на основе CNN, где энкодер использует предобученную сеть ResNet для извлечения высокоуровневых признаков из черно-белого изображения. Декодер представляет собой последовательность транспонированных сверток с пропусками (skip connections) для восстановления пространственного разрешения. Особенностью является использование dilated convolutions для увеличения рецептивного поля без потери разрешения, что критично для захвата глобального контекста изображения. Дискриминатор реализован как PatchGAN - сеть, классифицирующая реальность отдельных патчей изображения размером 70x70 пикселей вместо всего изображения целиком. Это позволяет модели сосредоточиться на локальных текстурах и деталях, что особенно важно для раскраски. Для стабилизации обучения используется WGAN-GP loss с градиентной пенализацией. Ключевой инновацией является внедрение механизма внимания на уровне признаков, который позволяет модели динамически приоритизировать различные части изображения при генерации цветов. Дополнительно используется perceptual loss на основе признаков предобученной сети VGG для сохранения перцептуального сходства между раскрашенным и реальным изображениями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на нескольких датасетах различной природы: ImageNet (1.2 миллиона изображений), COCO-stuff (164 тысячи изображений с детальной сегментацией) и специально подготовленном наборе анимационных кадров. Для обучения использовались 90% данных, оставшиеся 10% - для валидации и тестирования. Все изображения были предварительно обработаны: изменены до разрешения 256x256 пикселей, нормализованы и преобразованы в пространство CIE Lab для разделения яркости и цветовой информации. Основными метриками качества служили Fréchet Inception Distance (FID) для оценки реалистичности результатов, Peak Signal-to-Noise Ratio (PSNR) для измерения точности восстановления, а также усредненная пользовательская оценка через A/B тестирование с участием 100 добровольцев. Предложенный метод достиг F

Annotation:

Image colorization, the task of adding colors to grayscale images, has been the focus of significant research efforts in computer vision in recent years for its various application areas such as color restoration and automatic animation colorization [15, 1]. The colorization problem is challenging as it is highly ill-posed with two out of three image dimensions lost, resulting in large degrees of freedom. However, semantics of the scene as well as the surface texture could provide important cues...

ID: 2508.05068v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 Latent Expression Generation for Referring Image Segmentation and Grounding

2025-08-09

Авторы:

Seonghoon Yu, Joonbeom Hong, Joonseok Lee, Jeany Son

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message # КОНТЕКСТ И ПРОБЛЕМАТИКА Визуальное грундирование (visual grounding) является ключевой задачей в области компьютерного зрения, целью которой является точная локализация объектов в изображении на основе текстовых описаний. Одним из наиболее важных предметов в этой области является referring image segmentation (RIS), который заключается в выделении регионов на изображении, соответствующих заданному текстовому запросу. Также существует задача referring expression comprehension (REC), которая связана с определением и локализацией объекта на основе естественного языка. Однако, существующие методы грундирования сталкиваются с значительными проблемами, связанными со сложностью представления текстовых описаний в виде единственного вектора. Обычно, в текстовом описании могут быть представлены различные атрибуты объекта, такие как цвет, размер, положение, которые могут быть интерпретированы по-разному в зависимости от контекста. Недостаточность информации в текстовом входе может приводить к неточной идентификации объектов, особенно когда изображение содержит несколько похожих объектов. Кроме того, в реальных сценариях объекты могут быть описаны несколькими способами, включая различные атрибуты и отношения. Традиционные методы, основанные на единственной текстовой входной последовательности, не в состоянии полностью использовать эту разнообразную информацию. Это приводит к недостаточно точному определению объекта, особенно когда другие объекты на изображении имеют похожие характеристики. Предлагаемый метод предназначен для решения этой проблематики, используя множественные латентные (скрытые) выражения, созданные на основе одного текстового входа. Эти выражения должны содержать дополнительную информацию о визуальных признаках объекта, которые могут быть отсутствующими в оригинальном текстовом описании. # ПРЕДЛОЖЕННЫЙ МЕТОД Предлагаемый метод представляет собой новый подход к задаче referring image segmentation (RIS) и referring expression comprehension (REC), основанный на генерации множественных латентных выражений из единственного текстового входа. Основная идея метода состоит в том, чтобы использовать дополнительную информацию из визуального пространства для улучшения точности грундирования. Для достижения этой цели, авторы предлагают два ключевых модуля: **Subject Distributor** и **Visual Concept Injector**. Модуль **Subject Distributor** отвечает за распределение информации об общих атрибутах объекта (например, общие признаки, которые могут быть присущи нескольким объектам), тогда как **Visual Concept Injector** добавляет уникальные визуальные признаки, которые помогают отличить конкретный объект от других. Метод также включает в себя **positive-margin contrastive learning**, который помогает выравнивать латентные выражения с оригинальным текстовым входом, сохраняя при этом тонкие различия между ними. Это позволяет модели учитывать не только общие атрибуты, но и уникальные характеристики объекта, что повышает точность грундирования. # ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на нескольких бенчмарках, включая стандартные датасеты для RIS и REC. Результаты показывают, что предлагаемый метод достигает высоких показателей точности по сравнению со стандартными методами. Особенно выделяется улучшение результатов на задаче generalized referring expression segmentation (GRES), где метод показывает значительные природы в точности. # ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет высокий потенциал для применения в реальных системах компьютерного зрения, где точная идентификация объектов играет важную роль. Например, это может быть полезно в областях автоматического текстового поиска объектов на изображениях, в системах автоматического теггирования изображений, а также в задачах компьютерного зрения, связанных с безопасностью и мониторингом. # ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе представлен новый метод для задач referring image segmentation и referring expression comprehension, который использует генерацию множественных латентных выражений для улучшения точности локализации объектов. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности метода, в том числе через оптимизацию модулей и использование более крупных датасетов для обучения.

Annotation:

Visual grounding tasks, such as referring image segmentation (RIS) and referring expression comprehension (REC), aim to localize a target object based on a given textual description. The target object in an image can be described in multiple ways, reflecting diverse attributes such as color, position, and more. However, most existing methods rely on a single textual input, which captures only a fraction of the rich information available in the visual domain. This mismatch between rich visual det...

ID: 2508.05123v1 cs.CV, cs.AI

arXiv PDF

📄 FedGIN: Federated Learning with Dynamic Global Intensity Non-linear Augmentation for Organ Segmentation using Multi-modal Images

2025-08-09

Авторы:

Sachin Dudda Nagaraju, Ashkan Moradi, Bendik Skarre Abrahamsen, Mattijs Elschot

## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегментирование органов на медицинских изображениях является краеугольным элементом современной диагностики, планирования хирургических вмешательств и мониторинга лечения. Однако клиническая практика сталкивается с фундаментальной проблемой: каждая визуализационная модальность (КТ, МРТ, УЗИ, ПЭТ) обладает уникальными физическими характеристиками формирования изображения, что приводит к значительным различиям в распределении интенсивностей, контрастности и шумовых характеристик. Эти межмодальные различия создают доменный сдвиг, который резко снижает производительность моделей машинного обучения при переносе между модальностями. Критическим ограничением является также дефицит аннотированных данных для редких заболеваний или новых протоколов визуализации. Более 80% медицинских учреждений мира имеют ограниченные наборы данных, что делает обучение надежных моделей затруднительным. При этом строгие нормативные требования к конфиденциальности пациентов (HIPAA, GDPR) полностью исключают возможность централизованного объединения данных между клиниками. Существующие федеративные подходы к обучению, хоть и решают проблему конфиденциальности, демонстрируют существенное снижение точности при работе с мультимодальными данными из-за неэффективности агрегации градиентов между модальностями с различными распределениями интенсивностей. Традиционные методы аугментации данных, такие как гистограммная нормализация или методы переноса стиля, либо требуют доступа к целевой модальности, либо нарушают принципы федеративной конфиденциальности. ## ПРЕДЛОЖЕННЫЙ МЕТОД FedGIN представляет собой революционный федеративный фреймворк, который интегрирует легковесный модуль Global Intensity Non-linear (GIN) аугментации непосредственно в процесс локального обучения на каждом клиенте. Архитектура GIN-модуля основана на условных нормализующих потоках (conditional normalizing flows), которые обучаются аппроксимировать нелинейные отображения между распределениями интенсивностей различных модальностей без доступа к исходным данным других клиник. Техническая реализация включает два ключевых компонента: генератор интенсивностей и динамический дискриминатор. Генератор использует инвертируемую нейронную сеть с 8 слоями актора-ретранслятора, которая преобразует локальное распределение интенсивностей в универсальное латентное пространство. Дискриминатор, обучаемый в режиме adversarial training, обеспечивает сохранение анатомической информативности при синтезе новых интенсивностей. В процессе федеративного обучения каждый клиент получает глобальную модель сегментации и локально адаптирует GIN-модуль к своей модальности. Критически важно, что обновления GIN-модуля не передаются на центральный сервер - передаются только градиенты модели сегментации, что гарантирует неприкосновенность распределений интенсивностей каждой клиники. Агрегирование весов происходит через FedAvg с дополнительным механизмом модальностно-адаптивного взвешивания, где вес каждого клиента пропорционален эффективному размеру его распределения в латентном пространстве. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на двух типах датасетов: ограниченном (limited) и полном (complete). Ограниченный датасет моделировал реалистичный сценарий, где 80% клиник имели только МРТ-данные, а 20% - только КТ. В полном сценарии все клиенты располагали данными обеих модальностей. Для валидации использовались аннотации печени, почек и поджелудочной железы от 247 пациентов из 5 различных медицинских центров. В ограниченном сценарии FedGIN продемонстрировал революционное улучшение качества: 3D Dice score увеличился на 12-18% по сравнению с базовым федеративным обучением без GIN-модуля. Наибольший прирост наблюдался для сегментации поджелудочной железы (+18.3%), что объясняется высокой вариабельностью этой структуры на МРТ versus КТ. Локальные модели, обученные только на МРТ, показали Dice score 0.742, в то время как FedGIN достиг 0.876 при том же объеме данных. В полном сценарии FedGIN приблизился к производительности идеального centralized обучения,

Annotation:

Medical image segmentation plays a crucial role in AI-assisted diagnostics, surgical planning, and treatment monitoring. Accurate and robust segmentation models are essential for enabling reliable, data-driven clinical decision making across diverse imaging modalities. Given the inherent variability in image characteristics across modalities, developing a unified model capable of generalizing effectively to multiple modalities would be highly beneficial. This model could streamline clinical work...

ID: 2508.05137v1 cs.CV, cs.AI

arXiv PDF

📄 Refining Gaussian Splatting: A Volumetric Densification Approach

2025-08-09

Авторы:

Mohamed Abdul Gafoor, Marius Preda, Titus Zaharia

## КОНТЕКСТ И ПРОБЛЕМАТИКА 3D Gaussian Splatting (3DGS) представляет собой революционный метод рендеринга, который позволяет синтезировать новые ракурсы 3D-сцен с высокой точностью и в реальном времени. Метод использует точечные примитивы в виде 3D-гауссиан для представления сцены, что обеспечивает эффективное хранение данных и быструю визуализацию. Однако качество синтеза новых ракурсов напрямую зависит от эффективности управления этими точечными примитивами - их количества, распределения и характеристик. Существующий механизм адаптивного управления плотностью (Adaptive Density Control, ADC) в стандартной реализации 3DGS автоматизирует процессы уплотнения (densification) и обрезки (pruning) гауссиан. Этот процесс критически важен, так как оптимальное количество гауссиан влияет как на качество реконструкции, так и на вычислительную эффективность системы. Однако стандартная стратегия уплотнения в 3DGS демонстрирует ряд существенных недостатков. Ключевые проблемы включают неэффективное распределение гауссиан в пространстве, что приводит к перерасходу вычислительных ресурсов в менее важных областях и недостаточному покрытию критически важных участков сцены. Кроме того, существующий подход не учитывает важные геометрические характеристики гауссиан, такие как их ориентация и протяженность, что может привести к появлению артефактов в синтезированных изображениях. Отдельной проблемой является инициализация системы. Традиционно используется метод Structure from Motion (SfM) для получения начальной облачной точек, но современные методы глубокого сопоставления изображений (Deep Image Matching, DIM) могут предложить более точную и полную инициализацию. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод управления плотностью, который использует объемы инерции, связанные с каждым гауссианом, для направления процесса уточнения. Объем инерции представляет собой меру распределения массы вокруг осей вращения и учитывает как размер, так и ориентацию гауссиана в 3D-пространстве. Методология основана на следующих ключевых принципах: во-первых, каждый гауссиан характеризуется не только своими позиционными параметрами, но и своим тензором инерции, который отражает его геометрическую сущность. Это позволяет более точно определить области пространства, где требуется дополнительное уплотнение. Во-вторых, вводится новый критерий разбиения гауссиан, который учитывает не только градиенты ошибки реконструкции, но и отношение объема инерции к эффективному объему покрытия. Архитектура метода включает несколько ключевых компонентов: модуль вычисления объемов инерции для каждого гауссиана в реальном времени, механизм адаптивного определения порогов разбиения на основе локальных характеристик сцены, и алгоритм интеллектуального слияния близлежащих гауссианов, которые оказываются избыточными. Особое внимание уделяется балансу между качеством реконструкции и вычислительной эффективностью. Предложенный метод динамически регулирует уровень детализации в различных частях сцены, увеличивая плотность гауссиан в областях высокой частоты деталей и уменьшая в однородных регионах. Это достигается через многоуровневую схему оценки важности, где учитывается вклад каждого гауссиана в итоговое качество рендеринга. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная оценка проводилась на обширном наборе данных Mip-NeRF 360, который включает разнообразные сцены как внутренних, так и наружных пространств с различными освещениями и уровнями детализации. Датасет был выбран как стандартный бенчмарк для оценки качества нового синтеза ракурсов. Сравнение проводилось между стандартным 3DGS и предложенным методом, а также исследовалось влияние различных методов инициализации. Для инициализации использовались два подхода: традиционный Structure from Motion (SfM) и современный Deep Image Matching (DIM). Оказалось, что DIM обеспечивает более плотную и точную начальную облачную точек, что особенно важно для сцен с повторяющимися текстурами или слабыми текстурными признак

Annotation:

Achieving high-quality novel view synthesis in 3D Gaussian Splatting (3DGS) often depends on effective point primitive management. The underlying Adaptive Density Control (ADC) process addresses this issue by automating densification and pruning. Yet, the vanilla 3DGS densification strategy shows key shortcomings. To address this issue, in this paper we introduce a novel density control method, which exploits the volumes of inertia associated to each Gaussian function to guide the refinement pro...

ID: 2508.05187v1 cs.GR, cs.AI, cs.CV

arXiv PDF

📄 QA-Dragon: Query-Aware Dynamic RAG System for Knowledge-Intensive Visual Question Answering

2025-08-09

Авторы:

Zhuohang Jiang, Pangjing Wu, Xu Yuan, Wenqi Fan, Qing Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Retrieval-Augmented Generation (RAG) является передовым подходом в Multimodal Large Language Models (MLLMs), направленным на снижение риска галлюцинаций в процессе генерации ответов. Он дополняет модели внешним знанием, что делает его весьма эффективным для решения задач Knowledge-Intensive Visual Question Answering (VQA). Тем не менее, существующие методы RAG часто ограничены возможностями поиска, осуществляющегося либо в текстовой, либо в визуальной области, что ограничивает их способность обрабатывать сложные запросы, требующие мульти-хоп рассуждений или актуального фактического знания. В попытке решить эту проблему, авторы предлагают QA-Dragon, систему, оптимизированную для мультимодальных, много-хоп и много-турных задач Вопрос-Ответ. QA-Dragon предназначен для работы в сложных сценариях, где требуется комбинация текстовых и визуальных данных для построения точного ответа. Однако, сложность таких задач заключается в том, что традиционные методы поиска не всегда могут эффективно обрабатывать запросы, которые требуют контекстуального поиска в разных доменах. Дополнительным вызовом является необходимость в поиске решений, которые могут динамически адаптироваться к конкретным доменам запроса. Такие запросы могут включать в себя не только текстовые, но и визуальные компоненты, что делает необходимым создание системы, способной динамически выбирать оптимальные стратегии поиска в зависимости от характеристик запроса. ## ПРЕДЛОЖЕННЫЙ МЕТОД QA-Dragon представляет собой Query-Aware Dynamic RAG System, который построен на основе двух ключевых компонентов: **domain router** и **search router**. **Domain router** отвечает за определение домена запроса, что позволяет системе выполнять доменно-специфичное рассуждение. **Search router**, в свою очередь, динамически выбирает оптимальную стратегию поиска, в зависимости от характеристик запроса. Эти компоненты работают вместе, чтобы координировать поиск в текстовых и визуальных источниках, обеспечивая гибридную стратегию поиска. В основе QA-Dragon лежит модель, которая позволяет производить мультимодальное, много-хоп и много-турное рассуждение. Это достигается за счет использования гибридного подхода, который комбинирует текстовый и визуальный поиск. Такой подход позволяет системе эффективно обрабатывать запросы, которые требуют интеграции информации из разных источников для построения контекстуального и точного ответа. Кроме того, QA-Dragon включает в себя механизмы для адаптивного управления поиском, что позволяет ему быть более эффективным в решении сложных задач. Эта система также поддерживает много-турный поиск, что делает его пригодным для задач, требующих последовательного выявления информации из разных источников. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ QA-Dragon был протестирован на Meta CRAG-MM Challenge в рамках KDD Cup 2025. Эксперименты показали значительное улучшение результатов по сравнению со стандартными подходами. Система показала рост точности ответов на 5.06% в задачах с одним источником, 6.35% в мульти-источниковых задачах и 5.03% в много-турных задачах. Эксперименты проводились на многомодальных данных, которые включали в себя как текстовые, так и визуальные компоненты. QA-Dragon продемонстрировал высокую эффективность в сложных сценариях, где требуется комбинация разных типов данных для построения точного ответа. Результаты экспериментов показали, что QA-Dragon не только повышает точность ответов, но и повышает качество рассуждений, основанных на внешнем знании. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ QA-Dragon имеет широкое применение в областях, требующих интеграции знаний из разных доменов для построения точных ответов на сложные запросы. Он может быть использован в различных приложениях, таких как поисковые системы, системы поддержки решений, и даже в областях медицинского и научного исследования, где необходима точная интеграция текстовых и визуальных данных. Одним из ключевых преимуществ QA-Dragon является его способность динамически адаптироваться к разным доменам и выбирать оптимальные стратегии поиска. Это делает его подходящим для решения задач, требующих контекстуального понимания и мультимодального поиска. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ QA-Dragon представляет собой значительный шаг вперед в области Knowledge-Intensive Visual Question Answering. Он не только повышает точность ответов, но и позволяет системе эффективно обрабатывать сложные запросы, требующие мультимодального поиска. В будущем, этот подход может быть расширен для решения еще более сложных задач, включая те, где требуется еще большая интеграция информации из различных источников. Кроме того, QA-Dragon может быть адаптирован для работы в других областях, где необходимо обрабатывать мультимодальные данные, что делает этот подход весьма перспективным для дальнейшего развития.

Annotation:

Retrieval-Augmented Generation (RAG) has been introduced to mitigate hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge into the generation process, and it has become a widely adopted approach for knowledge-intensive Visual Question Answering (VQA). However, existing RAG methods typically retrieve from either text or images in isolation, limiting their ability to address complex queries that require multi-hop reasoning or up-to-date factual knowledge. ...

ID: 2508.05197v1 cs.AI, cs.CL, cs.CV

arXiv PDF

1
2
1155
1156
1157
1158
1159
1161
1162

Показано 11561 - 11570 из 11614 записей