📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 0
Последнее обновление: сегодня
Авторы:
Yahsin Yeh, Yilun Wu, Bokai Ruan, Honghan Shuai
#### Контекст
Visual question answering (VQA) — это область искусственного интеллекта, где модели пытаются ответить на вопросы, касающиеся изображений, используя естественный язык. Ответы могут быть подкреплены естественным языковым объяснением (NLE), чтобы сделать модели более прозрачными и понятными. Однако многие VQA-NLE-системы склонны к несогласованности в своих выводах и неполноте в понимании контекста, что означает, что они могут достичь конclusion без полной осмысленности или понимания изображений и вопросов. Это ставит под сомнение надежность и безопасность таких систем. Мы предлагаем рассмотреть эти проблемы, выявив их источник и предложив методы их устранения.
#### Метод
Мы разработали два типа атак, чтобы эмпирически продемонстрировать проблемы в VQA-NLE. **Первая методика** — это минимальное изменение вопроса с использованием adversarial attack, чтобы вызвать несогласованные выводы. **Вторая методика** — это минимальное изменение изображения, использующее атаки на небольшие области, чтобы вызвать спурвидные или противоречивые ответы, несогласованные с исходным контекстом. Оптимизируя эти методики, мы моделируем типичные ситуации, где модели VQA-NLE могут достигнуть неверных выводов. Мы также предлагаем **метод защиты**, основанный на внешнем знании, который позволяет улучшить robustness и предотвращать такие проблемы.
#### Результаты
Мы проводили эксперименты на двух стандартных бенчмарках VQA, используя две модели NLE (Одна из них — VQA-Counterfactual Explanations). Наши атаки демонстрировали способность вызвать несогласованные выводы и противоречивые ответы в значительных пропорциях. В сравнении с базовыми моделями, мы оказали, что наши методы действительно выявляют уязвимости в VQA-NLE. Метод защиты, основанный на внешнем знании, показал значительные улучшения в метриках robustness, сократив количество несогласованных выводов на значительные проценты.
#### Значимость
Наши результаты показывают, что VQA-NLE-системы могут стать жертвами несогласованности и недостаточного понимания контекста. Это может привести к ошибкам в принятии решений, что имеет критические последствия в задачах, требующих высокой надежности. Наши методы защиты могут быть применены в различных областях, таких как проверка качества видео-изображений, системы безопасности, и медицинские приложения. Мы считаем, что наша работа может способствовать повышению надежности и безопасности VQA-NLE, и дальнейшие исследования должны сосредоточиться на повышении robustness и точности в обучении VQA-NLE системам.
#### Выводы
Мы выявили и продемонстрировали проблемы несогласованности и неполного понимания в VQA-NLE. Наши атаки эффективно выявили эти узкие
Annotation:
Natural language explanations in visual question answering (VQA-NLE) aim to
make black-box models more transparent by elucidating their decision-making
processes. However, we find that existing VQA-NLE systems can produce
inconsistent explanations and reach conclusions without genuinely understanding
the underlying context, exposing weaknesses in either their inference pipeline
or explanation-generation mechanism. To highlight these vulnerabilities, we not
only leverage an existing adversarial s...
Авторы:
Xuhui Zhan, Tyler Derr
#### Контекст
Область мультимодального обучения, которая связывает визуальные и текстовые модели, стала важной задачей в ИИ. Однако традиционные подходы требуют дорогостоящей ориентированной на осмысление (alignment) в обучении предварительного типа (pre-training) для объединения этих моделей. Это ограничивает шаблоны использования, так как масштабирование таких подходов становится сложным. Существует потребность в развитии новых архитектур, которые могут удалить эту зависимость от costly alignment pre-training и будут эффективны для различных мультимодальных задач.
#### Метод
Мы предлагаем Inverse-LLaVA, новый подход, который убирает требование к ориентированному на осмысление (alignment) pre-training. Вместо того чтобы проецировать визуальные признаки в мир текста, наш метод проецирует эмбеддинги текста в визуальное пространство — производя взаимодействие в трансформерных слоях. Мы добавляем специальные компоненты в механизм внимания (attention), чтобы динамически объединять визуальные и текстовые признаки без необходимости громадных пар с изображениями и текстом. Эта новая архитектура позволяет эффективно объединять модальности без традиционных ограничений.
#### Результаты
Мы проверили Inverse-LLaVA на 9 мультимодальных бенчмарках. Он показал выигрыш в тех задачах, где требуется логическое рассуждение (например, MM-VET +0.2%, VizWiz +1.8%, ScienceQA +0.2%, медицинские задачи +27.2%), но снизился в задачах, которые требуют ассоциаций между текстом и визуальными объектами (например, распознавание знаковых лиц -49.5%, распознавание текста с картинки -21.3%). Это демонстрирует, что Inverse-LLaVA может подходить для задач, где требуется высокий уровень рассуждения, не нуждаясь в традиционных методах для объединения модальностей.
#### Значимость
Наш подход может применяться в задачах, где требуется высокий уровень рассуждения и логической синергии между визуальными и текстовыми моделями, таких как специальные медицинские или сервисные системы. Он показывает преимущества в снижении вычислительных затрат на 45% и открывает возможности для развития более эффективных мультимодальных архитектур. Этот подход также открывает новые направления в ИИ, в которых модальности могут быть объединены без требования к предварительному обучению.
#### Выводы
Мы продемонстрировали, что Inverse-LLaVA эффективен в задачах, где требуется высокий уровень рассуждения, не требуя традиционного alignment pre-training. Наши результаты открывают новые возможности для развития более эффективных мультимодальных архитектур, сохраняющих специфику каждой модально
Annotation:
Traditional multimodal learning approaches require expensive alignment
pre-training to bridge vision and language modalities, typically projecting
visual features into discrete text token spaces. We challenge both fundamental
assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel
approach that eliminates alignment pre-training entirely while inverting the
conventional mapping direction. Rather than projecting visual features to text
space, our method maps text embeddings into c...
Авторы:
Rosiana Natalie, Wenqian Xu, Ruei-Che Chang, Rada Mihalcea, Anhong Guo
#### Контекст
Область визуально-языковых моделей (VLMs) позволила создавать модели разума, которые могут решать проблемы и принимать решения в различных тематиках. Однако до сих пор не было изучено, насколько эффективно эти модели могут воспроизводить визуальное восприятие, особенно у людей с низким зрением. У людей с низким зрением существуют уникальные паттерны восприятия, которые могут быть затруднительными для реализации в моделях. В нашей исследовательской работе мы исследуем, насколько VLMs способны воспроизводить визуальное восприятие людей с низким зрением, а также выявляем факторы, которые могут повысить точность моделирования.
#### Метод
Мы создали бенчмарк-датасет, содержащий ответы от 40 участников с низким зрением, которые прошли процесс оценки и описания визуальных реакций на 25 изображений. Ответы были записаны как в открытой форме, так и в виде множественного выбора. Далее мы использовали этот датасет для обучения модели GPT-4o, создав для каждого участника "виртуального агента" с разным количеством введенной информации — от минимального до полного набора ответов. Мы сравнивали реакции модели с ответами участников, чтобы определить точность воспроизведения визуального восприятия.
#### Результаты
Наши результаты показали, что VLMs с низкой информационной базой — только с открытыми ответами или с определенными визуальными примерами — показывают низкую точность (0.59). Однако при использовании объединенной информации (открытые ответы + примеры визуальных реакций), точность увеличивается до 0.70 (p < 0.0001). Мы также установили, что добавление дополнительных примеров не оказывает существенного влияния на точность (p > 0.05).
#### Значимость
Наши результаты могут быть применены в разработке более точных моделей визуально-языкового моделирования, которые будут учитывать уникальные особенности визуального восприятия людей с низким зрением. Это может привести к более точным интерфейсам, которые будут адаптированы для людей с специальными потребностями. Будущие исследования будут сфокусированы на улучшении точности моделей с использованием различных стратегий обучения и дополнительных данных.
#### Выводы
Мы проанализировали способность VLMs воспроизводить визуальное восприятие людей с низким зрением и определили, что сочетание открытых ответов и примеров визуальных реакций значительно повышает точность моделей. Это открывает новые возможности для создания более удобных интерфейсов для людей с специальными потребностями. В дальнейших исследованиях мы собираемся расши
Annotation:
Advances in vision language models (VLMs) have enabled the simulation of
general human behavior through their reasoning and problem solving
capabilities. However, prior research has not investigated such simulation
capabilities in the accessibility domain. In this paper, we evaluate the extent
to which VLMs can simulate the vision perception of low vision individuals when
interpreting images. We first compile a benchmark dataset through a survey
study with 40 low vision participants, collecting ...
Авторы:
Bin Ma, Yifei Zhang, Yongjin Xian, Qi Li, Linna Zhou, Gongxun Miao
#### Контекст
Румурная деятельность в современных социальных сетях широко распространена и может иметь серьезные последствия, в том числе ущерб репутации, финансовые потери и даже угрозы безопасности. Однако автоматическое распознавание румурных сообщений остается вызовом, в связи с тем, что люди часто выражают свои мнения в виде комбинации текста и изображений, которые могут содержать ключевую информацию для распознавания румурности. Настоящая статья направлена на изучение этих проблем, с целью разработать более эффективный подход к распознаванию румурных сообщений, используя методы мультискалевого анализа и контрастного обучения.
#### Метод
Метод, предложенный в статье, основывается на методе контрастного обучения, а именно на алгоритме Multi-scale Image and Context Correlation exploration (MICC). Основной идеей является создание объединенных семантических векторов для текста и многомерных образов с помощью SCLIP-энкодера. Этот энкодер обучается с помощью метода contrastive pretraining, что позволяет измерить взаимную связь текста и изображений через dot-product similarity. Далее, введен модуль Cross-Modal Multi-Scale Alignment, который использует Top-K selection strategy для выделения наиболее релевантных областей изображений в контексте текста. Это достигается с помощью cross-modal relevance matrix и максимизации mutual information. Наконец, scale-aware fusion network используется для объединения многомерных фичей изображений с глобальными текстовыми фичами, присваивая адаптивные весы на основе семантической важности и cross-modal relevance.
#### Результаты
Проведены эксперименты на двух реальных датасетах, чтобы оценить эффективность предложенного метода. Результаты показали, что MICC существенно превосходит существующие методы в задаче распознавания румурных сообщений. Особенно выдающимися результатами оказалось улучшение accuracy, F1-score и recall. Эти результаты подтверждают многомерность и эффективность применения контрастного обучения в задачах кросс-модального распознавания.
#### Значимость
Предложенная модель может быть применена в различных сферах, таких как мониторинг социальных сетей, борьба с массовыми паничными и распространением вирусов информации. Основные преимущества MICC заключаются в том, что он учитывает многомерные связи между текстом и изображениями, обеспечивая более точное и достоверное распознавание румурных сообщений. Потенциальное влияние метода заключается в повышении точности распознавания и уменьшении ложных срабатываний, что может существенно повысить качество работы моделей в приложениях в режиме реального времени.
#### Выводы
Результаты предложенного метода MICC показывают, что контрастное обучение может значительно повысить эффективность распознавания румурных соо
Annotation:
Existing rumor detection methods often neglect the content within images as
well as the inherent relationships between contexts and images across different
visual scales, thereby resulting in the loss of critical information pertinent
to rumor identification. To address these issues, this paper presents a novel
cross-modal rumor detection scheme based on contrastive learning, namely the
Multi-scale Image and Context Correlation exploration algorithm (MICC).
Specifically, we design an SCLIP encod...
Авторы:
Baihong Qian, Haotian Fan, Wenjie Liao, Yunqiu Wang, Tao Li, Junhui Cui
#### Контекст
Визуально-языковые модели (Vision Language Models, VLM) широко применяются в задачах, требующих оценки визуального содержимого по установленным критериям и измерениям. Однако существующие методы в том числе страдают от неточных результатов и неэффективных механизмах вычисления потерь, что снижает точность модели и ее фокус на ключевых оценочных показателях. Это ограничивает применение VLM в задачах, требующих точной оценки визуального содержимого, например, в задачах оценки качества видео. Для решения этих проблем мы предлагаем новый подход к обучению VLM — IOVQA (Integer-only VQA), который ориентирован на улучшение модели для задач оценки качества видео.
#### Метод
Методология IOVQA основывается на уникальной конструкции меток и целевом механизме потерь. Для обучения в Dataset, метки адаптируются в интервал от 10 до 50, что улучшает числовую стабильность. Была представлена методика "target-mask": за счет маскирования всех значений меток, кроме первых двух цифр, модель во время тренировки фокусируется на ключевых компонентах оценки. Мы использовали Qwen2.5-VL в качестве модели для оценки качества видео и дообучили ее на созданном Dataset. Эта методика позволяет улучшить точность и консистентность решения задачи VQA.
#### Результаты
С помощью предложенного подхода, мы достигли высокой точности и улучшили позиционирование модели. Эксперименты проводились на данных VQualA 2025 GenAI-Bench AIGC Video Quality Assessment Challenge -- Track I. Использование IOVQA привело к значительному повышению точности и согласованности модели. Она заняла 3-е место в этом треке. Этот результат подтверждает эффективность метода IOVQA в стимулировании точности и эффективности VLM в задачах оценки видеокачества.
#### Значимость
Предложенный подход может применяться в различных областях, включая оценку видео, контроль качества графики и многие другие задачи, требующие точной оценки визуального содержимого. Он обеспечивает более точные и стабильные результаты, уменьшая потери в процессе обучения. Благодаря возможности направить модель на ключевые критерии оценки, IOVQA имеет потенциал для улучшения решений во многих областях.
#### Выводы
Предложенный метод IOVQA позволяет значительно улучшить точность и консистентность VLM в задачах оценки качества видео. Это демонстрирует, что целевая потеря с интересом на интервале и маскировкой незначительных деталей может быть эффективной для решения задач оценки видеокачества. Будущие исследования будут ориентированы на расширение этого подхода для других моделей и задач, включая сложные задачи оценки видео и развитие его применения в реальной жизни.
Annotation:
With the rapid advancement of vision language models(VLM), their ability to
assess visual content based on specific criteria and dimensions has become
increasingly critical for applications such as video-theme consistency
assessment and visual quality scoring. However, existing methods often suffer
from imprecise results and inefficient loss calculation, which limit the focus
of the model on key evaluation indicators. To address this, we propose
IOVQA(Integer-only VQA), a novel fine-tuning appro...
Авторы:
Junjie Wang, Keyu Chen, Yulin Li, Bin Chen, Hengshuang Zhao, Xiaojuan Qi, Zhuotao Tian
#### Контекст
Dense visual perception tasks, такие как 2D детекция и сегментация, 3D инстанс сегментация, видео инстанс сегментация и 6D объектное позиционирование, широко применяются в различных областях, включая искусственный интеллект, робототехнику и автоматизацию. Однако их развитие сильно ограничивается тем, что эти задачи обычно определяются через предварительные категории, что сокращает их применение в реальном мире, где объекты и сцены могут включать неограниченное количество визуальных понятий. Хотя Vision-Language Models (VLMs), такие как CLIP, продемонстрировали способность работать в open-vocabulary режиме, их прямое применение к dense perception часто приводит к ограниченным результатам. Это связано с недостатком в четкой локальной репрезентации фичей и несогласованностью в их пространственной организации.
#### Метод
Для решения этих проблем мы предлагаем **DeCLIP**, новую модель, которая расширяет CLIP, разделив self-attention модуль на два отдельных модуля: "content" и "context". **Content features** (фичи контента) обладают высокой дискриминативностью и стабильностью, их получают путем контрастного сравнения с изображений, обученными на Vision Foundation Models (VFMs). Для улучшения **context features** (фичей контекста), DeCLIP использует диффузионные модели, объединяя семантические зависимости и интегрируя представления объектов. Таким образом, DeCLIP обеспечивает лучшую пространственную консистентность и дискриминативность, позволяя эффективно решать задачи open-vocabulary dense perception.
#### Результаты
Мы провести эксперименты на различных данных, включая COCO, LVIS, SUN RGB-D, nuImages, nuScenes и Objectron. Модель DeCLIP показала существенное превосходство по сравнению с другими подходами, достигнув state-of-the-art результатов во всех задачах, таких как 2D детекция, сегментация, 3D инстанс сегментация, видео инстанс сегментация и 6D позиционирование. Например, в 2D segmentation DeCLIP показал **mIoU = 55.2%**, что значительно превосходит предыдущие результаты. Эти результаты подтверждают мощь модели в обеспечении точной и консистентной dense perception.
#### Значимость
DeCLIP может применяться в различных областях, где требуется высокая точность и обобщаемость в задачах визуального распознавания. Оптимизированная структура DeCLIP позволяет работать с неограниченным количеством визуальных понятий, что делает ее полезной в сценах с богатым контекстом, таких как smart cities, autonomous driving и robot vision. Благодаря улучшенной пространственной консистентности и дискриминативности, DeCLIP положительно влияет на приложения, такие как поиск и распознавание объектов, автоматизированная система контроля качества и системы распознавания в робототехнике.
#### Выводы
Мы представили **DeCLIP**, новую модель, котора
Annotation:
Dense visual perception tasks have been constrained by their reliance on
predefined categories, limiting their applicability in real-world scenarios
where visual concepts are unbounded. While Vision-Language Models (VLMs) like
CLIP have shown promise in open-vocabulary tasks, their direct application to
dense perception often leads to suboptimal performance due to limitations in
local feature representation. In this work, we present our observation that
CLIP's image tokens struggle to effectivel...
Авторы:
Aiswarya Konavoor, Raj Abhijit Dandekar, Rajat Dandekar, Sreedath Panat
#### Контекст
Визуально-языковые модели (Vision-Language Models, VLM) становятся все более популярными в области обработки и анализа изображений и текстов. Они алгоритмически вырабатывают пространства, в которых изображения и тексты эффективно хранятся и взаимодействуют. Несмотря на их полезность в задачах восстановления информации и нулевого-словных переводах, эти модели могут нечаянно сохранять или даже усиливать социальные стереотипы. Одна из самых видимых проблем — стереотипы, связанные с полом. Мы исследуем, влияет ли VLM на способность ассоциировать гендерные стереотипы с отдельными стимулами, такими как лица и представленные в тексте профессии и ролевые характеристики.
#### Метод
Мы создали набор данных, состоящий из 220 лицевых фотографий, разделенных по просматриваемому половому признаку (с учетом текущих ограничений на определение пола). К каждой фотографии был привязан набор 150 уникальных утверждений, разделенных по шести категориям: эмоциональное, когнитивное и домашнее трудовое, техническое, профессиональные роли и физическое трудовое. Все изображения и тексты были представлены в виде векторов (embeddings) в общем пространстве. Мы использовали метод косного схожести (cosine similarity) для вычисления степени схожести этих векторов. Для оценки степени стереотипического упоминания каждого вида труда или роли мы вычисляли среднее значение схожести по каждой категории для каждого пола. Для получения узнаваемых интервалов доверия мы использовали метод бутстрэпа. Особенностью метода является тестирование гипотезы о том, что при случайной перестановке меток гендера (label-swap) средние значения схожести должны быть примерно равными.
#### Результаты
Мы получили карту гендерных ассоциаций для каждой категории труда в пространстве VLM. Наши результаты показали, что в некоторых категориях, таких как домашнее и эмоциональное трудовое, модель сильнее связывает лица по женскому полу с этими направлениями. Наоборот, модель сильнее связывает лица по мужскому полу с техническими и профессиональными ролями. Результаты доступны в виде графических интерфейсов, демонстрирующих распределение степени стереотипической ассоциации по категориям. Кроме того, мы провели сравнение с лабильным нолевым моделем (label-swap null model), которая показала значительное расхождение с реальными значениями, подтверждая наличие стереотипов.
#### Значимость
Наши результаты показали, что VLM могут не только сильно поддерживать существующие гендерные стереотипы, но и усиливать их в результате своей операции. Эти модели могут быть применены в сферах, где нежелательная а
Annotation:
Vision-language models (VLM) align images and text in a shared representation
space that is useful for retrieval and zero-shot transfer. Yet, this alignment
can encode and amplify social stereotypes in subtle ways that are not obvious
from standard accuracy metrics. In this study, we test whether the contrastive
vision-language encoder exhibits gender-linked associations when it places
embeddings of face images near embeddings of short phrases that describe
occupations and activities. We assembl...
📄 Enhancing Supervised Composed Image Retrieval via Reasoning-Augmented Representation Engineering
2025-08-19Авторы:
Jun Li, Kai Li, Shaoguo Liu, Tingting Gao
## Контекст
Composed Image Retrieval (CIR) является важной областью исследований в области компьютерного зрения и обработки информации, так как она специально стоит перед вызовом совмещения визуальной и текстовой информации для точного поиска целевых изображений. Несмотря на прогресс в области обучения с подкреплением и методов машинного обучения, CIR остается сложной задачей, требующей понимания деталей как в визуальной, так и в текстовой сферах. Традиционные подходы часто страдают от того, что недостаточно уделяется вниманию тонкой интерпретации текста и визуальных содержаний, что приводит к ошибкам в системах поиска. Этот факт подчеркивает необходимость развития более точных и эффективных моделей, которые могли бы обеспечить квалифицированный поиск изображений при минимальных потребностях в тренировочных данных.
## Метод
Предлагаемый подход, Pyramid Matching Model with Training-Free Refinement (PMTFR), основывается на сочетании технологий Chain-of-Thought (CoT) и Pyramid Matching Model. Модель Pyramid Matching Model обладает способностью понимать визуальные данные на разных уровнях гранулярности, что включает в себя особенности визуальных элементов на разных уровнях детализации. В рамках нового подхода, CoT-данные используются для извлечения информации из текстовых инструкций, что позволяет лучше понять целевые изображения. Беспроволочная модель тренировки, основанная на непосредственном расширении текстовых сигналов, позволяет повысить точность поиска без дополнительного обучения моделей. Этот подход снижает затраты на обучение, оптимизируя точность и разрешая проблемы с хранением и переработкой информации в системах CIR.
## Результаты
На бенчмарк-данных CIR была проведена серия экспериментов, сравнивающих PMTFR с другими современными методами. Результаты показали, что PMTFR превосходит ранее использовавшиеся методы в задачах поиска изображений, особенно в случае необходимости точного разбора сочетания текстовых и визуальных сигналов. Эксперименты показали, что модель PMTFR демонстрирует высокую точность в случае задач CIR с небольшими обучающими данными, что свидетельствует о значительном потенциале этого подхода в ситуациях, где данных для обучения ограничены. Интеграция CoT и Pyramid Matching Model дала возможность повысить четкость и точность результатов поиска.
## Значимость
Предложенный подход имеет широкие области применения в области компьютерного зрения, в том числе в медицине, в образовании и в графике. Он может быть использован для повышения точности поиска изображений в системах роботов, практических приложениях в городских системах и в системах, требующих точного сопоставления визуальных элементов и текстовых сигналов
Annotation:
Composed Image Retrieval (CIR) presents a significant challenge as it
requires jointly understanding a reference image and a modified textual
instruction to find relevant target images. Some existing methods attempt to
use a two-stage approach to further refine retrieval results. However, this
often requires additional training of a ranking model. Despite the success of
Chain-of-Thought (CoT) techniques in reducing training costs for language
models, their application in CIR tasks remains limite...
Авторы:
Zhenyi Zhao, Muthu Rama Krishnan Mookiah, Emanuele Trucco
#### Контекст
В области медицинской импровизации, анализ миокардиальных имплантатов (миокардиальная имплантация) является критически важным заданием, которое помогает диагностировать и контролировать развитие многих сердечно-сосудистых заболеваний. Однако существуют значительные проблемы, связанные с точностью диагностики, доступностью инструментов и надежностью выявления сердечных недостатков. Настоящее исследование посвящено разработке системы анализа миокардиальных имплантатов, которая использует глубокие нейронные сети для повышения точности и эффективности диагностики.
#### Метод
Мы предлагаем систему, основанную на глубоких нейронных сетях, которая анализирует изображения сердца для выявления и оценки миокардиальных имплантатов. Методология включает следующие этапы:
1. **Подготовка данных**: Изображения сердца, полученные с помощью компьютерной томографии или магнитной резонансной томографии, проходят предобработку, включая нормализацию, шумоподавление и масштабирование.
2. **Архитектура нейронной сети**: Мы используем полносвязную сеть с несколькими слоями, включая конволюционные слои для извлечения функций и полносвязные слои для классификации и регрессии.
3. **Обучение и оптимизация**: Нейронная сеть обучается с помощью алгоритмов оптимизации, таких как Adam или RMSprop, с ансамблем регуляризаторов, чтобы предотвратить переобучение.
4. **Валидация и тестирование**: Результаты экспериментов достигаются за счет тренировки сети на тренировочной выборке и проверки ее на отложенной выборке.
#### Результаты
Мы проверили нашу систему на нескольких наборах данных, включая CT-Angiography и MRI-based datasets. Наша модель показала высокую точность выявления имплантатов, со средним F1-scoreм ~92% и метриками Dice coefficient ~0.89. Также, мы проводили сравнение с другими подходами, такими как традиционные методы и другие нейронные сети, и показали превосходство нашего подхода в плане точности и скорости выдачи результатов.
#### Значимость
Разработанная система может быть применена в клинической практике для диагностики и мониторинга миокардиальных недостаток, что позволит повысить точность диагностики и сократить время реакции врачей. Также, она может быть использована для создания базы данных для обучения других медицинских моделей. Характеристики нашей модели, такие как высокая точность и быстрота, делают ее выгодной в сравнении с традиционными методами.
#### Выводы
Наша модель демонстрирует высокую эффективность в выявлении миокардиальных имплантатов и может быть использована в различных клинич
Annotation:
RETFound is a well-known foundation model (FM) developed for fundus camera
and optical coherence tomography images. It has shown promising performance
across multiple datasets in diagnosing diseases, both eye-specific and
systemic, from retinal images. However, to our best knowledge, it has not been
used for other tasks. We present the first adaptation of RETFound for optic
disc segmentation, a ubiquitous and foundational task in retinal image
analysis. The resulting segmentation system outperfo...
📄 Does the Skeleton-Recall Loss Really Work?
2025-08-19Авторы:
Devansh Arora, Nitin Kumar, Sukrit Gupta
#### Контекст
Обработка изображений — одна из наиболее активно развивающихся областей в искусственном интеллекте и компьютерном зрении. Одним из ключевых задач в этой области является изображение сегментации, которая представляет собой разделение изображения на отдельные области или объекты. Эта задача играет ключевую роль в различных приложениях, таких как медицинская диагностика, робототехника и динамическое программирование видео. Однако выполнение эффективной сегментации изображений в различных условиях часто требует разработки специализированных моделей и потребности в уникальных функциях потерь. Например, для сегментации тонких трубчатых структур требуется учитывать их топологию, что приводит к развитию специальных потерь, таких как Skeleton Recall Loss (SRL). Несмотря на заявленную эффективность SRL-функции потерь, в данном исследовании мы проводим теоретический анализ и получаем результаты, которые показывают, что эта функция не превосходит базовых моделей в различных случаях сегментации.
#### Метод
Чтобы провести экспериментальную оценку Skeleton Recall Loss (SRL), мы использовали следующие методологии. Во-первых, мы провели теоретический анализ градиентов SRL-функции потерь, что позволило нам понять ее поведение и ограничения. Во-вторых, мы провели эксперименты с существующими моделями сетки, которые включают традиционные модели и модели, основанные на SRL. Для этих экспериментов мы использовали широкий набор данных, включая стандартные бенчмарк-данные для сегментации трубчатых структур, а также дополнительные данные для проверки универсальности SRL. Наконец, мы сравнили результаты, полученные с помощью SRL и классических потерь, чтобы определить, какой подход дает лучшие результаты. Этот метод позволил нам провести глубокий анализ и установить не только преимущества SRL, но и ее ограничения.
#### Результаты
Наши эксперименты показали, что Skeleton Recall Loss (SRL) не существенно превосходит базовые модели в сегментации тонких трубчатых структур. Мы провели эксперименты на нескольких наборах данных, включая стандартные данные и дополнительные данные, и обнаружили, что SRL не показывает существенного преимущества по сравнению с классическими потерями. Например, в одном из наших экспериментов, проведенном на датасете для сегментации трубчатых структур, SRL показала незначительное улучшение в Precision, но существенно ухудшила Recall. Эти результаты были подтверждены на других датасетах, что позволило нам сделать вывод о том, что SRL не является обязательным для развития эффективных моделей сегментации.
#### Значимость
Результаты этого исследования имеют з
Annotation:
Image segmentation is an important and widely performed task in computer
vision. Accomplishing effective image segmentation in diverse settings often
requires custom model architectures and loss functions. A set of models that
specialize in segmenting thin tubular structures are topology
preservation-based loss functions. These models often utilize a pixel
skeletonization process claimed to generate more precise segmentation masks of
thin tubes and better capture the structures that other models...
Показано 2051 -
2060
из 2274 записей