📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Surg-InvNeRF: Invertible NeRF for 3D tracking and reconstruction in surgical vision

2025-08-15

Авторы:

Gerardo Loza, Junlei Hu, Dominic Jones, Sharib Ali, Pietro Valdastri

#### Контекст Трекинг 3D-точек — ключевой вопрос в сфере стереоскопического визуального сервинга (SVS), сложным областью в становлении искусственного зрения в хирургии. Он требует постоянного отслеживания объектов в пространстве за счет передачи соответствий между кадрами. Основная проблема в трекинге заключается в необходимости обеспечить точность, устойчивость и высокую скорость вычислений. Существующие подходы часто сталкиваются с проблемами неквалифицированного оценивания движения или ограниченности в 2D-пространстве. Наша мотивация заключается в создании метода, который объединит точность, устойчивость и многослойный анализ пространственного пространства в системах хирургического визуального сервинга. #### Метод Мы предлагаем Surg-InvNeRF — новую модель, основанную на Invertible Neural Radiance Fields (InvNeRF), для решения проблемы трекинга в 3D. Наш подход тесно интегрирует нейронные сети с деформируемым NeRF для достижения бидирекционального деформируемого канонического отображения. Surg-InvNeRF предлагает несколько ключевых усовершенствований: 1. **Инверсионная NeRF-архитектура:** Она предлагает оптимизацию в тест-тайме (TTO), которая агрегирует соответствия из существующих методов TTO. 2. **Деформируемый NeRF:** Мы используем этот подход для обеспечения бидирекционального преобразования между деформированной и канонической системой координат. 3. **HexPlanes:** Это модифицированный вариант тензорных слоёв, который позволяет достичь быстрого расчёта. 4. **Процедура выбора пикселей и критерии сходимости:** Мы предлагаем новую процедуру для улучшения точности и скорости сходимости. Эти технические решения позволяют применять нашу модель в сценариях хирургического визуального сервинга, где необходима высокая точность и устойчивость. #### Результаты Мы проводили эксперименты на двух наборах данных: STIR и SCARE. На STIR мы оценивали точность 2D-трекинга, а на SCARE — 3D-трекинг и внедрение кинематических данных. Сравнение с текущими методами показало, что наш метод превосходит них в 2D-трекинге на 50% при той же скорости работы. В 3D-трекинге мы представляем первый TTO-подход, объединяющий точность и структуру, специфичные для деформируемого NeRF-подхода. #### Значимость Наш подход может применяться в следующих областях: - Хирургическое визуальное сервинге для улучшения точности и динамического отслеживания. - Развитии искусственного зрения для 3D-моделей в реальном времени. - Обучении и анализу движения в сложных трёхмерных пространствах. Преимущ

Annotation:

We proposed a novel test-time optimisation (TTO) approach framed by a NeRF-based architecture for long-term 3D point tracking. Most current methods in point tracking struggle to obtain consistent motion or are limited to 2D motion. TTO approaches frame the solution for long-term tracking as optimising a function that aggregates correspondences from other specialised state-of-the-art methods. Unlike the state-of-the-art on TTO, we propose parametrising such a function with our new invertible Neur...

ID: 2508.09681v1 cs.CV, cs.AI, cs.RO

arXiv PDF

📄 Region-to-Region: Enhancing Generative Image Harmonization with Adaptive Regional Injection

2025-08-15

Авторы:

Zhiqiu Zhang, Dongqi Fan, Mingjie Wang, Qiang Tang, Jian Yang, Zili Yi

## Контекст В области компьютерного зрения, визуальное сочетание элементов изображения, называемое **image harmonization**, является ключевым заданием. Цель этого задания заключается в том, чтобы адаптировать формат и цветовую гамму форенигета (переднего плана) в композитном изображении, чтобы он гармонично сочетался с фоном. Несмотря на некоторые успехи, существующие парадигмы сталкиваются с проблемами, такими как недостаточная точность в подробностях и ограниченная способность адаптироваться к сложным реальным условиям света. Эти ограничения нарушают естественность и реалистичность изображений. Мы предлагаем **Region-to-Region (R2R)**, новую модель, повышающую качество изображений в процессе harmonization. ## Метод Мы предлагаем **Region-to-Region (R2R)**, модель, основанную на **Latent Diffusion Model (LDM)**, которая выполняет region-to-region transformation. Модель **Clear-VAE** используется для сохранения высокочастотных деталей в форэнгете, а **Harmony Controller**, основанный на **Mask-aware Adaptive Channel Attention (MACA)**, адаптирует взаимодействие между фоном и передней планей. Для улучшения качества изображений в синтетических данных мы используем **Random Poisson Blending**, технику, которая передает информацию о цвете и освещении из подходящих регионов в переднюю планку. Этот подход позволяет создавать более современные и сложные изображения. ## Результаты Мы проводили эксперименты, используя **R2R** на реальных и синтетических данных. Модель показала превосходство по метрикам **PSNR** и **SSIM** в сравнении с другими существующими методами. Мы также провели визуальные оценки, показав, что наши результаты гармоничнее и более реалистичные. Наша модель также продемонстрировала высокую точность в сохранении деталей и адаптации к сложным источникам освещения. ## Значимость Наша модель имеет широкие перспективы применения в области визуальных эффектов, редактирования изображений, а также в задачах, требующих создания реалистичных композитов. Она демонстрирует значительные преимущества по сравнению с другими методами в том числе в ситуациях с нерегулярным освещением. Модель **R2R** также может применяться для генерирования новых синтетических данных, которые могут быть использованы в обучении других моделей. ## Выводы Мы представили **Region-to-Region (R2R)**, новую модель для улучшения **image harmonization**. Модель **Clear-VAE** сохраняет детали, а **Harmony Controller** динамически адаптирует сочетание в зависимости от важности каналов. Мы также предложили **Random Poisson Blending** для создания более сложных синтетических данных. Эксперименты показали, что **R2R** превосходит другие методы в ряде критериев. Мы выпустили нашу модель, код и данные для откры

Annotation:

The goal of image harmonization is to adjust the foreground in a composite image to achieve visual consistency with the background. Recently, latent diffusion model (LDM) are applied for harmonization, achieving remarkable results. However, LDM-based harmonization faces challenges in detail preservation and limited harmonization ability. Additionally, current synthetic datasets rely on color transfer, which lacks local variations and fails to capture complex real-world lighting conditions. To en...

ID: 2508.09746v1 cs.CV, cs.AI

arXiv PDF

📄 Combinative Matching for Geometric Shape Assembly

2025-08-15

Авторы:

Nahyuk Lee, Juhong Min, Junhong Lee, Chunghyun Park, Minsu Cho

#### Контекст Геометрическая сборка — это процесс сборки множества частей в одно целостное геометрическое тело. Этот процесс широко применяется в различных областях, таких как 3D-печать, рендеринг, виртуальная реальность и интерактивные системы. Однако существуют значительные проблемы, такие как неточность в поиске соответствий между частями, локальная амбигуитетность и трудность в учете сложных форм. Эти проблемы существенно затрудняют автоматизацию сборки и повышение точности. Наша мотивация заключается в разработке методики, которая бы улучшила точность и надежность сборки геометрических форм, а также уменьшила локальные неточности. #### Метод Мы предлагаем новую методику, названаную **комбинативное сопоставление**, для соединения интерактивных частей в геометрической сборке. Наш подход отличается от существующих методов, которые основываются на поиске идентичных поверхностей между частями. Мы вводим два ключевых понятия: **одинаковая форма поверхности** и **противоположность заполнения пространства**. Наш метод учится устанавливать корреляции между частями, где поверхности выглядят одинаково, но их объёмы занимают противоположные области пространства. Для того, чтобы улучшить устойчивость вращений, мы используем нейронные сети с эквивариантностью к вращению, что позволяет алгоритму ориентироваться в 3D-пространстве. Эта архитектура обеспечивает более точное и надежное сопоставление частей. #### Результаты Мы провёрили нашу методику на нескольких бенчмарковых наборах данных геометрических сборок. Наши эксперименты показали, что наш подход существенно превосходит современные методы по точности сопоставления и устойчивости к локальным амбигуитетам. Мы использовали разные типы геометрических форм (плоские, сложные, интерлоккуирующие), чтобы проверить универсальность нашего метода. Результаты показали, что наш подход обеспечивает более стабильные результаты, даже при сложных сценариях сборки. #### Значимость Метод комбинативного сопоставления может быть применён в различных областях, таких как 3D-печать, виртуальная реальность, интерактивные системы и системы симуляции. Он обеспечивает высокую точность и надежность, уменьшая время и ресурсы, необходимые для сборки. Также, наша методика может привести к развитию новых технологий в области геометрической синтеза и рендеринга. #### Выводы Наша работа предлагает новую методику для геометрической сборки, которая существенно улучшает точность и надежность сопоставления частей. Мы продемонстрировали, что наш подход п

Annotation:

This paper introduces a new shape-matching methodology, combinative matching, to combine interlocking parts for geometric shape assembly. Previous methods for geometric assembly typically rely on aligning parts by finding identical surfaces between the parts as in conventional shape matching and registration. In contrast, we explicitly model two distinct properties of interlocking shapes: 'identical surface shape' and 'opposite volume occupancy.' Our method thus learns to establish correspondenc...

ID: 2508.09780v1 cs.CV, cs.AI

arXiv PDF

📄 Automated Segmentation of Coronal Brain Tissue Slabs for 3D Neuropathology

2025-08-15

Авторы:

Jonathan Williams Ramirez, Dina Zemlyanker, Lucas Deden-Binder, Rogeny Herisse, Erendira Garcia Pallares, Karthik Gopinath, Harshvardhan Gazula, Christopher Mount, Liana N. Kozanno, Michael S. Marshall, Theresa R. Connors, Matthew P. Frosch, Mark Montine, Derek H. Oakley, Christine L. Mac Donald, C. Dirk Keene, Bradley T. Hyman, Juan Eugenio Iglesias

## Контекст В последние годы регистрация изображений и машинное обучение позволили проводить объёмный анализ посмертного мозгового материала по обычным фотографиям корональных срезов, которые систематически накапливаются в мозговых банках и лабораториях нейропатологии. Однако методика требует предварительного выделения ткани на фото, и сегодня этот этап выполняют вручную, что дорого, медленно и ограничивает масштабные исследования. Отсутствие автоматического сегментационного инструмента тормозит повсеместное внедрение объёмной нейропатологии, тогда как клинико-анатомические корреляции всё чаще нуждаются в количественных 3-D-оценках поражений. Авторы статьи мотивированы снятием этого узкого места и публикацией доступного решения. ## Метод Алгоритм построен на стандартной свёрточной U-Net и обучен композитному набору из 1 414 ручных разметок фотографий фиксированной и свежей ткани разных диагнозов, снятых в двух лабораториях, а также из 2 000 синтетических изображений. Синтетика генерировалась из МРТ-объёмов: на МРТ-маски наложены случайные фотометрические искажения (яркость, контраст, цветовой баланс), чтобы имитировать различные условия съёмки и повысить обобщающую способность модели. Дополнительно применялось аугментации (повороты, масштаб, размытие). Обучение велось по стратегии 5-слойной cross-validation на GPU Tesla V100 в течение 60 эпох с оптимизатором Adam и лоссом Dice + BCE. Код и предобученные веса выложены в FreeSurfer-пакет. ## Результаты Оценка проводилась на независимом подмножестве фотографий, не участвовавшем в обучении; сравнивались автоматические маски с разметками трёх экспертов и их интра-/интер-вариабельностью. Медианный коэффициент Дайса превысил 0,98, среднее расстояние между поверхностями оказалось <0,4 мм, 95-й перцентиль расстояния Хаусдорфа <1,60 мм — статистически неотличимо от разброса между людьми. Процессинг одного коронального снимка 2 Мп занимает <0,2 с на GPU и <1,5 с на CPU, что на четыре порядка быстрее ручной разметки (≈15 мин). Ошибки модели в основном локализуются на участках с тёмными кровоизлияниями, где контраст ткани/фона низок, но даже там Dice ≥0,93. ## Значимость Инструмент открывает путь к массовому анализу архивных посмертных фото-серий и к созданию 3-D-холдингов патологических изменений без дополнительных затрат на сканирование или переразметку. Это позволит нейропатологам количественно оценивать объёмы инфарктов, нейродегенерации, опухолей и сосудистых поражений, формируя статистически мощные корреляции с клинико-генетическими данными. Публичная доступность расширяет охват малых лабораторий и развивающихся стран, где нет ресурсов на ручную работу. Автоматическая сегментация также устраняет меж-наблюдательный сдвиг, повышая воспроизводимость исследований и способствуя стандартизации диагностических протоколов. ## Выводы Разработана и валидирована U-Net-модель, достигающая качества опытных нейропатологов и полностью автоматизирующая выделение мозговой ткани на корональных фото срезах. Решение доступно сообществу на платформе FreeSurfer и уже интегрировано в конвейер 3-D-реконструкции. Будущие направления включают: (i) расширение классов до отдельных анатомических структур (гиппокамп, базальные ганглии), (ii) адаптацию к сагиттальным и аксиальным плоскостям, (iii) обучение few-shot-методами для новых центров с ограниченной разметкой, и (iv) интеграцию с алгоритмами классификации патологий для полностью автоматического нейропатологического конвейера.

Annotation:

Advances in image registration and machine learning have recently enabled volumetric analysis of \emph{postmortem} brain tissue from conventional photographs of coronal slabs, which are routinely collected in brain banks and neuropathology laboratories worldwide. One caveat of this methodology is the requirement of segmentation of the tissue from photographs, which currently requires costly manual intervention. In this article, we present a deep learning model to automate this process. The autom...

ID: 2508.09805v1 cs.CV, cs.AI

arXiv PDF

📄 TRACE: Learning 3D Gaussian Physical Dynamics from Multi-view Videos

2025-08-15

Авторы:

Jinxi Li, Ziyang Song, Bo Yang

#### Контекст Объяснение целей исследований в области 3D-моделирования динамических сцен из видео при обработке изменений вызвано сложностью извлечения геометрии, видимости и физических параметров только из видео, без меток. Это ставит перед наукой цель развития моделей, не требующих меток и оперирующих только видеоданными. Моделирование сложных динамических сцен в 3D-пространстве важно для приложений в машинном зрении, виртуальной реальности и других технологиях. Недостаток существующих подходов в том, что они либо не могут охватить сложные физические модели, либо требуют дополнительных меток, что ограничивает их применение. #### Метод TRACE — это новая фреймворк, которая моделирует физические свойства динамических сцен с помощью физически обоснованных потерь и моделирования каждого трехмерного пикселя как отдельного частица со своими геометрическими параметрами (размер, ориентация). Основной инновацией является то, что TRACE динамически оценивает параметры трансляции и поворота для каждой частицы, что позволяет описывать ее движение в течение времени. Такой подход позволяет извлекать изображение и физическую информацию без дополнительных меток, так как сама модель физических параметров лежит в основе расчетов. #### Результаты TRACE проверена на трех существующих динамических датасетах, а также на новом синтетическом датасете, разработанном для проверки сложности. Использовались меры качества, такие как PSNR и SSIM, для оценки качества экстраполяции будущих кадров. Оказалось, что TRACE показывает наилучший результат в сравнении с другими моделями в задаче прогнозирования физических движений. Также было продемонстрировано, как посредством кластеризации физических параметров можно выделять различные объекты и их части в сцене. #### Значимость TRACE может применяться в различных областях технологий, включая системы распознавания движения, виртуальные и масштабируемые реалистичные симуляции, а также виртуальную реальность. Она предлагает высокую точность воспроизведения динамических сцен и позволяет извлекать физические параметры без дополнительных меток. Это делает ее привлекательной для приложений, требующих точной модели физического поведения объектов. #### Выводы TRACE демонстрирует мощь физически обоснованных подходов в обучении моделей движения 3D-сцен. Она открывает новые возможности для точного моделирования физики движения в различных приложениях. Будущие исследования могут сфокусироваться на улучшении точности моделирования и расширении ее применения в реальных сценах.

Annotation:

In this paper, we aim to model 3D scene geometry, appearance, and physical information just from dynamic multi-view videos in the absence of any human labels. By leveraging physics-informed losses as soft constraints or integrating simple physics models into neural nets, existing works often fail to learn complex motion physics, or doing so requires additional labels such as object types or masks. We propose a new framework named TRACE to model the motion physics of complex dynamic 3D scenes. Th...

ID: 2508.09811v1 cs.CV, cs.AI, cs.CE, cs.LG, cs.RO

arXiv PDF

📄 RayletDF: Raylet Distance Fields for Generalizable 3D Surface Reconstruction from Point Clouds or Gaussians

2025-08-15

Авторы:

Shenxing Wei, Jinxi Li, Yafei Yang, Siyuan Zhou, Bo Yang

#### Контекст Область исследования 3D-сурфейс-реконструкции из точечных множеств или 3D-Гауссиан (т.е., приближенных нормальных распределений) является актуальной для многих прикладных задач, таких как виртуальная реальность, робототехника, 3D-дизайн и инспекция. Несмотря на успех методов, основанных на координатах (Coordinate-Based Methods, CBM), они часто сталкиваются с высокими затратами ресурсов при рендеринге точных эксплорных сурфейсов. Такие методы требуют многократного обращения к нейросетевым моделям для каждого пикселя, что приводит к высокому времени вычислений и неэффективности. Тем самым, существует необходимость в разработке более эффективных, гибких и производительных алгоритмов для решения этой задачи. #### Метод Метод RayletDF предлагает инновационный подход к решению проблемы 3D-сурфейс-реконструкции. Основная идея заключается в использовании "raylet distance field" (RDF), который рассчитывает расстояние до ближайшего сурфейса для каждого исследоваемого луча (raylet). Этот подход позволяет избежать непосредственного вычисления координат сурфейсной точки и, следовательно, снижает компьютерные затраты. Архитектура RayletDF состоит из трех модулей: 1. **Raylet Feature Extractor** — извлекает тонкие локальные геометрические признаки из запросов лучей. 2. **Raylet Distance Field Predictor** — прогнозирует расстояния до сурфейса по этим признакам. 3. **Multi-Raylet Blender** — комбинирует несколько прогнозов для построения точных сурфейсных точек. Эта архитектура обеспечивает точные и производительные реконструкции сурфейсов, с минимальными вычислительными затратами. #### Результаты Работа была проверена на нескольких широко известных реальных данных, в том числе в таких областях, как 3D-сурфейс-реконструкция и виртуальная реальность. Использовались различные точечные множества и 3D-Гауссианы, полученные с помощью 3DGS (3D Gaussian Sampling) из RGB-изображений. Полученные результаты сравнивались с другими современными методами, показав существенное преимущество RayletDF в скорости и точности реконструкции сурфейсов. Особенно выдающимся был его результат в области общей гибкости: RayletDF способен выполнить рендеринг 3D-сурфейсов в одном проходе (single-forward-pass) даже на неизвестных данных. #### Значимость Полученный подход имеет широкие приложения в сферах, требующих эффективной и точной 3D-реконструкции, таких как виртуальная реальность, робототехника, 3D-анализ и отображение. Он отличается высокой скоростью исполнения и гибкостью при работе с различными типами данных. В отличие от методов CBM, RayletDF не требует многократных вызовов нейросети, что де

Annotation:

In this paper, we present a generalizable method for 3D surface reconstruction from raw point clouds or pre-estimated 3D Gaussians by 3DGS from RGB images. Unlike existing coordinate-based methods which are often computationally intensive when rendering explicit surfaces, our proposed method, named RayletDF, introduces a new technique called raylet distance field, which aims to directly predict surface points from query rays. Our pipeline consists of three key modules: a raylet feature extractor...

ID: 2508.09830v1 cs.CV, cs.AI, cs.GR, cs.LG, cs.RO

arXiv PDF

📄 COME: Dual Structure-Semantic Learning with Collaborative MoE for Universal Lesion Detection Across Heterogeneous Ultrasound Datasets

2025-08-15

Авторы:

Lingyu Chen, Yawen Zeng, Yue Wang, Peng Wan, Guo-chen Ning, Hongen Liao, Daoqiang Zhang, Fang Chen

#### Контекст Анализ ультразвуковых изображений (US) широко применяется в медицине для диагностики различных заболеваний. Однако существуют значительные вызовы, связанные с ограниченностью размера данных, акустическими теньюми и раздражительным шумом. Эти факторы ограничивают переносимость моделей, обученных на одном наборе данных, к другим. Для того чтобы построить универсальную модель, которая была бы эффективной для разных ультразвуковых наборов данных, необходимо учитывать различия между ними и эффективно извлекать дискриминативные признаки. Поэтому, целью данного исследования является разработка универсального фреймворка, который бы способствовал улучшению общей точности детекции злокачественных образований в разных ультразвуковых данных. #### Метод Для развития универсальной модели был предложен метод **Universal Collaborative Mixture of Heterogeneous Source-Specific Experts (COME)**. Он состоит из двух главных компонентов: **универсальных структурно-семантических экспертов**, которые строят универсальное пространство представления, и **источник-специфических экспертов**, которые извлекают дискриминативные признаки для каждого отдельного набора данных. Метод COME работает следующим образом: первые эксперты создают обобщенное представление, а затем эти представления используются источник-специфическими экспертами для выделения признаков, относящихся к конкретной нагрузке. Эта конструкция позволяет модели COME лучше адаптироваться к новым данным и обеспечивает улучшения в общем знании за счет обмена опытом между разными наборами. #### Результаты Результаты экспериментов показывают, что модель COME выдает значительно лучшие результаты по сравнению с другими моделями. Она была протестирована на трех режимах: **одноданность**, **межорганическое** и **внутриорганическое** объединение наборов данных. На всех этих режимах COME показала значительные улучшения в метрике mean average precision (mAP) по сравнению с состоянием искусства. Например, на интегрированных наборах данных COME показала AP-улучшения до **15%** в сравнении с предыдущими моделями. Это демонстрирует высокую эффективность COME в обеспечении универсальной детекции злокачественных новообразований в разных ультразвуковых данных. #### Значимость Предлагаемый подход имеет значительное значение в области медицинского анализа изображений. Он может быть применен для развития универсальных моделей, которые будут эффективными для различных видов ультразвуковых изображений в разных задачах. COME позволяет улучшить точность детекции и обеспечивает более значимые результаты в медицинских приложениях. Данный подход может быть применен для глубокого обучения в других

Annotation:

Conventional single-dataset training often fails with new data distributions, especially in ultrasound (US) image analysis due to limited data, acoustic shadows, and speckle noise. Therefore, constructing a universal framework for multi-heterogeneous US datasets is imperative. However, a key challenge arises: how to effectively mitigate inter-dataset interference while preserving dataset-specific discriminative features for robust downstream task? Previous approaches utilize either a single sour...

ID: 2508.09886v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 January Food Benchmark (JFB): A Public Benchmark Dataset and Evaluation Suite for Multimodal Food Analysis

2025-08-15

Авторы:

Amir Hosseinian, Ashkan Dehghani Zahedani, Umer Mansoor, Noosheen Hashemi, Mark Woodward

################################# ## Контекст ################################# Актуальность исследования связана с ростом интереса к автоматизированному анализу пищевых продуктов, который может помочь в улучшении здоровья и благополучия человека. Однако существуют существенные проблемы, связанные с отсутствием стандартизированных методологий и высококачественных данных для обучения и оценки алгоритмов. Недостаточная точность и универсальность нынешних моделей приводят к затруднениям в их применении в реальных условиях. Для решения этих проблем необходимо разработать специализированные модели и детально протестировать их на реальных данных. ################################# ## Метод ################################# Для решения проблемы разработаны три основных компонента. Во-первых, создан January Food Benchmark (JFB) — публичный набор данных, состоящий из 1 000 изображений пищевых продуктов с подробными, вручную подтвержденными пометками. Во-вторых, разработан подробный фреймворк для оценки моделей, включая метрики, оценивающие различные аспекты производительности, и уникальный общий показатель для оценки моделей в целом. В-третьих, разработана и протестирована специализированная модель january/food-vision-v1, которая предназначена для решения задачи анализа пищевых продуктов. ################################# ## Результаты ################################# Использовались данные из JFB для оценки производительности моделей. Обширные эксперименты показали, что специализированная модель january/food-vision-v1 превосходит общеупотребительные модели, достигая Overall Score 86.2, что является значительным улучшением (12.1 балла) по сравнению с лучшим результатом общего назначения. Эти результаты указывают на эффективность специализированных моделей в решении задач автоматизированного анализа пищевых продуктов. ################################# ## Значимость ################################# Разработанный JFB может быть применен в различных областях, включая развитие моделей для автоматизации группирования и анализа пищевых продуктов. Он предоставляет уникальные возможности для развития инструментов, помогающих в обеспечении здорового питания и стимулировании здорового образа жизни. Эта работа также открывает пути для дальнейшего исследования в области мультимодального анализа, включая расширение технологий для оценки качества и безопасности пищи. ################################# ## Выводы ################################# Работа представляет собой значительный шаг в развитии автоматизированных систем анализа пищевых продуктов. Выпущенный JFB и соответствующий фреймворк дают возможность для последовательных развитий в этой области. Будущие исследования будут фокусироваться на улучшении моделей, расширении JFB и исследовании применений в реальной жизни.

Annotation:

Progress in AI for automated nutritional analysis is critically hampered by the lack of standardized evaluation methodologies and high-quality, real-world benchmark datasets. To address this, we introduce three primary contributions. First, we present the January Food Benchmark (JFB), a publicly available collection of 1,000 food images with human-validated annotations. Second, we detail a comprehensive benchmarking framework, including robust metrics and a novel, application-oriented overall sc...

ID: 2508.09966v1 cs.CV, cs.AI

arXiv PDF

📄 Echo-4o: Harnessing the Power of GPT-4o Synthetic Images for Improved Image Generation

2025-08-15

Авторы:

Junyan Ye, Dongzhi Jiang, Zihao Wang, Leqi Zhu, Zhenghao Hu, Zilong Huang, Jun He, Zhiyuan Yan, Jinghua Yu, Hongsheng Li, Conghui He, Weijia Li

## Контекст Одним из актуальных направлений в области глубокого обучения является создание моделей, эффективно генерирующих изображения на основе текстовых описаний. Несмотря на успех моделей GPT-4o в этой области, существуют отклонения в синхронизации текстовых и изображенийных семантик, а также ограничения в доступности качественных данных для обучения. Эти проблемы приводят к недостаточной точности в обработке редких или сложных запросов пользователей, таких как создание изображений в сюрреалистических или многореферентных сценариях. Для устранения этих проблем необходимо развитие систем, которые могли бы совершенствоватьсюреалистическийсозданиемоделей, которые могли бы совершенствоваться с помощью высококачественных синтетических данных. ## Метод Методология Echo-4o основывается на создании и использовании синтетического данных, генерируемых с помощью GPT-4o. Эта модель порождает 180K-масштабные изображения, оптимизированные для заполнения пробелов в реальных данных, таких как наличие редких сценариев и чистых фонов. Для тонкой настройки базовой модели Bagel введен синтетический датасет Echo-4o-Image, предназначенный для улучшения текстово-изображенией синхронизации. Для точного оценки результатов были разработаны две новые эвалиационные бенчмарки: GenEval++ для оценки сложностных инструкций, и Imagine-Bench для оценки ответов на интеллектуально-изобразительные задачи. ## Результаты Основными результатами данного исследования является повышение точности генерирования изображений в сравнении с существующими моделями. В результатах экспериментов на популярных бенчмарках Echo-4o показал значительное улучшение в задачах текстово-изображательной синхронизации. Новые бенчмарки, например GenEval++, позволили избежать сковывающих результаты оценочные метрики, а Imagine-Bench продемонстрировал улучшение моделей в экспериментах с изображениями сложных сценариев. Более того, применение Echo-4o-Image к другим моделям (например, OmniGen2 и BLIP3-o) показало значительные повышения метрик по нескольким показателям. ## Значимость Результаты Echo-4o-Image могут быть применены в различных областях, включая создание контента, ретуширование изображений, и создание многореферентных изображений. Эта модель предлагает значительные преимущества в том числе чистоту синтетических данных, которые улучшают текстово-изображательную синхронизацию и расширяют возможности моделей глубокого обучения. Это может привести к значительному повышению качества изображений в различных приложениях, в том числе в создании рекламных материалов, интерактивных игр, и контента для социальных сетей. ## Выводы Echo-4o представ

Annotation:

Recently, GPT-4o has garnered significant attention for its strong performance in image generation, yet open-source models still lag behind. Several studies have explored distilling image data from GPT-4o to enhance open-source models, achieving notable progress. However, a key question remains: given that real-world image datasets already constitute a natural source of high-quality data, why should we use GPT-4o-generated synthetic data? In this work, we identify two key advantages of synthetic...

ID: 2508.09987v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 FoundBioNet: A Foundation-Based Model for IDH Genotyping of Glioma from Multi-Parametric MRI

2025-08-14

Авторы:

Somayeh Farahani, Marjaneh Hejazi, Antonio Di Ieva, Sidong Liu

## Контекст Glioma, наиболее распространенный вид головного мозга, требует точной диагностики и классификации для эффективного лечения. Одним из ключевых аспектов является определение мутаций в гене митохондриального изокатара дегидрогеназа (IDH). Известно, что IDH-мутации имеют клинический значимость для прогноза и терапевтического планирования. Традиционные методы определения IDH-статуса, такие как толерантные и чрезвычайно нетрудные анализы ткани, часто не могут полностью отразить внутриочамовую гетерогенность опухоли. Нейронные сети, особенно полносвязные, показали свою эффективность в биометрическом моделировании. Однако они часто страдают от недостатка тренировочных данных и специализированности. Базовые модели движения, в свою очередь, предлагают более универсальное решение для обработки изображений и могут предложить новые возможности в генотипировании IDH. ## Метод Мы предлагаем Foundation-Based Biomarker Network (FoundBioNet), основанный на архитектуре SWIN-UNETR, чтобы решать проблему IDH-генотипирования из мультипараметрических MRI. Архитектура включает два ключевых модуля: Tumor-Aware Feature Encoding (TAFE) для извлечения многошаровых, центрированных на очаг торакальных признаков, и Cross-Modality Differential (CMD) для выявления небольших инвазивных сигналов T2-FLAIR, которые характеризуют IDH-мутации. Мы разработали модель, которая обучалась и проверялась на выборке 1705 пациентов с головной болезнью, взятых из шести крупных баз данных. Мы оцениваем производительность на независимых тестовых сетях, включая EGD, TCGA, Ivy GAP, RHUH и UPenn. ## Результаты FoundBioNet показал высокую точность в IDH-генотипировании, с AUC 90.58% на EGD, 88.08% на TCGA, 65.41% на Ivy GAP, 80.31% на RHUH и 80.31% на UPenn. Эти результаты опровергают значимость базовых подходов (p <= 0.05). Экспериментальные исследования подтвердили, что оба модуля TAFE и CMD важны для достижения точности. Мы также проводили анализ точности, включая оптимизацию параметров и модулиность обучения, чтобы подтвердить эффективность наших модулей. ## Значимость FoundBioNet может использоваться для точного, неинвазивного определения IDH-статуса, что имеет значимый потенциал для улучшения диагностики и терапии головного мозга. Он может быть использован в клинической практике для лучшего планирования лечения, особенно в случаях, когда интраоперационная диагностика позволяет получить полную картину очагов. Базовая модель также может быть расширена для других типов опухолей и биомаркеров, сделав ее более универсальной и расширенной. ## Вывод

Annotation:

Accurate, noninvasive detection of isocitrate dehydrogenase (IDH) mutation is essential for effective glioma management. Traditional methods rely on invasive tissue sampling, which may fail to capture a tumor's spatial heterogeneity. While deep learning models have shown promise in molecular profiling, their performance is often limited by scarce annotated data. In contrast, foundation deep learning models offer a more generalizable approach for glioma imaging biomarkers. We propose a Foundation...

ID: 2508.06756v1 cs.CV, cs.AI

arXiv PDF

1
2
210
211
212
213
214
227
228

Показано 2111 - 2120 из 2274 записей