📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jakub Straka, Ivan Gruber

## Контекст Remote sensing обрастает важностью в силу растущего роста объемов данных, получаемых спутниками. Однако, многие спутниковые датасеты не поступают тегованными, что создает проблему их использования для моделирования. Чтобы справиться с этим, в последние годы набирает обороты **self-supervised learning (SSL)**, позволяющий выводить значимые представления из необработанных данных. В данной работе, мы рассмотрим применение **contrastive self-supervised method** DINO к задаче pretraining на satellite imagery. Мы предлагаем SatDINO — модель, которая отличается как своей архитектурой, так и адаптивностью к уникальным характеристикам спутниковых изображений. ## Метод **DINO (Decoupled Neural Networks)** является contrastive self-supervised методом, который учитывает изоморфные отношения в данных. Мы предлагаем SatDINO, усовершенствованную версию DINO, адаптированную к спутниковым изображениям. SatDINO включает в себя несколько ключевых новшеств: - **Ground Sample Distance (GSD) encoding**: позволяет учитывать разрешение, оказывающее влияние на спутниковые данные; - **Adaptive view sampling**: позволяет выбирать наиболее релевантные виды изображений для обучения; - **Advanced architectural tweaks**: включают многоуровневые точечные пространственные преобразования, улучшающие вывод представлений. Мы вводим подробную архитектуру SatDINO, которая объединяет эти элементы в единую систему. ## Результаты Мы проводим эксперименты на трех различных датасетах спутниковых изображений. Наша модель SatDINO сравнивается с двумя современными моделями, основанными на masked autoencoders (MAE). Результаты показывают, что SatDINO: - **Превосходит MAE-based модели** в 5 из 6 случаев по метрике top-1 accuracy; - **Опережает** state-of-the-art модели на двух из трех датасетах; - **Регулярно демонстрирует высокую stabililty** в разных тестовых настройках. Кроме того, мы проводим анализ влияния каждого элемента модели, включая GSD encoding и adaptive view sampling. ## Значимость SatDINO открывает новые возможности для применения self-supervised learning в области remote sensing. Он может быть использован в задачах: - **Change detection**: определение изменений на поверхности Земли; - **Land cover classification**: классификация видов покрытия земли; - **Disaster response**: моделирование ситуаций чрезвычайных ситуаций. Преимущества SatDINO заключаются в: - **Higher accuracy** в сравнении с масокнием (MAE); - **Adaptability** к уникальным характеристикам спутниковых данных; - **Efficiency**, позволяющая использовать его в реальном времени. ## Выводы SatDINO достигает результатов, которые отличаются высокой точностью и универсальностью при работе с satellite imagery. Наше рабочее решение может стать новой стандартной моделью для задач self-supervised pretraining в remote sensing. На будущее, мы планируем расширить SatDINO на другие контексты, такие как 3D данные или потоковый сигнал, а также улучшить его в
Annotation:
Self-supervised learning has emerged as a powerful tool for remote sensing, where large amounts of unlabeled data are available. In this work, we investigate the use of DINO, a contrastive self-supervised method, for pretraining on remote sensing imagery. We introduce SatDINO, a model tailored for representation learning in satellite imagery. Through extensive experiments on multiple datasets in multiple testing setups, we demonstrate that SatDINO outperforms other state-of-the-art methods based...
ID: 2508.21402v1 cs.CV, cs.LG
Авторы:

Gernot Fiala, Markus Plass, Robert Harb, Peter Regitnig, Kristijan Skok, Wael Al Zoughbi, Carmen Zerner, Paul Torke, Michaela Kargl, Heimo Müller, Tomas Brazdil, Matej Gallo, Jaroslav Kubín, Roman Stoklasa, Rudolf Nenutil, Norman Zerbe, Andreas Holzinger, Petr Holub

## Контекст Область исследований, связанная с Whole Slide Images (WSIs), широко распространена в медицинских и научных областях, включая патологию, онкологию, нурологию, иммунологию и другие. WSIs представляют собой высокоразрешные цифровые изображения, полученные сканированием целых стеков тканей или клеток. Они широко используются для разработки и тестирования алгоритмов машинного обучения (ML), а также в ряде других приложений. Однако существуют значительные проблемы, связанные с отсутствием стандартизации метаданных, необходимых для эффективного поиска и использования этих изображений в больших архивах. Эта нестандартизация затрудняет интеграцию AI в процессы анализа и поиска информации в больших данных. Наша мотивация заключается в разработке стандартизированного подхода для генерирования индексных карт WSIs и профилирования для различных доменов применения. ## Метод Мы предлагаем разработанный подход, который включает в себя генерирование двумерного индексного карты (2D-индексного отображения) для каждого WSI, а также профилирование для конкретных доменов применения. Индексное отображение является детализированным представлением содержимого WSI, состоящим из трех слоев: исходного источника, типа ткани и патологических изменений. Каждый слой сопоставляет области изображения с определенными классами, обеспечивая точную информацию о содержимом WSI. Методология включает в себя автоматическое создание этих карт и их интеграцию с машинным обучением, чтобы повысить точность и эффективность поиска и анализа в больших данных. Мы также разработали синтаксис и семантику для обеспечения совместимости между различными каталогами. ## Результаты Мы проводили эксперименты на большом количестве WSI из различных областей, включая патологию и онкологию. Данные были проанализированы с использованием нашего подхода, и результаты показали значительный повышение точности поиска и анализа в больших цифровых архивах. Мы также продемонстрировали, как наш подход может быть использован для создания графовых представлений WSIs, что дает дополнительные возможности для анализа. Мы использовали различные метрики для оценки качества профилирования и поиска, что подтвердило эффективность нашего подхода. ## Значимость Наш подход имеет широкую область применения в медицинских и научных исследованиях, в том числе в областях, где необходимо быстрый и точный поиск информации в больших цифровых архивах. Он позволяет улучшить эффективность и точность разработки AI-алгоритмов, а также облегчает интеграцию этих алгоритмов в существующие системы. Кроме того, наш подхо
Annotation:
A Whole Slide Image (WSI) is a high-resolution digital image created by scanning an entire glass slide containing a biological specimen, such as tissue sections or cell samples, at multiple magnifications. These images can be viewed, analyzed, shared digitally, and are used today for Artificial Intelligence (AI) algorithm development. WSIs are used in a variety of fields, including pathology for diagnosing diseases and oncology for cancer research. They are also utilized in neurology, veterinary...
ID: 2508.21418v1 cs.CV, cs.LG
Авторы:

Ha Min Son, Zhe Zhao, Shahbaz Rezaei, Xin Liu

## Контекст Научное исследование "Domain Generalization in-the-Wild: Disentangling Classification from Domain-Aware Representations" основывается на области domain generalization (DG), которая направлена на обеспечение устойчивости моделей к различным доменам данных. Особенно важно это для фундаментальных моделей, таких как CLIP, которые обучаются на огромных корпусах web-scale данных. Известно, что существующие DG-benchmarks могут быть недостаточно вызовом для моделей, так как CLIP уже может быть "предварительно ознакомлен" с большим объемом данных из этих бенчмарков. Это приводит к снижению значимости стандартных оценок DG. Исследование рассматривает новые подходы для более тщательной оценки DG в "природных условиях", где модель предоставляется чуждому доменному данным. ## Метод Проведены два основных эксперимента. В первом, CLIP был приспособлен для ImageNet, после чего протестирован на 33 различных OOD-данных с измерением уровня OOD-изъява. Во втором эксперименте, восстановление памяти (unlearning) использовалось для "забывания" CLIP некоторых доменов, что эмулировало набор данных, незнакомых модели. Архитектура CLIP-DCA (Disentangling Classification from enhanced domain Aware representations) заключается в создании отдельного "доменного модуля" для усиления доменной окружающей среды и улучшения обобщаемости. CLIP-DCA также применяет стратегию disentanglement для разделения нейронов модели на классификационные и доменные особенности. ## Результаты Эксперименты показали, что CLIP испытывает значительные снижения в производительности при работе с OOD-данными после того, как был приспособлен к ImageNet. Обнаружено, что CLIP-DCA не только оказывает значительное улучшение в сравнении с другими подходами, но и показывает выдающиеся результаты на OOD-данных. Это свидетельствует о том, что усиление доменной связанности может быть ключом к эффективной domain generalization, даже в сложных сценариях. ## Значимость Полученные результаты имеют большое значение для области deep learning и computer vision. Ключевым преимуществом является возможность улучшения моделей для использования в реальных условиях, где данные могут отличаться от обучающего набора. Эти разработки могут найти применение в области глубокого обучения для таких задач, как распознавание объектов, текстово-изображательный поиск и рекомендательные системы. Будущие исследования могут рассматривать расширение CLIP-DCA на другие модели, а также рассмотреть потенциал применения этих подходов в других областях, таких как робототехника и здравоохранение. ## Выводы Основным достижением является показательное улучшение производительности CLIP в DG-сценариях с помощью CLIP-DCA. Этот подход не только улучшает гибкость модели, но и подчеркивает значение доменной окружающей среды в обеспечении устойчивости моделей. Направления будущих исследова
Annotation:
Evaluating domain generalization (DG) for foundational models like CLIP is challenging, as web-scale pretraining data potentially covers many existing benchmarks. Consequently, current DG evaluation may neither be sufficiently challenging nor adequately test genuinely unseen data scenarios. To better assess the performance of CLIP on DG in-the-wild, a scenario where CLIP encounters challenging unseen data, we consider two approaches: (1) evaluating on 33 diverse datasets with quantified out-of-d...
ID: 2508.21769v1 cs.CV, cs.LG
Авторы:

Max Torop, Masih Eskandar, Nicholas Kurtansky, Jinyang Liu, Jochen Weber, Octavia Camps, Veronica Rotemberg, Jennifer Dy, Kivanc Kose

Название: Grounding Multimodal Large Language Models with Quantitative Skin Attributes: A Retrieval Study ## Контекст Ключевым вызовом в области искусственного интеллекта является улучшение интерпретируемости моделей, особенно в задачах диагностики, таких как дерматологическая диагностика. Несмотря на успех моделей в области диагностики неряшливостей, в том числе раковых, их результаты часто остаются непонятными для клинического персонала. Это влечет за собой серьезные практические ограничения. Многие модели, основанные на многомодальных языковых моделях (MLLMs), показывают заметный потенциал в облегчении диагностического процесса, предоставляя естественно-языковые обоснования своих выводов. Однако возможность использования таких моделей в практической клинической практике ограничена нехваткой возможности проверять их выводы на предмет точности и адекватности. Мы рассматриваем возможность использования количественных атрибутов, связанных с поверхностными неряшливостях (например, их площадь и границы), для улучшения интерпретируемости моделей. Такие атрибуты, часто являющимися качественными, могут привести к новым возможностям для более точной оценки результатов моделей. ## Метод Мы применяем метод обучения с подкреплением (fine-tuning) для уточнения модели в задаче предсказания количественных атрибутов, связанных с неряшливостями (например, площадь, близость к границам и т.д.). Эти атрибуты считаются ключевыми для оценивания диагностической сложности и могут помочь структурировать выводы модели. Мы осуществляем регулирование модели, обучая ее предсказывать эти атрибуты на основе изображений. Метод включает в себя сбор изображений неряшливостей, получение количественных значений атрибутов (например, площади) и налаживание ассоциации между изображениями и атрибутами. Модель настраивается для точного предсказания этих количественных параметров, чтобы получить возможность использовать их в качестве признаков для дальнейшей оценки интерпретации результатов. ## Результаты Мы проводим эксперименты с SLICE-3D датасетом, который представляет собой набор изображений и атрибутов дерматологических неряшливостей. Выполняется тщательная оценка того, насколько точно модель предсказывает количественные атрибуты на изображениях. Мы проводим сравнительный анализ с другими методами, которые не применяют атрибуты. В результате выявляем, что модель, настроенная на предсказание атрибутов, показывает значительно более высокую точность и стабильность в прогнозировании. Эти результаты подтверждают возможность использования количественных атрибутов для улучшения интерпретации моделе
Annotation:
Artificial Intelligence models have demonstrated significant success in diagnosing skin diseases, including cancer, showing the potential to assist clinicians in their analysis. However, the interpretability of model predictions must be significantly improved before they can be used in practice. To this end, we explore the combination of two promising approaches: Multimodal Large Language Models (MLLMs) and quantitative attribute usage. MLLMs offer a potential avenue for increased interpretabili...
ID: 2508.20188v1 cs.CV, cs.LG
Авторы:

Mutahar Safdar, Gentry Wood, Max Zimmermann, Guy Lamouche, Priti Wanjara, Yaoyao Fiona Zhao

## Контекст Развитие производства передовых материалов, особенно тех, которые получаются методами неординарной непрерывной производственной технологии, стало ключевым мотивом исследований. Несмотря на прогресс в методах синтеза и характеризации, квалификация таких материалов остается насущной проблемой. Эта сложность обусловлена характером мелкозернистой или хаотичной микроструктуры, которая не всегда может быть полностью охарактеризована достаточно точными инструментами или подходами. Такие недостатки не только замедляют процессы, но и снижают доверие к результатам квалификации. Авторы предлагают новый подход, который объединяет микроструктурные данные с экспертным знанием, используя гибридные представления смысла, обученные на визуальных и текстовых данных. ## Метод Предложенный подход включает в себя современные методы по разделению изображений с помощью семантического сегментационного аппарата. Чтобы улучшить точность, авторы используют предварительно обученные модели CLIP и FLAVA, которые объединяют в себе возможности обработки языка и визуальных сигналов. Для лучшего адаптирования к специфике материалов, авторы разработали подход, основанный на сходстве, который использует как положительные, так и негативные примеры данных, адаптированные к конкретным задачам. Особенностью этого метода является возможность нулевого-семплирования даже для предметов, которые не были видны ранее. Также выполнена нормализация с помощью Z-оценок, чтобы улучшить точность и целостность результатов. ## Результаты На проведенных экспериментах по данным металлических композитов, полученных непрерывной производственной технологией, показана высокая точность разделения нормальных и дефектных образцов. Использование гибридного подхода с различными моделями позволило выделить принципиальные отличия в поведении микроструктурных данных. Модель FLAVA показала высокую чувствительность к обнаружению гранулярных изменений, в то время как CLIP модель стабильно соотносила визуальные данные с текстовыми критериями. Это подтверждает эффективность гибридного подхода, который обеспечивает интерактивность и осмысленность в процессах квалификации. ## Значимость Предложенный подход может быть применен в различных областях, где необходимо выявлять скрытые дефекты или классифицировать материалы в реальном времени. Особенно полезен для задач промышленной квалификации, где требуется быстрота и точность. Улучшение трассируемости и интерпретируемости процессов квалификации позволяет инженерам быстрее реагировать на
Annotation:
Rapid and reliable qualification of advanced materials remains a bottleneck in industrial manufacturing, particularly for heterogeneous structures produced via non-conventional additive manufacturing processes. This study introduces a novel framework that links microstructure informatics with a range of expert characterization knowledge using customized and hybrid vision-language representations (VLRs). By integrating deep semantic segmentation with pre-trained multi-modal models (CLIP and FLAVA...
ID: 2508.20243v1 cs.CV, cs.LG
Авторы:

Zhixiang Chi, Yanan Wu, Li Gu, Huan Liu, Ziqiang Wang, Yang Zhang, Yang Wang, Konstantinos N. Plataniotis

Название: Plug-in Feedback Self-adaptive Attention in CLIP for Training-free Open-Vocabulary Segmentation ## Контекст Segmentation области, задействующая визуально-текстовые представления, является ключевым в области глубокого обучения. Однако существуют значительные проблемы, связанные с отсутствием локализации и неполной семантической согласованности между внутренними представлениями и выходными прогнозами. Особенно это актуально для open-vocabulary segmentation. Например, в CLIP, хотя он демонстрирует мощные возможности в visual-textual alignment, он сталкивается с трудностями в процессе предсказания идеальных сегментаций, в частности на тестовых данных с отклонениями от обучающих данных. Эти ограничения вызваны нехваткой представления позиционной информации и неэффективным представлением текстовых семантик. ## Метод Мы предлагаем метод заключающийся в улучшении intermediate attention с помощью output feedback. Фреймворк организован вокруг элементарных модулей, которые позволяют выравнивать промежуточные семантические представления с помощью обратной связи от прогнозов. Мы вводим архитектуру с attention isolation, которая позволяет локализировать и улучшать процесс взаимодействия семантических слоев. Далее, мы применяем к этой конфигурации confidence-based pruning для более точной регулировки процесса. Наконец, мы используем adaptation ensemble для объединения нескольких моделей в полноценное и гармоничное решение. ## Результаты Метод был протестирован на 8 задач семантической сегментации, используя сразу 4 современных модели CLIP с разными бэкбонами (ViT-B, ViT-L, ViT-H). Мы проверили его с разными видами attention, включая Q-K, self-self, Proxy с MAE, SAM и DINO. Наши результаты показывают, что наша система значительно улучшает качество прогнозов по сравнению с базовыми моделями. Особенно выражено это на тестовых данных, отличающихся от обучающих. ## Значимость Наш метод может использоваться в абсолютно разных задачах семантической сегментации, включая области, где требуется высокая точность и семантическая согласованность. Он не требует дополнительного обучения и может быть выполнен в реальном времени. Значительное преимущество заключается в том, что он может быть применен как plug-in модуль к уже существующим моделям без нужды в глубокой модификации их архитектуры. ## Выводы В итоге, мы предложили новую методику для обучения-free улучшения процесса семантической сегментации с помощью self-adaptive attention в CLIP. Метод доказал свою эффективность и может повысить качество работы не только CLIP но и других моделей, использующих визуально-текстовые представления. Мы планируем дальнейшие исследования в области создания еще более универсальных и эффективных фреймворков для глубокого обучения.
Annotation:
CLIP exhibits strong visual-textual alignment but struggle with open-vocabulary segmentation due to poor localization. Prior methods enhance spatial coherence by modifying intermediate attention. But, this coherence isn't consistently propagated to the final output due to subsequent operations such as projections. Additionally, intermediate attention lacks direct interaction with text representations, such semantic discrepancy limits the full potential of CLIP. In this work, we propose a train...
ID: 2508.20265v1 cs.CV, cs.LG
Авторы:

Marina Grifell i Plana, Vladyslav Zalevskyi, Léa Schmidt, Yvan Gomez, Thomas Sanchez, Vincent Dunet, Mériam Koob, Vanessa Siffredi, Meritxell Bach Cuadra

#### Контекст Корпус связного (corpus callosum, CC) — крупнейшая нить нейронов, соединяющая левый и правый лобы мозга. Его развитие и функционирование являются ключевыми показателями развития мозга. Особенно важно их оценивать при расстройствах мозгового развития, таких как corpus callosum dysgenesis (CCD), которые могут привести к существенным изменениям анатомии. Однако данных для обучения моделей, специально настроенных на CCD, недостаточно. Такая нехватка данных ограничивает модели, снижает их общеутверждающую способность и последнему этапу процесса — сегментации и измерению биомаркеров CC. Мы предлагаем новую методологию, которая интегрирует представления о CCD в генерацию синтетических данных, чтобы обучать модели в условиях нехватки данных. #### Метод Мы предложили метод, основанный на путиологически специфических преобразованиях, для синтеза синтетических данных. Мы использовали знания об изменениях анатомии в CCD для модификации синтетических моделей развития мозга. Это позволяет генерировать разнообразные сценарии, включая CCD-типы, используя только здоровые данные. Метод состоит из двух основных этапов: 1. **Путиологическая трансформация**: Мы используем представления поражений, чтобы синтезировать изображения, включающие различные CCD-типы. 2. **Domain Randomization**: Мы рандомизируем генерируемые сценарии, чтобы увеличить их разнообразие и уменьшить вероятность переобучения. Модели обучаются на этих синтетических данных и тестируются на реальных данных, чтобы оценивать их точность и универсальность. #### Результаты Мы проверили наш метод на трех различных наборах данных: - **Здоровые дети**: 248 сегментированных мозгов. - **Дети с CCD**: 26 сегментированных мозгов. - **Дети с другими мозговыми поражениями**: 47 сегментированных мозгов. Мы измеряли точность сегментации, особенно улучшений для CCD, и измерили клинически важные биомаркеры, такие как длина и объем CC. Наши результаты показывают: - Улучшение точности сегментации CCD с 10.9 мм до 0.7 мм. - Уменьшение ошибки измерения длины CC с 1.89 мм до 0.80 мм. - Улучшение топологической консистенции сегментации. #### Значимость Наш метод может применяться в анализе необычных и клинически значимых мозговых расстройств. Он улучшает точность сегментации и измерения биомаркеров, даже при нехватке данных. Это может повлиять на разработку биомаркеров, предсказание мозгового развития и диагностику ранних форм CCD. Метод также может быть использован для других клинических задач, где недостаточно данных. #### Выводы Подход, основанный на
Annotation:
Accurate fetal brain segmentation is crucial for extracting biomarkers and assessing neurodevelopment, especially in conditions such as corpus callosum dysgenesis (CCD), which can induce drastic anatomical changes. However, the rarity of CCD severely limits annotated data, hindering the generalization of deep learning models. To address this, we propose a pathology-informed domain randomization strategy that embeds prior knowledge of CCD manifestations into a synthetic data generation pipeline. ...
ID: 2508.20475v1 cs.CV, cs.LG
Авторы:

Jiajie Li, Boyang Sun, Luca Di Giammarino, Hermann Blum, Marc Pollefeys

## Контекст Локализация робота является критическим аспектом робототехнических систем, особенно для навигации в неизвестной среде. Однако большинство существующих систем предполагают, что все направления взгляда из определенного места одинаково информативны. В реальных условиях это предположение может оказаться недостоверным, так как робот может встретить неизвестные, неоднозначные или неинформативные области, что снижает точность локализации. Для улучшения этой ситуации была предложена ActLoc, методология, которая активно выбирает точки полярного просмотра, оптимизируя точность локализации во время движения. ActLoc представляет собой не только новую архитектуру, но и целостный подход к решению проблемы неточной локализации в технических системах. ## Метод ActLoc основывается на активном выборе точек просмотра, который осуществляется с помощью внутритренированной нейронной сети с аттенцией. Эта сеть анализирует метрический сетка и позиции камеры, используемые при построении карты. Она предсказывает точность локализации в разных направлениях (yaw и pitch) для каждой точки в пространстве. Эти предсказания используются в планировщике пути, чтобы выбирать наиболее подходящие направления для просмотра, чтобы оптимизировать локализацию. Также, ActLoc позволяет учитывать ограничения задачи и движения во время планирования. Этот комплексный подход позволяет ActLoc эффективно применяться в различных сценариях навигации и исследований. ## Результаты После обучения ActLoc были проведены эксперименты, в которых она была протестирована на различных сценариях локализации. Для этого использовались разные метрические карты и наборы данных позиций камеры. Результаты показали, что ActLoc превосходит существующие методы, предлагая значительно более высокую точность локализации в разных условиях. Например, она достигла более высокой точности во время полного цикла навигации, по сравнению с другими системами. Эти результаты были получены с помощью заданных метрик и данных, что дает оценку качества решения в реальных условиях. ## Значимость ActLoc может применяться в различных сферах, где необходима точная локализация робота. Например, в промышленной автоматизации, где роботы должны перемещаться в крупных производственных зонах, или в сфере технического обслуживания, где роботы должны перемещаться в ограниченных пространствах, таких как здания. Одним из основных преимуществ ActLoc является её модульность и эффективность в разных условиях. Это делает её привлекательной для разработчиков, которые ищут решения для улучшения локализации в своих системах. Будущие исследования могут сос
Annotation:
Reliable localization is critical for robot navigation, yet most existing systems implicitly assume that all viewing directions at a location are equally informative. In practice, localization becomes unreliable when the robot observes unmapped, ambiguous, or uninformative regions. To address this, we present ActLoc, an active viewpoint-aware planning framework for enhancing localization accuracy for general robot navigation tasks. At its core, ActLoc employs a largescale trained attention-based...
ID: 2508.20981v1 cs.RO, cs.CV, cs.LG
Авторы:

Huynh Tong Dang Khoa, Dang Hoai Nam, Vo Nguyen Le Duy

## Контекст Распознавание рукописных текстов (HTR) широко применяется в различных областях, но сталкивается с рядом проблем. Одной из них является нехватка меток рукописного данных, что ставит под угрозу эффективность систем распознавания. Альтернативным подходом является генерирование рукописных текстов, которое позволяет создавать разнообразные и стилистически согласованные образцы для обучения. Однако существующие методы сталкиваются с двумя основными ограничениями: затруднения в моделировании долгих зависимостей и характеристик комплексных ударов, а также недостаток учета частотной информации, которая критична для подчеркивания тонких стилистических и структурных черт. Данные ограничения послужили мотивацией для предложения FW-GAN — нового подхода к генерированию рукописных текстов, который обеспечивает качественное генерирование стилистически согласованных образцов, даже при ограниченных исходных данных. ## Метод FW-GAN представляет собой новый фреймворк для однопроходного генерирования рукописных текстов с использованием младшей перцептронной сети (MLP), адаптированной для моделирования волновых зависимостей. Генератор FW-GAN включает в себя фазово-активную Wave-MLP, которая моделирует пространственные связи с точностью, сохраняя тонкие стилистические способности. Дискриминатор FW-GAN, в свою очередь, использует высокочастотные компоненты для улучшения определения подлинности генерируемых образцов. Более того, мы предлагаем новую методику обучения, основанную на Frequency Distribution Loss, которая синхронизирует частотные характеристики генерируемых и реальных образцов, улучшая их визуальную точность. Эта архитектура обеспечивает сбалансированный подход к моделированию сложных рукописных текстов. ## Результаты Мы проверили FW-GAN на двух рукописных данных — версиях вьетнамского и английского языков. Эксперименты показали, что FW-GAN выдает высококачественные, стилистически согласованные образцы текста, которые соответствуют реальному рукописному стилю. Мы также проводили сравнение с другими методами, доказав, что FW-GAN показывает высокую точность в генерировании и высокую степень согласованности стиля. Эти результаты подтверждают то, что FW-GAN является эффективным инструментом для расширения обучающих выборок в низкоресурсных сценариях распознавания рукописного текста. ## Значимость FW-GAN может применяться в различных сферах, где нуждается в создании рукописных образцов для распознавания текста, таких как тренировка моделей распознавания, генерация учебных материалов или создание имитационных систем рукописного ввода. О
Annotation:
Labeled handwriting data is often scarce, limiting the effectiveness of recognition systems that require diverse, style-consistent training samples. Handwriting synthesis offers a promising solution by generating artificial data to augment training. However, current methods face two major limitations. First, most are built on conventional convolutional architectures, which struggle to model long-range dependencies and complex stroke patterns. Second, they largely ignore the crucial role of frequ...
ID: 2508.21040v1 cs.CV, cs.LG
Авторы:

Jun-Kun Chen, Aayush Bansal, Minh Phuoc Vo, Yu-Xiong Wang

#### Контекст Область искусственного интеллекта в стилистике и моделировании одежды постоянно растет, позволяя пользователям экспериментировать с своим образом. Существуют технологии, позволяющие осуществить виртуальный подбор одежды, но они часто имеют ограничения в качестве генерируемых видео или требуют большого количества ресурсов для оптимального функционирования. Задача – создать продвинутую систему, которая была бы качественной, гибкой и эффективной для пользователей. #### Метод Dress&Dance – это видео-размывающая фреймворк, который использует технологию размывания для генерации высококачественных видео одежды в 5 секундных циклах с 24 кадрами в секунду. Он поддерживает широкий спектр вида одежды, включая верхи, нижи, и односторонние комплекты. Существенным моментом является CondNet – уникальная сеть условного обучения, использующая внимание для объединения разных типов входных данных (текст, изображения и видео). Эта сеть обеспечивает лучшую регистрацию одежды и точность движения. Метод основывается на развитых методах глубокого обучения, объединяя многомодальные данные в прогрессивном обучении. #### Результаты Использованные данные включают в себя как ограниченные видео, так и более крупный набор изображений. Размывающая фреймворк показала высокое качество видео-превьюшек, которые позволяют пользователю эффективно осуществить виртуальный подбор одежды. Он демонстрирует лучшую интеграцию текстовых, изображениях и видеопотоков, а также выдает более точные модели движения по сравнению с существующими системами. #### Значимость Dress&Dance может применяться в сфере онлайн-торговли, где пользователи могут просматривать различные варианты одежды на себе в реальном времени. Также может использоваться в развитии алгоритмов для создания 3D моделей одежды и в геймификации. Его гибкость и высокое качество генерации видео открывают новые возможности в улучшении интерактивности и эффективности пользователя в онлайн-покупках. #### Выводы Dress&Dance демонстрирует новые возможности виртуальных подборов одежды за счет развитой технологии CondNet и мультимодального обучения. Данный фреймворк открывает новые горизонты для реалистичного моделирования одежды и может быть использован в разных отраслях. Будущими исследованиями будет направлено внимание на улучшение качества видео, увеличение количества поддерживаемых видов одежды и расширение технологии на другие типы тканей и движений.
Annotation:
We present Dress&Dance, a video diffusion framework that generates high quality 5-second-long 24 FPS virtual try-on videos at 1152x720 resolution of a user wearing desired garments while moving in accordance with a given reference video. Our approach requires a single user image and supports a range of tops, bottoms, and one-piece garments, as well as simultaneous tops and bottoms try-on in a single pass. Key to our framework is CondNet, a novel conditioning network that leverages attention to u...
ID: 2508.21070v1 cs.CV, cs.LG
Показано 671 - 680 из 835 записей