📚 Саммари научных статей из arXiv

Найдено 2274 результатов по запросу 'cs.CV, cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SafePLUG: Empowering Multimodal LLMs with Pixel-Level Insight and Temporal Grounding for Traffic Accident Understanding

2025-08-14

Авторы:

Zihao Sheng, Zilin Huang, Yen-Jung Chen, Yansong Qu, Yuhao Luo, Yue Leng, Sikai Chen

## Контекст Многомодальные большие языковые модели (MLLMs) показали свою эффективность в различных визуально-языковых задачах, включая понимание трафика. Однако существующие модели часто ограничиваются широкой интерпретацией всей картины или видео, недостаточно учитывая тонкие детали изображений или локальные компоненты сцены. Это затрудняет применение в сложных сценариях аварийного трафика. Для развития технологий, способных обеспечивать более тонкую интерактивность в таких сценариях, требуется развитие новых подходов, которые бы позволили моделям более точно инте pretерпеть и анализировать сложные трафические сцены на уровне пикселей. ## Метод Мы предлагаем SafePLUG, новую архитектуру, которая обеспечивает MLLMs возможность работы на уровне пикселей, а также включает в себя возможность темпоральной гранулярности. Модель обеспечивает способность к работе в регионах визуальных проводах (интересов), реализуя возможности для точного вопроса-ответа, а также возможность автоматической сегментации пикселей по языковым инструкциям. Благодаря этим возможностям, модель способна обнаруживать и анализировать случаи взаимодействия подробных объектов в сцене, а также распознавать временные события в трафиках. Мы также создали новую датасет для трафика, содержащую мультимодальные вопросы-ответы, пиксельно-уровневые заметки, а также отметки времени для событий. ## Результаты Выполнены ряд экспериментов, подтвердивших высокую эффективность SafePLUG в различных задачах, включая региональное вопрос-ответ, пиксель-уровневую сегментацию, локализацию временных событий и понимание сцен в целом. Модель показала свою высокую точность при работе с мультимодальными данными и детальной работой с пикселями, что способствует повышению точности понимания сложных трафических сцен и повышению безопасности на дороге. ## Значимость Модель SafePLUG может иметь широкое применение в системах "умного" транспорта, включая анализ видео трафика, помощь водителям, а также в системах со смарт-транспортом. Основное преимущество модели заключается в том, что она позволяет обрабатывать видео трафика на уровне пикселей, что повышает точность распознавания объектов и взаимодействий в сцене. Это может положительно сказаться на развитии систем автоматического управления транспортом, улучшении безопасности на дорогах и повышении ситуационной осведомленности водителей. ## Выводы SafePLUG достигает высокой точности в ряде задач понимания трафика, включая региональное вопрос-ответ, пиксе

Annotation:

Multimodal large language models (MLLMs) have achieved remarkable progress across a range of vision-language tasks and demonstrate strong potential for traffic accident understanding. However, existing MLLMs in this domain primarily focus on coarse-grained image-level or video-level comprehension and often struggle to handle fine-grained visual details or localized scene components, limiting their applicability in complex accident scenarios. To address these limitations, we propose SafePLUG, a n...

ID: 2508.06763v1 cs.CV, cs.AI

arXiv PDF

📄 AGIC: Attention-Guided Image Captioning to Improve Caption Relevance

2025-08-14

Авторы:

L. D. M. S. Sai Teja, Ashok Urlana, Pruthwik Mishra

#### Контекст Область искусственного интеллекта (ИИ) продолжает развиваться с целью решения важных задач, включая генерацию описаний изображений. Несмотря на значительные успехи в области обнаружения объектов и генерации текстов, генерирование точных и описательных каптионов для изображений остается сложной задачей. Отсутствие точности и соответствия между сгенерированным описанием и контекстом изображения является одной из основных проблем. Существующие подходы часто игнорируют важность визуальных регионов, которые имеют ключевое значение для понимания сцены. Это приводит к менее точным и нерелевантным каптионам. Наша мотивация заключается в разработке метода, который улучшит соответствие каптионов контексту изображения, усилив внимание на самых существенных частях изображения. #### Метод Мы предлагаем Attention-Guided Image Captioning (AGIC), который усиливает важные визуальные регионы напрямую в пространстве признаков для улучшения точности генерации. Модель AGIC включает в себя два основных компонента: 1) **аттенционные модули**, которые выделяют наиболее значимые части изображения; 2) **гибридную стратегию декодирования**, которая объединяет детерминированное и вероятностное семплирование для баланса между гладкостью и разнообразием генерируемых описаний. Для обучения и оценки AGIC мы использовали данные из двух наборов данных: Flickr8k и Flickr30k. Эти наборы содержат тысячи изображений с предоставленными текстовыми описаниями, представляющими различные сцены и объекты. #### Результаты В ходе экспериментов мы сравнили AGIC с несколькими современными моделями, включая Show, Attend and Tell и BUTD. Результаты показали, что AGIC показывает точность источника, совпадает или превосходит ряд современных моделей, при этом достигая более высокой скорости обработки. Мы оценивали AGIC по метрикам BLEU, METEOR, ROUGE-L и CIDEr, и подтвердили его высокую точность и хорошую разнообразие генерируемых описаний. Эти результаты демонстрируют, что AGIC является эффективным и понятным подходом к решению проблемы неточности каптионов. #### Значимость Модель AGIC может быть применена в сферах, требующих точной генерации текстов, таких как видеонаблюдение, системы рекомендаций и видеозахват. Основные преимущества AGIC заключаются в его способности улучшить точность описаний, увеличить скорость обработки и обеспечить прозрачность решения. Это делает AGIC полезным для разработчиков, которые ищут модели с высокой точностью и прозрачностью в области изображения и текста. #### Выводы Мы представили AGIC, модель, которая улучшает точность и соответствие каптионов к изобра

Annotation:

Despite significant progress in image captioning, generating accurate and descriptive captions remains a long-standing challenge. In this study, we propose Attention-Guided Image Captioning (AGIC), which amplifies salient visual regions directly in the feature space to guide caption generation. We further introduce a hybrid decoding strategy that combines deterministic and probabilistic sampling to balance fluency and diversity. To evaluate AGIC, we conduct extensive experiments on the Flickr8k ...

ID: 2508.06853v1 cs.CV, cs.AI

arXiv PDF

📄 VSI: Visual Subtitle Integration for Keyframe Selection to enhance Long Video Understanding

2025-08-14

Авторы:

Jianxiang He, Shaoguang Wang, Weiyu Guo, Meisheng Hong, Jungang Li, Yijie Xu, Ziyang Chen, Hui Xiong

#### Контекст В последние годы повышается интерес к многомодальным большим языковым моделям (MLLMs), которые могут обрабатывать и анализировать многоступенчатый поток данных с различных источников, включая текст, видео и аудио. Одной из ключевых задач в этой области является **long video understanding**, которая представляет собой вызов для MLLMs из-за огромного объема данных и сложности временного порядка. Для упрощения этой задачи, широко применяется метод ключевого кадра (keyframe), который пытается выбрать наиболее основательные кадры видео, отвечающие заданному текстовому запросу. Однако существуют существенные проблемы, такие как недостаточная мультимодальная связность между текстовым запросом и видео, а также недостаточная логическая семантическая интеграция для точного вывода. Эти проблемы наделяют ключевую задачу в поиске ключевых кадров сложностью, которая необходима для точного понимания длительных видео. Мы предлагаем **Visual Subtitle Integration (VSI)**, метод, который интегрирует подкасты, временные метки и сценные границы для повышения эффективности поиска ключевых кадров. #### Метод Метод **VSI** основывается на двух основных потоках поиска: **Video Search Stream** и **Subtitle Match Stream**. **Video Search Stream** использует видеокадры, чтобы найти самые важные кадры в целях понимания видео, в то время как **Subtitle Match Stream** синхронизирует текстовые подкасты с видео, чтобы улучшить соответствие текста и видео. Для каждого слоя поиска, мы используем **cross-modal attention mechanism**, который помогает объединить информацию из разных модальностей (видео и текст), чтобы повысить точность в выделении ключевых кадров. Кроме того, мы используем **boundary alignment**, чтобы добавить контекст сцен в поисковую процедуру. Это позволяет улучшить семантическую интеграцию и повысить точность поиска ключевых кадров. #### Результаты Мы проводим эксперименты на LongVideoBench, популярной базе данных для тестирования эффективности поиска ключевых кадров в длительных видео. Наш **VSI** показывает выдающиеся результаты, достигая **40.00% key frame localization accuracy** на текстовом подмножестве LongVideoBench и **68.48% accuracy** на задачах видео-QA. Это превосходит существующие бейзлайны на **20.35%** и **15.79%**, соответственно. Благодаря двойному поисковому механизму, наш метод демонстрирует высокую точность и общую ценность, особенно в среднем и длинном диапазоне видео. Эти результаты подтверждают то, что VSI является решением, обеспечивающим робастность и универсальность в задаче понимания длительных видео. #### Значимость Наш **VSI** имеет широкое применение в различных областях, таких как мультимедиа-анализ, видео-поиск, мониторинг видеоконтента и легковесное анализ

Annotation:

Long video understanding presents a significant challenge to multimodal large language models (MLLMs) primarily due to the immense data scale. A critical and widely adopted strategy for making this task computationally tractable is keyframe retrieval, which seeks to identify a sparse set of video frames that are most salient to a given textual query. However, the efficacy of this approach is hindered by weak multimodal alignment between textual queries and visual content and fails to capture the...

ID: 2508.06869v1 cs.CV, cs.AI, I.2.10

arXiv PDF

📄 NS-FPN: Improving Infrared Small Target Detection and Segmentation from Noise Suppression Perspective

2025-08-14

Авторы:

Maoxun Yuan, Duanni Meng, Ziteng Xi, Tianyi Zhao, Shiji Zhao, Yimian Dai, Xingxing Wei

#### Контекст Инфракрасные малые цели (Infrared Small Targets, IRST) представляют собой ключевые объекты в различных прикладных областях, в том числе в защите и гражданских сферах. Однако их идентификация и сегментация являются задачами высокой сложности. Эти цели часто имеют тусклый, неопределенный вид и находятся в условиях сильной фоновой шумности, что усложняет их распознавание. Несмотря на то, что нейронные сети типа CNN показали себя как эффективные для решения этой задачи, они сконцентрированы на улучшении функций представления. Это приводит к увеличению ложноположительных сигналов. Мотивируясь этим, мы предлагаем новую точку зрения на решение этой проблемы с помощью улучшения чистоты фич благодаря шумоподавлению. #### Метод Мы предлагаем NS-FPN, которая включает в себя два новых модуля: Модуль Упругого Фильтра (LFP, Low-Frequency Purification) и Модуль Распространения Информации (SFS, Spiral-Aware Feature Sampling). Модуль LFP фокусируется на удалении шумовых частот, что позволяет повысить чистоту признаков. Модуль SFS, в свою очередь, применяет спиральную структуру для сбора информации, что помогает фокусироваться на целевых признаках. Эти модули интегрируются с оригинальным FPN, создавая легковесную, но эффективную модель, которая может быть установлена в существующие системы IRSTDS. #### Результаты Мы проводили исследования на нескольких публичных датасетах для обнаружения и сегментации инфракрасных малых целей. Наши результаты показывают, что NS-FPN существенно снижает количество ложноположительных сигналов. Это потенциально может улучшить точность в реальных ситуациях. Кроме того, наши модели работают быстрее и требуют меньше ресурсов, чем предыдущие подходы. #### Значимость NS-FPN может применяться в различных прикладных областях, таких как системы радаров, системы обнаружения вирусов в воздухе, и другие. Одним из основных преимуществ является уменьшение ложноположительных сигналов, что может уменьшить расходы на операции. Мы считаем, что наш подход может сделать IRSTDS более точным и быстрым, снижая фоновую шумность. #### Выводы Мы представили NS-FPN, которая первый раз применяет подход к решению IRSTDS с помощью шумоподавления. Мы продемонстрировали, что наша модель выдает лучшие результаты в сравнении с предыдущими методами, уменьшая ложноположительные сигналы. Мы планируем дальше усовершенствовать нашу модель, в том числе развивать ее для других типов данных и задач.

Annotation:

Infrared small target detection and segmentation (IRSTDS) is a critical yet challenging task in defense and civilian applications, owing to the dim, shapeless appearance of targets and severe background clutter. Recent CNN-based methods have achieved promising target perception results, but they only focus on enhancing feature representation to offset the impact of noise, which results in the increased false alarms problem. In this paper, through analyzing the problem from the frequency domain, ...

ID: 2508.06878v1 cs.CV, cs.AI

arXiv PDF

📄 Evaluation of State-of-the-Art Deep Learning Techniques for Plant Disease and Pest Detection

2025-08-14

Авторы:

Saptarshi Banerjee, Tausif Mallick, Amlan Chakroborty, Himadri Nath Saha, Nityananda T. Takur

## Контекст Область исследования посвящена развитию методов компьютерной визуализации и анализа здоровья растений, прежде всего в отношении раннего выявления инфекций и болезней. Это критически важно для повышения урожайности и сокращения экономических потерь. Однако существующие методы диагностики часто страдают от неточности, медлительности и повышенной сложности, что ограничивает их эффективность. Научная литература показывает, что недавние достижения в области ИИ, машинного обучения и глубокого обучения позволили создать более точные и скорострельные системы для раннего выявления заболеваний и вредителей растений. Мотивация заключается в оценке современных глубоких классификаторов для решения этой проблемы. ## Метод Работа основывается на моделировании и экспериментальном исследовании алгоритмов глубокого обучения для распознавания растительных заболеваний и вредителей. Методология включает в себя модификацию существующих архитектур глубоких сетей, визуализацию признаков и их возможность классификации. Архитектуры разделяются на несколько групп: модели гиперспектрального изображения, невизуальные методы, визуальные подходы, модифицированные архитектуры глубоких сетей и модели-трансформеры. Это позволяет проводить четкое сравнение и определять наиболее эффективные модели. ## Результаты Экспериментальный анализ проводился на базе различных данных, включая цветные изображения растений и видеоснимки. Методы представлены в нескольких категориях, и для каждой из них были проведены многочисленные эксперименты. Особого внимания уделено визуальным трансформерам, таким как HvT, которые показали высокую точность до 99.3%. Это существенно превосходит результаты моделей, таких как MobileNetV3. Данные результаты подтверждают преимущества современных AI-технологий в скорости и точности работы по сравнению с предыдущими подходами. ## Значимость Результаты имеют большое значение для развития систем агротехнологий, позволяющих оперативно выявлять инфекции и инфекционные заболевания у растений. Модели могут быть применены в агроэкономических системах для предотвращения экономических потерь и повышения урожайности. Особым преимуществом является высокая точность диагностики за счет использования самых современных технологий, таких как визуальные трансформеры. Это открывает перспективы для использования в агроэкосистемах, где важно минимизировать временные затраты и повысить эффективность. ## Выводы Основным выводом является то, что современные AI-технологии, в частности визуальные трансформеры, позволяют дости

Annotation:

Addressing plant diseases and pests is critical for enhancing crop production and preventing economic losses. Recent advances in artificial intelligence (AI), machine learning (ML), and deep learning (DL) have significantly improved the precision and efficiency of detection methods, surpassing the limitations of manual identification. This study reviews modern computer-based techniques for detecting plant diseases and pests from images, including recent AI developments. The methodologies are org...

ID: 2508.08317v1 cs.CV, cs.AI

arXiv PDF

📄 BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models

2025-08-14

Авторы:

Jianting Tang, Yubo Wang, Haoyu Cao, Linli Xu

## Контекст Многомедийные большие языковые модели (MLLMs) представляют собой мощные алгоритмы, которые объединяют в себе мощность текстовых и изображений, чтобы решить задачи, такие как визуальное понимание и текстово-визуальное синтезирование. Тем не менее, существующие модели часто сталкиваются с проблемами связи между этими модами, что приводит к неполному или неточному пониманию визуальных данных. Одним из ключевых аспектов этой проблемы является недостаточная взаимосвязь между проектором визуальных данных и текстовым контекстом. Эта связь является критической для того, чтобы обеспечить точность и глубину визуального понимания. Несоответствие в этих модах приводит к ограниченным результатам в таких задачах, как визуально-текстовый поиск, классификация изображений и визуальное понимание объектов. Наша мотивация заключается в создании метода, который сможет улучшить эту связь и усилить визуальное понимание в MLLMs. ## Метод Мы предлагаем метод BASIC (Boosting Visual Alignment with Intrinsic Refined Embeddings), который лучше связывает визуальные данные с текстовыми моделями. Наша идея заключается в том, чтобы использовать внутреннюю рефинед эмбеддинг визуальных данных в качестве дополнительного руководства для проектора. Это делается на двух уровнях: (i) **оптимизация направлений эмбеддингов**, делая их более соответствующими в семантическом пространстве; (ii) **улучшение матчинга семантики**, уменьшая разрывы между распределениями логитов визуальных и текстовых моделей. Этот процесс не требует дополнительных супервизоров или искусственных аннотаций, что делает BASIC эффективным и простым в реализации. Мы используем анализ процесса рефининга визуальных эмбеддингов в глубоких слоях модели, чтобы улучшить их интеграцию с текстовым контекстом в модели. ## Результаты Мы провели эксперименты на различных коллекциях данных, включая COCO и Visual Genome. Были использованы стандартные метрики, такие как Recall@1, mAP и BLEU, для оценки качества визуально-текстового понимания. Результаты показали, что BASIC существенно улучшает визуально-текстовую связь в MLLMs, сопоставимо с лучшими результатами на текущих бенчмарках. Например, на задаче визуально-текстового поиска, мы достигли высоких результатов в Recall@1 и BLEU-4, что демонстрирует эффективность нашего метода в улучшении визуального понимания. Эти результаты указывают на то, что введение дополнительной визуальной супервайзии действительно повышает точность и качество решения задач в области мультимодального понимания. ## Значимость Метод BASIC может быть применен в разли

Annotation:

Mainstream Multimodal Large Language Models (MLLMs) achieve visual understanding by using a vision projector to bridge well-pretrained vision encoders and large language models (LLMs). The inherent gap between visual and textual modalities makes the embeddings from the vision projector critical for visual comprehension. However, current alignment approaches treat visual embeddings as contextual cues and merely apply auto-regressive supervision to textual outputs, neglecting the necessity of intr...

ID: 2508.06895v1 cs.CV, cs.AI

arXiv PDF

📄 Advancements in Chinese font generation since deep learning era: A survey

2025-08-14

Авторы:

Weiran Chen, Guiqian Zhu, Ying Li, Yi Ji, Chunping Liu

#### Контекст Толкование и создание китайских шрифтов — это важная задача в области типографии, которая играет ключевую роль в коммуникации, графическом дизайне и дигитальном прогрессе. Несмотря на то, что классические методы дают результаты, существуют сложности в создании высококачественных китайских шрифтов. С ростом глубины исследований в области глубокого обучения, возникла возможность создания новых эффективных методов, которые могут повысить качество генерируемых шрифтов. Однако существуют проблемы, такие как необходимость в более точном анализе и оптимизации глубоких алгоритмов для генерирования китайских символов. В данной работе представлен обзор последних достижений в области генерации китайских шрифтов, основанных на глубоком обучении, с целью обобщить современные подходы и выявить основные проблемы и перспективы. #### Метод Данная работа основывается на широком обзоре современных исследований в области генерации китайских шрифтов с использованием глубокого обучения. Методология включает в себя сбор и анализ статей из научных журналов и конференций, технический анализ методов и архитектур, а также сравнение их результатов. Основные аспекты, рассмотренные в исследовании, включают в себя классические архитектуры глубокого обучения, форматы представления шрифтов, публичные базы данных и критерии оценки качества. Также в работе описываются два типа подходов к генерации шрифтов: методы, требующие большого количества примеров (many-shot) и методы, требующие небольших объемов данных (few-shot). Различия и особенности каждого подхода проанализированы, чтобы обеспечить полное понимание современных тенденций. #### Результаты В работе приведены результаты экспериментов с различными методами генерации китайских шрифтов. Эти методы были протестированы на различных данных и выдали результаты, оцениваемые по разным критериям качества. Были проанализированы фундаментальные архитектуры, такие как GANs, VAEs, и transformer-based approaches. Также были рассмотрены различные датасеты, включая многочисленные варианты символов и их различные представления. Результаты показали, что многие подходы демонстрируют высокое качество генерации, однако существуют проблемы с генерированием шрифтов на небольших объемах данных, что требует дополнительных исследований. #### Значимость Результаты и методы, описанные в данной работе, имеют широкие приложения в типографии, дизайне, графической компьютеризации и даже в области машинного перевода. Они позволяют улучшить качество шрифто

Annotation:

Chinese font generation aims to create a new Chinese font library based on some reference samples. It is a topic of great concern to many font designers and typographers. Over the past years, with the rapid development of deep learning algorithms, various new techniques have achieved flourishing and thriving progress. Nevertheless, how to improve the overall quality of generated Chinese character images remains a tough issue. In this paper, we conduct a holistic survey of the recent Chinese font...

ID: 2508.06900v1 cs.CV, cs.AI

arXiv PDF

📄 MMReID-Bench: Unleashing the Power of MLLMs for Effective and Versatile Person Re-identification

2025-08-14

Авторы:

Jinhao Li, Zijian Chen, Lirong Deng, Changbo Wang, Guangtao Zhai

## Контекст Персональная реидентификация (ReID) — это задача нахождения изображений интересующего объекта среди галереи изображений. Она находит широкое применение в областях медицинской реабилитации, обнаружения аномального поведения и обеспечения общественной безопасности. Однако традиционные модели ReID обладают ограниченными возможностями, ограничивающими их универсальность при работе с многомодальными данными, такими как RGB, термальные и инфракрасные изображения, рисунки-скетчы и текстовые описания. Недавно появление многомодальных больших языковых моделей (MLLMs) открыло новые возможности для решения этих проблем. Тем не менее, существующие методы используют MLLMs только как инструменты для вывода признаков или генерации текстовых описаний. Это не полностью использует их потенциал в области рассуждения, подчинения инструкций и кросс-модального понимания. Чтобы преодолеть эти ограничения, мы предлагаем MMReID-Bench — первый многозадачный многомодальный бенчмарк, созданный специально для реидентификации персон. ## Метод MMReID-Bench включает 20 710 многомодальных запросов и изображений-галерей, покрывающих 10 разных задач реидентификации персон. Он охватывает такие модальности, как RGB, термальная и инфракрасная съемка, а также рисунки-скетчы и текстовые описания. Методология базируется на использовании MLLMs в качестве многозадачных моделей, объединяющих в себе возможности рассуждения, подчинения инструкций и кросс-модального понимания. Эти модели обучаются на многомодальных данных, чтобы обеспечить широкий спектр возможностей для решения задач реидентификации. Это позволяет использовать MLLMs в новых сценариях, которые прежде не были достижимы. ## Результаты Эксперименты показывают, что MLLMs способны эффективно выполнять задачи реидентификации в различных модальных условиях. Они показали высокую точность при работе с RGB-изображениями, но имеют более слабый результат при обработке термальных и инфракрасных данных. Это связано с ограниченной способностью MLLMs полностью рассуждать и работать с этими модальностями. Несмотря на это, результаты продемонстрировали значительный потенциал MLLMs в обеспечении универсальных решений для реидентификации персон, которые могут быть применены в различных сценариях. ## Значимость MMReID-Bench открывает новые перспективы для развития многомодальных моделей ReID, которые могут быть использованы в различных приложениях, включая медицинскую реабилитацию, обнаружение аномального поведения и обеспечение общественной безопасности. Он также показывает перспективы для дальнейшего исследования MLLMs в контексте реид

Annotation:

Person re-identification (ReID) aims to retrieve the images of an interested person in the gallery images, with wide applications in medical rehabilitation, abnormal behavior detection, and public security. However, traditional person ReID models suffer from uni-modal capability, leading to poor generalization ability in multi-modal data, such as RGB, thermal, infrared, sketch images, textual descriptions, etc. Recently, the emergence of multi-modal large language models (MLLMs) shows a promisin...

ID: 2508.06908v1 cs.CV, cs.AI

arXiv PDF

📄 CannyEdit: Selective Canny Control and Dual-Prompt Guidance for Training-Free Image Editing

2025-08-14

Авторы:

Weiyan Xie, Han Gao, Didan Deng, Kaican Li, April Hua Liu, Yongxiang Huang, Nevin L. Zhang

## Контекст Одним из основных направлений развития современных компьютерных технологий является обработка и модификация изображений с помощью текстовых подсказок. Текст-to-image (T2I) модели, основанные на генерирующих признаках фундаментальных моделей, позволяют редактировать изображения, оперируя только текстовыми запросами. Однако существующие системы сталкиваются с проблемами в реализации точных редактирований, сохраняющих контекст исходного изображения и обеспечивающих визуальную непрерывность. Эти ограничения влекут за собой несоответствие требований пользователей, что приводит к нужде в более надежных и эффективных подходах. ## Метод Мы предлагаем CannyEdit, новую систему для текстово-движущегося редактирования изображений, которая работает без необходимости обучения. Основные инновации в CannyEdit: (1) **Selective Canny Control**, который позволяет гибко управлять структурным влиянием генеративных моделей, защищая детали исходных изображений в неизменяемых областях; (2) **Dual-Prompt Guidance**, который включает в себя объединение локальных и глобальных текстовых подсказок для достижения консистентных редактирований с обеспечением отношений в сцене. Это решение использует ControlNet для контроля структуры и инверсии признаков, чтобы обеспечить точность редактирования и сохранить неизменность регионов, не относящихся к редактированию. ## Результаты Для измерения эффективности CannyEdit проведены эксперименты на реальных изображениях с разными редактируемыми сценами: добавлением, заменой и удалением объектов. Метод показал высокую точность в соблюдении текстовых подсказок и сохранении контекста источника, превышая в предыдущих системах, таких как KV-Edit. В результате пользовательских опросов, CannyEdit показал более высокую степень незаметности, чтобы редактирование было выполнено с помощью AI: 49.2% пользователей и 42.0% экспертов AIGC отличили результаты CannyEdit от настоящих изображений, в то время как для KV-Edit этот показатель составил 76.08–89.09%. ## Значимость CannyEdit может быть применен в различных областях, таких как редактирование фотографий, графический дизайн и дизайн визуальных эффектов. Он выделяется своей точностью и гибкостью, превращая текстовые подсказки в точные модификации на изображениях. Более высокий уровень незаметности редактирования и сохранение контекста делают CannyEdit привлекательным для профессионалов, необходимостью в минимальном вмешательстве и простоте в использовании. ## Выводы CannyEdit представляет собой прорыв в области текстово-движущегося редактирования изображений без необходимости обучения. Его высокая точность, гибкость и не

Annotation:

Recent advances in text-to-image (T2I) models have enabled training-free regional image editing by leveraging the generative priors of foundation models. However, existing methods struggle to balance text adherence in edited regions, context fidelity in unedited areas, and seamless integration of edits. We introduce CannyEdit, a novel training-free framework that addresses these challenges through two key innovations: (1) Selective Canny Control, which masks the structural guidance of Canny Cont...

ID: 2508.06937v1 cs.CV, cs.AI

arXiv PDF

📄 ImageDDI: Image-enhanced Molecular Motif Sequence Representation for Drug-Drug Interaction Prediction

2025-08-14

Авторы:

Yuqin He, Tengfei Ma, Chaoyi Li, Pengsen Ma, Hongxin Xiang, Jianmin Wang, Yiping Liu, Bosheng Song, Xiangxiang Zeng

#### Контекст Поиск и предсказание значимых взаимодействий между лекарственными средствами (Drug-Drug Interactions, DDIs) является ключевым заданием в области дизайна и применения лекарственных средств. Несоответствие между лекарственными средствами может привести к непредвиденным побочным эффектам, ухудшению здоровья и даже к смерти. Несмотря на то, что существующие методы показали заметный прогресс в предсказании DDIs, они сталкиваются с ограничениями в представлении функциональных мотивов, которые являются основным фактором возникновения взаимодействий. Тем не менее, данные по мотивам поддерживаются недостаточно, что мешает эффективному анализу и предсказанию. Мы предлагаем ImageDDI, рам prosecing in the field of drug-drug interaction prediction #### Метод ImageDDI представляет собой представление лекарственных средств, основанное на функциональных мотивах и использующее изображения для улучшения представления. Функциональные мотивы для каждого лекарственного средства являются локальными признаками, которые объединяются в единую последовательность для каждой пары лекарственных средств. Далее, изображения лекарственных средств, содержащие глобальные признаки (например, цвет, текстура, плоскость), включаются в последовательность. Эти данные обрабатываются с помощью трансформера, что позволяет учитывать как локальные, так и глобальные признаки. Для динамического подкрепления представления используется адаптивный механизм фуссирования, который позволяет ImageDDI повысить его общую точность и устойчивость. #### Результаты Мы проводили эксперименты на широко известных датасетах, сравнивая результаты с текущими методами. Результаты показали, что ImageDDI показывает высокую точность в предсказании DDIs, оценивая и только локальные, и глобальные признаки. Были проведены эксперименты в 2D и 3D-сценариях, подтвердив высокую совместимость ImageDDI с различными подходами к представлению данных. Эти результаты показали, что ImageDDI превосходит существующие модели в области предсказания DDIs. #### Значимость ImageDDI может быть применено в различных областях, включая дизайн новых лекарственных средств, прогнозирование побочных эффектов и улучшение безопасности и эффективности лечения. Этот подход позволяет улучшить представление данных, объединяя локальные и глобальные признаки, что дает более полное и точное представление взаимодействий. Это может привести к более уверенным предсказаниям и уменьшению рисков при применении лекарственных средств. #### Выводы Результаты показывают, что ImageDDI является эффективным подходом для предсказания DDIs, который может быть использован для улучшения систем прогнозирова

Annotation:

To mitigate the potential adverse health effects of simultaneous multi-drug use, including unexpected side effects and interactions, accurately identifying and predicting drug-drug interactions (DDIs) is considered a crucial task in the field of deep learning. Although existing methods have demonstrated promising performance, they suffer from the bottleneck of limited functional motif-based representation learning, as DDIs are fundamentally caused by motif interactions rather than the overall dr...

ID: 2508.08338v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
211
212
213
214
215
227
228

Показано 2121 - 2130 из 2274 записей