📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Yong Du, Yuchen Yan, Fei Tang, Zhengxi Lu, Chang Zong, Weiming Lu, Shengpei Jiang, Yongliang Shen

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные автономные агенты, взаимодействующие с графическими интерфейсами пользователя (GUI), сталкиваются с фундаментальной задачей GUI grounding — точного сопоставления естественно-языковых инструкций с конкретными координатами на экране. Эта задача является критически важной для создания универсальных систем автоматизации, способных выполнять сложные многошаговые операции в различных приложениях без предварительного программирования. Существующие подходы к решению проблемы GUI grounding можно условно разделить на две категории. Первая группа методов опирается на обшученное обучение с учителем, требующее масштабных датасетов с пиксельной аннотацией, где каждому GUI-элементу соответствует точная разметка координат. Такие подходы демонстрируют высокую точность, но сталкиваются с фундаментальным ограничением — стоимость и доступность качественной разметки растут экспоненциально с увеличением сложности интерфейсов и разнообразия приложений. Вторая группа методов использует обучение с подкреплением с механизмом вознаграждений, однако требует предварительно размеченных сигналов вознаграждения, что также создает узкое место в виде необходимости создания специализированных метрик эффективности. Ключевым наблюдением авторов статьи стало то, что современные модели, генерируя множественные предсказания для одного и того же GUI-элемента, демонстрируют определенные пространственные паттерны перекрытия. Эти паттерны неявно кодируют сигналы уверенности модели, которые могут быть использованы для более точной локализации без необходимости дополнительной разметки. Это наблюдение открывает принципиально новый путь повышения точности систем GUI grounding за счет использования внутренней структуры предсказаний модели, минуя этапы дорогостоящего аннотирования данных. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают двухуровневую методологию, основанную на принципиально новой парадигме test-time scaling и test-time reinforcement learning для задачи GUI grounding. Первый компонент системы, GUI-RC (Region Consistency), представляет собой метод масштабирования во время тестирования, который конструирует пространственные сетки голосования на основе множественных семплированных предсказаний для идентификации консенсусных регионов. Архитектура GUI-RC работает следующим образом: для каждого входного изображения GUI и соответствующей языковой инструкции модель генерирует N независимых предсказаний координат целевого элемента. На основе этих предсказаний строится двумерная пространственная сетка, где каждая ячейка получает вес, пропорциональный количеству предсказаний, перекрывающих данную область. Регионы с максимальным перекрытием идентифицируются как области наибольшего консенсуса модели, что позволяет выбрать наиболее надежные координаты без дополнительного обучения. Второй компонент, GUI-RCPO (Region Consistency Policy Optimization), трансформирует паттерны консистентности в сигналы вознаграждения для тестового обучения с подкреплением. Данный метод вычисляет, насколько хорошо каждое индивидуальное предсказание согласуется с коллективным консенсусом, преобразуя это согласование в скалярную функцию вознаграждения. Используя эти само-консистентные сигналы, модель может итеративно уточнять свои выходные данные на неразмеченных данных в процессе инференса. Ключевым техническим новшеством является разработка алгоритма оптимизации политики, который работает исключительно во время тестирования, адаптируя параметры модели к конкретному экземпляру входных данных без градиентного обновления весов основной модели. Это достигается через мета-оптимизацию, где модель учится генерировать более консистентные предсказания для каждого конкретного случая использования. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная валидация проводилась на комплексном бенчмарке ScreenSpot, включающем две версии: ScreenSpot-v1 и ScreenSpot-v2. Датасет содержит более 1200 уникальных GUI-экранов из различных категорий приложений, включая веб-интерфейсы, мобильные приложения и настольные программы. Каждый экран аннотирован множеством естественно-языковых инструкций, точно указывающих на конкретные GUI-элементы, что позволяет проводить точную количественную оценку качества grounding. Базовые архитектуры для
Annotation:
Graphical User Interface (GUI) grounding, the task of mapping natural language instructions to precise screen coordinates, is fundamental to autonomous GUI agents. While existing methods achieve strong performance through extensive supervised training or reinforcement learning with labeled rewards, they remain constrained by the cost and availability of pixel-level annotations. We observe that when models generate multiple predictions for the same GUI element, the spatial overlap patterns reveal...
ID: 2508.05615v1 cs.CV, cs.AI, cs.CL
Авторы:

Tianxiao Li, Zhenglin Huang, Haiquan Wen, Yiwei He, Shuchang Lyu, Baoyuan Wu, Guangliang Cheng

**Резюме** Развитие AI-систем для генерации изображений привело к появлению гиперреалистичных deepfake, создающих риски для этики и распространения ложных сведений. Традиционные методы обнаружения deepfake, в том числе специфические для лиц или общие для AI-генерируемых данных, не обеспечивают прозрачности, так как формализуют задачу как классификацию без объяснения решений. Хотя некоторые подходы на основе языковых моделей (LLM) предлагают определённый уровень explainability, они страдают от грубых анализов и требуют интенсивной аннотации данных. В этой работе представлен RAIDX — новый фреймворк для обнаружения и объяснения deepfake, который сочетает Retrieval-Augmented Generation (RAG) и Group Relative Policy Optimization (GRPO). RAG используется для добавления внешнего знания, что повышает точность обнаружения, а GRPO позволяет самостоятельно генерировать точные текстовые объяснения и сальиент-карты, не требуя трудоемких аннотаций. Результаты экспериментов на различных датасетах показывают, что RAIDX достигает высокой точности обнаружения и обеспечивает интерпретируемые объяснения, предоставляя как текстовые описания, так и визуальные карты. Этот фреймворк является первым единым решением, которое сочетает RAG и GRPO, решая проблемы точности и прозрачности в обнаружении deepfake.
Annotation:
The rapid advancement of AI-generation models has enabled the creation of hyperrealistic imagery, posing ethical risks through widespread misinformation. Current deepfake detection methods, categorized as face specific detectors or general AI-generated detectors, lack transparency by framing detection as a classification task without explaining decisions. While several LLM-based approaches offer explainability, they suffer from coarse-grained analyses and dependency on labor-intensive annotation...
ID: 2508.04524v1 cs.CV, cs.AI
Авторы:

Quang-Trung Truong, Yuk-Kwan Wong, Vo Hoang Kim Tuyen Dang, Rinaldi Gotama, Duc Thanh Nguyen, Sai-Kit Yeung

## КОНТЕКСТ И ПРОБЛЕМАТИКА Морские видеоролики представляют сложную область для понимания видео, особенно в связи с динамическими движениями морских объектов, изменчивостью окружающей среды, движением камеры, а также сложностью подводных сцен. Эти факторы существенно усложняют задачи видеоанализа, включая видеокапитанизацию (video captioning). Существующие наборы данных для видеокапитанизации традиционно сосредоточены на общих или человеко-центрических областях, что ограничивает их применимость в контексте морских условий. Морские видео требуют более специфичных подходов для понимания движений и поведения морских объектов, что остается недостаточно изученным в современных исследованиях. Дополнительным вызовом является необходимость визуальной землеустройства (visual grounding) для точного определения и классификации морских объектов в видео. Существующие методы часто не способны эффектовно обрабатывать сложные подводные сцены, в которых могут встречаться разнообразные объекты, такие как рыбы, кораллы, и другие элементы морской среды. Это приводит к необходимости разработки новых подходов, которые могут учитывать специфику морских сред и обеспечивать более точную интерпретацию видео. Проблематика видеокапитанизации в морских условиях также осложняется тем, что многие существующие модели не способны эффективно обрабатывать изменения сцены и переходы между объектами. Это может приводить к недостаточной точности и семантической глубине при генерации описаний видео. Таким образом, требуется разработка новых методологий, которые могут обрабатывать сложность морских видео и обеспечивать более глубокое понимание содержания. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеупомянутых проблем, авторы предлагают двухэтапную модель видеокапитанизации, ориентированную на морские объекты. Первый этап заключается в создании набора данных, который содержит тройки видео, текста и масок сегментации. Эти маски позволяют выполнять визуальное землеустройство, то есть точно определять и отделять морские объекты на видео. Набор данных также включает в себя аннотации на уровне клипов, что позволяет создавать более детальные и семантически значимые описания. Второй этап заключается в разработке модели, которая использует эти данные для генерации описаний. Модель работает на основе видео, которые разбиваются на клипы для обнаружения значимых переходов объектов и смены сцен. Это позволяет модели лучше понять структуру видео и генерировать более точные описания. Авторы также подчеркивают важность использования сегментации для определения ключевых объектов и их движений, что значительно улучшает качество генерируемых описаний. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов, чтобы оценить эффективность предложенного подхода. Они использовали набор данных, состоящий из морских видео, аннотированных сегментационными масками и текстовыми описаниями. Модель была протестирована на различных метриках, таких как точность описаний и семантическая значимость генерируемых текстов. Результаты показали, что предложенный подход значительно превосходит существующие методы в видеокапитанизации морских видео. Использование сегментации и разбиения видео на клипы позволило модели лучше определять ключевые моменты и генерировать более детальные описания. Было показано, что модель способна обрабатывать сложные морские сцены и генерировать описания, которые лучше отражают содержание видео. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области морского мониторинга, экологических исследований и консервации морской фауны. Точные описания морских видео могут быть использованы для мониторинга состояния морских экосистем, анализа поведения морских объектов и мониторинга изменений в морской среде. Благодаря точной сегментации и генерации описаний, модель может быть использована для автоматизации анализа больших объемов морских данных, что значительно упрощает процесс мониторинга и исследования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках этого исследования был предложен новый подход к видеокапитанизации морских видео, который позволяет лучше понять динамику морских объектов и генерировать более точные описания. Будущие исследования могут фокусироваться на улучшении модели путем интеграции дополнительных данных, таких как звуковые аннотации или данные окружающей среды, для еще более точного анализа морских видео. Также можно рассмотреть возможность применения этого подхода к другим областям, где важна точная интерпретация видео, таким как медицинский мониторинг или анализ транспортных систем.
Annotation:
Marine videos present significant challenges for video understanding due to the dynamics of marine objects and the surrounding environment, camera motion, and the complexity of underwater scenes. Existing video captioning datasets, typically focused on generic or human-centric domains, often fail to generalize to the complexities of the marine environment and gain insights about marine life. To address these limitations, we propose a two-stage marine object-oriented video captioning pipeline. We...
ID: 2508.04549v1 cs.CV, cs.AI, cs.MM
Авторы:

Jinxing Zhou, Ziheng Zhou, Yanghao Zhou, Yuxin Mao, Zhangling Duan, Dan Guo

## КОНТЕКСТ И ПРОБЛЕМАТИКА Задача Dense Audio-Visual Event Localization (DAVEL) заключается в выявлении и точной временной локализации событий в нетриммированных видеозаписях, которые происходят одновременно в аудио- и визуальных модальностях. Традиционные подходы к DAVEL полагаются на полное временное аннотирование данных, где для каждого события указаны точные начальные и конечные временные границы. Однако создание таких детализированных аннотаций требует значительных человеческих ресурсов и временных затрат, что ограничивает масштабируемость решений и применимость методов в реальных сценариях. Новая и более сложная постановка задачи, предложенная в статье - Weakly-supervised Dense Audio-Visual Event Localization (W-DAVEL) - устраняет необходимость в детальных временных аннотациях. В этой постановке доступны только видео-уровневые метки событий, без какой-либо информации о том, когда именно эти события происходят в течение видео. Это создает фундаментальную проблему: как обучить модель точно локализовать события во времени, имея только информацию о наличии событий в видео в целом? Основная сложность W-DAVEL заключается в необходимости одновременно справляться с двумя типами неопределенности: во-первых, неопределенностью временных границ событий из-за отсутствия детальных аннотаций, и во-вторых, неопределенностью межмодального соответствия между аудио и визуальными сигналами. Традиционные методы обучения слабой супервизии, такие как Multiple Instance Learning (MIL), плохо переносятся на межмодальную аудио-визуальную локализацию из-за сложности установления соответствия между двумя различными модальностями и необходимости учета их временной синхронизации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают инновационный метод CLASP (Cross-modal Salient Anchor-based Semantic Propagation), который решает проблему W-DAVEL через идентификацию и использование "кросс-модальных салиентных якорей" - надежных временных меток, которые хорошо предсказываются даже при слабом супервизии и демонстрируют высокую консистентность семантики событий между аудио- и визуальными модальностями. Методология CLASP состоит из трех ключевых компонентов. Первый - модуль Mutual Event Agreement Evaluation (MEAE), который генерирует согласованную оценку, измеряя расхождение между предсказанными аудио- и визуальными классами событий. Этот модуль работает путем сравнения вероятностных распределений событий, полученных из каждой модальности, и вычисления метрики согласия, которая указывает на степень межмодальной консистентности в каждый момент времени. Второй компонент - Cross-modal Salient Anchor Identification (CSAI), который использует оценки согласия для идентификации якорных признаков в аудио и визуальных потоках. Этот модуль работает на двух уровнях: глобальном (на уровне всего видео) и локальном (в пределах временных окон). На глобальном уровне выбираются наиболее надежные временные метки, которые демонстрируют наивысшее согласие между модальностями. На локальном уровне происходит уточнение выбора в контексте временных соседей для обеспечения временной гладкости и устойчивости. Третий компонент - Anchor-based Temporal Propagation (ATP) - использует идентифицированные якорные признаки для улучшения семантического кодирования событий в исходных временных аудио- и визуальных признаках. Это достигается через механизм распространения семантической информации от якорных точек к соседним временным меткам, что позволяет улучшить качество временной локализации событий даже при слабом супервизии. Межмодальная интеграция якорных признаков обеспечивает синхронизацию аудио-визуальной информации и усиление сигналов, подтверждающих наличие событий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширную экспериментальную оценку предложенного метода на двух крупных датасетах: UnAV-100 и ActivityNet1.3, которые были адаптированы для задачи W-DAVEL. Эти датасеты представляют собой разнообразные видеоматериалы с аудио-визуальными событиями, охватывающие широкий спектр жанров и сценариев, от повседневных активностей до специализированных действий. В экспериментах использовались стандартные метрики оценки качества временной локализации событий, включая mean Average Precision (m
Annotation:
The Dense Audio-Visual Event Localization (DAVEL) task aims to temporally localize events in untrimmed videos that occur simultaneously in both the audio and visual modalities. This paper explores DAVEL under a new and more challenging weakly-supervised setting (W-DAVEL task), where only video-level event labels are provided and the temporal boundaries of each event are unknown. We address W-DAVEL by exploiting \textit{cross-modal salient anchors}, which are defined as reliable timestamps that a...
ID: 2508.04566v1 cs.CV, cs.AI, cs.MM
Авторы:

Hao Wang, Limeng Qiao, Zequn Jie, Zhijian Huang, Chengjian Feng, Qingfang Zheng, Lin Ma, Xiangyuan Lan, Xiaodan Liang

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА Сегодняшние Large Language Models (LLMs) демонстрируют высокую эффективность в представлении широкого спектра знаний, но страдают от нехватки пиксельного уровня восприятия для конкретных задач визуального понимания. Эта проблема особенно заметна в области сегментации изображений, где необходимо выделять объекты на пиксельном уровне с высокой точностью. Segment Anything Model (SAM) является важной отметкой в развитии визуального понимания, но у него есть ограничения. SAM не может эффективно обрабатывать множественные маски предсказаний или выполнять категорийно-специфическую сегментацию, что ограничивает его применимость в реальных сценариях. Также SAM не позволяет объединить все задачи сегментации в единый модельный архитектуру, что затрудняет его гибкость и масштабируемость. Эта проблема приводит к необходимости разработки более универсальной модели, которая может объединить различные типы сегментации в едином рамках, улучшить восприятие на пиксельном уровне и поддерживать мультимодальное обучение. Мотивация заключается в том, чтобы создать фреймворк, который не только расширит возможности сегментации, но и позволит интегрировать различные типы визуальных данных и задач в единую модель, обеспечивая более глубокое и точное понимание. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем, авторы предлагают X-SAM, универсальный фреймворк на основе Multimodal Large Language Model (MLLM). Этот фреймворк расширяет парадигму сегментации с "segment anything" на "any segmentation", т.е. позволяет выполнять любые типы сегментации в едином модельном пространстве. Основное техническое решение заключается в введении новой концепции Visual GrounDed (VGD) сегментации, которая позволяет выделять все экземпляры объектов с использованием интерактивных визуальных признаков. Это позволяет MLLMs получать более точное пиксельное восприятие и интерпретируемость. X-SAM включает в себя несколько ключевых компонентов: 1. **Unified Framework**: Объединяет различные типы сегментации в единой архитектуре, что позволяет модели выполнять многократные сегментационные задачи без необходимости переключения между разными моделями. 2. **Visual GrounDed Segmentation**: Новая задача сегментации, где экземпляры объектов выделяются с помощью визуальных признаков в интерактивном режиме. Это повышает точность и интерпретируемость сегментации. 3. **Unified Training Strategy**: Создана стратегия обучения, которая поддерживает ко-обучение на нескольких датасетах, что позволяет модели эффективно использовать разнообразные источники данных для обучения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности X-SAM на различных задачах сегментации изображений. В экспериментах использовались различные датасеты, которые покрывали различные категории и сценарии сегментации. Результаты показали, что X-SAM достиг рекордных показателей на различных сегментационных задачах, превосходя существующие модели. Особенно заметно было улучшение в задачах множественной сегментации и категорийной сегментации, где X-SAM показал значительное превосходство по сравнению со стандартным SAM. Кроме того, модель демонстрировала высокую эффективность при обучении на различных датасетах, подтверждая гибкость и мощность его универсального подхода. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ X-SAM имеет широкое применение в различных областях, где необходимо высокое качество сегментации изображений. Это может включать задачи в областях медицины, автономных транспортных систем, компьютерного зрения и многих других. Преимущества X-SAM заключаются в его универсальности, высокой точности и возможности обработки различных типов данных. Это делает его подходящим для решения сложных задач в реальных приложениях, где требуется точное восприятие изображений на пиксельном уровне. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной работе представлен X-SAM, фреймворк, который расширяет возможности сегментации изображений за счет интеграции мультимодальных моделей и новой концепции VGD сегментации. Это позволяет достичь высокой точности и интерпретируемости в пиксельном восприятии. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая расширение ее возможностей для более широкого спектра задач и использования более сложных данных. Также, можно исследовать возможности интеграции X-SAM с другими моделями и приложениями в разных доменах. ```
Annotation:
Large Language Models (LLMs) demonstrate strong capabilities in broad knowledge representation, yet they are inherently deficient in pixel-level perceptual understanding. Although the Segment Anything Model (SAM) represents a significant advancement in visual-prompt-driven image segmentation, it exhibits notable limitations in multi-mask prediction and category-specific segmentation tasks, and it cannot integrate all segmentation tasks within a unified model architecture. To address these limita...
ID: 2508.04655v1 cs.CV, cs.AI
Авторы:

Akhil Saketh Reddy Sabbella, Ch. Lakshmi Prachothan, Eswar Kumar Panta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Птицеводство представляет собой критически важную отрасль мирового сельского хозяйства, обеспечивающую значительную долю белкового питания населения планеты. Однако распространение заболеваний среди птиц создает серьезную угрозу как для экономической устойчивости фермерских хозяйств, так и для продовольственной безопасности в целом. Традиционные методы диагностики заболеваний в птицеводстве полагаются исключительно на визуальный осмотр персонала, что сопряжено с множеством критических недостатков. Процесс ручного мониторинга является чрезвычайно трудоемким, требует значительных человеческих ресурсов и подвержен субъективным ошибкам, особенно при масштабных производствах с десятками тысяч голов птицы. Существующие проблемы усугубляются тем, что ранние стадии многих заболеваний протекают с минимальными внешними проявлениями, что делает своевременное выявление патологий практически невозможным при использовании традиционных методов. Задержка в диагностике приводит к быстрому распространению инфекций среди поголовья, что может привести к массовому падежу птицы, значительным экономическим потерям и даже необходимости полного ликвидации поголовья. Кроме того, в условиях крупных промышленных комплексов человеческий фактор становится не только источником ошибок, но и потенциальным вектором распространения заболеваний между секторами фермы. Необходимость в автоматизированных системах мониторинга здоровья птицы становится все более очевидной, особенно в контексте растущих требований к биобезопасности и необходимости снижения эксплуатационных расходов. Современные технологии компьютерного зрения и глубокого обучения предоставляют уникальную возможность создания систем, способных непрерывно и объективно оценивать состояние здоровья птицы в реальном времени, минимизируя человеческое вмешательство и повышая точность диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения задачи автоматизированного мониторинга здоровья птицы авторы предложили использовать передовую архитектуру YOLO v8 (You Only Look Once version 8), представляющую собой современную систему компьютерного зрения для обнаружения объектов в реальном времени. Методология разработки системы включала несколько ключевых этапов, начиная от подготовки обширного аннотированного датасета и заканчивая оптимизацией модели для работы в условиях промышленной птицефермы. Первым этапом стало формирование большого массива высокоразрешающих изображений кур, охватывающих различные породы, возрастные группы и условия содержания. Изображения были тщательно аннотированы экспертами-ветеринарами, которые маркировали визуальные признаки заболеваний, включая патологические изменения в оперении, кожных покровах, глазах, изменения в осанке и поведении птицы. Аннотации включали как явные признаки болезней (поражения кожи, воспаления), так и тонкие поведенческие индикаторы (летаргия, нехарактерные движения, изменения паттернов питания). Архитектура YOLO v8 была выбрана благодаря своей способности обрабатывать изображения в реальном времени с высокой точностью. Модель была адаптирована под специфику задачи через fine-tuning с использованием трансферного обучения, что позволило ускорить процесс обучения и повысить качество распознавания. Особое внимание было уделено оптимизации модели для работы с ограниченными вычислительными ресурсами, характерными для фермерской инфраструктуры. Были реализованы механизмы предварительной фильтрации изображений для исключения случаев неинформативных кадров, а также алгоритмы слежения за объектами для предотвращения повторного анализа одних и тех же особей. Система была интегрирована с механизмом генерации своевременных предупреждений для фермеров через мобильные уведомления и панели управления. Алгоритм включал многоуровневую систему приоритетов, позволяющую оперативно реагировать на критические случаи, требующие немедленного вмешательства ветеринара. Дополнительно была реализована функция анализа трендов заболеваемости, позволяющая прогнозировать вспышки заболеваний на основе обнаруженных ранних признаков. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть исследования включала всесторон
Annotation:
In the poultry industry, detecting chicken illnesses is essential to avoid financial losses. Conventional techniques depend on manual observation, which is laborious and prone to mistakes. Using YOLO v8 a deep learning model for real-time object recognition. This study suggests an AI based approach, by developing a system that analyzes high resolution chicken photos, YOLO v8 detects signs of illness, such as abnormalities in behavior and appearance. A sizable, annotated dataset has been used to ...
ID: 2508.04658v1 cs.CV, cs.AI
Авторы:

Young D. Kwon, Rui Li, Sijia Li, Da Li, Sourav Bhattacharya, Stylianos I. Venieris

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Текст-в-изображение (T2I) диффузорные модели (DMs) представляют собой технологии, которые достигли выдающихся результатов в синтезе высококачественных изображений. Однако их впечатляющие результаты сопровождаются серьезными техническими ограничениями: большие размеры моделей, которые могут достигать 8-11 миллиардов параметров, делают их непригодными для использования на ресурсо-ограниченных устройствах, таких как мобильные телефоны или устройства обработки данных с ограниченными вычислительными мощностями. Это ограничение является критическим в контексте распространения моделей в реальных приложениях, где важно обеспечить эффективность работы и низкие требования к ресурсам. Таким образом, существует необходимость в разработке эффективных методов для сжатия таких моделей, которые могут сократить их размер и снизить вычислительные требования, не ухудшая их качество. Традиционные подходы к сжатию моделей, такие как прунинг (pruning) и квантование, часто сталкиваются с проблемой снижения качества выходных данных, что может быть критически важно в случае с T2I моделями, где высокое качество синтезированных изображений является основной целью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Разработчики представляют **HierarchicalPrune**, фреймворк для сжатия больших моделей диффузоров, основанный на иерархическом понимании функциональных блоков. Этот метод работает в несколько этапов: 1. **Иерархический Позиционный Прунинг (Hierarchical Position Pruning)**: Этот шаг определяет и удаляет менее важные блоки модели, основываясь на их позиции в иерархической структуре модели. Более ранние блоки, ответственные за формирование семантических структур, остаются неизменными, в то время как более поздние блоки, отвечающие за тонкие текстурные детали, подвергаются удалению. 2. **Позиционное Сохранение Весов (Positional Weight Preservation)**: Этот этап защищает критически важные части модели, особенно ранние блоки, которые отвечают за формирование основной структуры и смысла изображения. 3. **Чувствительность-Ориентированная Дистилляция (Sensitivity-Guided Distillation)**: Этот процесс корректирует процесс трансфера знаний между моделями, основываясь на различиях в чувствительности разных блоков. Это позволяет оптимизировать процесс обучения и сохранять качество выходных данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты показали, что **HierarchicalPrune** достигает значительных результатов в сжатии моделей. Сочетание прунинга с INT4 квантованием весов позволяет сократить размер модели с 15.8 ГБ до 3.2 ГБ, что составляет 77.5-80.4% уменьшения памяти. Также уменьшается время выполнения (латенция) в диапазоне 27.9-38.0% на различных типах GPU, как высокопроизводительных, так и потребительских. При этом, качество синтезированных изображений остается высоким: снижение GenEval счетчика составило всего 2.6%, а HPSv2 счетчик – 7% по сравнению с оригинальной моделью. Более того, пользовательские исследования с участием 85 человек показали, что качество изображений, сгенерированных HierarchicalPrune, оценивается как соответствующее качеству оригинальной модели. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Преимущества **HierarchicalPrune** очевидны в контексте реальных приложений. Сокращение размера модели и увеличение эффективности ее выполнения позволяют использовать такие модели на мобильных устройствах, что значительно расширяет область их применения. Кроме того, эти модели могут быть использованы в областях, требующих быстрого и качественного генерации изображений, таких как дизайн, реклама, игровая индустрия и образование. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ **HierarchicalPrune** демонстрирует значительные успехи в сжатии моделей диффузоров без существенного ухудшения качества. Будущие исследования могут фокусироваться на дальнейшей оптимизации этих методов для различных типов моделей и приложений, а также на исследовании возможностей применения таких моделей в реальных сценариях.
Annotation:
State-of-the-art text-to-image diffusion models (DMs) achieve remarkable quality, yet their massive parameter scale (8-11B) poses significant challenges for inferences on resource-constrained devices. In this paper, we present HierarchicalPrune, a novel compression framework grounded in a key observation: DM blocks exhibit distinct functional hierarchies, where early blocks establish semantic structures while later blocks handle texture refinements. HierarchicalPrune synergistically combines thr...
ID: 2508.04663v1 cs.CV, cs.AI
Авторы:

Xinwei Liu, Xiaojun Jia, Yuan Xun, Simeng Qin, Xiaochun Cao

**Резюме:** Vision-Language Models (VLMs), такие как GPT-4, становятся все более эффективными в определении геолокации пользователей на основе публичных изображений, создавая серьезные угрозы для геоприватности. Традиционные методы адверасарных пертурбаций недостаточно эффективны в таком контексте, так как плохо справляются с высокоразрешенными изображениями, ограниченными бюджетами пертурбаций и риском введения неуместного семантического контента. Для решения этой проблемы авторы предлагают GeoShield — инновационный адверасарный фреймворк, нацеленный на защиту геоприватности. GeoShield включает в себя три модуля: разделение географических и негеографических функций, идентификацию гео-раскрывающих элементов и масштабируемую оптимизацию пертурбаций на глобальном и локальном уровнях. Результаты экспериментов показывают, что GeoShield эффективен в чернобокс-сценариях, обеспечивая высокий уровень приватности с минимальными изменениями визуального и семантического качества изображения. Это первое исследование, которое применяет адверасарные пертурбации для защиты от геолокационного выведения в современных VLMs, предлагая практическое и эффективное решение для растущих проблем приватности.
Annotation:
Vision-Language Models (VLMs) such as GPT-4o now demonstrate a remarkable ability to infer users' locations from public shared images, posing a substantial risk to geoprivacy. Although adversarial perturbations offer a potential defense, current methods are ill-suited for this scenario: they often perform poorly on high-resolution images and low perturbation budgets, and may introduce irrelevant semantic content. To address these limitations, we propose GeoShield, a novel adversarial framework d...
ID: 2508.03209v1 cs.CV, cs.AI
Авторы:

Wang Yu-Hang, Shiwei Li, Jianxiang Liao, Li Bohan, Jian Liu, Wenfei Yin

**Резюме** Атаки с адверсариальными возмущениями представляют серьёзную угрозу для глубоких нейронных сетей, приводя к ухудшению их производительности. Одной из основных методологий защиты является Адверсариальная Обучаемость (Adversarial Training, AT), которая, однако, характеризуется высокими вычислительными затратами и снижением точности модели. Другой подход — использование аугментации данных — также имеет ограничения, так как существующие методы либо дают незначительный прирост в прочности, либо требуют значительных вычислительных ресурсов. В этой работе авторы предлагают Universal Adversarial Augmenter (UAA) — фреймворк, который эффективно комбинирует различные стратегии аугментации для повышения прочности моделей. UAA разделяет процесс генерации возмущений от процесса обучения, позволяя предварительно вычислить универсальные трансформации в автономном режиме. Это позволяет эффективно генерировать уникальные адверсариальные возмущения для каждого образца во время обучения. Результаты экспериментов на различных бенчмарках показывают, что UAA достигает нового уровня эффективности и прочности, устанавливая новый стандарт в защите моделей без необходимости онлайн-генерации адверсариальных примеров.
Annotation:
Adversarial perturbations pose a significant threat to deep learning models. Adversarial Training (AT), the predominant defense method, faces challenges of high computational costs and a degradation in standard performance. While data augmentation offers an alternative path, existing techniques either yield limited robustness gains or incur substantial training overhead. Therefore, developing a defense mechanism that is both highly efficient and strongly robust is of paramount importance.In this...
ID: 2508.03213v1 cs.CV, cs.AI, C.1.2
Авторы:

Jisoo Kim, Wooseok Seo, Junwan Kim, Seungho Park, Sooyeon Park, Youngjae Yu

Развёртывание текст-видео (T2V) моделей в ресурсоограниченных средах сталкивается с проблемой высокого вычислительного затратности. Одной из главных сложностей является решение проблемы "mode collapse" во время классических методов знаний дистилляции, которые часто приводят к ухудшению качества при использовании моделей с ограниченной емкостью. Для решения этой проблемы, авторы предлагают метод ReDPO, который сочетает DPO (Directed Property Optimization) и SFT (Supervised Fine-Tuning). ReDPO позволяет студентской модели сосредоточиться на восстановлении ключевых свойств, а не на пассивном имитации учителя, что повышает качество. Кроме того, представлен видео-фильтрующий фреймворк V.I.P., обеспечивающий высококачественные наборы данных для калибровки моделей. Результаты показывают, что ReDPO и V.I.P. позволяют сократить параметры модели на 36.2% и 67.5% для VideoCrafter2 и AnimateDiff, сохраняя или превосходя качество полных моделей.
Annotation:
With growing interest in deploying text-to-video (T2V) models in resource-constrained environments, reducing their high computational cost has become crucial, leading to extensive research on pruning and knowledge distillation methods while maintaining performance. However, existing distillation methods primarily rely on supervised fine-tuning (SFT), which often leads to mode collapse as pruned models with reduced capacity fail to directly match the teacher's outputs, ultimately resulting in deg...
ID: 2508.03254v1 cs.CV, cs.AI
Показано 2251 - 2260 из 2274 записей