📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Ekaterina Shumitskaya, Dmitriy Vatolin, Anastasia Antsiferova

Мы предлагаем новую стратегию защиты для моделей Image Quality Assessment (IQA), основанную на случайном сглаживании в пространстве признаков, а не в пространстве входных данных. Это позволяет сохранить высокое качество изображений, не прибегая к шуму в их прямом представлении. Метод подключает уровни шума в пространстве признаков с помощью вычисления максимального сингулярного значения якобиана сети. Он применим к full- и no-reference IQA моделям без изменений их архитектуры и подходит для различных сценариев использования. Метод эффективен, требуя только одного прохода через сеть, при этом ускоряя вывод в 99.5% при незащищенной и в 20.6% при защищенной версии. Наши эксперименты на двух бенчмарк-данных показали, что наш метод достигает высокой корреляции с субъективными оценками качества в 30.9% больше, чем существующие защищенные алгоритмы.
Annotation:
We propose a novel certified defense method for Image Quality Assessment (IQA) models based on randomized smoothing with noise applied in the feature space rather than the input space. Unlike prior approaches that inject Gaussian noise directly into input images, often degrading visual quality, our method preserves image fidelity while providing robustness guarantees. To formally connect noise levels in the feature space with corresponding input-space perturbations, we analyze the maximum singul...
ID: 2508.05516v1 cs.CV
Авторы:

Matthew Purri, Amit Patel, Erik Deurrell

Увеличивая объем данных в клинических испытаниях, сборка и очистка клинических данных становятся все более трудоемкими и требуют серьезных вложений времени и ресурсов. Данная работа представляет **Octozi**, платформу, использующую большие языковые модели и доменные знания, для ускорения процесса очистки клинических данных. В эксперименте с клиническими рецензентами (n=10), AI-пропускная способность очистки данных увеличилась в 6,03 раза, при этом снизилось количество ошибок с 54,67% до 8,48% (6,44-кратно). Также был снижен объем ложных срабатываний на 15,48 раза, уменьшив нагрузку на клинические центры. Результаты показали значительные выигрыши в повышении производительности и качества рецензирования, независимо от опыта рецензентов. Работа доказывает, что AI-поддерживаемые подходы могут устранить основные неэффективности в клинических процессах, повысив эффективность и скорость разработки лекарств, при этом соблюдая регуляторные требования. Она устанавливает новый фреймворк для интеграции AI в критически важные процессы клинических испытаний.
Annotation:
Clinical trial data cleaning represents a critical bottleneck in drug development, with manual review processes struggling to manage exponentially increasing data volumes and complexity. This paper presents Octozi, an artificial intelligence-assisted platform that combines large language models with domain-specific heuristics to transform clinical data review. In a controlled experimental study with experienced clinical reviewers (n=10), we demonstrate that AI assistance increased data cleaning ...
ID: 2508.05519v1 cs.CV
Авторы:

Shaowu Chen, Wei Ma, Binhua Huang, Qingyuan Wang, Guoxin Wang, Weize Sun, Lei Huang, Deepu John

**Резюме** В статье "Optimal Brain Connection: Towards Efficient Structural Pruning" авторы описывают проблему ограниченности существующих методов структурного урезания нейронных сетей, которые часто игнорируют взаимосвязи между параметрами. Чтобы улучшить эффективность урезания, предложена новая фреймворк Optimal Brain Connection, который включает два ключевых компонента. Во-первых, предложен новый Jacobian Criterion, основанный на первоочередных метриках, для оценки вклада каждого параметра в модель. Этот критерий учитывает не только внутрикомпонентные, но и межслойные взаимосвязи. Во-вторых, предложен Equivalent Pruning, механизм, который использует автоэнкодеры для сохранения вклада удаленных связей в процессе оптимизации. Экспериментальные результаты показали, что предложенные методы превосходят имеющиеся в поддержании модели после урезания и в уменьшении потерь модели. Этот рабочий процесс может значительно улучшить методы урезания нейронных сетей, обеспечивая эффективность и точность.
Annotation:
Structural pruning has been widely studied for its effectiveness in compressing neural networks. However, existing methods often neglect the interconnections among parameters. To address this limitation, this paper proposes a structural pruning framework termed Optimal Brain Connection. First, we introduce the Jacobian Criterion, a first-order metric for evaluating the saliency of structural parameters. Unlike existing first-order methods that assess parameters in isolation, our criterion explic...
ID: 2508.05521v1 cs.CV
Авторы:

Haoyu Liu, Chaoyu Gong, Mengke He, Jiate Li, Kai Han, Siqiang Luo

Модели генерирующих видео становятся все более распространенными, что создает актуальную проблему обнаружения AI-генерируемых и манипулированных видео. Традиционные методы часто не подходят для обнаружения разнообразных типов манипуляций, так как ориентируются только на частичную информацию (пространственную, временную или спектральную). Кроме того, эффективные решения требуют объемных моделей, что ограничивает их применение в реальном мире. В данной работе предлагается SSTGNN — новая легковесная архитектура Spatial-Spectral-Temporal Graph Neural Network, которая представляет видео в виде структурированных графов и обеспечивает совместное разумление пространственных несоответствий, временных артефактов и спектральных деформаций. Архитектура SSTGNN включает в себя обучаемые спектральные фильтры и моделирование временных зависимостей, что позволяет эффективно выделять тонкие следы манипуляций. Эксперименты на различных бенчмарк-датасетах показали, что SSTGNN не только превосходит состояние искуствения в области видео-обнаружения, но и демонстрирует сильную устойчивость к невиденным манипуляциям. Более того, SSTGNN является до 42.4 раз менее параметричным, чем современные модели, что делает его высоко легковесным и скалируемым для реализации в реальных условиях.
Annotation:
The proliferation of generative video models has made detecting AI-generated and manipulated videos an urgent challenge. Existing detection approaches often fail to generalize across diverse manipulation types due to their reliance on isolated spatial, temporal, or spectral information, and typically require large models to perform well. This paper introduces SSTGNN, a lightweight Spatial-Spectral-Temporal Graph Neural Network framework that represents videos as structured graphs, enabling joint...
ID: 2508.05526v1 cs.CV
Авторы:

Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra

Обработка видеоконтента в сети становится все более вызовом, и традиционные методы модерации не могут справиться с таким объемом. Это статья оценивает возможности multimodal large language models (MLLMs) в области multimodal content moderation, особенно для задачи brand safety classification, которая требует точного понимания как текстовых, так и визуальных сигналов. Авторы представляют новый multimodal и multilingual dataset, отмеченный профессиональными модераторами, и проводят сравнительный анализ того, насколько эффективны MLLMs (Gemini, GPT, Llama) по отношению к профессиональным модераторам. Они показывают, что MLLMs демонстрируют высокую точность и экономию затрат, но также раскрывают ограничения и сценарии их неудач. Данная работа сделана с целью поддержки исследований в области safe content moderation и предоставила данные для будущих исследований.
Annotation:
As the volume of video content online grows exponentially, the demand for moderation of unsafe videos has surpassed human capabilities, posing both operational and mental health challenges. While recent studies demonstrated the merits of Multimodal Large Language Models (MLLMs) in various video understanding tasks, their application to multimodal content moderation, a domain that requires nuanced understanding of both visual and textual cues, remains relatively underexplored. In this work, we be...
ID: 2508.05527v1 cs.CV, I.2.10; I.2.7; H.3.3; H.4.3; K.4.1
Авторы:

Federico Spurio, Emad Bahrami, Olga Zatsarynna, Yazan Abu Farha, Gianpiero Francesca, Juergen Gall

**Резюме** В статье представлена новая постановка задачи в рамках темпоральной разметки действий (Temporal Action Segmentation), названная Action Discovery. Эта постановка решает проблему неоднозначности и неполноты аннотаций в задачах сегментации действий, когда только часть действий в тренировочном наборе помечена, а остальные остаются неизвестными и непомеченными. Такая ситуация часто встречается в области нейронаук, где естественно установленные поведения (например, ходьба, есть) соседствуют с неочевидными и редкими действиями, которые обычно не помечаются. Также данная постановка актуальна для приложений с частично заполненными данными из-за неясных или отсутствующих меток. Авторы предлагают двухэтапный подход для решения этой задачи. В первом этапе используется модуль Granularity-Guided Segmentation (GGSM) для определения границ и гранулярности сегментов для как известных, так и неизвестных действий. Во втором этапе используется Unknown Action Segment Assignment (UASA) для ассоциации неизвестных действий с семантически значимыми классами, определяемыми с помощью ембеддингов. Эксперименты на трех сложных наборах данных (Breakfast, 50Salads и Desktop Assembly) показали, что предложенный подход выдает значительные улучшения по сравнению с другими методами. Эта работа открывает путь к эффективному обнаружению действий в сложных и неполностью аннотированных наборах данных.
Annotation:
We introduce Action Discovery, a novel setup within Temporal Action Segmentation that addresses the challenge of defining and annotating ambiguous actions and incomplete annotations in partially labeled datasets. In this setup, only a subset of actions - referred to as known actions - is annotated in the training data, while other unknown actions remain unlabeled. This scenario is particularly relevant in domains like neuroscience, where well-defined behaviors (e.g., walking, eating) coexist wit...
ID: 2508.05529v1 cs.CV
Авторы:

Davide Garavaso, Federico Masi, Pietro Musoni, Umberto Castellani

**Резюме** Целью работы является развитие методов сегментации 3D-объектов для моделирования одетого человека с необходимостью учитывать сложные взаимоотношения между подкладкой и одеждой. Традиционные методы сегментации предполагают дискретные, непересекающиеся классы, что не хватает для полного моделирования одетого человека. В этой работе предлагается новый подход, позволяющий каждой точке 3D-скана принадлежать нескольким слоям одежды одновременно. Этот подход, названный clothed human layering, позволяет определять подкладку и области одежды, скрытые под верхними слоями. Для поддержки исследований разработан новый синтетический датасет с реалистичными 3D-сканами и метками слоёв одежды. Исследования показали, что предложенный подход существенно повышает точность сегментации на обоих синтетических и реальных данных. Таким образом, предложенный метод является прорывом в моделировании одетого человека и может быть применён в сферах, таких как моделирование и анимация.
Annotation:
3D Cloth modeling and simulation is essential for avatars creation in several fields, such as fashion, entertainment, and animation. Achieving high-quality results is challenging due to the large variability of clothed body especially in the generation of realistic wrinkles. 3D scan acquisitions provide more accuracy in the representation of real-world objects but lack semantic information that can be inferred with a reliable semantic reconstruction pipeline. To this aim, shape segmentation play...
ID: 2508.05531v1 cs.GR, cs.CV
Авторы:

Qinghua Yao, Xiangrui Xu, Zhize Li

Многоклиентское обучение глубоких нейронных сетей с отсутствием части признаков широко распространено в практике, но находится в узкой области научных исследований. Одним из основных задач решения данной проблемы являются выравнивание признаков и поддержка локального обучения. В статье предлагается X-VFL — новый подход к вертикальному федеративному обучению (VFL), который устраняет эти ограничения. X-VFL включает два ключевых модуля: Cross Completion (XCom) для построения загруженных признаков недостающих данных, и Decision Subspace Alignment (DS-Align) для выравнивания локальных признаков в глобальном пространстве. Теоретические результаты показывают, что X-VFL обеспечивает эффективное обучение за счет $O(1/\sqrt{T})$ для SGD-типа и $O(1/T)$ для PAGE-типа. Эксперименты на реальных данных (CIFAR-10 и MIMIC-III) продемонстрировали значительные улучшения в достижении точности в 15% и 43% соответственно, что подтверждает практическую эффективность X-VFL в решении задач с отсутствием признаков и независимым локальным обучением.
Annotation:
Vertical Federated Learning (VFL) enables collaborative learning by integrating disjoint feature subsets from multiple clients/parties. However, VFL typically faces two key challenges: i) the requirement for perfectly aligned data samples across all clients (missing features are not allowed); ii) the requirement for joint collaborative inference/prediction involving all clients (it does not support locally independent inference on a single client). To address these challenges, we propose X-VFL, ...
ID: 2508.05568v1 cs.LG, cs.CV, cs.DC, math.OC
Авторы:

Kunyu Feng, Yue Ma, Xinhua Zhang, Boshi Liu, Yikuang Yuluo, Yinhan Zhang, Runtao Liu, Hongyu Liu, Zhiyuan Qin, Shanhui Mo, Qifeng Chen, Zeyu Wang

В связи с повышением спроса на AI-generated content (AIGC), возникает необходимость в высококачественной, разнообразной и масштабируемой данной для обеспечения развития последующих приложений. Однако сбор больших объемов настоящих данных остается дорогим и трудоемким, что способствует ограниченности в развитии в области генерируемого контента. Чтобы решить эту проблему, предлагается Follow-Your-Instruction — рамфреймворк, основанный на многомодальных больших языковых моделях (MLLM), для автоматического создания высококачественных данных в 2D, 3D и 4D. Он собирает активы и их описания с помощью MLLM-Collector, строит 3D-раскладки, использует Vision-Language Models (VLMs) для семантического очистки в многовидовых сценах с помощью MLLM-Generator и MLLM-Optimizer, и создает коалительно выбранные последующие кадры с помощью MLLM-Planner. Эксперименты показали, что данные, сгенерированные Follow-Your-Instruction, существенно улучшают производительность существующих моделей, демонстрируя свою масштабируемость и эффективность в качестве данной для генерируемого контента.
Annotation:
With the growing demands of AI-generated content (AIGC), the need for high-quality, diverse, and scalable data has become increasingly crucial. However, collecting large-scale real-world data remains costly and time-consuming, hindering the development of downstream applications. While some works attempt to collect task-specific data via a rendering process, most approaches still rely on manual scene construction, limiting their scalability and accuracy. To address these challenges, we propose F...
ID: 2508.05580v1 cs.CV
Авторы:

Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin

**Резюме** Open-Vocabulary Multi-Label Recognition (OV-MLR) — задача определения объектов в изображении, включая как знакомые, так и незнакомые классы. Она требует точной локализации объектов в пределах класса (intra-class localization) и эффективной связности между классами (inter-class reasoning). Vision-Language Pre-training (VLP) модели, хотя и обладают сильной возможностью распознавания open-vocabulary, часто сталкиваются с проблемами точной локализации и недостаточным использованием структурированной значимости между классами. Мы предлагаем Dual Adaptive Refinement Transfer (DART) — новую структуру, которая решает эти проблемы. DART использует два модуля: Adaptive Refinement Module (ARM) для улучшения интра-классной локализации с помощью Weakly Supervised Patch Selecting (WPS) и Adaptive Transfer Module (ATM) для передачи связности между классами, основываясь на Class Relationship Graph (CRG), построенном с помощью Large Language Model (LLM). DART становится первым фреймворком, который совместно использует LLM-derived relational knowledge для решения задачи inter-class transfer и улучшает intra-class refinement в условиях weak supervision. Эксперименты показывают, что DART достигает нового состояния искусств в OV-MLR, подтверждая свою эффективность.
Annotation:
Open-Vocabulary Multi-Label Recognition (OV-MLR) aims to identify multiple seen and unseen object categories within an image, requiring both precise intra-class localization to pinpoint objects and effective inter-class reasoning to model complex category dependencies. While Vision-Language Pre-training (VLP) models offer a strong open-vocabulary foundation, they often struggle with fine-grained localization under weak supervision and typically fail to explicitly leverage structured relational k...
ID: 2508.05585v1 cs.CV
Показано 11501 - 11510 из 11614 записей