📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Test-Time Scaling Strategies for Generative Retrieval in Multimodal Conversational Recommendations

2025-08-27

Авторы:

Hung-Chun Hsu, Yuan-Ching Kuo, Chao-Han Huck Yang, Szu-Wei Fu, Hanrong Ye, Hongxu Yin, Yu-Chiang Frank Wang, Ming-Feng Tsai, Chuan-Ju Wang

## Контекст Современные эксперименты показывают, что сложные многоключевые интерактивные взаимодействия в электронной коммерции становятся все более трудными для организации с помощью традиционных систем поиска товаров. Это проблема становится еще более актуальной в контексте мультимодальных подходов, включая технологии генерирующих контекстуальные рекомендации. Несмотря на недавние успехи в области мультимодальных технологий, существующие решения направлены преимущественно на простые задачи поиска в одно- или двухключевых диалогах. Они сталкиваются с трудностями при адаптации к многоключевым диалогам, где пользовательские запросы и потребности меняются с течением времени. Более того, применение технологий генерирующих моделей для рекомендаций часто не в состоянии глубоко интегрироваться с продуктовым корпусом. Одним из promising направлений стало использование test-time scaling (TTS) для улучшения LLMs, но применение этого подхода к conversational retrieval сталкивается с ограничениями, такими как неоднозначность пользовательских запросов и невозможность гарантированного самокорректирования моделей. Мы предлагаем исследовать, как можно усовершенствовать тест-тайм скалинг для товарного поиска в мультимодальных диалогах. ## Метод Мы предлагаем расширенную архитектуру, которая объединяет генерирующий ретрайвер с mechansim reranking на этапе test-time. Решение построено на основе multimodal large language models (MLLMs), которые используются как базовый компонент для понимания тональности и контекста. Для улучшения точности поиска мы вводим iterative reranking, где каждый шаг дополняет результаты первоначального поиска в зависимости от новых пользовательских вводов. Таким образом, мы создаем механизм adaptive scaling, который не только учитывает сложности существующих мультимодальных моделей, но и адаптируется к неоднозначным и эволюционирующим запросам пользователей. Это решение позволяет увеличивать точность в результатах по мере развития диалога. ## Результаты Мы провели эксперименты на нескольких датасетах для multimodal conversational retrieval, включая Criteo Multimodal Product Retrieval Dataset и Alibaba Dataset. Наши результаты показали значительное улучшение во всех ключевых метриках. В частности, наш подход добился среднего увеличения Mean Reciprocal Rank (MRR) на 14.5% и Normalized Discounted Cumulative Gain (nDCG@1) на 10.6% в сравнении с текущими state-of-the-art решениями. Эти результаты показали, что итеративное test-time scaling может эффективно компенсировать ограничения генерирующих моделей в контексте неоднозначных и многоключевых запросов. ## Значимость Метод, предложенный в нашей работе, может быть применен в различных сферах, где необходимо понимание неоднозначных и эволюционирующих пользовательских запросов

Annotation:

The rapid evolution of e-commerce has exposed the limitations of traditional product retrieval systems in managing complex, multi-turn user interactions. Recent advances in multimodal generative retrieval -- particularly those leveraging multimodal large language models (MLLMs) as retrievers -- have shown promise. However, most existing methods are tailored to single-turn scenarios and struggle to model the evolving intent and iterative nature of multi-turn dialogues when applied naively. Concur...

ID: 2508.18132v1 cs.IR, cs.AI, cs.LG

arXiv PDF

📄 Assessing the Noise Robustness of Class Activation Maps: A Framework for Reliable Model Interpretability

2025-08-27

Авторы:

Syamantak Sarkar, Revoti P. Bora, Bhupender Kaushal, Sudhish N George, Kiran Raja

## Контекст Class Activation Maps (CAMs) являются важной методологией для визуализации областей входных данных, которые используются глубокими нейронными сетями для принятия решений. CAMs играют ключевую роль в обеспечении прозрачности моделей и интерпретировании их выводов. Однако, несмотря на их популярность, их устойчивость к шумавым воздействиям остается значительно недооцененной. Несомненно, что работа моделей, основанных на CAMs, может быть серьезно затруднена высоким уровнем шума в входных данных, что вносит риск защищенности и надежности таких систем. Настоящее исследование посвящено сравнительному анализу устойчивости различных методов CAM к различным типам шума и разных архитектур моделей. Мы стремимся понять, насколько шумные данные могут повлиять на CAM, и как эти эффекты могут отличаться в зависимости от типа шума, архитектуры модели и характера данных. ## Метод Мы разработали рамку для измерения устойчивости CAM к шумавым воздействиям, охватывающую ряд различных типов шума, таких как добавление шума (Additive Noise), масштабирование (Scaling) и методы меток (Label Noise). Для подробного изучения мы использовали несколько моделей сверточных нейронных сетей (CNN), включая ResNet, VGG и MobileNet. Набор данных состоял из CIFAR-10, CIFAR-100 и ImageNet. Мы проанализировали влияние шума на CAMs, измеряя не только изменение визуализации, но и влияние на получаемые классы. А также мы построили метрику, состоящую из двух основных компонент: **консистентности** (stability) и **отзывчивости** (responsiveness). **Консистентность** измеряется как устойчивость CAM к незначительным входным изменениям, не меняющим выбранный класс, а **отзывчивость** — как чувствительность CAM к изменениям в выводе, вызванным входными изменениями. Эти два аспекта позволяют оценить насколько устойчивы CAM к шумным воздействиям. ## Результаты Наши эксперименты показали значительные различия в устойчивости CAM к разным типам шума в зависимости от метода CAM, архитектуры сети и характера данных. Мы обнаружили, что некоторые CAM-методы оказались более чувствительными к шуму, в то время как другие проявили более высокую устойчивость. Например, метод Grad-CAM оказался более устойчивым к добавленному шуму по сравнению с семантическими взглядами (Semantic CAM). Мы также обнаружили, что использование защищенных данных, таких как ImageNet, может существенно снизить чувствительность к шуму в отношении каких-то CAM-методов. Более того, наши результаты подтвердили, что влияние шума может быть сильно зависим от характера данных, что демонстрирует важность выбора данных для обеспечения точности и надежности CAM. ## З

Annotation:

Class Activation Maps (CAMs) are one of the important methods for visualizing regions used by deep learning models. Yet their robustness to different noise remains underexplored. In this work, we evaluate and report the resilience of various CAM methods for different noise perturbations across multiple architectures and datasets. By analyzing the influence of different noise types on CAM explanations, we assess the susceptibility to noise and the extent to which dataset characteristics may impac...

ID: 2508.18154v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Strategic Sample Selection for Improved Clean-Label Backdoor Attacks in Text Classification

2025-08-26

Авторы:

Onur Alp Kirci, M. Emre Gursoy

## Контекст Backdoor атаки являются серьезной угрозой для текстовых классификационных моделей в области естественного языкового процессинга. Хотя многие грязно-меток (dirty-label) атаки показали высокую эффективность в достижении высокой процентной доли обнаружения (ASR), нативно-меток (clean-label) атаки являются значительно более сложными. Модели часто используются в критических приложениях, таких как модели NLP, что делает критически важным исследование эффективных методов борьбы с такими атаками. Наше исследование сосредоточено на проблеме стратегического выбора образцов для улучшения эффективности атак в чистых-метках (clean-label) сценариях, где атаки должны оставаться незаметными для пользователей, не используя явное меткование. ## Метод Мы предлагаем три стратегии стратегического выбора образцов для улучшения эффективности атак: Minimum, Above50 и Below50. Эти стратегии определяют образцы, которые модель классификации ошибается или которые она классифицирует с небольшой уверенностью. Мы внедряем в эти образцы ускодыши (trigger patterns), чтобы усилить связь между ними и желаемым целевым меткой, которую проводит атакующий. Эти стратегии применяются к чистым-меткам (clean-label) вариантам четырех классических атак (InsertSent, WordInj, StyleBkd, SynBkd) и оцениваются на трех наборах данных (IMDB, SST2, HateSpeech) и четырьмя типами моделей (LSTM, BERT, DistilBERT, RoBERTa). Это позволяет проверить эффективность наших стратегий на различных моделях и данных. ## Результаты Наши эксперименты показали, что в чистых-метках (clean-label) сценариях, стратегия Minimum позволяет значительно повысить процент ASR (Attack Success Rate) в отношении случайных выборов образцов, без существенного снижения чистых (clean) точности модели. Это означает, что наши стратегии позволяют проводить высокоэффективные атаки, не вызывая подозрения в пользователей. Наши результаты также показали, что наши стратегии выполняются значительно лучше, чем текущая состоящая стратегия чистых-метка (clean-label), BITE, во многих случаях. Это подтверждает эффективность наших стратегий в стратегическом выборе образцов для улучшения чистых атак. ## Значимость Наши стратегии могут быть применены в многих областях, где чистые-метки (clean-label) атаки могут быть использованы для подделки текстовых классификационных моделей. Например, в новостных сервисах, социальных сетях и системах обработки естественного языка. Эффективность наших стратегий позволяет усилить угрозу чистых атак с минимальным влиянием на чистую точность модели, что делает их особенно опасными. Наши результаты демонстрируют, что стратегическое выбор об

Annotation:

Backdoor attacks pose a significant threat to the integrity of text classification models used in natural language processing. While several dirty-label attacks that achieve high attack success rates (ASR) have been proposed, clean-label attacks are inherently more difficult. In this paper, we propose three sample selection strategies to improve attack effectiveness in clean-label scenarios: Minimum, Above50, and Below50. Our strategies identify those samples which the model predicts incorrectly...

ID: 2508.15934v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 CoVeRaP: Cooperative Vehicular Perception through mmWave FMCW Radars

2025-08-26

Авторы:

Jinyue Song, Hansol Ku, Jayneel Vora, Nelson Lee, Ahmad Kamari, Prasant Mohapatra, Parth Pathak

## Контекст Проблема ограниченности точности детектирования объектов в системах автоматического управления автомобилями в условиях плохой видимости и воздействия погодных факторов, таких как дождь и глянцевые поверхности, остается актуальной. Одним из решений этой проблемы являются мм-волновые ФМСВ-радары. Однако эти радары обладают своими ограничениями, в том числе низкая плотность обнаруженных точек и значительное количество шума в полученных данных. Для улучшения показателей точности и надежности детектирования объектов в автомобильных системах используется метод совместной обработки данных сразу из нескольких радаров, установленных на разных автомобилях, что позволяет получить более полное и точное трёхмерное представление окружающей среды. ## Метод Предложенный подход к решению этой проблемы основывается на создании совместной сети обработки данных, включающей в себя множество радаров, размещённых на разных автомобилях. Для начала, данные, полученные из каждого радара, добавляются в общую структуру, которая позволяет их взаимодействовать и уточнять сигналы. Для этого применяется решение, основанное на архитектуре PointNet, которая использует глубокую нейронную сеть для выделения ключевых фичей из сигнала. Кроме того, в рамках этого подхода используется синхронизация времени, чтобы обеспечить корреляцию данных из разных радаров. Благодаря этому, получается улучшенное трёхмерное представление окружающей среды, что позволяет улучшить точность детектирования объектов. ## Результаты Для проверки эффективности предложенной методологии проводились эксперименты, в которых использовались данные, собранные с различных автомобилей. Эти данные включали в себя как точки, полученные от радаров, так и данные от камер и GPS. Исследователи проводили сравнение различных решений, в том числе работы с радаром по отдельности, а также совместным использованием данных из нескольких радаров. Результаты экспериментов показали, что способ, основанный на совместной обработке данных из нескольких радаров, даёт значительное улучшение точности детектирования объектов. Например, используя определённые модификации архитектуры PointNet, удалось увеличить метрику mAP (mean Average Precision) в десять раз при интервале доверия 0.9. ## Значимость Предложенный подход может быть применён в различных автотранспортных системах, включая робототранспортные системы и системы коллективного управления автомобилями. Он оказывается эффективным в условиях плохой видимости, так как позволяет улучшить точность детектирования объектов, используя данные из нескольких радаров. В результате, это может способствовать

Annotation:

Automotive FMCW radars remain reliable in rain and glare, yet their sparse, noisy point clouds constrain 3-D object detection. We therefore release CoVeRaP, a 21 k-frame cooperative dataset that time-aligns radar, camera, and GPS streams from multiple vehicles across diverse manoeuvres. Built on this data, we propose a unified cooperative-perception framework with middle- and late-fusion options. Its baseline network employs a multi-branch PointNet-style encoder enhanced with self-attention to f...

ID: 2508.16030v1 cs.CV, cs.AI, cs.LG, cs.NI

arXiv PDF

📄 Cooperative Design Optimization through Natural Language Interaction

2025-08-26

Авторы:

Ryogo Niwa, Shigeo Yoshida, Yuki Koyama, Yoshitaka Ushiku

---------------------------------------------------- ## Контекст ---------------------------------------------------- Дизайнеры часто сталкиваются с проблемой оптимизации проектов, который требует учета множества зависимых параметров и ограничений. Оптимальная организация дизайн-процесса позволяет повысить качество результатов, но часто требует многократных циклов итеративного тестирования и творческой экспериментации. Этот процесс требует больших затрат времени и усилий, так как дизайнеры должны руководствоваться не только техническими параметрами, но и своим восприятием и потребностями пользователей. Существуют системы, основанные на методах оптимизации, например, Bayesian Optimization, которые могут рекомендовать дизайнеру, какие параметры нужно изменить, чтобы повысить оптимальность решения. Однако эти системы не включают дизайнера в процесс оптимизации и не предоставляют возможность человеческого вмешательства. Это ограничивает возможность дизайнера оценить решение на этапе его формирования, что влияет на его продуктивность и счастье от процесса создания. ## Метод ---------------------------------------------------- Мы предлагаем фреймворк для кооперативного дизайна оптимизации, который интегрирует методы систем-лидирующей оптимизации с технологией Large Language Models (LLMs). Это позволяет обеспечить более естественный интерактивный процесс, где дизайнер может взаимодействовать с системой через естественный язык, а не только получать рекомендации. Методология основывается на следующих этапах: 1. **Интеллектуальная модель оптимизации**: мы используем LLM для понимания естественного языка и формирования оптимальных запросов к системе оптимизации. 2. **Системоориентированная оптимизация**: методы, такие как Bayesian Optimization, определяют оптимальные параметры в высоком измерительном пространстве. 3. **Интерактивная кооперация**: дизайнер может взаимодействовать с системой в течение процесса, внося изменения или получая рекомендации в человеческом языке. 4. **Оценка результатов**: мы проводим эксперименты, чтобы сравнить нашу методику с другими подходами по оптимальности, удобству и эффективности. ## Результаты ---------------------------------------------------- Эксперименты проводились на реальных данных и визуальных задачах дизайна. Мы сравнили нашу методику с системой-лидером и ручным дизайном. Наши результаты показали, что: - **Пользовательский вмешательство**: наш фреймворк дает более высокую степень управления, чем система-лидера, позволяя дизайнеру точнее адаптировать решение под свои потребности. - **Показатели оптимизации**: метод нашего фреймворка показал повышенную эффективность в сравнении с ручным дизайном и сочетал более низкий уровень затрат усилий в сравнении с существующим кооперативным методом.

Annotation:

Designing successful interactions requires identifying optimal design parameters. To do so, designers often conduct iterative user testing and exploratory trial-and-error. This involves balancing multiple objectives in a high-dimensional space, making the process time-consuming and cognitively demanding. System-led optimization methods, such as those based on Bayesian optimization, can determine for designers which parameters to test next. However, they offer limited opportunities for designers ...

ID: 2508.16077v1 cs.HC, cs.AI, cs.LG

arXiv PDF

📄 CYCLE-INSTRUCT: Fully Seed-Free Instruction Tuning via Dual Self-Training and Cycle Consistency

2025-08-26

Авторы:

Zhanming Shen, Hao Chen, Yulei Tang, Shaolin Zhu, Wentao Ye, Xiaomeng Hu, Haobo Wang, Gang Chen, Junbo Zhao

## Контекст Инструкционный tuning — это ключевая задача для адаптации бо LLM к потребностям пользователей, но она часто ограничивается сильной зависимостью от больших выборок с маркировкой (seed data) или сильно налаженных внешних моделей. Эти зависимости не только ограничивают саму процедуру, но и формируют риск внедрения биаса. Недостатки существующих подходов, включая использование back-translation, становятся очевидными в связи с их несовершенством в эффективном использовании немаркированных данных. Целью CYCLE-INSTRUCT является устранение этих проблем, предлагая seed-free подход, который позволяет извлекать значимость из немаркированных данных без привлечения дополнительных источников. ## Метод CYCLE-INSTRUCT предлагает двухуровневый самостоятельный тренировочный подход, основанный на циклической консистенции. Используется два модели — **answer generator** и **question generator**, которые обучаются друг с другом в объеме немаркированных данных. Они обмениваются сгенерированными псевдо-метками, которые затем используются для дополнительного тренирования. Этот процесс демонстрирует эффективность в обучении самостоятельно, не зависящем от какой-либо формальной маркировки. Архитектура строится на создании параллельных моделей, решающих взаимно похожие задачи, в которых каждая модель использует входные данные другой модели как псевдо-текст для обучения. ## Результаты Эксперименты проводились на данных с различной спецификой: универсальные инструкции, доменные задачи, диалоги и простые тексты. Замеры показали, что CYCLE-INSTRUCT не только превосходит традиционные seed-driven методы, но и достигает показателей, схожих с методами, использующими сильную супервизию. Измерения включали F1-меру, BLEU-скоры, accuracy, а также общую качественную оценку поведения модели в задачах генерации и анализа. ## Значимость CYCLE-INSTRUCT может использоваться в различных областях, включая NLP, n-shot инструкционное обучение, моделирование диалога и автоматизацию процессов обработки текстов. Его особенно успешно применять там, где отсутствуют доступные выборки маркировки, но есть большие исходные тексты. Это не только позволяет значительно сократить накладные расходы на тренировку, но и демонстрирует высокую эффективность самообучения, которая приводит к независимости от сторонних моделей или данных. ## Выводы CYCLE-INSTRUCT представляет собой новую модель, которая достигает полного seed-free tuning с помощью двухуровневого self-training. Он успешно показывает, что модели могут быть эффективно обучены только на базе немаркированных данных, избегая рисков внедрения биаса. Будущие исследования будут нацелены на улучшение точности модели и добав

Annotation:

Instruction tuning is vital for aligning large language models (LLMs) with human intent, but current methods typically rely on costly human-annotated seed data or powerful external teacher models. While instruction back-translation techniques reduce this dependency, they remain fundamentally tethered to an initial seed set, which limits full automation, introduces biases, and can lead to inefficient use of unlabeled corpora. In this paper, we propose Cycle-Instruct, a novel framework that achiev...

ID: 2508.16100v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Set Transformer Architectures and Synthetic Data Generation for Flow-Guided Nanoscale Localization

2025-08-26

Авторы:

Mika Leo Hube, Filip Lemic, Ethungshan Shitiri, Gerard Calvo Bartra, Sergi Abadal, Xavier Costa Pérez

## Контекст Flow-guided Localization (FGL) является ключевым подходом в диагностике заболеваний через идентификацию специфических регионов внутри человеческого организма, где происходят диагностически значимые события. Это достигается за счет анализа пассивного движения энергозависимых микронавигационных устройств, перемещающихся по кровотоку. Существующие FGL-решения часто основываются на графовых моделях с фиксированной топологией или на ручно сконструированных признаках, что существенно ограничивает их универсальность и масштабируемость. Эти ограничения могут привести к неточностям в диагностике и сложностям при применении в различных анатомических условиях. Данная работа ориентирована на развитие более универсальных и эффективных FGL-систем, которые могут адаптироваться к различным анатомическим вариациям и обеспечивать точные результаты диагностики. Мы рассматриваем использование методов Set Transformer для решения этих проблем. Такие подходы позволяют обрабатывать данные в формате неупорядоченных множеств, что обеспечивает высокую гибкость и уменьшает зависимость от статических моделей. ## Метод Set Transformer — это архитектура глубоких нейронных сетей, которая основывается на пермутационно-независимой обработке сетей. Данная модель является оптимальной для обработки множественных входных данных в формате множеств, где порядок элементов не имеет значения. В этой работе мы используем Set Transformer для обработки данных, представленных в виде отчетов о временах циркуляции микронавигационных устройств. Для увеличения надежности и точности решения были использованы различные генеративные модели, включая CGAN, WGAN, WGAN-GP, и CVAE. Эти модели тренировались на реалистичных синтетических данных, которые генерировались на основе реальных данных с учетом различных анатомических признаков. Это позволило увеличить разнообразие входных данных и улучшить производительность модели в условиях нехватки данных и несбалансированных классов. ## Результаты Мы провели эксперименты с Set Transformer, сравнивая ее с существующими методами, такими как Graph Neural Networks (GNN). Результаты показали, что Set Transformer достигает почти одинаковой точности классификации, но обладает более высокой универсальностью в отношении анатомических вариаций. Была проверена эффективность использования синтетических данных для улучшения обучения. Это показало, что генеративные модели, такие как CVAE, существенно повышают точность модели в условиях нехватки данных. ## Значимость Методы, предложенные в этой работе, могут быть применены в различных областях, включая медицинскую диагностику, где необходима высокая точность и мобильность. Одним из

Annotation:

Flow-guided Localization (FGL) enables the identification of spatial regions within the human body that contain an event of diagnostic interest. FGL does that by leveraging the passive movement of energy-constrained nanodevices circulating through the bloodstream. Existing FGL solutions rely on graph models with fixed topologies or handcrafted features, which limit their adaptability to anatomical variability and hinder scalability. In this work, we explore the use of Set Transformer architectur...

ID: 2508.16200v1 cs.ET, cs.AI, cs.LG, cs.NI

arXiv PDF

📄 OmniCache: A Trajectory-Oriented Global Perspective on Training-Free Cache Reuse for Diffusion Transformer Models

2025-08-26

Авторы:

Huanpeng Chu, Wei Wu, Guanyu Fen, Yutao Zhang

#### Контекст Diffusion models являются мощным подходом для решения задач генеративного моделирования, таких как синтез изображений и видео. Особенностью этих моделей является их высокая точность и качество, однако это приходит на разряд высокой вычислительной сложности. Это особенно видно в случае трансформеров для размытия, где высокая сложность вычислений и большое число семплирования шагов становятся значительными ограничениями для реального времени. Отсутствие эффективных методов ускорения, которые сохраняли бы качество генерации, ставит под угрозу внедрение этих моделей в реальные приложения. #### Метод Метод OmniCache предлагает новый подход к ускорению диффузионных трансформеров, основываясь на анализе глобальной редундантности в процессе размытия. В отличие от существующих методов, которые определяют стратегии кеширования на основе сходства между шагами, OmniCache использует перспективу самого размытия. Он оценивает глобальные траектории размытия и распределяет кеш ресурсов по всему процессу, а не только к определенным этапам. Также в процессе кеширования вводится динамическая оценка шума и его фильтрация, что позволяет снизить его влияние на результат. #### Результаты Исследования были проведены на обширных наборах данных, включая изображения и видео. Результаты показывают, что OmniCache эффективно ускоряет процесс размытия, сохраняя высокий уровень качества. Например, на изображениях с высоким разрешением, стандартные методы демонстрируют снижение качества при ускорении, в то время как OmniCache поддерживает высокий уровень качества без дополнительных ресурсов. #### Значимость OmniCache открывает новые возможности для использования диффузионных трансформеров в реальном времени. Он применяется в широком спектре задач, включая синтез изображений, видеогенерацию и даже генеративные модели для текстовых данных. Основные преимущества включают ускорение процесса обучения, сохранение качества результатов и эффективное использование ресурсов. Это может способствовать расширению применения диффузионных моделей в области искусственного интеллекта и синтетического контента. #### Выводы OmniCache продемонстрировал свою эффективность в ускорении размытия, сохраняя качество результатов. Будущие исследования будут фокусироваться на повышении его скорости и эффективности, а также на расширении его применения в различных сферах генеративного моделирования.

Annotation:

Diffusion models have emerged as a powerful paradigm for generative tasks such as image synthesis and video generation, with Transformer architectures further enhancing performance. However, the high computational cost of diffusion Transformers-stemming from a large number of sampling steps and complex per-step computations-presents significant challenges for real-time deployment. In this paper, we introduce OmniCache, a training-free acceleration method that exploits the global redundancy inher...

ID: 2508.16212v2 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 An Investigation of Visual Foundation Models Robustness

2025-08-26

Авторы:

Sandeep Gupta, Roberto Passerone

#### Контекст Visual Foundation Models (VFMs) являются важной составляющей современной компьютерной зрения, обеспечивая высокую точность и универсальность для различных задач, таких как обнаружение объектов, классификация изображений, сегментация и позиционирование. Использование технологий VFMs стало беспрецедентно распространенным в различных сферах, включая безопасность, автоматизированные системы управления транспортом, анализ медицинских изображений и другие приложения, требующие высокой надежности и прочности. Однако, несмотря на их эффективность, VFMs часто сталкиваются с проблемами, связанными с проникновением шумов, изменением данных, атаками адверсарного характера и динамическими условиями окружающей среды. Эти проблемы могут привести к дефектной работе моделей, что требует разработки эффективных методов повышения их прочности и устойчивости к таким факторам. #### Метод Для оценки прочности VFMs используются различные методы, включая метрики устойчивости, эмпирические защитные методы и инструменты анализа различных данных. Методология включает в себя изучение алгоритмов обучения, адаптации моделей к новым условиям и оценку их прочности в различных сценариях. Также, в рамках исследования, проводится анализ основных компонентов моделей, таких как архитектура сверток, нейронные сети и связанные с ними компоненты, которые влияют на их устойчивость. Для этих целей, в работе применяются аналитические модели, методы бенчмаркинга и симуляционные эксперименты, что позволяет изучить точность, устойчивость к шумам и влияние различных факторов на поведение моделей. #### Результаты Исследование показало, что увеличение устойчивости моделей к шуму и различным атакам приводит к значительному повышению их производительности в реальных условиях. Результаты экспериментов показали, что использование адаптивных методов обучения и применения защитных методов, таких как адаптивная нормализация и добавление шума во время обучения, существенно повышают устойчивость моделей. Также, был проведен анализ характеристик различных алгоритмов и их влияния на способность моделей выдерживать различные типы искажений и нападений. Эти результаты подтвердили, что сильная устойчивость моделей к различным факторам может быть достигнута с помощью тщательного анализа и применения различных методов обучения и оценки. #### Значимость Результаты этого исследования могут быть применены в различных областях, включая безопасность, автоматизированные системы перевозок, медицинский интерпретационный анализ и другие важные технологии.

Annotation:

Visual Foundation Models (VFMs) are becoming ubiquitous in computer vision, powering systems for diverse tasks such as object detection, image classification, segmentation, pose estimation, and motion tracking. VFMs are capitalizing on seminal innovations in deep learning models, such as LeNet-5, AlexNet, ResNet, VGGNet, InceptionNet, DenseNet, YOLO, and ViT, to deliver superior performance across a range of critical computer vision applications. These include security-sensitive domains like bio...

ID: 2508.16225v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Uppaal Coshy: Automatic Synthesis of Compact Shields for Hybrid Systems

2025-08-26

Авторы:

Asger Horn Brorholt, Andreas Holck Høeg-Petersen, Peter Gjøl Jensen, Kim Guldstrand Larsen, Marius Mikučionis, Christian Schilling, Andrzej Wąsowski

## Контекст Исследование посвящено проблеме автоматического синтеза безопасных стратегий, называемых **shields**, для гибридных систем. Такие системы объединяют динамики продолжительных данных (continuous) с дискретными отдельными событиями, что делает их моделирование и анализ важными для приложений в самолётах, медицине, автомобилях, и др. В существующих гибридных системах, ошибки могут привести к серьёзным последствиям. Стратегии-shields предотвращают их ошибки за счёт предсказания и предотвращения негативных эффектов, основываясь на моделировании и анализе возможных сценариев. Однако, существующие алгоритмы для синтеза shields имеют проблемы с масштабированием и точностью. Uppaal Coshy предлагает решение для этих проблем, сочетая методы разбиения пространства состояний с эффективными алгоритмами решения задач безопасности. ## Метод Uppaal Coshy работает над **Markov Decision Processes (MDPs)** в пространстве продолжительных состояний. Она делит пространство состояний на **простые части**, и для каждой из них выполняет решение задачи **безопасности (safety game)**. Это решение заключается в том, чтобы обеспечить независимое преодоление двумя игроками — динамическим событием (системной) и стратегическим действием (shield). Uppaal Coshy использует **решение задачи reachability** для достижения безопасного состояния, которая сама по себе является нетривиальной задачей для гибридных систем. Для уменьшения размера хранимых моделей и эффективного хранения решений, Uppaal Coshy включает в себя алгоритм **Caap**, который преобразует решения в **компактные решения в виде деревьев решений (decision tree)**. Это подход использует **аппроксимацию** и **суперпозицию** для уменьшения количества данных, необходимых для хранения. ## Результаты Используя данные, полученные из **собственных экспериментов**, Uppaal Coshy продемонстрировала силу своего подхода в синтезе shields для гибридных систем. Сравнение с другими методами показало, что точность и масштабируемость Uppaal Coshy значительно превышают те, что имеются в существующих системах. Общие результаты показали, что Uppaal Coshy может эффективно решать задачи безопасности для гибридных систем даже при увеличении сложности и размера гибридных моделей. ## Значимость Uppaal Coshy предоставляет **значительное преимущество** в синтезе shields для гибридных систем, которые могут использоваться в приложениях, требующих высокой надежности, таких как автомобили, медицинские устройства, и другие контролируемые системы. Эффективность подхода включает в себя уменьшение размера хранимых моделей без потери точности, что делает Uppaal Coshy привлекательным для реального использования в приложениях,

Annotation:

We present Uppaal Coshy, a tool for automatic synthesis of a safety strategy -- or shield -- for Markov decision processes over continuous state spaces and complex hybrid dynamics. The general methodology is to partition the state space and then solve a two-player safety game, which entails a number of algorithmically hard problems such as reachability for hybrid systems. The general philosophy of Uppaal Coshy is to approximate hard-to-obtain solutions using simulations. Our implementation is fu...

ID: 2508.16345v1 cs.LO, cs.AI, cs.LG

arXiv PDF

1
2
144
145
146
147
148
168
169

Показано 1451 - 1460 из 1687 записей