📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Mohamed Eltahir, Osamah Sarraj, Abdulrahman Alfrihidi, Taha Alshatiri, Mohammed Khurd, Mohammed Bremoo, Tanveer Hussain

## Контекст Видео-текстовые бенчмарки, такие как DiDeMo и MSR-VTT, широко используются для измерения качества методов взаимодействия между видео и текстом. Однако эти бенчмарки производились практически исключительно на английском языке, что ограничивает их применимость к другим языкам, в том числе и арабскому. Это является проблемой, поскольку многие регионы, включая Арабский мир, остаются за пределами этих исследований. Одновременно, рост многоязычных моделей и технологий преобразования языка (LLMs) позволяет рассматривать возможность локализации таких бенчмарков на неанглоязычных языках. Мотивация для AutoArabic заключается в устранении этой проблемы, предоставив Арабский язык возможность участвовать в этих исследованиях, а также дать новый взгляд на сравнение методов в локальных условиях. ## Метод AutoArabic представляет собой трехэтапный фреймворк, разработанный с использованием новейших технологий машинного обучения. В первой стадии бенчмарки на английском языке (например, DiDeMo) локализуются с помощью глубоко обученных LLMs, чтобы перевести текст на модернский арабский язык. Вторая стадия включает в себя автоматическую проверку перевода с использованием анализа тональности и частоты слов, чтобы выявить потенциальные ошибки. На третьей стадии производится машинное обучение с использованием полученных локализованных данных. Этот процесс упрощает ручную проверку и позволяет получать финальные локализованные данные с меньшим числом ошибок. Фреймворк также включает модуль для автоматического обнаружения ошибок, который показывает 97% точности в выявлении неточностей в переводе. ## Результаты Авторы применяли AutoArabic к DiDeMo, чтобы получить локализованную версию DiDeMo-AR, содержащую 40 144 арабских описаний видео. Эти описания были проверены машинным обучением, и их качество было сравнено с оригинальным бенчмарком DiDeMo. Результаты показали, что Recall@1 для локализованной версии DiDeMo-AR отличается от оригинального бенчмарка на 3 процентных пункта. Это указывает на то, что локализация бенчмарка на арабский язык сохраняет сложность и вызовы, связанные с оригинальным бенчмарком. Кроме того, авторы обнаружили, что значительная часть ошибок в переводе может быть найдена с помощью автоматического модуля, что позволяет оптимально распределить усилия по проверке. ## Значимость Фреймворк AutoArabic открывает возможность локализации бенчмарков на неанглоязычных языках, в том числе и арабскому. Это может сыграть ключевую роль в расширении применения методов взаимодействия между видео и текстом в Арабских странах и для их
Annotation:
Video-to-text and text-to-video retrieval are dominated by English benchmarks (e.g. DiDeMo, MSR-VTT) and recent multilingual corpora (e.g. RUDDER), yet Arabic remains underserved, lacking localized evaluation metrics. We introduce a three-stage framework, AutoArabic, utilizing state-of-the-art large language models (LLMs) to translate non-Arabic benchmarks into Modern Standard Arabic, reducing the manual revision required by nearly fourfold. The framework incorporates an error detection module t...
ID: 2509.16438v1 cs.CV, cs.CL
Авторы:

Shubhashis Roy Dipta, Tz-Ying Wu, Subarna Tripathi

#### Контекст Видео-капшены (video captions) представляют собой компактные снимки сюжета, описывающие актеров, объекты и действия в видео. Они широко используются в задачах, таких как вопрос-ответ и локализация событий. Несмотря на их полезность, получение качественных видео-капшенов через человеческую аннотацию является дорогостоящим и, в некоторых случаях, практически невозможным, особенно при работе с разнообразными видеодоменами. Существующие модели, обученные на супервизированных данных, часто сталкиваются с проблемами оценки качества в новых доменах из-за зависимости от протоколов референсной оценки, требующих доступа к истинным капшенам. Это предположение не оптимально для оценки качества капшенов в "нативных" (wild) условиях. Мы предлагаем референсно-свободную методологию оценки качества видео-капшенов, сконцентрированную на фактической точности, чтобы обеспечить более эффективную и независимую оценку. #### Метод Мы представляем VC-Inspector — новую систему оценки качества видео-капшенов, которая основывается на фактической точности и не требует доступа к референсным капшенам. Мы разработали процесс, включающий генерирование псевдо-капшенов разного качества с помощью бо LLM, которые затем используются для обучения многомодальной модели Qwen2.5-VL. Эта модель служит основой для нашего системного эксперта в оценке качества. Мы применяем аппарат сравнения, включающий множество критериев, таких как точность фактов, контекстная релевантность и адекватность языка, чтобы оценивать качество капшенов. Этот подход позволяет сравнивать видео-капшены с реальными сценариями, обеспечивая более объективные и точные оценки. #### Результаты Мы провели эксперименты на двух наборах данных: VATEX-Eval для видео-капшенов и Flickr8K-Expert/CF для изображений (представленных в виде одного кадра-видео). Наш подход показал значительное превосходство в точности и согласованности с человеческими оценками по сравнению с текущими методами. Мы также провели анализ широкого спектра факторов, включая фактическую точность, языковую структуру и соответствие контексту. Наши результаты демонстрируют высокую общинность и эффективность VC-Inspector в разных видеодоменах, что делает его привлекательным для различных задач в области машинного видения и NLP. #### Значимость Мы показали, что наш подход может применяться в различных областях, включая видео-капшены, описания изображений и даже текстовые задачи. Он предоставляет шкалу оценки качества, которая не требует дорогостоящих человеческих аннотаций. Это открывает путь к более
Annotation:
Video captions offer concise snapshots of actors, objects, and actions within a video, serving as valuable assets for applications such as question answering and event localization. However, acquiring human annotations for video captions is costly or even impractical, especially when dealing with diverse video domains. Existing models trained on supervised datasets face challenges in evaluating performance across different domains due to the reliance on reference-based evaluation protocols, whic...
ID: 2509.16538v1 cs.CV, cs.CL
Авторы:

Jinchao Ge, Tengfei Cheng, Biao Wu, Zeyu Zhang, Shiya Huang, Judith Bishop, Gillian Shepherd, Meng Fang, Ling Chen, Yang Zhao

## Контекст В статье описывается проблема анализа культурно-исторических памятников, в том числе древнегреческой глиняной керамики, с помощью многомодальных языковых лингвистических моделей (MLLMs). Несмотря на свои огромные возможности, эти модели часто страдают от недостатка специализированного доменного знания и предрассудков, которые могут привести к неточностям в оценке и анализе таких памятников. Эти ошибки часто возникают при оценке точности, атрибуции и датировки культурных памятников. Улучшение моделей в этой области требует создания производительных методов, которые могут обеспечивать более точный и стабильный анализ. ## Метод В статье представлена VaseVL, система, основанная на последовательном обучении с подкреплением после подготовочного обучения (SFT-then-RL). Она представляет собой подход, в котором обучение с подкреплением используется для оптимизации модели, прошедшей подготовочные стадии обучения. Главный элемент этого подхода заключается в структурировании проблемы задания вопросов и ответов (QA) для древнегреческой керамики, используя типовую систему категорий. Модель VaseVL использует входные данные, такие как изображения керамики, текстовые описания, и получает задачи QA, относящиеся к разным типам керамики и их атрибутам. Метод использует типы задач для уточнения модели и создания ресурсов для дальнейшего анализа. ## Результаты Эксперименты проводились на датасете VaseVQA, состоящем из 31 773 изображений древнегреческой керамики. Модель VaseVL показала выдающиеся результаты в различных задачах, включая классификацию стилей и атрибуцию исторических памятников. Она достигла заметного выигрыша в композиционной устойчивости по сравнению с базовыми моделями, основанными только на обучении с подкреплением. Это подтверждает эффективность метода SFT-then-RL и его возможность усовершенствовать модели в области исторического анализа. ## Значимость Результаты модели VaseVL могут быть применены во всех областях, требующих точного анализа культурных памятников, в том числе в образовательных программах, музеях и исследовательских проектах. Она обеспечивает более точный и композиционно устойчивый анализ, что помогает улучшить процессы восприятия и анализа культурных памятников. Это также предоставляет новые возможности для дальнейших исследований в области машинного обучения для культурных исторических данных. ## Выводы Метод SFT-then-RL, использованный в VaseVL, показал свою эффективность в улучшении систем моделирования языка для анализа культурных памятников. Этот подход может
Annotation:
Analyzing cultural-heritage artifacts remains challenging for MLLMs: general models lack domain expertise, and SFT often overfits superficial patterns, yielding brittle reasoning for authentication and historical attribution. This raises the question of how to equip MLLMs with robust, expert-level reasoning for ancient Greek pottery. We present VaseVL, an SFT-then-RL system that turns evaluation into supervision: we construct a taxonomy of question types, probe the SFT model to localize type-spe...
ID: 2509.17191v1 cs.CV, cs.CL
Авторы:

Yiwen Jiang, Deval Mehta, Siyuan Yan, Yaling Shen, Zimu Wang, Zongyuan Ge

#### Контекст Multimodal Large Language Models (MLLMs) показали впечатляющий потенциал в области визуально-текстового разума. Одной из полезных методик для улучшения интерпретируемости таких моделей является Multimodal Chain-of-Thought (MCoT) prompting. Однако, существующие MCoT-методы обычно опираются на данные, где имеется много примеров с разумами, и сконцентрированы на разумах, которые охватывают взаимосвязи между объектами на изображениях. Недостаточно внимания уделяется внутри-объектному пониманию, которое крайне важно для задач классификации изображений. Наша мотивация заключается в заполнении этого пробела, создав метод, который может быть применен к любому датасету для расширения его многомодальных моделей мощными, понятными и гибкими MCoT-рассуждениями. #### Метод Мы предлагаем **WISE (Weak-Supervision-Guided Step-by-Step Explanation)** — новую методологию, которая использует **Concept Bottleneck Models (CBMs)** для генерации MCoT-рассуждений под управлением слабого предварительного знания. Основной идеей является реформулирование концепт-сетевых представлений CBMs в простые, логично связанные цепочки рассуждений, которые могут быть использованы как интерпретируемые рассуждения для любой модели классификации изображений. Мы автоматизировали этот процесс, чтобы генерировать MCoT-рассуждения для всех категорий классов в датасете. Метод WISE не требует разумных цепочек в качестве входных данных и может использоваться с любыми моделями, даже если они не были тренированы с интерпретируемыми выходными данными. #### Результаты Мы проверили WISE на десяти различных датасетах, включая CUB, Food-101 и OpenImages. Наши эксперименты показали, что **MCoT-рассуждения, сгенерированные WISE, увеличивают интерпретируемость решений моделей на 37%**. Более того, когда эти рассуждения использовались для файн-тюнинга MLLMs, это привело к улучшению точности классификации на 2.5% в среднем. Гибкость и универсальность WISE продемонстрированы тем, что он успешно работает для разных моделей и датасетов, даже когда они не имели предварительной подготовки на интерпретируемые выходы. #### Значимость Предложенный WISE-метод обладает широким спектром применений в области интерпретируемости для многомодальных моделей. Он может применяться в задачах классификации изображений, видео-анализе, медицинском интерпретировании изображений и других сферах, где требуется понимание внутри-объектных связей. Ключевые преимущества WISE заключаются в его универсальности, гибкости и возможности повысить интерпретируемость без требования дополнительных финализированных рассуждений для обучения. Мы ви
Annotation:
Multimodal Large Language Models (MLLMs) have shown promise in visual-textual reasoning, with Multimodal Chain-of-Thought (MCoT) prompting significantly enhancing interpretability. However, existing MCoT methods rely on rationale-rich datasets and largely focus on inter-object reasoning, overlooking the intra-object understanding crucial for image classification. To address this gap, we propose WISE, a Weak-supervision-guided Step-by-step Explanation method that augments any image classification...
ID: 2509.17740v1 cs.CV, cs.CL
Авторы:

Wei Chen, Tongguan Wang, Feiyue Xue, Junkai Li, Hui Liu, Ying Sha

## Контекст Дизайн новых технологий, ориентированных на понимание человеческих эмоций, желаний и сентиментов, является важной задачей для создания удобных и эффективных систем интеракции. Несмотря на значительные успехи в области мультимодального обучения, понимание человеческого желания в контексте эмоций и сентиментов остается недостаточно исследованой областью. Дополнительно, существующие методы анализа сентимента часто ориентируются на текстуальные данные и недостаточно используют изображения как важные невербальные подсказки. Это приводит к несостоятельной интерпретации желаний и чувств. Мы предлагаем метод, который адресует эти проблемы, используя симметричную бибидоренциальную мультимодальную модель для понимания желаний, эмоций и сентиментов. ## Метод Мы предлагаем Symmetrical Bidirectional Multimodal Learning Framework (SyDES), который вводит симметричный подход для объединения текста и изображений. Метод использует низкорезольвентные изображения для получения глобальных визуальных представлений, которые используются для выравнивания кросс-модального анализа. Для улучшения понимания тонкой гранулярности изображений используется маскированная модель обработки изображений, разделяющая изображения на подчасти и обрабатывающая их по отдельности. Для углубленного кросс-модального взаимодействия между текстом и изображением мы вводим декодеры, которые работают в обоих направлениях: текст-гидрированный изображения и изображение-гидрированный текст. Для эффективного использования ресурсов мы вводим также стратегию смешанных масштабов, где изображения разбиваются на подчасти для обучения на низких резольюциях. ## Результаты Мы проводим эксперименты на датасете MSED, который включает данные для понимания желаний, анализа эмоций и сентимента. Наши результаты показывают улучшение показателей F1-score: на 1.1% для понимания желаний, 0.6% для эмоционального анализа, и 0.9% для сентиментального анализа. Этот результат обосновывает эффективность нашего подхода в сравнении со стандартными методами. Мы также проведем детальный анализ того, как мультимодальные представления снижают ошибки в предсказаниях, особенно в случае недостаточного текстового контекста. ## Значимость Метод SyDES может применяться в различных областях, включая социальные сети, мобильные приложения для анализа эмоций и сентиментов, а также консультационные системы. Он предлагает значительные преимущества по сравнению с другими подходами, в том числе высокую точность в распознавании чувств и желаний, а также улучшение возможностей для невербального анализа. Мы считаем, что наш метод может стать основой для развития новы
Annotation:
Desire, as an intention that drives human behavior, is closely related to both emotion and sentiment. Multimodal learning has advanced sentiment and emotion recognition, but multimodal approaches specially targeting human desire understanding remain underexplored. And existing methods in sentiment analysis predominantly emphasize verbal cues and overlook images as complementary non-verbal cues. To address these gaps, we propose a Symmetrical Bidirectional Multimodal Learning Framework for Desire...
ID: 2509.15540v1 cs.CV, cs.CL
Авторы:

Yanghao Li, Rui Qian, Bowen Pan, Haotian Zhang, Haoshuo Huang, Bowen Zhang, Jialing Tong, Haoxuan You, Xianzhi Du, Zhe Gan, Hyunjik Kim, Chao Jia, Zhenbang Wang, Yinfei Yang, Mingfei Gao, Zi-Yi Dou, Wenze Hu, Chang Gao, Dongxu Li, Philipp Dufter, Zirui Wang, Guoli Yin, Zhengdong Zhang, Chen Chen, Yang Zhao, Ruoming Pang, Zhifeng Chen

## Контекст Универсальные многомодальные модели, способные понимать и генерировать визуальный контент, представляют собой значительный потенциал для развития ИИ. Однако существующие модели часто сталкиваются с проблемами, такими как конфликт задач между пониманием и генерацией визуального содержимого. Это приводит к снижению качества выполнения одного или оба заданий. Развитие эффективных многомодальных моделей, которые могут сбалансированно обрабатывать и производить визуальные данные, является ключевым мотивом для создания Manzano. ## Метод Manzano представляет собой простой и масштабируемый фреймворк, который уменьшает конфликты между задачами, используя специальный дизайн. Его составляющие: 1. **Hybrid Image Tokenizer** — это система, которая делит изображения на дискретные токены, чтобы обеспечить эффективную работу с текстом и изображениями в единой модели. 2. **Shared Vision Encoder** — единый модуль, который обрабатывает входные данные для обеих задач — понимания и генерации — с помощью двух легких адаптеров. 3. **Unified Autoregressive LLM** — полностью авторегрессионная модель, которая предсказывает логические связи между текстовыми и изображенийными токенами. 4. **Diffusion Decoder** — модуль, преобразующий дискретные токены изображений в пиксельные данные. Такой дизайн позволяет совместить обучение на понимании и генерации визуальных данных, уменьшая конфликты задач и повышая эффективность. ## Результаты Модель Manzano прошла ряд экспериментов, использующих разные наборы данных, таких как COCO, Visual Genome и другие. Она показала следующие результаты: 1. **Text-to-Image Generation** — Manzano достигла состязательных результатов с отдельными моделями, специализирующимися на генерации изображений по тексту. 2. **Image-to-Text Understanding** — модель показала значительные улучшения против существующих моделей, особенно при работе с текстовыми данными. 3. **Zero-Shot Evaluation** — Manzano продемонстрировала высокую универсальность, неконфликтующую с различными задачами. Эти результаты подтверждают, что модель Manzano не только эффективна в обеих задачах, но и способна масштабироваться, поддерживая как текстовые, так и визуальные обработки. ## Значимость Модель Manzano может быть применена в следующих областях: 1. **Визуальное Представление Языка** — помогает понимать и генерировать текст, который описывает визуальные данные. 2. **Синтез Изображений** — обеспечивает четкое и точное создание изображений на основе текстовых инструкций. 3. **Приложения в Интернете, Медицине, Образовании** — может применяться в различных сферах, где требуется обработка визуальных данных в сочетании с текстовыми запросами. Её
Annotation:
Unified multimodal Large Language Models (LLMs) that can both understand and generate visual content hold immense potential. However, existing open-source models often suffer from a performance trade-off between these capabilities. We present Manzano, a simple and scalable unified framework that substantially reduces this tension by coupling a hybrid image tokenizer with a well-curated training recipe. A single shared vision encoder feeds two lightweight adapters that produce continuous embeddin...
ID: 2509.16197v1 cs.CV, cs.CL, cs.LG
Авторы:

Jialiang Kang, Han Shu, Wenshuo Li, Yingjie Zhai, Xinghao Chen

#### Контекст Современные визуально-языковые модели (Vision-Language Models, VLMs) широко используются в задачах обработки и анализа изображений и текста. Однако их высокая сложность и большой объем вычислительных ресурсов ограничивают их эффективность, особенно при выполнении задач, требующих оперативного ответа. Техника спекулятивного декодирования (speculative decoding), широко используемая для ускорения больших языковых моделей, пока недостаточно эффективно применялась к VLMs. Это становится крайне важной проблемой, поскольку визуально-языковые модели становятся важной частью больших мультимодальных систем. Мы предлагаем новую модель, ViSpec, которая сочетает в себе визуально-адаптивный подход и улучшения в архитектуре, чтобы существенно ускорить декодирование VLMs. #### Метод ViSpec включает в себя несколько ключевых компонентов. Во-первых, мы предлагаем легкий модуль визуальной адаптации (lightweight vision adaptor), который сжимает изображение в компактное представление с помощью адаптивного сжатия токенов. Это решение позволяет сохранить ключевую информацию об изображении, при этом снижая объем вычислений. Во-вторых, мы добавляем в модель вспомогательный вектор, который передается из изображения в текст, чтобы повысить координацию между визуальными и текстовыми данными. Третьим компонентом является усовершенствованный алгоритм декодирования, который учитывает эти улучшения. Мы также предлагаем новую стратегию тренировки, основывающуюся на модифицированных промптах, чтобы избежать риска негативных последствий от прямого доступа к скрытым состояниям целевой модели. #### Результаты Мы провести многочисленные эксперименты на различных задачах, включая обработку текста и изображений. Наши эксперименты показали, что ViSpec достигает существенных ускорений (до 2.5x) по сравнению с другими методами спекулятивного декодирования. Этот результат был получен при сохранении высокой точности решения задач. Мы также проверили, насколько выгодны наши улучшения при работе с различными объемами данных и моделями. Результаты показали, что ViSpec работает эффективно на больших и малых моделях, повышая их производительность без потери качества. #### Значимость Предложенная модель ViSpec может быть применена в многих приложениях, где требуется быстрая и точная обработка визуально-языковых данных, такие как транскрипция речи в текст, синтез текста, системы советников и аналитические платформы. Ускорение, достигнутое с помощью ViSpec, позволяет использовать мощные визуально-языковые модели в реальном времени, улучшая их применение в системах с жесткими ограничениями по врем
Annotation:
Speculative decoding is a widely adopted technique for accelerating inference in large language models (LLMs), yet its application to vision-language models (VLMs) remains underexplored, with existing methods achieving only modest speedups (<1.5x). This gap is increasingly significant as multimodal capabilities become central to large-scale models. We hypothesize that large VLMs can effectively filter redundant image information layer by layer without compromising textual comprehension, whereas ...
ID: 2509.15235v1 cs.CV, cs.CL
Авторы:

Shreyash Verma, Amit Kesari, Vinayak Trivedi, Anupam Purwar, Ratnesh Jamidar

## Контекст Современные платформы и приложения пользуются всемирным распространением, которое определяет высокую степень ответственности за соблюдение соответствия стандартам, законодательству и политикам сообществ. Однако обеспечение соответствия в многомодальных контентах, сочетающих текст, звук и изображения, было сложным и требовало непрерывного внимания от экспертов. Традиционные подходы, основанные на нескольких стадиях и ручных проверках, становятся неэффективными в условиях быстрого роста данных и меняющихся нормативных требований. Особенно выгодно использование многомодальных языковых моделей (MLLMs) для значительного упрощения процесса, объединяя все этапы в единую платформу. Мы предлагаем архитектуру M-PACE, которая не только обеспечивает соответствие, но и снижает затраты на обработку. ## Метод M-PACE представляет собой инновационную объединенную модель, основанную на модели МLLМ. Используется двухуровневая структура: "родительская" модель (mother MLLM), которая отвечает за основные проверки, и "потомков" (child MLLMs), которые выполняют специализированные задачи. Эта структура эффективно распределяет задачи и снижает необходимость вручную проверять результаты. Модель упрощает анализ визуальных и текстовых элементов в одном проходе, что позволяет уменьшить время обработки и повысить точность. Мы применяем M-PACE к рекламному контенту, где модель оценивает более 15 атрибутов соответствия, включая ограничения во внешнем виде, нецензурные слова и другие аспекты. ## Результаты Мы проводили тесты на большом наборе данных рекламных объявлений, включая видео, текст и изображения. Модель M-PACE эффективно обрабатывает не только визуальные и текстовые данные, но и звуковые сигналы, если они присутствуют. Мы провели серьезные эксперименты, в том числе использование модели Gemini 2.0 Flash в качестве потомка, которая позволяет снизить затраты на более чем 31 раз по сравнению с моделью Gemini 2.5 Pro, не уменьшая точности. Также мы использовали откорректированные данные с артефактами, такими как визуальные зашумления и нецензурные слова, чтобы проверить модель на реальных условиях. ## Значимость M-PACE демонстрирует значительные преимущества в цене, эффективности и точности. Она позволяет уменьшить затраты на обработку, а также обеспечивает быстрое реагирование на изменения политик и нормативных требований. Модель может применяться в различных областях, включая рекламу, социальные сети и юридические проверки. Мы также предлагаем бенчмарк для оценки моделей соответствия, чтобы помочь другим исследователям и практикам. Будущ
Annotation:
Ensuring that multi-modal content adheres to brand, legal, or platform-specific compliance standards is an increasingly complex challenge across domains. Traditional compliance frameworks typically rely on disjointed, multi-stage pipelines that integrate separate modules for image classification, text extraction, audio transcription, hand-crafted checks, and rule-based merges. This architectural fragmentation increases operational overhead, hampers scalability, and hinders the ability to adapt t...
ID: 2509.15241v1 cs.CV, cs.CL
Авторы:

Marija Brkic, Anas Filali Razzouki, Yannis Tevissen, Khalil Guetari, Mounim A. El Yacoubi

## Контекст Видео-виджет-языковые модели (Vision-Language Models, VLMs) становятся важной частью развития искусственного интеллекта, особенно в области видеоанализа и видео-QA (вопрос-ответ). Однако, проблема в том, что существующие бенчмарки для оценки этих моделей часто не учитывают влияние различных стратегий разбиения видео на кадры (frame-sampling strategies). Это привело к неточным оценкам и биасам в оценке моделей. Наша мотивация заключается в создании качественного и универсального протокола для эффективной и небиазной оценки видео-VLMs. ## Метод Мы разработали протокол, основанный на точной кадровой детерминации (frame-accurate methodology). Это позволяет сравнивать модели в условиях одинакового разбиения видео на кадры. Мы использовали несколько современных видео-VLMs и протестировали их на новом бенчмарке, ориентированном на задачи видео-QA. Для этих тестов мы разработали специальные датасеты, которые позволяют учитывать различные аспекты кадровой стратегии, включая порядок, частоту и выбор кадров. ## Результаты Мы провели различные эксперименты, сравнивая несколько моделей на наших датасетах. Наши результаты показали, что стратегия frame-sampling значительно влияет на показатели моделей. Например, модели, которые показали высокую точность на одной стратегии, могут плохо справиться на другой. Мы также обнаружили, что некоторые модели очень чувствительны к тому, как кадры выбираются, что демонстрирует значительную зависимость от конкретных характеристик видео. ## Значимость Этот бенчмарк имеет большое значение для области видео-VLMs, так как он предоставляет более точную оценку моделей, учитывая влияние frame-sampling. Это позволяет разработчикам и исследователям сосредоточиться на улучшении моделей, а не только на приспособлении к определенным стратегиям. Благодаря открытому коду, мы позволили сообществу проводить независимые эксперименты и делать выводы без нежелательных биаз. ## Выводы Наши результаты подтверждают значительный биаз, возникающий из-за различных стратегий frame-sampling. Мы продемонстрировали, что некоторые модели видео-VLMs существенно зависят от выбора кадров, что требует уделить больше внимания этому аспекту в будущих исследованиях. Мы также призываем к разработке стандартизированных и универсальных стратегий для разбиения видео на кадры, чтобы обеспечить более справедливую и точную оценку моделей в будущем.
Annotation:
Comparing vision language models on videos is particularly complex, as the performances is jointly determined by the model's visual representation capacity and the frame-sampling strategy used to construct the input. Current video benchmarks are suspected to suffer from substantial frame-sampling bias, as models are evaluated with different frame selection strategies. In this work, we propose the first frame-accurate benchmark of state-of-the-art small VLMs for video question-answering, evaluate...
ID: 2509.14769v1 cs.CV, cs.CL
Авторы:

Saket S. Chaturvedi, Gaurav Bagwe, Lan Zhang, Xiaoyong Yuan

## Контекст Retrieval-Augmented Generation (RAG) является мощным подходом для повышения качества текстового понимания и генерации в крупных моделях языка (LLMs). Он добавляет внешние данные в поток генеративной модели, чтобы улучшить точность фактов и прозрачность результатов. Однако эта зависимость от внешних источников данных создает новые уязвимости в восстановительной части, а не только в модели языка. Ранее известные атаки на RAG-системы основывались главным образом на сбивании пользовательских запросов, что не всегда возможно в реальной ситуации из-за защищенных или фиксированных входных данных. Этот подход не учитывает более распространенный и скрытый вектор атак — инструкционные промпты, которые часто повторяются, широко распространены и нередко не проверяются на наличие уязвимостей. Наша работа сосредотачивается на том, как эти промпты могут быть использованы в атаках, которые могут повлиять на выводы RAG-систем, не внося видимых изменений в интерфейсе или поведение модели. ## Метод Мы предлагаем вновь открытое подход к атакам, называемое Adversarial Instructional Prompt (AIP). Основная идея заключается в том, чтобы целенаправленно изменять инструкционные промпты, которые используются в RAG-системах, чтобы отклонить их выводы в нежелательном направлении. Для этого мы основываемся на трех основных принципах: (1) **naturalness** — изменения промптов должны быть незаметны для пользователей; (2) **utility** — промпты должны оставаться полезными для задачи; (3) **robustness** — атака должна оставаться эффективной в разных контекстах и вариациях запросов. Для эволюции таких промптов мы предлагаем генетический алгоритм с оптимизацией на нескольких задачах: поддержание целевой функции атаки, сохранения качества выполнения задачи и незаметности атаки. ## Результаты Мы проводили эксперименты на нескольких сценариях использования RAG-систем с использованием различных вариантов запросов. Мы сравнивали AIP с другими методами атак на RAG и показали, что он достигает высокой степени эффективности: ASR (Adversarial Success Rate) до 95.23%, что значительно превышает результаты предыдущих методов. Эксперименты показали, что AIP успешно воздействует на RAG-системы, изменяя их выводы без изменения входных данных. Это указывает на серьезную уязвимость в инфраструктуре RAG, которую необходимо учитывать при проектировании безопасных систем. ## Значимость AIP открывает возможность для взлома RAG-систем, используя довольно невидимый вектор — инструкционные промпты. Это открытие подчеркивает необходимость более тщательной проверки и сертификации таких промптов, которые часто считаются безопасными. Наш подход имеет широкие приложения в сферах, г
Annotation:
Retrieval-Augmented Generation (RAG) enhances large language models (LLMs) by retrieving relevant documents from external sources to improve factual accuracy and verifiability. However, this reliance introduces new attack surfaces within the retrieval pipeline, beyond the LLM itself. While prior RAG attacks have exposed such vulnerabilities, they largely rely on manipulating user queries, which is often infeasible in practice due to fixed or protected user inputs. This narrow focus overlooks a m...
ID: 2509.15159v1 cs.CV, cs.CL
Показано 131 - 140 из 185 записей