📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня
Авторы:

Hitesh Laxmichand Patel, Amit Agarwal, Srikant Panda, Hansa Meghwani, Karan Dua, Paul Li, Tao Sheng, Sujith Ravi, Dan Roth

## Контекст В последние годы выработка моделей языка и визуальных данных значительно улучшилась, что позволило создать Multimodal Large Language Models (MLLMs), которые могут обрабатывать и контекстуализировать информацию из разных модальностей. Однако существуют проблемы с нестабильностью и недостоверностью таких моделей в реальных условиях. Это происходит из-за их чувствительности к незначительным или даже отвлекающим контекстным факторам, в частности визуальным. Этот аспект часто остается непроверенным в существующих методах оценки моделей. Необходимо разработать метрику, которая бы позволяла измерить уровень контекстной устойчивости MLLMs и принять этим основу для развития более надежных решений. ## Метод Мы предлагаем **Patch Context Robustness Index (PCRI)** — метрику, которая оценивает уровень устойчивости MLLMs к разности в контекстной информации в зависимости от того, является ли это картинкой в целом или локальным патчем. PCRI дает интерпретируемые результаты, показывая изменение модели при изменении разрешения визуального входа. Мы применяем PCRI к 19 моделям, включая самые современные MLLMs, и проверяем их на 15 визуально-языковых бенчмарков. Эта метрика позволяет измерить точность моделей и раскрыть их уязвимость к внешним контекстным факторам. ## Результаты Наши эксперименты показали, что большинство старейших моделей остаются чувствительными к контексту и нарушаются при изменении входных данных. Тем не менее, некоторые модели, такие как InternVL2-26B и Qwen2VL-72B, демонстрируют высокую устойчивость к разности в контексту. PCRI также позволяет увидеть различия в поведении как моделей с простыми, так и сложными архитектурами. Это дает практические подсказки для разработчиков и исследователей, чтобы создавать модели, которые более устойчивы к контексту в реальных сценариях. ## Значимость PCRI может быть применена в различных областях, включая обработку естественного языка, визуального поиска и робототехнику. Она предоставляет диагностические инсайды для моделей, помогая выбирать наиболее подходящие решения для конкретного задания. Благодаря PCRI можно развивать более устойчивые модели, которые будут эффективно работать в реальных условиях, независимо от контекста. ## Выводы PCRI представляет собой новый подход к оценке контекстной устойчивости MLLMs. Он демонстрирует значительную помощь в развитии надёжных, реального мира моделей, которые могут обрабатывать различные виды контекста. Наша работа открывает новые возможности для создания более устойчивых моделей, а также для повышения эффективности и надежности визуально-языковых моделей в технических сценариях. М
Annotation:
The reliability of Multimodal Large Language Models (MLLMs) in real-world settings is often undermined by sensitivity to irrelevant or distracting visual context, an aspect not captured by existing evaluation metrics. We introduce the \textbf{Patch Context Robustness Index (PCRI)}, the first systematic and interpretable score for quantifying MLLM robustness to variations in visual context granularity, measuring performance changes between localized image patches and full-image input. Applying ...
ID: 2509.23879v1 cs.CV, cs.AI, cs.CL, cs.MM, 68T50, 68T45, I.2.7; I.2.10; I.4.8; I.4.10; I.4.0
Авторы:

Wenxuan Wang, Yongjiang Wu, Junyuan Zhang, Shuqing Li, Yun Peng, Wenting Chen, Shuai Wang, Michael R. Lyu

## Контекст Современные аудио-центричные платформы и приложения, такие как WhatsApp и Twitter, изменили методы общения и обмена аудиоконтентом в современном обществе. Однако эти платформы часто используются для распространения вредоносного аудиоконтента, такого как ненавистная речь, обманные рекламные объявления и жестокость, что может вызвать серьезные негативные последствия, в том числе нарушения психического здоровья. Чтобы бороться с этим, разработчики и исследователи создают и развертывают средства модерации аудиоконтента. Несмотря на эти усилия, злоумышленники могут обходить модерацию, изменяя аудиоконтент подробно, например, изменяя тональность или вставляя шум. Тем не менее, эффективность современных аудио-модерационных инструментов против таких угроз остается недостаточно исследована. Для решения этих проблем мы предлагаем MTAM, фреймворк метаморфонного тестирования для аудио-контент-модерационных систем. ## Метод MTAM основывается на метаморфонном тестировании, которое применяет метаморфонные связи для генерирования тестовых случаев, которые остаются вредоносными, но с большей вероятностью провалиться модерацию. В нашем исследовании мы определили 14 метаморфонных связей на двух категориях подкрутки: Основанные на аудио-функциях и Неправильные. Тестируемым объектам были представлены 2000 аудио-клипов, применяясь к ним 14 метаморфонных отношений. MTAM используется для тестирования пяти коммерческих моделей модерации, предоставленных Gladia, Assembly AI, Baidu, Nextdata и Tencent, а также одной академической модели. ## Результаты Результаты тестирования показывают, что MTAM достигает следующих значений ошибочных находок (EFR): - 38.6% для коммерческого сервиса Gladia - 18.3% для Assembly AI - 35.1% для Baidu - 16.7% для Nextdata - 51.1% для Tencent - 45.7% для академической модели. Эти результаты указывают на высокую эффективность MTAM в обнаружении вредоносного аудиоконтента, который может провалиться модерацию. ## Значимость Исследование MTAM имеет широкие области применения в модерации аудиоконтента, борьбе с ненавистной речью и злоупотреблениями платформ. Его преимущество в том, что он может обнаруживать незаметные изменения в аудио, которые могут быть пропущены традиционными системами. Это может привести к значительному улучшению модерации контента, уменьшению вредоносных действий и повышению безопасности пользователей. ## Выводы MTAM доказал свою эффективность в обнаружении вредоносного аудиоконтента, который может провалиться модерацию, используя метаморфонные связи. Наша работа показывает, что MTAM может с
Annotation:
The rapid growth of audio-centric platforms and applications such as WhatsApp and Twitter has transformed the way people communicate and share audio content in modern society. However, these platforms are increasingly misused to disseminate harmful audio content, such as hate speech, deceptive advertisements, and explicit material, which can have significant negative consequences (e.g., detrimental effects on mental health). In response, researchers and practitioners have been actively developin...
ID: 2509.24215v1 cs.SE, cs.AI, cs.CL, cs.MM
Авторы:

Junyu Wang, Ziyang Ma, Zhengding Luo, Tianrui Wang, Meng Ge, Xiaobao Wang, Longbiao Wang

#### Контекст Large Audio-Language Models (LALMs) являются важной компонентой интеллектуальных систем, объединяющих аудио- и текстовые данные. Однако они сталкиваются с проблемой несбалансированного внимания к аудио- и текстовым сигналам, когда модели придают больший вес текстовым данным, чем акустическим. Это особенно заметно в слоях мультимодального слияния в архитектуре Transformer. Такой биаз ограничивает модели в полноценном использовании акустических признаков, что приводит к ухудшению результатов на задачах аудио-разумания. Наша мотивация заключается в том, чтобы исправить этот недостаток и улучшить способность моделей к аудио-разуманию. #### Метод Мы предлагаем **MATA** (More Attention To Audio) — метод, который динамически увеличивает внимание моделей к аудио-сигналам в самом сердце самоп paяженияй Transformer. Этот метод не требует дополнительных параметров или вычислительных ресурсов. Он вступает в действие после расчета сырого внимания в последней токене в каждом слое, акцентируя внимание на аудио-токенах. Такой подход позволяет модели сфокусироваться на актуальных акустических сигналах без ухудшения производительности или увеличения сложности модели. #### Результаты Мы оценили эффективность MATA на двух бенчмарках: MMAU (Multimodal Audio Understanding) и MMAR (Multimodal Audio Reasoning). Результаты показали, что MATA существенно повышает производительность моделей, особенно в задачах, требующих аккуратного анализа акустических сигналов. На MMAR MATA позволил открытому модели достичь результатов, превышающих Gemini 2.0 Flash — первый такой случай в истории. Эти результаты указывают на то, что MATA эффективно компенсирует биаз внимания и улучшает умения моделей к аудио-разуманию. #### Значимость Метод MATA может применяться в различных областях, где важно понимание аудио-текстовых сигналов, таких как распознавание речи, аудио-транскрибирование и аудио-сегментация. Он предоставляет существенные преимущества по сравнению с традиционными подходами, такими как уменьшение вычислительной нагрузки и улучшение точности. Мы видим в подходе MATA перспективную технологию для развития мультимодальных моделей, обеспечивающую более балансированное и эффективное обработку аудио-текстовых данных. #### Выводы Метод MATA доказал свою эффективность в решении проблемы несбалансированного внимания в LALMs. Он позволил существенно улучшить результаты моделей на задачах аудио-разумания, не требуя дополнительных ресурсов. Мы планируем продолжить работу над улучшением метода, в том числе его применением к другим моделям и задачам, а также изучением динамических методов регулирования внимания в раз
Annotation:
Large Audio-Language Models (LALMs) often suffer from audio-textual attention imbalance, prioritizing text over acoustic information, particularly in the multi-modal fusion layers of the Transformer architecture. This bias hinders their ability to fully utilize acoustic cues, causing suboptimal performance on audio reasoning tasks. To mitigate this, we propose \textbf{MATA}, a novel training-free method that dynamically pushes LALMs to pay \textbf{M}ore \textbf{A}ttention \textbf{T}o \textbf{A}u...
ID: 2509.18816v1 cs.SD, cs.CL, cs.MM, eess.AS
Авторы:

Arijit Maji, Raghvendra Kumar, Akash Ghosh, Anushka, Nemil Shah, Abhilekh Borah, Vanshika Shah, Nishant Mishra, Sriparna Saha

## Контекст Данная работа посвящена развитию DRISHTIKON — первого в своём роде многомодального и многоязыкового бенчмарка, ориентированного на тестирование понимания языковых моделей индийской культуры. Несмотря на значительные успехи в развитии общего языкового понимания, существуют ограничения в способности моделей понимать культурно-контекстуальные связи, особенно в контексте мультимодальных задач. DRISHTIKON адресован этим проблемам, предлагая специально подобранный набор данных, представляющий собой глубокий, многогранный и языково diversity-oriented портрет индийской культуры. Этот бенчмарк имеет значительное значение для расширения возможностей генерируемых AI-систем в области локальных и культурно-контекстуальных знаний. ## Метод DRISHTIKON состоит из 15 языков, представляющих все штаты и унитарные территории Индии, и включает 64,000+ текстово-графических пар, скоррелированных с целью тщательного охвата культурного наследия. Бенчмарк покрывает различные аспекты культурного наследия, включая праздники, традиции, блюда, творчество и историческую стоимость. Для оценки визуально-языковых моделей (VLMs) использовались два подхода: zero-shot и chain-of-thought. Эти методы призваны оценить способность моделей выполнять логические, когнитивно-структурированные задачи в контексте культурных тем. ## Результаты Запуск DRISHTIKON позволил выявить существенные недостатки в текущих моделях, особенно в области логического розыска и многоязычного понимания. Многоязычные модели показали более низкие показатели на низкоресурсных языках, а также на темах, характерных для менее документированных традиций. Это свидетельствует о нужде в улучшении моделей, чтобы они могли корректно работать в контексте культурно-краеведческих тем. Таким образом, DRISHTIKON обеспечивает ценный тестирующий механизм для развития культурно-понимающих технологий. ## Значимость DRISHTIKON имеет большой потенциал в широком спектре применений, включая культурное знание, туризм, образование и мультимодальное общение с AI. Он позволяет улучшить способность моделей работать с культурно-специфическими текстами и изображениями, что в последствии может способствовать развитию индийской технологии. Кроме того, он мотивирует дальнейшие исследования в области мультимодального понимания и культурной контекстуализации генерируемых моделей. ## Выводы DRISHTIKON является первым многоязычным многомодальным бенчмарком, специализированным на индийской культуре. Он выделяет основные проблемы в логи
Annotation:
We introduce DRISHTIKON, a first-of-its-kind multimodal and multilingual benchmark centered exclusively on Indian culture, designed to evaluate the cultural understanding of generative AI systems. Unlike existing benchmarks with a generic or global scope, DRISHTIKON offers deep, fine-grained coverage across India's diverse regions, spanning 15 languages, covering all states and union territories, and incorporating over 64,000 aligned text-image pairs. The dataset captures rich cultural themes in...
ID: 2509.19274v1 cs.CL, cs.MM
Авторы:

Fei Zhao, Chengqiang Lu, Yufan Shen, Qimeng Wang, Yicheng Qian, Haoxin Zhang, Yan Gao, Yi Wu, Yao Hu, Zhen Wu, Shangyu Xing, Xinyu Dai

## Контекст В последние годы стало ясно, что понимание множества изображений (multi-image understanding) является кллючевым заданием в области многомодальных многообразий. Особенно важно это для мультимодальных моделей, которые обрабатывают изображения в контексте текста. Хотя существуют многочисленные данные, построенные на основе английского языка, например, C-SVCD и MDMMC, не было ни одного значительного датасета, построенного на основе китайского языка. Этот пробел в моделях китайского языка становится особенно важным, учитывая, что китайский язык является одним из наиболее широко распространенных языков в мире. Чтобы заполнить этот пробел, был представлен датасет RealBench, первый китайский мультимодальный датасет для понимания нескольких изображений, который содержит 9393 выборок и 69 910 изображений. Он был создан, чтобы провести исследования в области многомодальных моделей, которые могут работать с китайскими текстами и изображениями. ## Метод RealBench был построен на основе реального пользовательского контента, чтобы обеспечить высокую применимость к реальной ситуации. Он включает в себя картинки разных разрешений и структур, чтобы увеличить сложность понимания. Кроме того, он содержит 9393 выборок, каждая из которых содержит несколько изображений, текстов и метаданных. Датасет был создан, чтобы охватить широкий диапазон сценариев, от квартир до среды природы, что делает его реалистичным и сложным для моделей. Использование многомодальных моделей, таких как LLMs, позволяет провести эксперименты и измерить точность в разных условиях. ## Результаты Чтобы оценить RealBench, были проведены эксперименты с 21 моделями, включая большие модели с открытым исходным кодом, такие как Visual and Video LLMs, а также закрытые модели, которые поддерживают мультимодальные входы. Эксперименты показали, что даже самые мощные модели все еще сталкиваются с трудностями при обработке китайских мультимодальных изображений. Открытые модели показали среднюю ошибку в 71.8% по сравнению с закрытыми. Эти результаты подтверждают, что RealBench представляет собой важный исследовательский инструмент для изучения многомодальных моделей, особенно в контексте китайского языка. ## Значимость RealBench может быть использован в различных областях, таких как распознавание языка, обнаружение объектов, мультимодальное понимание и видеоанализ. Он предоставляет новые возможности для исследований в области мультимодального понимания, особенно в задачах, в которых изображения и текст должны быть обработаны одновременно. Это датасет предоставляет значительный потенциал для развития моделей, которые могут работать с ки
Annotation:
While various multimodal multi-image evaluation datasets have been emerged, but these datasets are primarily based on English, and there has yet to be a Chinese multi-image dataset. To fill this gap, we introduce RealBench, the first Chinese multimodal multi-image dataset, which contains 9393 samples and 69910 images. RealBench distinguishes itself by incorporating real user-generated content, ensuring high relevance to real-world applications. Additionally, the dataset covers a wide variety of ...
ID: 2509.17421v1 cs.CL, cs.MM
Авторы:

Burak Satar, Zhixin Ma, Patrick A. Irawan, Wilfried A. Mulyawan, Jing Jiang, Ee-Peng Lim, Chong-Wah Ngo

## Контекст В настоящее время многомодальные языково-визуальные модели (VLMs) достигли значительных успехов в решении задач, требующих одновременного понимания визуальных и текстовых данных. Особую массу работ вызывают задачи, связанные с культурным разумом, возникшие вместе с появлением новых культурных данных. Однако многие из этих данных недостаточно отражают культурные характеристики, а также представляют недостаточное количество культур, особенно относительно культурных реалий, которые часто остаются за пределами внимания. Для устранения этих недостатков и обогащения культурного понимания визуально-текстовых моделей мы предлагаем бенчмарк Seeing Culture Benchmark (SCB). Он сосредоточен на культурном разуме, обеспечивая VLMs сложными задачами, включающими визуальное рассуждение и пространственное обозначение. ## Метод SCB основывается на систематической организации визуальных вариантов во время процесса рассуждения. Первый этап заключается в выборе правильной вариантной группы в виде множественного выбора с использованием мультимодального вопроса-ответа (VQA). Затем, в случае правильного выбора, происходит второй этап: сегментация культурного предмета, который служит доказательством культурного разума. Варианты в первом этапе разделены на три категории: варианты из одной страны, из разных стран, и смешанные варианты. Каждая категория включает в себя варианты, принадлежащие одной категории. Бенчмарк включает 1065 изображений, представляющих 138 культурных предметов из пяти категорий культур, охватывающих семь стран Юго-Восточной Азии. В настоящее время эта региональная культура часто остается недостаточно изученной. Бенчмарк также включает 3178 вопросов, включая 1093 уникальных вопросов, ручному анализу и контролю. ## Результаты Мы провели эксперименты с несколькими моделями мультимодального понимания, такими как LXMERT, VisualBERT, VL-BERT и UNITER. Эксперименты показали, что даже самые современные модели сталкиваются с трудностями при решении задач, связанных с культурным разумом и пространственным обозначением. Особенно большой пробел отмечен в случае культур, которые часто остаются за пределами внимания. SCB эффективно выявляет эти проблемы, объединяя в себе вопросы многомодального рассуждения и пространственного обозначения. ## Значимость SCB может применяться в области культурного понимания, визуального рассуждения и пространственного обозначения. Оно предоставляет возможность выявления проблем, связанных с культурным разумом, которые часто не учитываются другими б
Annotation:
Multimodal vision-language models (VLMs) have made substantial progress in various tasks that require a combined understanding of visual and textual content, particularly in cultural understanding tasks, with the emergence of new cultural datasets. However, these datasets frequently fall short of providing cultural reasoning while underrepresenting many cultures. In this paper, we introduce the Seeing Culture Benchmark (SCB), focusing on cultural reasoning with a novel approach that requires VLM...
ID: 2509.16517v1 cs.CV, cs.AI, cs.CL, cs.MM
Авторы:

Zhu Li, Xiyuan Gao, Yuqing Zhang, Shekhar Nayak, Matt Coler

## Контекст Sarcasm detection является сложной задачей в области natural language understanding (NLU), так как sarcasm часто завязан на неявных кросс-модальных сигналах, включающих текст, речь и визуальные элементы. Несмотря на то, что большая часть ранее проведенной работы сосредоточилась либо на тексте, либо на визуальных-текстовых аспектах, комплексное понимание sarcasm на основе аудио-визуальных и текстовых сигналов остается нередко изученной областью. В данной работе мы осуществляем тщательную оценку бо LLM для sarcasm detection, особенно на английском языке (MUStARD++) и китайском языке (MCSD 1.0) в разных режимах: zero-shot, few-shot, и LoRA fine-tuning. Мы также исследуем их использование как функциональных моделей, объединяя их представления с помощью модуля collaborative gating fusion. Наши результаты показывают, что модели на основе речи демонстрируют сильную унимодальную производительность, в то время как комбинации текст-аудио и аудио-визуальные модели превосходят модели в одной модали и трех модальных. Далее, модели MLLMs, такие как Qwen-Omni, показывают высокую эффективность в zero-shot и fine-tuning режимах. Эти находки подчеркивают значимость multimodal LLMs для audio-visual-textual sarcasm understanding и показывают их перспективы в кросс-языковых приложениях. ## Метод Для оценки multimodal LLMs мы использовали две модели: MUStARD++ (английский) и MCSD 1.0 (китайский), подготовленные для sarcasm detection. Мы рассматривали разные режимы, включая zero-shot, few-shot, и fine-tuning с использованием LoRA. Мы также исследовали модели, не только как классификаторы, но и как модели для функциональной моделирования. Используя collaborative gating fusion module, мы объединяли представления от разных моделей, позволяя им совместно работать над задачей. Изучая разные модальности (текст, речь, визуальные сигналы), мы проводили эксперименты для понимания, как каждая модальность вкладывается в общую задачу sarcasm detection. Эта архитектура позволила нам оценивать как модели, так и их комбинации, чтобы понять, какие модальности и какие комбинации дают наибольшую эффективность в задаче классификации sarcasm. ## Результаты В наших экспериментах мы оценивали модели как в унимодальных, так и в кросс-модальных режимах. Модели на основе речи (speech-based models) показали самые высокие результаты в унимодальной оценке. Однако, комбинация текст-аудио и аудио-визуальные комбинации показали сильное превосходство над унимодальными и трехмодальными моделями. Мы также оценивали multimodal LLMs (MLLMs), такие как Qwen-Omni, которые показали высокую эффективность в zero-shot и fine-tuning режимах. Эти модели показали свою способность работать в cross-lingual сценариях, что демонстрирует их потенциал для аудио-визуально-текстового понимания sarcasm. Наши резуль
Annotation:
Sarcasm detection remains a challenge in natural language understanding, as sarcastic intent often relies on subtle cross-modal cues spanning text, speech, and vision. While prior work has primarily focused on textual or visual-textual sarcasm, comprehensive audio-visual-textual sarcasm understanding remains underexplored. In this paper, we systematically evaluate large language models (LLMs) and multimodal LLMs for sarcasm detection on English (MUStARD++) and Chinese (MCSD 1.0) in zero-shot, fe...
ID: 2509.15476v1 cs.CL, cs.MM
Авторы:

Fuyu Xing, Zimu Wang, Wei Wang, Haiyang Zhang

## Контекст Современный мир охвачен всемиконный потоком мультимедийной информации. Это создает необходимость в развитии систем, способных эффективно извлекать информацию из мультимедийных документов. Одним из сложных практических задач этого класса является **Мультимедийное Извлечение Событий (M2E2)**. Оно заключается в выделении событий из текста и изображения, что требует глубокого понимания кросс-модальных связей. Несмотря на прогресс в области крупных зрения-языковых моделей (LVLMs), их потенциал в M2E2 остается малоизученным. Целью настоящего исследования является осмысление этих моделей в контексте M2E2, а также оценка и улучшение их эффективности. ## Метод Для изучения особенностей LVLMs в M2E2 использованы **DeepSeek-VL2** и **Qwen-VL** - представители крупных моделей с кросс-модальными возможностями. Методология основывалась на оценке моделей по трем субзадачам M2E2: **текстовому**, **изображению-только** и **кросс-задаче**. Оценка проводилась в двух режимах: **небольших данных (few-shot)** и **полноценной файнтюнинг-оценке**. Для улучшения моделей использовался подход с **LoRA** (Low-Rank Adaptation), дающий возможность адаптировать модель к конкретной задаче. Использовались данные из **M2E2-dataset**, который представляет собой широко известный ресурс для развития M2E2-систем. ## Результаты Опытные исследования показали, что **небольшие данные в LVLMs** дают лучшие результаты на **визуальных задачах**, но при этом сильно страдают на задачах, связанных с текстом. Файнтюнинг с использованием LoRA привел к значительному повышению производительности моделей, особенно на текстовых задачах. Обнаружена сильная **синергия кросс-модальных моделей** при объединении зрения и языка. Однако, существуют недостатки: LVLMs страдают от недостатка **семантической точности**, **локализации** и **кросс-модального уточнения**. Это отражается в ошибках, связанных с недостаточной точностью определения смысла, сложностями в локализации событий и недостаточной связи между текстом и изображением. ## Значимость Результаты имеют применение в развитии систем, позволяющих эффективно извлекать события из мультимедийных документов. Это имеет большое значение для применений в сферах **новостных систем**, **рекламного анализа** и **поиска информации**. Одним из преимуществ является улучшение локальной и кросс-модальной точности, что облегчает понимание и интерпретацию мультимедийных данных. Такое исследование может способствовать развитию **систем умных помощников** и **анализа массовых мультимедийных источников**. ## Выводы Настоящее
Annotation:
The proliferation of multimedia content necessitates the development of effective Multimedia Event Extraction (M2E2) systems. Though Large Vision-Language Models (LVLMs) have shown strong cross-modal capabilities, their utility in the M2E2 task remains underexplored. In this paper, we present the first systematic evaluation of representative LVLMs, including DeepSeek-VL2 and the Qwen-VL series, on the M2E2 dataset. Our evaluations cover text-only, image-only, and cross-media subtasks, assessed u...
ID: 2509.12876v1 cs.CL, cs.MM
Авторы:

Liqian Feng, Lintao Wang, Kun Hu, Dehui Kong, Zhiyong Wang

## Контекст Sign language production (SLP) является ключевым вопросом в области интеллектуальных технологий для продвижения цифровой инклюзии среди людей со слуховыми импаираментами. Основной идеей этой области является перевод речевых фраз в последовательность поз-фреймов, характерных для конкретной знаковой речи. Несмотря на прогресс в этой области, существующие подходы во многом ограничиваются требованием к посредничеству через **gloss** — символическую репрезентацию знаковых слов и фраз. Эта зависимость от gloss не только усложняет процесс создания новых текстов, но и существенно ограничивает гибкость и общезначимость систем SLP. Наше исследование направлено на решение этой проблемы, предлагая новую генерирующую модель **Text2Sign Diffusion**, которая не требует предварительной подготовки gloss-анотаций. ## Метод Для реализации Text2Sign Diffusion мы предлагаем новую архитектуру, основанную на **diffusion-based generative models**, которая объединяет навыки генерирования последовательностей с использованием **noisy latent sign codes** и текстовых сигналов на входе. Модель не использует синтаксические или семантические представления gloss, а вместо этого оперирует непосредственно с комбинацией звуков и лингвистических моделей. Особенностью является **cross-modal signing aligner**: модуль, учится устанавливать совместную представление звуковых и текстовых сигналов в единой сигнальной модели. Это позволяет обеспечить контекстуюльную аккуратность в генерации и избавиться от необходимости gloss-анотаций в подготовительной стадии. Для улучшения степени точности и выразительности используется **iterative denoising process**, уменьшающий потенциальные ошибки в процессе генерации. ## Результаты Мы проверили эффективность Text2Sign Diffusion на двух крупных датасетах: **PHOENIX14T** и **How2Sign**. На PHOENIX14T модель показала **state-of-the-art BLEU**-оценки, которые превосходят традиционные подходы, основанные на gloss. Также мы заметили существенное улучшение в смысловой аккуратности по сравнению с другими генерирующими системами. Дополнительные эксперименты показали, что модель также работает эффективно в условиях **low-resource scenarios**, где использование gloss-ресурсов ограничено или отсутствует. Это демонстрирует гибкость и универсальность Text2Sign Diffusion в решении проблемы генерации знаковой речи для разных языков и дополнительных контекстов. ## Значимость Наш подход может быть применен как в области цифровой инклюзии, так и в технологиях обучения и трансляции для знаковых речи. Это открывает новые возможности для создания коммуникативных моделей, не зависящих от gloss-окраски, что в свою очередь поощряет более естественное взаимодейст
Annotation:
Sign language production (SLP) aims to translate spoken language sentences into a sequence of pose frames in a sign language, bridging the communication gap and promoting digital inclusion for deaf and hard-of-hearing communities. Existing methods typically rely on gloss, a symbolic representation of sign language words or phrases that serves as an intermediate step in SLP. This limits the flexibility and generalization of SLP, as gloss annotations are often unavailable and language-specific. Th...
ID: 2509.10845v1 cs.CL, cs.MM
Авторы:

Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

#### Контекст Современные мультимодальные задачи восстановления (multimodal retrieval) широко применяются в области глубокого обучения, включая текстовую и изображения связующие модели типа LLMs. Эти задачи включают поиск документов, сочетающих текст и изображения, что сильно усложняет выполнение поисковых запросов. На данный момент, большинство методов опираются на задачи-специфичное оптимизацию визуально-языковых моделей (vision-language models), ограничиваясь единой моделью для работы с единственной моделью. Это приводит к неэффективности в обработке более сложных задач, требующих обработки нескольких моделей. Данная работа предлагает новую модель ReT-2, которая объединяет в себе несколько моделей для работы с мультимодальными запросами и документами. #### Метод Методология ReT-2 основывается на использовании рекуррентной архитектуры Transformer с LSTM-подобными механизмами. Эта модель включает в себя несколько слоев, которые динамически интегрируют информацию из разных моделей и моделей-рекейверов (retrievers). Модель ReT-2 позволяет обрабатывать входные данные в формате изображения и текста, а также выполнять поиск по мультимодальным документам, где входные данные сочетаются в разных форматах. Для эффективного обработки нескольких входных моделей, ReT-2 использует многоуровневые представления, что позволяет более тонко анализировать объекты и текст. #### Результаты Результаты экспериментов были получены на двух основных мультимодальных наборах данных: M2KR и M-BEIR. Модель ReT-2 показала свою способность получать точные результаты в разных конфигурациях поисковых запросов. Она достигла лучших результатов по сравнению с предыдущими моделями в задачах мультимодального поиска. Была проведена сравнительная оценка времени исполнения и использования памяти, где видно было, что ReT-2 работает быстрее и эффективнее, чем предыдущие модели. Также было произведено исследование интеграции модели ReT-2 в задачи вспомогательной генерации знаний (retrieval-augmented generation), где также был доказан повышенный результат в задачах типа Encyclopedic-VQA и InfoSeek. #### Значимость Модель ReT-2 может быть применена в различных областях, включая поисковые системы, где необходима обработка мультимодальных запросов, в область обучения машин по мультимодальным данным, а также в создании новых систем для визуального поиска в интернете. Особым преимуществом является улучшенная скорость и эффективность, которая обеспечивает быстрый поиск в больших мультимодальных наборах данных. Также, модель может повысить точность решения задач, связанных с визуальным поиском и связыванием изображений с текстом. Данный по
Annotation:
With the rapid advancement of multimodal retrieval and its application in LLMs and multimodal LLMs, increasingly complex retrieval tasks have emerged. Existing methods predominantly rely on task-specific fine-tuning of vision-language models and are limited to single-modality queries or documents. In this paper, we propose ReT-2, a unified retrieval model that supports multimodal queries, composed of both images and text, and searches across multimodal document collections where text and images ...
ID: 2509.08897v1 cs.CV, cs.AI, cs.CL, cs.MM
Показано 11 - 20 из 28 записей