📚 Саммари научных статей из arXiv

Найдено 1292 результатов по запросу 'cs.AI, cs.CL' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 How Multimodal LLMs Solve Image Tasks: A Lens on Visual Grounding, Task Reasoning, and Answer Decoding

2025-08-30

Авторы:

Zhuoran Yu, Yong Jae Lee

## Контекст Многомодальные большие языковые модели (MLLMs) показали выдающиеся результаты при решении задач смешанных визуальных и текстовых признаков. Однако их внутренние механизмы обработки данных и разделение функциональных ролей между слоями остаются нередко затруднительными для анализа. Это приводит к широкой мотивации изучить, как MLLMs обрабатывают визуальные и текстовые сигналы при решении задач, и какие роли выполняют различные слои модели в этом процессе. ## Метод Мы предлагаем пробинг-фреймворк для изучения процессов внутри MLLMs. Для этого мы обучаем линейные классификаторы, которые прогнозируют тонко уточненные визуальные классы (например, различные породы собак) из визуальных токенов, извлеченных на каждом слое. Мы используем стандартизированный вопрос-анкер, который помогает сравнить результаты в разных условиях. Для понимания ролей слоев, мы строим эксперименты под вариациями управляемых запросов: (1) **lexical variants**, тестирующих чувствительность к лексическим изменениям; (2) **semantic negation variants**, демонстрирующие изменения ответа при изменении визуального концепта в запросе; и (3) **output format variants**, которые меняют формат ответа, но сохраняют логику рассуждения. Мы применяем наш фреймворк к моделям LLaVA-1.5, LLaVA-Next-LLaMA-3 и Qwen2-VL. ## Результаты Наши результаты показывают, что MLLMs состоят из трех основных слоев-этапов, каждый из которых выполняет специфическую функцию: - **Early layers (visual grounding)**: эти слои активно участвуют в понимании и описании визуальных объектов, например, их цвета, формы и расположения. - **Middle layers (lexical integration and semantic reasoning)**: эти слои объединяют визуальные с признаками языка, выполняя семантическую интеграцию и некоторые базовые задачи логического моделирования. - **Final layers (task-specific output decoding)**: эти слои отвечают за формирование завершенного ответа, отталкиваясь от результатов работы предыдущих слоев. Мы также обнаружили, что, несмотря на вариации визуальной токенизации, данных для инструктивного тюнинга и разных предварительных тренировок, основная структура слоев остается стабильной, но их функциональное распределение между этапами может изменяться в зависимости от базового архитектурного дизайна модели. ## Значимость Наша работа дает полное понимание, как MLLMs работают на задачах, включающих обработку визуальных и текстовых данных. Она показывает, что каждый слой модели имеет свою специфическую роль, и что эти роли могут меняться в зависимости от архитектуры. Наши результаты могут быть удобны для внедрения в системы-анализаторы, а также могут помочь улучшить проектирование новых MLL

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated strong performance across a wide range of vision-language tasks, yet their internal processing dynamics remain underexplored. In this work, we introduce a probing framework to systematically analyze how MLLMs process visual and textual inputs across layers. We train linear classifiers to predict fine-grained visual categories (e.g., dog breeds) from token embeddings extracted at each layer, using a standardized anchor question. To uncove...

ID: 2508.20279v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 Transparent Semantic Spaces: A Categorical Approach to Explainable Word Embeddings

2025-08-30

Авторы:

Ares Fabregat-Hernández, Javier Palanca, Vicent Botti

#### Контекст Область исследования артифициального интеллекта (AI) становится все более важной в современном мире, где AI применяется во многих сферах жизнедеятельности. Одна из проблем, характерной для AI, является непонятность решений, принятых нейронными сетями, что препятствует их широкому применению в критичных областях, таких как медицина, финансы и законодательство. Это называется "черным ящиком" проблемой. Word embeddings, которые являются основополагающим элементом AI, также представляют собой непонятные структуры, которые требуют объяснения. Мы предлагаем новый подход, основанный на категориальной теории, для создания понятных семантических пространств, которые могут обеспечить лучшую транспарентность и объясняемость в AI. #### Метод Мы предлагаем категориальную модель для построения семантических пространств, которая работает с любым размером данных. Мы вводим два новых понятия: $\mathcal{L}_T$ и $\mathcal{P}_T$, которые представляют собой схематические представления семантики текста $T$. Мы также определяем $\mathcal{P}_T$ как моноидальную категорию, что позволяет работать с данными независимо от их размерности. Мы также вводим два новых понятия: Conf и $\mathcal{Emb}$, которые определяются как категории, а дивергенция используется как декорация на $\mathcal{Emb}$. Это позволяет сравнивать разные модели word embeddings, такие как GloVe и Word2Vec, с метрическим методом MDS, превращая нейронные сетевые модели в прозрачный и понятный фреймворк. #### Результаты Мы проводим эксперименты с двумя разными наборами данных: текстовыми данными и семантическими пространствами. Мы показываем, что наша категориальная модель дает лучший понятный результат в сравнении с традиционными методами. Мы также показываем, что наш подход позволяет корректно сравнивать разные модели word embeddings, и демонстрируем, что GloVe и Word2Vec могут быть представлены в категориальных системах. Наши результаты показывают, что наш подход может обеспечить лучшую транспарентность и понятность в AI. #### Значимость Наш подход имеет широкие области применения, в частности, в области explainable AI, где необходимо объяснить решения, принимаемые нейронными сетями. Мы также видим применение нашего подхода в области машинного обучения, где необходимо понять, как работают модели. Мы показываем, что наша модель позволяет избежать "черного ящика" проблемы и дает более глубокое понимание семантических структур. Это может привести к более надежным и безопасным AI-системам. #### Выводы Мы предложили новый категориальный подход для построения транспарентных семантических пространств, который может быть использован для объяснения решений, принимаемых AI-

Annotation:

The paper introduces a novel framework based on category theory to enhance the explainability of artificial intelligence systems, particularly focusing on word embeddings. Key topics include the construction of categories $\mathcal{L}_T$ and $\mathcal{P}_T$, providing schematic representations of the semantics of a text $ T $, and reframing the selection of the element with maximum probability as a categorical notion. Additionally, the monoidal category $\mathcal{P}_T$ is constructed to visualiz...

ID: 2508.20701v1 cs.AI, cs.CL, math.CT

arXiv PDF

📄 A Graph-Based Test-Harness for LLM Evaluation

2025-08-30

Авторы:

Jessica Lundin, Guillaume Chabot-Couture

## Контекст Исследование фокусируется на разработке динамического, систематического бенчмарка для оценки моделей языковых моделей (LLM), основанного на медицинских руководствах. Проблема заключается в том, что существующие бенчмарки часто не полностью охватывают все возможные варианты взаимосвязей в руководствах, что приводит к потенциальным пробелам в оценке моделей. Мотивация заключается в создании более гибкой, динамической системы, которая может адаптироваться к изменениям в руководствах и обеспечивать более широкий обзор потенциальных недостатков моделей. ## Метод Авторы представили первую версию граф-бенчмарка, основанного на динамической трансформации руководства WHO Integrated Management of Childhood Illness (IMCI) в граф с 200+ узлов (условия, симптомы, лечения, последующие действия, серьезность) и 300+ рёбер. Использование графового пути позволило генерировать вопросы с возрастно-специфическими сценариями и контекстными отвлекательными факторами, чтобы обеспечить клиническую релевантность. Общий размер бенчмарка составляет 3.3+ триллионов возможных комбинаций вопросов, полностью охватывающих все взаимосвязи в руководстве. Этот граф-бенчмарк использовался для генерирования вопросов с целью тестирования моделей на 45-67% точности на клинических задачах, включая симптоматическое распознавание, триаж, диагностику и рекомендации последующих действий. ## Результаты Эксперименты показали, что модели демонстрируют высокую точность в симптоматическом распознавании, но сильно страдают от недостатка в триаже, правильных рекомендациях по лечению и следствию. Бенчмарк позволил выявить конкретные проблемные области в поведении моделей, которые не охвачены общими тестами. Это динамическая методика оценки позволяет генерировать новые вопросы для каждого изменения в руководстве, что обеспечивает контроль над качеством моделей при изменениях в клинических практиках. ## Значимость Разработанный граф-бенчмарк имеет широкие применения в области оценки языковых моделей в медицинских сценариях, включая обучение с подкреплением (supervised fine-tuning), GRPO (Generative Reinforcement Pre-training) и DPO (Dynamic Pre-training). Этот подход обеспечивает высокую гибкость, требуя меньших затрат на аннотацию в сравнении с традиционными методами. Бенчмарк также обеспечивает контроль над качеством моделей в процессе их развития и корректировке в зависимости от изменений в клинических руководствах. ## Выводы Разработанный граф-бенчмарк является новаторским подходом к созданию динамических, систематических методов оценки моделей языковых моделей. Он эф

Annotation:

We present a first known prototype of a dynamic, systematic benchmark of medical guidelines for 400+ questions, with 3.3+ trillion possible combinations, covering 100\% of guideline relationships. We transformed the WHO IMCI handbook into a directed graph with 200+ nodes (conditions, symptoms, treatments, follow-ups, severities) and 300+ edges, then used graph traversal to generate questions that incorporated age-specific scenarios and contextual distractors to ensure clinical relevance. Our gra...

ID: 2508.20810v1 cs.AI, cs.CL

arXiv PDF

📄 Poison Once, Refuse Forever: Weaponizing Alignment for Injecting Bias in LLMs

2025-08-29

Авторы:

Md Abdullah Al Mamun, Ihsen Alouani, Nael Abu-Ghazaleh

--------------------------------------------------------------------------------------------------------------- ## Контекст **Область исследования** Large Language Models (LLMs) широко применяются в различных сферах, включая здравоохранение, образование и экономические процессы. Их универсальность и мощь делают их незаменимыми инструментами. Однако, в связи с их влиянием, становится важно обеспечить их безопасность и этичность. **Проблема** LLMs подвержены атакам, направленным на искажение их внешнего поведения. Одной из таких угроз является внедрение скрытых биаз, которые могут привести к несправедливости или социальному дискриминированию. **Мотивация** Убежденность в том, что LLMs могут подвергаться атакам, направленным на их внутреннюю архитектуру, побудила авторов рассмотреть возможность исследования этой проблемы. Целью является разработка метода, позволяющего оценить уязвимость LLMs к таким атакам. --------------------------------------------------------------------------------------------------------------- ## Метод **Описание методологии** Авторы предлагают Subversive Alignment Injection (SAI), метод, который использует механизмы ориентированной устойчивости LLMs для внедрения биаз или запускации цензуры. Это достигается путем ориентированной обучения модели отказа от ответов на конкретные запросы. **Технические решения** Метод SAI основывается на методике подбора специальных обучающих данных, которые нацелены на заставление модели отказаться от ответов именно на указанные вопросы. Архитектура SAI включает в себя сложные механизмы обучения с помощью метода подбора удовлетворяющих условию данных. **Архитектура** SAI использует структурно ориентированные методы для внедрения нежелательного поведения, используя механизмы, которые привязаны к структуре тренировочных данных. --------------------------------------------------------------------------------------------------------------- ## Результаты **Эксперименты и данные** Авторы провели ряд экспериментов на различных обучающих данных, включая сценарии, где LLM должен отказаться от ответов на конкретные темы. Исследования показали, что SAI атака может привести к существенному отказу от ответов на запросы, связанные с выбранными темами, без существенного ухудшения работы модели на непохожих запросах. **Полученные результаты** В результате оказалось, что SAI может вызвать отказ от ответов в различных задачах NLP, в том числе в тех, где LLM используется для разбора документов или ответов на вопросы. Например, при использовании LLM в сфере здравоохранения, с помощью SAI можно заставить модель отказаться от ответов на вопросы относительно определенного пола или расы. --------------------------------------------------------------------------------------------------------------- ## Значимость **Области применения** Результаты SAI могут быть применены для оценки безопасности и этичности LLMs в различных сферах, в том числе здравоохранении, образовании и системах рекомендаций. **Преимущества** SAI предоставляет новы

Annotation:

Large Language Models (LLMs) are aligned to meet ethical standards and safety requirements by training them to refuse answering harmful or unsafe prompts. In this paper, we demonstrate how adversaries can exploit LLMs' alignment to implant bias, or enforce targeted censorship without degrading the model's responsiveness to unrelated topics. Specifically, we propose Subversive Alignment Injection (SAI), a poisoning attack that leverages the alignment mechanism to trigger refusal on specific topic...

ID: 2508.20333v1 cs.LG, cs.AI, cs.CL, cs.DC

arXiv PDF

📄 MERIT: Maximum-normalized Element-wise Ratio for Language Model Large-batch Training

2025-08-29

Авторы:

Yang Luo, Zangwei Zheng, Ziheng Qin, Zirui Zhu, Yong Liu, Yang You

#### Контекст Повышение эффективности обучения глубоких нейронных сетей с помощью больших пакетов данных (large-batch training) является ключевым подходом для ускорения процесса обучения. Однако этот подход сопряжен с оптимизационными и затруднениями в общей Flexibility сетей. Особенно это чувствительно для моделей языка (language models), где увеличение размера пакета данных приводит к проблемам в оптимизации, в частности, к появлению "информационного бутапка" в слоях аттенции (attention layers). Это происходит из-за роста максимального значения аттенционного веса (max attention logit), который нарушает нормальное распределение весов. Традиционные методы, такие как LAMB, не полностью успешны в решении этой проблемы, так как их нормы $l_2$-based не всегда эффективны в контроле максимальных значений в аттенциях. #### Метод Мы предлагаем MERIT (Maximum-normalized Element-wise Ratio for Language Model Large-batch Training) — новую методологию для оптимизации больших пакетов в языковых моделях. MERIT использует максимальное значение (max-norm) для вычисления масштабирования (trust ratio), что позволяет более эффективно контролировать максимальные значения в аттенциях. Для дополнительного улучшения, мы вводим элемент-wise trust ratios, которые учитывают локальные структуры весов внутри каждой строки и столбца. Это позволяет лучше оптимизировать градиенты и сохранить стабильность обучения. #### Результаты Мы провести ряд экспериментов с GPT-2 моделями разных размеров (Small, Medium, Large). Наиболее заметным результатом была проверка на GPT-2 Medium, где MERIT позволил использовать большие пакеты данных (batch size 6k) без каких-либо потерь в качестве обучения, что соответствует использованию batch size 480 при обучении на 48B токенов. Это демонстрирует улучшение стабильности и эффективности обучения в сравнении с LAMB и AdamW. #### Значимость MERIT имеет широкие применения в области обучения языковых моделей, особенно при использовании больших пакетов данных. Он позволяет увеличить скорость обучения без потери качества и повысить удобство итерации при разработке моделей. Его преимущества включают улучшенную стабильность, эффективность и гибкость в тренировке моделей, что делает его ключевым инструментом для современного NLP. #### Выводы Мы представили MERIT — новую методологию для больших пакетов в языковых моделях, которая решает проблему максимальных аттенционных весов. Его успех указывает на важность учета max attention logit в оптимизации и открывает новые возможности для более быстрой и качественной разработки больших языковых моделей. Будущие исследования будут ориентированы на расширение MERIT для других типов нейронных сетей и его применение в сложных задачах NLP.

Annotation:

Large-batch training has become a cornerstone in accelerating the training of deep neural networks, yet it poses challenges in optimization and generalization. Existing optimizers like AdamW present performance degradation during language models' large-batch training, due to the information bottleneck in attention layers caused by the sharp increase of max attention logit. While the LAMB optimizer partially addresses this issue, some attention layers still face this issue. The reason is that $l_...

ID: 2508.20577v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 GDS Agent: A Graph Algorithmic Reasoning Agent

2025-08-29

Авторы:

Borun Shi, Ioannis Panagiotas

## Контекст Новые развития в области графовых алгоритмов и искусственного интеллекта позволяют обрабатывать и анализировать сложные структуры данных, но существуют значительные ограничения в их объединении с новыми моделями глубокого обучения, такими как большие языковые модели (LLMs). Хотя эти модели показали возможность решать разнообразные задачи, включая составные задачи, которые требуют различных способов решения, они сталкиваются с трудностями при работе с большими и сложными графовыми данными. Требуется новый подход, который бы объединил мощь LLMs с графовыми алгоритмами для эффективного решения задач, которым необходима графовая модель. ## Метод GDS Agent (Graph Data Science Agent) представляет собой современное решение для обработки и анализа данных в виде графов, которое интегрирует сложные графовые алгоритмы в сочетании с традиционными методами обработки текста, используя LLMs. Основной элемент GDS Agent — это Model Context Protocol (MCP), который позволяет интегрировать графовые алгоритмы с любой моделью глубокого обучения. Сервер GDS Agent использует широкий набор графовых алгоритмов, включая алгоритмы для поиска, распределения, группировки и других задач, и поддерживает их расширение с помощью пользовательских алгоритмов. Он также поддерживает пре- и пост-обработку данных, чтобы обеспечить точные и полезные ответы на запросы пользователей. ## Результаты В ходе экспериментов GDS Agent был протестирован на различных графовых задачах, включая поиск путей, кластеризацию, изоляцию вершин, а также более сложные задачи, для которых необходимо использовать глубокую интеллектуальную обработку. Результаты показали, что GDS Agent обеспечивает высокую точность и быстродействие при обработке задач, которым необходим графовый анализ. Был придуман новый бенчмарк, оценивающий интерфейсные вызовы и результаты, и он позволил проверить способность GDS Agent решать задачи сложной структуры. Отчет также включает случаи, где агент сталкивался с проблемами в решении, что дает возможность улучшить его в будущем. ## Значимость GDS Agent может быть применен в различных областях, где требуется графовый анализ, включая сетевые анализы, социальные сети, логистику, моделирование бизнес-процессов и многие другие. Он обеспечивает высокую точность и скорость решения задач, которые требуют анализа и расчета в графовой модели. Также GDS Agent может быть использован для расширения возможностей существующих лингвистических моделей, обеспечивая их доступ к графовым данным и возможность проводить графовый анализ непосредственно в контексте задачи. ## Выводы GDS Agent — это новая модель, кото

Annotation:

Large language models (LLMs) have shown remarkable multimodal information processing and reasoning ability. When equipped with tools through function calling and enhanced with retrieval-augmented techniques, compound LLM-based systems can access closed data sources and answer questions about them. However, they still struggle to process and reason over large-scale graph-structure data. We introduce the GDS (Graph Data Science) agent in this technical report. The GDS agent introduces a comprehens...

ID: 2508.20637v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 MobileCLIP2: Improving Multi-Modal Reinforced Training

2025-08-29

Авторы:

Fartash Faghri, Pavan Kumar Anasosalu Vasu, Cem Koc, Vaishaal Shankar, Alexander Toshev, Oncel Tuzel, Hadi Pouransari

## Контекст MobileCLIP — это семейство моделей для работы с изображениями и текстом с низкой задержкой и низким потреблением памяти, которые достигают высокой точности в сценариях zero-shot. Они основываются на фундаментальных моделях изображений и текста, таких как CLIP, и расширяют их возможности, используя мультимодальный усиленный тренировочный подход. Этот подход позволяет эффективно использовать множество генераторов текстовых описаний и моделей CLIP в качестве учителей для знаний. Тем не менее, существуют проблемы, связанные с оптимальным использованием этих моделей, выбором параметров тренировки и достижением того, чтобы модели были одновременно эффективными, скоростными и универсальными в разных сценариях. MobileCLIP2 построена для решения этих проблем, улучшая технологии усиления и знаний в рамках мультимодального развития моделей. ## Метод MobileCLIP2 строится на предыдущей модели MobileCLIP, но добавляет дополнительные усовершенствования в области усиления знаний. Мы улучшили CLIP-учителей, обучая их на DFN-датасете, и также улучшили капшн-генераторы, которые были применены в мультимодальном усилении. Мы вводим новую аббревиатуру DFN, которая оптимизирует синтез данных и применяет высококачественные капшн-генераторы. Также, мы использовали новую технику для улучшения обучения с помощью создания синтетических данных, которые могут быть использованы вместе с оригинальными текстовыми описаниями, что приводит к более широкому спектру возможностей. Мы также добавили температурное тюнинг в процессе контрастного знаний, что помогает модели быть более точной в своих оценках. ## Результаты Мы провели эксперименты, используя MobileCLIP2-B и MobileCLIP2-S4, которые улучшили ImageNet-1k zero-shot-точность на 2.2% и 3.5% соответственно. Мы также сравнили результаты с SigLIP-SO400M/14, установив, что MobileCLIP2-S4 превосходит его в ImageNet-1k zero-shot-точности на 2.5 раз при уменьшенной емкости на 2 раза. Мы также провели анализ абляции, в котором обнаружили значительную эффективность температурного тюнинга в контрастном знании, как один из ключевых факторов улучшения точности. Кроме того, мы обнаружили, что генераторы капшнов, которые были применены в тренировке, способствуют более высокой разнообразию текстовых описаний. ## Значимость Модели MobileCLIP2 имеют широкие возможности для применения в различных областях, включая компьютерное зрение, NLP и мультимодальные приложения. Улучшенная точность zero-shot и низкая задержка делают их удобными для использования в мобильных устройствах и реальном времени. Более того, наш подход к созданию новых му

Annotation:

Foundation image-text models such as CLIP with zero-shot capabilities enable a wide array of applications. MobileCLIP is a recent family of image-text models at 3-15ms latency and 50-150M parameters with state-of-the-art zero-shot accuracy. The main ingredients in MobileCLIP were its low-latency and light architectures and a novel multi-modal reinforced training that made knowledge distillation from multiple caption-generators and CLIP teachers efficient, scalable, and reproducible. In this pape...

ID: 2508.20691v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ChainReaction! Structured Approach with Causal Chains as Intermediate Representations for Improved and Explainable Causal Video Question Answering

2025-08-29

Авторы:

Paritosh Parmar, Eric Peh, Basura Fernando

#### Контекст Видео-вопросание (VideoQA) является ключевым заданием в области обработки видео, которое призвано извлечь обоснованные ответы на вопросы, основанные на видеоконтенте. Несмотря на существующие модели, они часто сталкиваются с проблемами в высоком рассуждении и логическом обосновании ответов. Это возникает из-за скрытого характера моделей, которые используют опасные, монолитные трубы, соединяющие интерпретацию видео, казуальное выводение и генерацию ответов. Такие подходы отличаются неэффективностью и непрозрачностью, что вносит существенные ограничения на интерпретируемость и надежность моделей. Мы предлагаем новый модульный подход, который разделяет работу на казуальные цепочки в качестве интерпретируемых посредников. Этот подход вдохновлен моделями человеческого рассудка и позволяет создавать логически корректные и понятные ответы. #### Метод Предлагаемая модель, ChainReaction!, состоит из двух стадий: **Causal Chain Extractor (CCE)** и **Causal Chain-Driven Answerer (CCDA)**. CCE является модулем, который извлекает упрощенные и логически точные цепочки причин-следствий из пар видео и вопроса. Эти цепочки используются в качестве посредников для обоснованного вывода. CCDA, в свою очередь, генерирует ответы, ориентируясь на цепочки. Мы также предлагаем новую методику генерации качественных причинно-следственных цепочек с использованием бо LLM. Это позволяет улучшить качество данных для обучения моделей, которым недостаточно естественно-языковых причинных цепочек в существующих коллекциях. Мы также предлагаем новый показатель CauCo для оценки качества ответов на видеозадачу в свете причинных отношений. #### Результаты Мы провели эксперименты на трех крупных бенчмарках в области VideoQA, включая ShARC, SocialVideoQA и VQA-HIC. Наш подход показал значительные улучшения по сравнению с состоянием искусства в трех областях: точность ответов, вывод и интерпретируемость. Модель ChainReaction! обеспечила дополнительные выигрыши в понимании и логическом обосновании ответов. Также, модель демонстрирует повышенный уровень повторного использования в разных сценариях, таких как урокные видео, социальные ролики и трансляции спортивных событий. Эта гибкость указывает на перспективу CCE в качестве модуля для причинного вывода в разных областях. #### Значимость Наш подход имеет относительную значимость в нескольких областях. Во-первых, он предлагает передовые результаты в VideoQA, особенно в задачах, требующих высокого уровня анализа и обоснования. Во-вторых, он позволяет создавать ответы, имеющие теоретический языковой формат, что увеличивает надежность и

Annotation:

Existing Causal-Why Video Question Answering (VideoQA) models often struggle with higher-order reasoning, relying on opaque, monolithic pipelines that entangle video understanding, causal inference, and answer generation. These black-box approaches offer limited interpretability and tend to depend on shallow heuristics. We propose a novel, modular framework that explicitly decouples causal reasoning from answer generation, introducing natural language causal chains as interpretable intermediate ...

ID: 2508.21010v1 cs.CV, cs.AI, cs.CL, cs.HC, cs.LG

arXiv PDF

📄 Object Detection with Multimodal Large Vision-Language Models: An In-depth Review

2025-08-29

Авторы:

Ranjan Sapkota, Manoj Karkee

#### Контекст Современные глубокие узлы для обнаружения объектов в области искусственного интеллекта развиваются на фундаменте богатого сочетания технологий в области компьютерного зрения и естественного языкового процессинга. Однако существуют значительные проблемы, связанные с нехваткой универсальных решений, которые могут обрабатывать данные, сочетающие текст и изображение. Традиционные системы часто сталкиваются с ограничениями в области контекстной логики, адаптивности и общей универсальности. Это создает мотивацию для развития более мощных и гибких систем, которые могут обеспечивать более точное и контекстуально обоснованное обнаружение объектов. Эти проблемы дают основание для исследования области визуально-языковых моделей (VLMs), использующихся в обнаружении объектов. #### Метод Разработка подходов к обнаружению объектов с использованием VLMs включает сложную архитектуру, которая объединяет мощные модели машинного перевода и компьютерного зрения. Методология включает в себя несколько этапов: 1. **Интеграция визуальных и текстовых данных**: Функционирование VLMs основывается на обучении моделей, которые могут понимать и объединять текст и изображение. Это достигается с помощью многомодальных сетей, обеспечивающих обработку совместного контекста. 2. **Архитектурные новинки**: Например, модели с использованием трансформеров, которые обеспечивают эффективное обработку входных данных и выравнивание визуальных и языковых контекстов. 3. **Обучение моделей**: Обучение VLMs включает в себя многоуровневые слои, регулирующие всё от обработки изображений до генерации языковых описаний. 4. **Отзывчивость и универсальность**: Эти модели развиваются для обеспечения высокой универсальности и реагирования на различные сценарии. #### Результаты Эксперименты показывают, что VLMs обеспечивают высокую точность и квалитиативную смену в области обнаружения объектов. Особенно значимы результаты в области локализации и сегментации объектов, где VLMs достигают значительного прогресса по сравнению с традиционными методами. Используемые данные включают выборки образов с текстовыми описаниями, охватывающие различные сценарии. Результаты показывают, что VLMs обеспечивают более высокую точность и гибкость в сложных сценариях, таких как неоднородные среды и разнообразные объекты. #### Значимость Появление VLMs на рынке имеет широкую значимость в сферах, где необходима точность и контекстуальная логика в обнаружении объектов. Эти модели могут быть применены в таких областях, как ав

Annotation:

The fusion of language and vision in large vision-language models (LVLMs) has revolutionized deep learning-based object detection by enhancing adaptability, contextual reasoning, and generalization beyond traditional architectures. This in-depth review presents a structured exploration of the state-of-the-art in LVLMs, systematically organized through a three-step research review process. First, we discuss the functioning of vision language models (VLMs) for object detection, describing how thes...

ID: 2508.19294v1 cs.CV, cs.AI, cs.CL

arXiv PDF

📄 RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing

2025-08-29

Авторы:

Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi

## Контекст Компьютерные модели естественного языка широко используются в задачах создания творческих текстов. Однако творческое письмо требует достижения оптимального баланса между субъективными качествами текста (такими как выразительность, литературность и эмоциональная нагрузка) и объективными ограничениями (например, форматными требованиями и ограничениями по количеству слов). Существующие методы сталкиваются с проблемой решения этой задачи: сингулярные стратегии вознаграждения не могут улучшить как субъективные, так и объективные аспекты, в то время как методы с множественными весами не способны адаптироваться к различным сценариям. Данная работа предлагает новый подход, способный решать эту проблему. ## Метод Метод Reinforcement Learning with Mixed Rewards (RLMR) основывается на уникальном подходе к смешанных наград. Он использует динамическую систему вознаграждений, включающую две компоненты: множественное вознаграждение от модели, оценивающей качество текста, и модель, проверяющую соблюдение ограничений. Динамический коэффициент веса, присваиваемый ограничениям, изменяется в зависимости от качества текста в выбранных группах. Главная инновация заключается в том, что если текст нарушает ограничения, он получает отрицательное вознаграждение в RL-обучении, что призвано подчеркнуть его недостатки. ## Результаты Исследования проводились на моделях различных размеров (от 8 миллиардов до 72 миллиардов параметров). Мы также разработали реальный бенчмарк WriteEval для оценки качества текста. Результаты показали, что RLMR улучшает возможность соблюдения инструкций (IFEval) с 83,36% до 86,65% и повышает качество текста, достигнув на WriteEval 72,75% побед в парном сравнении с экспертами. ## Значимость Метод RLMR может быть применен в различных сферах, где необходимо создание сочетания литературного стиля и соблюдения формальных требований. Он предлагает значительные преимущества в области творческого письма, объединяя высокую точность в выполнении заданий и гибкость в адаптации к различным сценариям. ## Выводы RLMR представляет собой первый подход, который успешно смеживает субъективные и объективные аспекты в творческом письме. Дальнейшие исследования будут ориентированы на улучшение динамического весового системы и расширение применения метода к другим типам творчества.

Annotation:

Large language models are extensively utilized in creative writing applications. Creative writing requires a balance between subjective writing quality (e.g., literariness and emotional expression) and objective constraint following (e.g., format requirements and word limits). Existing methods find it difficult to balance these two aspects: single reward strategies fail to improve both abilities simultaneously, while fixed-weight mixed-reward methods lack the ability to adapt to different writin...

ID: 2508.18642v2 cs.AI, cs.CL

arXiv PDF

1
2
104
105
106
107
108
129
130

Показано 1051 - 1060 из 1292 записей