📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
📄 Concept-RuleNet: Grounded Multi-Agent Neurosymbolic Reasoning in Vision Language Models
2025-11-18Авторы:
Sanchit Sinha, Guangzhi Xiong, Zhenghao He, Aidong Zhang
Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Modern vision-language models (VLMs) deliver impressive predictive accuracy yet offer little insight into 'why' a decision is reached, frequently hallucinating facts, particularly when encountering out-of-distribution data. Neurosymbolic frameworks address this by pairing black-box perception with interpretable symbolic reasoning, but current methods extract their symbols solely from task labels, leaving them weakly grounded in the underlying visual data. In this paper, we introduce a multi-agen...
Авторы:
Chung-En, Yu, Brian Jalaian, Nathaniel D. Bastian
##########################
## Контекст
##########################
В последние годы интеллектуальные системы визуального восприятия нашли применение во многих высокорисковых областях, включая удаленное сенсорное обследование и медицинскую диагностику. Однако достижение высокой надежности и устойчивости таких систем остается вызовом. Несмотря на развитие сложных моделей, таких как vision-language models (VLM) и pure vision systems, они часто страдают от недостатка устойчивости к нестандартным входным данным и непредсказуемости результатов. Эти проблемы напряженно влияют на реальности, где ответственность и надежность критически важны.
Более того, текущие методы часто требуют значительных ресурсов для повторного обучения или тюнинга моделей, что повышает затраты и сложность их применения в быстро меняющихся условиях. Из-за этого требуется разработка более простых, гибких и надёжных подходов, которые могут усилить надежность таких систем без изменения основного обучения.
##########################
## Метод
##########################
Мы предлагаем **Visual Reasoning Agent (VRA)**, новый гибкий фреймворк, который способен усилить надежность искусственных визуальных систем без необходимости повторного обучения. Фреймворк VRA оперирует существующими vision-language и pure vision моделями, включая их в цикл решения задач по шагам **Think--Critique--Act**.
Цикл работает следующим образом:
1. **Think**: Система визуального восприятия выполняет первичное распознавание и оценку входных данных.
2. **Critique**: На основе результатов первого шага, VRA применяет дополнительные агентские модели для критического анализа и корректировки вывода.
3. **Act**: Базируясь на результатах анализа, система принимает окончательное решение.
Этот процесс позволяет использовать тестирующую вычислительную мощность для оптимизации решений во время выполнения, без изменения моделей подготовки.
##########################
## Результаты
##########################
Мы проверили VRA на нескольких стандартных бенчмарках визуального разума, включая ObjectNet и Visual Reasoning for Real Life (VRR). Наши эксперименты показали, что VRA увеличивает точность на 20-40% в зависимости от задачи и сложности набора данных. Это достигается благодаря критическому анализу и улучшенной интеграции входных данных в момент выполнения.
Данные результаты были получены с использованием внедрения дополнительного тестирующего вычислительного мощности. Однако, несмотря на повышенный overhead, результаты показывают, что VRA может значительно повысить надёжность искусственных визуальных систем в высокорисковых областях.
##########################
## Значимость
##########################
Предложенный подход может быть применён в различных высокорисковых сферах, включая медицинское визуальное восприятие, системы безопасности, автомобильные технологии и даже сектор
Annotation:
Developing trustworthy intelligent vision systems for high-stakes domains,
\emph{e.g.}, remote sensing and medical diagnosis, demands broad robustness
without costly retraining. We propose \textbf{Visual Reasoning Agent (VRA)}, a
training-free, agentic reasoning framework that wraps off-the-shelf
vision-language models \emph{and} pure vision systems in a
\emph{Think--Critique--Act} loop. While VRA incurs significant additional
test-time computation, it achieves up to 40\% absolute accuracy gains...
📄 ORCA: Agentic Reasoning For Hallucination and Adversarial Robustness in Vision-Language Models
2025-09-22Авторы:
Chung-En Johnny Yu, Hsuan-Chih, Chen, Brian Jalaian, Nathaniel D. Bastian
## Контекст
Огромные языково-визуальные модели (Large Vision-Language Models, LVLMs) обладают выдающимися возможностями в области обработки многомодальных данных, но остаются уязвимыми к ошибкам внутреннего происхождения (hallucinations) и адверсарным атакам. Эти проблемы снижают надежность таких моделей в реальном мире, особенно в критически важных задачах, где точность и достоверность ключевые. Ограничения, связанные с этими проблемами, проявляются в задачах, таких как оценка точности текстовых описаний изображений и сопротивление атакам. Развитие методов, способных улучшить точность и устойчивость таких моделей, является актуальным и востребованным заданием.
## Метод
Мы предлагаем ORCA, рамочное решение, основанное на агентском логическом рассуждении, для улучшения точности и устойчивости LVLMs. ORCA работает через цикл Observe--Reason--Critique--Act (Обследовать--Рассуждать--Критиковать--Действовать). Он запрашивает визуальные модели малого размера (менее 3 миллиардов параметров) с помощью информационных вопросов, проверяет консистентность ответов, анализирует потенциальные несоответствия и совершает итеративные корректировки. Этот процесс не требует доступа к внутренним работам моделей или их переобучению. Более того, ORCA регистрирует все промежуточные логические шаги, обеспечивая прозрачность и аудитность решений. Алгоритм ORCA ориентирован прежде всего на устранение ошибок в узлах объектов, но способен за счет своего многопроцессорного подхода эффективно справляться с внешними атаками.
## Результаты
Мы проверили ORCA на трех сценариях: (1) работе с чистыми изображениями, (2) атаках адверсарными помехами без защитных методов, и (3) атаках с применением защитных методов. На POPE hallucination benchmark, ORCA показал разность до +40.67% в точности для различных подмножеств. В условиях адверсарных нападений на POPE, ORCA повысил среднюю точность моделей LVLM на +20.11%. Кроме того, при использовании защитных методов на AMBER изображениях, ORCA повысил точность LVLM от +1.20% до +48.00%, зависимо от выбранных метрик. Эти результаты демонстрируют эффективность ORCA в улучшении надежности и сопротивляемости языково-визуальных моделей.
## Значимость
ORCA может быть применено в многообразных областях, где важна надежность лингвистических выводов на основе визуальных данных, в том числе в области медицины, юриспруденции, автоматизации производственных процессов и безопасности. ORCA значительно повышает точность и сопротивляемость существующих LVLMs, уменьшая риск ошибок и повышая доверие пользователей. Его потенциальное влияние заключается в том, что он может стать основой для развити
Annotation:
Large Vision-Language Models (LVLMs) exhibit strong multimodal capabilities
but remain vulnerable to hallucinations from intrinsic errors and adversarial
attacks from external exploitations, limiting their reliability in real-world
applications. We present ORCA, an agentic reasoning framework that improves the
factual accuracy and adversarial robustness of pretrained LVLMs through
test-time structured inference reasoning with a suite of small vision models
(less than 3B parameters). ORCA operate...
Авторы:
Qian Wang, Ziqi Huang, Ruoxi Jia, Paul Debevec, Ning Yu
#### Контекст
Создание выразительных и информативных видео с говорящими персонажами и глубокой интеграцией сценария представляет собой трудную задачу, которая часто ограничивается техническими и творческими возможностями существующих фреймворков. Они сталкиваются с проблемами, такими как слабая помощь пользователям, низкое качество визуальных эффектов и ограниченность выразительности. Например, развивающиеся фреймворки для рассказа историй через видео часто сталкиваются с трудностями в создании сценариев, которые требуют глубокого понимания художественного контекста и выразительных возможностей. Наша мотивация заключается в развитии расширенного комплексного подхода, который мог бы улучшить качество генерируемых видео, увеличить выразительность и сделать их более помогающими для пользователей.
#### Метод
MAViS (Multi-Agent Video Storytelling) представляет собой современный фреймворк, в котором работают специализированные агенты в разных стадиях процесса рассказа историй с помощью видео. Фреймворк состоит из шести модулей: сценарийная работа, разработка выступления, моделирование персонажей, генерация ключевых кадров, анимация видео и генерация аудио. Каждый модуль придерживается 3E-принципа — Explore (изучение возможностей), Examine (оценка результатов) и Enhance (улучшение результатов). Для улучшения совместимости с набором существующих генерирующих моделей, мы предлагаем Script Writing Guidelines. Эти рекомендации оптимизируют создание сценариев, которые лучше доступны и эффективны для работы с генеративными моделями. Наш подход решает проблемы слабой помощи и несоответствия между пользовательскими вводом и итоговым выходом.
#### Результаты
Мы проверили MAViS на различных данных, включая тестовые видео, произведенные вручную и пользовательские пробы. Наши эксперименты показали, что MAViS превосходит другие фреймворки в трех основных аспектах: помощь пользователю, качество визуальных эффектов и выразительность видео. Например, тесты показали, что MAViS значительно улучшает структуруки сценариев, повышает качество генерируемых кадров и увеличивает уровень выразительности финального видео. Эти результаты подтверждают эффективность нашего подхода в создании высококачественных и интересных видео для рассказа историй.
#### Значимость
MAViS может быть применен в различных областях, таких как творческое производство, образовательные видео, реклама и видеоигры. Он предоставляет пользователям возможность легко создавать высококачественные видео с глубоким сценарием, которые требуют меньше времени и усилий. Одним из осно
Annotation:
Despite recent advances, long-sequence video generation frameworks still
suffer from significant limitations: poor assistive capability, suboptimal
visual quality, and limited expressiveness. To mitigate these limitations, we
propose MAViS, an end-to-end multi-agent collaborative framework for
long-sequence video storytelling. MAViS orchestrates specialized agents across
multiple stages, including script writing, shot designing, character modeling,
keyframe generation, video animation, and audio...