📚 Саммари научных статей из arXiv

Найдено 196 результатов по запросу 'cs.AI, cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Language-Driven Hierarchical Task Structures as Explicit World Models for Multi-Agent Learning

2025-09-09

Авторы:

Brennen Hill

## Контекст Область исследования агентных мультиагентных систем в области искусственного интеллекта является ключевым направлением развития моделей машинного обучения. Одной из основных проблем в этой области является создание моделей, которые могут эффективно совместно работать в сложных задачах, требующих хорошего понимания структуры окружающего мира. Этот вопрос наиболее актуален в таких задачах, как робототушки или робототуризм, где агенты должны выполнять коллективные задачи, но при этом имеют ограниченные возможности по изучению окружающего мира. Одной из причин этого является недостаток эффективных методов построения и использования высших уровней структуры, чтобы ориентироваться в высокомерных и нерегулярных пространствах применимости. Это ограничивает возможности агентов до реакции на мгновенные события, а не достижения долгосрочных целей. Мотивация для построения исследования заключается в том, чтобы развить методы, позволяющие агентам оперировать с более высоким уровнем структуры, чтобы они могли более эффективно решать задачи, требующие долгосрочного планирования и сложного совместного взаимодействия. ## Метод Для решения этой проблемы предлагается использовать систему, которая строит используя языковые модели, систему "областей" и "признаков", которые взаимодействуют с многоагентной средой. Эта система построит объектно-ориентированную иерархию, где основные задачи делятся на меньшие, более управляемые подзадачи. Для этого используется технология высокого уровня, которая может динамически изменять контекст и структуру задач на основе языковых команд. Например, если агенту требуется выполнить задачу, связанную с созданием структуры в системе, модель языка может сформировать иерархию задач, разбив их на подзадачи, которые могут быть выполнены в зависимости от контекста и целей. Эта структура позволит агентам научиться выполнять более сложные задачи, такие как динамическое планирование и выполнение коллективных задач в совместных задачах. ## Результаты На основе экспериментов, проведенных на основе 2024-го года, было проанализировано многоагентное обучение в средах, где использовались технологии марковских решений и многоагентного машинного обучения. Был оценен эффект использования языковых моделей для построения иерархической структуры задач. Результаты показали, что использование языковых моделей для построения иерархической структуры задач дает значительные выгоды по сравнению с более традиционными методами. Система позволяла агентам эффективней ориентироваться в пространстве

Annotation:

The convergence of Language models, Agent models, and World models represents a critical frontier for artificial intelligence. While recent progress has focused on scaling Language and Agent models, the development of sophisticated, explicit World Models remains a key bottleneck, particularly for complex, long-horizon multi-agent tasks. In domains such as robotic soccer, agents trained via standard reinforcement learning in high-fidelity but structurally-flat simulators often fail due to intract...

ID: 2509.04731v1 cs.AI, cs.CL, cs.LG, cs.MA, cs.RO, 68T05, 90C40, 91A26, 68T42, 93E35, I.2.11; I.2.6; I.2.8; I.2.9; I.2.7

arXiv PDF

📄 Towards Ontology-Based Descriptions of Conversations with Qualitatively-Defined Concepts

2025-09-09

Авторы:

Barbara Gendron, Gaël Guibon, Mathieu D'aquin

## Контекст Построение контролируемых конверсаций с помощью Бо LLM (Large Language Models) является важной проблемой в области развития интеллектуальных систем. Особенно актуальной является задача контроля уровня профициентности в обучающихся моделях, чтобы обеспечить предсказуемые и пользовательски персонализированные ответы. Несмотря на прогресс в области контролируемого генерирования текста, существуют ключевые проблемы в обеспечении точности, согласованности и удовлетворения потребностей пользователей. Одним из основных рисков является невозможность формальной определенности концепций, относящихся к качественным аспектам коммуникации, таких как профициентность. Данная работа ориентируется на развитие архитектуры, позволяющей выразить такие концепции в четко определенной форме, чтобы включить их в процесс рассуждения и системы контроля. ## Метод Предложенный подход включает в себя разработку онтологии, основанной на формальных определениях квалитиативных понятий, часто применяемых в контексте конверсации. Методология основывается на использовании лингвистических дескрипторов для преобразования качественных определений в количественные, обеспечивая их интеграцию в онтологию для выполнения логических рассуждений и проверки консистентности. Для реализации этого фреймворка применялись методы описательной логики, а также техники генерирования текста с помощью Бо LLM, подвергнутого перенусу для контроля уровня профициентности. ## Результаты Основным результатом является создание системы, позволяющей формально определить профициентность на базе лингвистических дескрипторов. Эти определения были включены в онтологию, которая использовалась для настройки модели Бо LLM. Эксперименты проводились с использованием данных, соответствующих уровням профициентности CEFR (Common European Framework of Reference for Languages). Результаты показали, что полученная модель обеспечивает консистентные и обоснованные определения уровней профициентности, что улучшает транспарентность и управляемость процесса генерирования текста в контексте конверсации. ## Значимость Предложенная модель может быть применена в различных сферах, где необходимо контролировать содержание и качество коммуникаций, в том числе в образовательных системах, системах поддержки клиентов и мобильных приложениях. Одним из преимуществ является улучшение транспарентности и стабильности взаимодействия с Бо LLM, что может повысить доверие пользователей к интеллектуальным системам. Более того, данная работа открывает новые перспективы для развития контролируемого текстового генерирования, основываясь

Annotation:

The controllability of Large Language Models (LLMs) when used as conversational agents is a key challenge, particularly to ensure predictable and user-personalized responses. This work proposes an ontology-based approach to formally define conversational features that are typically qualitative in nature. By leveraging a set of linguistic descriptors, we derive quantitative definitions for qualitatively-defined concepts, enabling their integration into an ontology for reasoning and consistency ch...

ID: 2509.04926v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Promptception: How Sensitive Are Large Multimodal Models to Prompts?

2025-09-06

Авторы:

Mohamed Insaf Ismithdeen, Muhammad Uzair Khattak, Salman Khan

## Контекст В последние годы Large Multimodal Models (LMMs) показали выдающиеся результаты в области многомодального понимания и вывода. Однако, дизайн инструкций (prompts) для LMMs в задачах Multiple-Choice Question Answering (MCQA) остается значительной недоработкой. Исследования показывают, что даже незначительные изменения в формулировке и структуре инструкций могут привести к существенным отклонениям в точности решения задач — до 15%. Это выносит в угрозу честность и транспарентность оценки LMM, так как модели часто отчётливо показывают свои лучшие результаты, оптимизировав инструкции. Для снятия этой проблемы мы предлагаем Promptception — новую систематическую модель для оценки чувствительности LMM к инструкциям. ## Метод Promptception представляет собой развитый фреймворк, включающий 61 типа инструкций, разделенных на 15 категорий и 6 суперкатегорий. Каждая категория нацелена на конкретный аспект формулировки инструкций. Мы использовали этот фреймворк для оценки точности 10 LMMs, включая опенсорсные модели и самые современные проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro. Эксперименты проводились на трёх бенчмарках MCQA: MMStar, MMMU-Pro и MVBench. Это позволило нам выявить различия в чувствительности к инструкциям между моделями, а также выявить специфику работы проприетарных и опенсорсных моделей. ## Результаты Наши результаты показали, что проприетарные модели, такие как GPT-4o и Gemini 1.5 Pro, чувствительнее к тонкостям формулировки инструкций, что свидетельствует о более глубокой инструкционной алигнентах. Отклонения в их результатах достигают 15%. Опенсорсные модели, такие как LLaMA и Falcon, показали более стабильные, но менее точные результаты при сложном дизайне инструкций. Мы также выявили, что чувствительность к формулировке сильно зависит от типа задачи и модели, что подтверждает необходимость развития специальных принципов дизайна инструкций для различных моделей. ## Значимость Результаты Promptception имеют высокую значимость для разработчиков и отрасли AI в целом. Наша работа подчёркивает важность тщательной оценки инструкций для достижения честных и транспарентных результатов в экспериментах с LMM. Мы предлагаем Prompting Principles, которые могут помочь улучшить честность экспериментов и сделать результаты более сравнимыми. Эти находки могут быть применены в области обучения с подкреплением, видеоанализа, мультимодального понимания и других многомодальных задачах. ## Выводы Мы показали, что Promptception даёт новые возможности для понимания и оценки чувствительности LMM к инструкциям. Наши результаты подтверждают, что чувствительность к формулировке инструкций может в

Annotation:

Despite the success of Large Multimodal Models (LMMs) in recent years, prompt design for LMMs in Multiple-Choice Question Answering (MCQA) remains poorly understood. We show that even minor variations in prompt phrasing and structure can lead to accuracy deviations of up to 15% for certain prompts and models. This variability poses a challenge for transparent and fair LMM evaluation, as models often report their best-case performance using carefully selected prompts. To address this, we introduc...

ID: 2509.03986v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 ArcMemo: Abstract Reasoning Composition with Lifelong LLM Memory

2025-09-06

Авторы:

Matthew Ho, Chen Si, Zhaoxiang Feng, Fangxu Yu, Zhijian Liu, Zhiting Hu, Lianhui Qin

## Контекст Современные текстовые глубокозатрагивающие модели (LLMs) обладают возможностью выполнять рассуждения различной сложности. Однако при выполнении новых задач они часто потеряют возможность повторно применять накопленные ранее знания и выводы. Это ограничивает их эффективность при решении задач, требующих постоянного обучения в процессе работы. Для решения этой проблемы вводится концепция **"тест-time continual learning"**, которая позволяет моделям в процессе работы учиться на новых данных и совершенствоваться. Одним из вариантов этого подхода является использование **внешней памяти**, которая может хранить полученные выводы и концепции в естественном языке. Исследование подтверждает, что такой подход повышает эффективность в решении рассуждений, особенно в задачах, требующих значительной логической структуры. Идея ArcMemo — создать систему, которая бы не только помогала моделям в решении рассуждений, но и сохраняла наиболее универсальные знания в виде **концептуальных модулей**, которые могут быть повторно применены в будущих задачах. ## Метод ArcMemo работает на основе **тест-time continual learning** с использованием **концептуальной внешней памяти**. Основной идеей является использование **техники роллаутов** (rollouts), которая позволяет модели в процессе работы делать выводы и хранить их в виде **концептуальных абстракций** — естественно языковых описаний решений. Эти абстракции после этого могут быть **выбираться и интегрированы** в новые задачи, чтобы помочь модели в решении новых задач. ArcMemo использует два ключевых аспекта: 1. **Абстрактные модули** — модули, которые представляют собой стабильные и универсальные решения, выведенные из роллаутов. 2. **Динамическое обновление памяти** — постоянное добавление новых модулей и удаление устаревших при помощи тест-time continual learning. Это позволяет модели ArcMemo расти в силе и эффективности в процессе выполнения задач. Техника роллаутов позволяет находить сложные решения задач и записывать их в естественно языковом виде в виде **концептуальных модулей**. Эти модули, в свою очередь, могут быть повторно использованы при решении новых задач. ## Результаты Исследование проводилось на **ARC-AGI benchmark**, который требует выполнения сложных рассуждений. Отмечается, что система ArcMemo показывает **7.5% относительный выигрыш** по сравнению с теми же моделями без внешней памяти. Особенно полезность **концептуальных модулей** продемонстрирована в задачах, требующих высокой логической структуры. Также было показано, что модель ArcMemo становится эффективнее при увеличении компьютерных ресурсов и количества решенных задач, что подтверждает свою способность

Annotation:

While inference-time scaling enables LLMs to carry out increasingly long and capable reasoning traces, the patterns and insights uncovered during these traces are immediately discarded once the context window is reset for a new query. External memory is a natural way to persist these discoveries, and recent work has shown clear benefits for reasoning-intensive tasks. We see an opportunity to make such memories more broadly reusable and scalable by moving beyond instance-based memory entries (e.g...

ID: 2509.04439v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Self-Exploring Language Models for Explainable Link Forecasting on Temporal Graphs via Reinforcement Learning

2025-09-05

Авторы:

Zifeng Ding, Shenyang Huang, Zeyu Cao, Emma Kondrup, Zachary Yang, Xingyue Huang, Yuan Sui, Zhangdie Yuan, Yuqicheng Zhu, Xianglong Hu, Yuan He, Farimah Poursafaei, Michael Bronstein, Andreas Vlachos

## Контекст Темporal graph (TG) — это граф, в котором ребра имеют временные характеристики, такие как время создания или удаления. Развитие систем графа заключается в том, чтобы предсказать будущие связи между узлами в графе. Это задача центральная в развитии технологий, которая требует использования нейросетей и графовых структур. Однако, существующие модели, такие как temporal graph neural networks, недостаточно транспартны и не могут быть использованы для неизвестных графов без повторного обучения. Таким образом, существует необходимость в создании моделей, которые могут объяснить свои решения и применяться к неизвестным данным. В этом работе мы предлагаем модель, которая использует методы reinforcement learning для того, чтобы обучить модели понимания имен ответов в контексте, чтобы улучшить ясность и понятность своих решений. ## Метод Мы предлагаем Reasoning-Enhanced Learning for Temporal Graphs (ReaL-TG), которая является фреймвормом, основанным на reinforcement learning. Он содержит модель LLM, которая получает набор данных с графами и их связями, а также набор возможных вопросов и ответов. Мы используем reward-based методику для того, чтобы модель могла самостоятельно выявлять логику, которая приводит к правильным ответам. Модель также обучается производить разъяснения, которые подкрепляют свои выводы. Мы также предлагаем новую методику оценки того, насколько верны и полезны рассуждения, которые были созданы моделью. Эта методика сочетает в себе метрики оценки рейтинга и систему LLM-as-a-Judge, которая может оценивать качество рассуждений и учитывать влияние возможных ложных сведений. ## Результаты Мы провели эксперименты с ReaL-TG-4B, моделью, которая была получена в результате fine-tuning Qwen3-4B. Мы сравнили его с текущими лидерами в области графовых моделей, включая GPT-5 mini. Наши эксперименты показали, что ReaL-TG-4B превосходит всех соперников по метрикам рейтинга, производя самые точные прогнозы. Более того, наши разъяснения, созданные моделью, получили высокий рейтинг как от системы LLM-as-a-Judge, так и от людей, что подтвердило качество нашей модели. ## Значимость Модель ReaL-TG может быть применена в различных направлениях. Например, в сфере data science, где необходимо прогнозировать дальнейшие связи в графах. Она также может применяться в социальных сетях, где поддержание связей и понимание их истории ключевое значение. Наше решение обеспечивает высокую точность и ясность в прогнозировании. Это предлагает новый подход к графовым моделям, который может повысить надежность и понимание в области data science и AI. ## Выводы Мы представили ReaL-TG, модель, которая использует reinforcement learning и LLM для того, чтобы обеспечи

Annotation:

Forecasting future links is a central task in temporal graph (TG) reasoning, requiring models to leverage historical interactions to predict upcoming ones. Traditional neural approaches, such as temporal graph neural networks, achieve strong performance but lack explainability and cannot be applied to unseen graphs without retraining. Recent studies have begun to explore using large language models (LLMs) for graph reasoning, but most of them are constrained to static graphs or small synthetic T...

ID: 2509.00975v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Analysis of Error Sources in LLM-based Hypothesis Search for Few-Shot Rule Induction

2025-09-05

Авторы:

Aishni Parab, Hongjing Lu, Ying Nian Wu, Sumit Gulwani

## Контекст Индуктивное обучение является ключевым аспектом человеческого мозга, позволяющим выводить абстрактные правила из ограниченных примеров и применять их к новым ситуациям. Однако существуют сложности в понимании, как машинное обучение может эффективно реализовать индуктивное обучение. В данном исследовании авторы сравнивают подходы гипотезы поиска с подходом прямого генерирования программ на основе машинного обучения, основанного на больших лингвистических моделях (LLM), для решения задач малоподкрепленного вывода правил. Эта проблема важна, поскольку поиск гипотез может стать мощным инструментом для моделирования индуктивного разума, но пока недостаточно изучен. ## Метод Методология исследования основывается на сравнении двух подходов: гипотезы поиска и прямого генерирования программ. Гипотеза поиска подразумевает, что большая лингвистическая модель создает список возможных гипотез, а затем их оценивают на основе тестирующих примеров. Прямое генерирование программ, напротив, прямо генерирует программу, которая решает задачу. Исследование использовало данные из существующих выборок для оценки качества вывода. Архитектура системы предполагает использование LLM для представления и поиска гипотез, а также для оценки их точности. ## Результаты В ходе экспериментов, проведенных на различных сетках данных, гипотезный поиск показал себя очень эффективно, приближаясь к решениям, достигаемым человеком, с почти одинаковой точностью. Однако прямое генерирование программ оказалось значительно менее эффективным, тем более что при поиске гипотез была достигнута высокая стабильность и низкая стоимость ошибок. Это демонстрирует, что поиск гипотез является более эффективным методом для решения задач малоподкрепленного вывода правил. ## Значимость Результаты исследования имеют значительное значение для многих областей, включая робототехнику, автоматизацию и научную исследовательскую деятельность. Гипотезный поиск может быть применен для моделирования индуктивного разума в системах, которые должны работать с ограниченными данными. Особым преимуществом является его высокая точность и устойчивость к ошибкам, что делает его привлекательным в ситуациях, где важно минимизировать ошибки. Этот подход может стать мощным инструментом для ускорения развития ИИ в области индуктивного обучения. ## Выводы Авторы заключают, что гипотезный поиск является эффективным подходом для решения задач малоподкрепленного вывода правил и может стать ключевым инструментом для моделирования индуктивного разума. Однако остаются нерешенными про

Annotation:

Inductive reasoning enables humans to infer abstract rules from limited examples and apply them to novel situations. In this work, we compare an LLM-based hypothesis search framework with direct program generation approaches on few-shot rule induction tasks. Our findings show that hypothesis search achieves performance comparable to humans, while direct program generation falls notably behind. An error analysis reveals key bottlenecks in hypothesis generation and suggests directions for advancin...

ID: 2509.01016v1 cs.AI, cs.CL, cs.LG, cs.NE

arXiv PDF

📄 Understanding Space Is Rocket Science -- Only Top Reasoning Models Can Solve Spatial Understanding Tasks

2025-09-05

Авторы:

Nils Hoehing, Mayug Maniparambil, Ellen Rushe, Noel E. O'Connor, Anthony Ventresque

#### Контекст Область исследования, связанная с проблемами распознавания пространственных отношений, является ключевой в обучении машинам и искусственному интеллекту. Несмотря на прогресс в области визуальных языковых моделей (VLM), существуют затруднения в понимании пространственных отношений, таких как порядок предметов, их расположение и взаимосвязь. Эти недостатки существенно ограничивают применение VLM в реальных ситуациях, где пространственное понимание является критическим. Эта проблема мотивирует развитие новых методологий и данных для эффективного пространственного распознавания. #### Метод Разработана методика RocketScience, открытой основной системы бенчмарка для проверки пространственного понимания. Она включает в себя совершенно новые реальные изображения и текстовые описания, охватывающие широкий спектр пространственных отношений и порядка объектов. Бенчмарк спроектирован таким образом, чтобы быть легким для людей, но сложным для нынешних VLM. Эта сложность подтверждена эмпирическими результатами. Чтобы продемонстрировать вклад каждого компонента, включая локализацию объектов и пространственное рассуждение, проведена детализированная аналитическая раздробленности в моделях с цепочкой мыслей. #### Результаты Эксперименты проводились с использованием изображений и текстовых данных из RocketScience. Открытые и коммерческие VLM показали значительные ограничения в пространственном понимании, но тем не менее удачно справлялись с локализацией объектов. В отличие от этого, реализованные модели рассуждений показали выдающиеся результаты в пространственном понимании. Разделяющий анализ подтвердил, что проблематичным для моделей является именно пространственное рассуждение, а не задачи локализации объектов. #### Значимость Предложенный бенчмарк и результаты могут быть применены в различных областях, включая визуальное распознавание, робототехнику, проектирование интерьеров и другие сферы, требующие точного пространственного понимания. Из преимуществ можно отметить то, что RocketScience предлагает новый подход к оценке моделей и выявляет слабые места в нынешних VLM. Это может привести к улучшению моделей и дальнейшему развитию интеллектуальных систем. #### Выводы Результаты показывают, что существующие модели часто столкнутся с трудностями в пространственном понимании, а именно в рассуждениях об отношениях между объектами. Бенчмарк RocketScience может стать ключевым инструментом для измерения развития моделей в этой области. Будущие исследования должны ориентироваться на улучшение пространственных моделей рассуждений для достижения более высокой точности и реа

Annotation:

We propose RocketScience, an open-source contrastive VLM benchmark that tests for spatial relation understanding. It is comprised of entirely new real-world image-text pairs covering mostly relative spatial understanding and the order of objects. The benchmark is designed to be very easy for humans and hard for the current generation of VLMs, and this is empirically verified. Our results show a striking lack of spatial relation understanding in open source and frontier commercial VLMs and a surp...

ID: 2509.02175v2 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 CausalARC: Abstract Reasoning with Causal World Models

2025-09-05

Авторы:

Jacqueline Maasch, John Kalantari, Kia Khezeli

## Контекст Адаптироваться к новым задачам разума в условиях ограниченных данных и распространения данных является ключевым аспектом успешного мышления. Традиционные подходы часто сталкиваются с трудностями при работе с нестандартными ситуациями и неожиданными факторами. Одним из важных направлений в обучении машин является создание моделей, которые могут эффективно рассуждать в условиях неопределенности и необычных сценариев. Это главная мотивация для разработки CausalARC — нового исследовательского подхода, ориентированного на борьбу с этими проблемами в области искусственного интеллекта. ## Метод CausalARC основывается на теории структурных кауальных моделей, которые являются моделями глобальных закономерностей в системах, где вызванные факторы могут быть разделены на зависимые и независимые. Методология включает в себя создание мировых моделей, из которых случайным образом формируются задачи. Данные аugmentations, такие как интервенции и контрфакторы, позволяют генерировать уникальные задачи для тестирования. Эти модели интегрируются с несколькими аспектами машинного обучения, включая сеансы обучения с небольшим количеством данных, чтобы модель могла корректно адаптироваться к новым условиям. ## Результаты Эксперименты CausalARC проводились в различных контекстах, включая ситуации с недостаточным количеством данных, нестандартными входными данными и сценариями, требующими логического рассуждения. Метод был опробован в 4 ключевых областях: (1) абстрактное рассуждение с тестовым обучением, (2) контрфакторное рассуждение с непосредственным обучением, (3) синтез программ и (4) выявление причинно-следственных связей с логическим рассуждением. Результаты показали, что CausalARC эффективно решает задачи, даже в условиях ограниченных данных и изменения распределения. ## Значимость CausalARC может применяться в различных областях, где необходимо решение нестандартных задач с ограниченными данными, таких как медицина, финансы и робототехника. Основные преимущества заключаются в гибкости модели, которая может адаптироваться к изменяющимся условиям, и в способности рассуждать на базе причинно-следственных связей. Это может привести к новым возможностям в области умных систем, решающих проблемы в сложных и неопределенных средах. ## Выводы CausalARC представляет собой перспективный подход для решения проблем рассуждения в условиях нестабильности данных. Он демонстрирует способность моделей рассуждать в условиях нестандартных задач и неопределенности. Будущие исследования будут направлены на расширение модели для более сложных сценариев

Annotation:

Reasoning requires adaptation to novel problem settings under limited data and distribution shift. This work introduces CausalARC: an experimental testbed for AI reasoning in low-data and out-of-distribution regimes, modeled after the Abstraction and Reasoning Corpus (ARC). Each CausalARC reasoning task is sampled from a fully specified causal world model, formally expressed as a structural causal model. Principled data augmentations provide observational, interventional, and counterfactual feed...

ID: 2509.03636v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR

2025-09-02

Авторы:

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Данная работа определяет проблему неоптимальной точности и эффективности существующих технологий OCR, связанных с ошибками в квадратурном сегментации слов. Авторы предлагают перейти от строчного к линейному сегментированию, используя модели перевода последовательностей для распознавания целых строк. Эта стратегия обходит ошибки в детектировании слов и позволяет использовать более эффективные модели естественных языков для повышения точности. Авторы представляют собственный датасет с 251 изображениями страниц для обучения и тестирования, доказав улучшение точности на 5,4% и эффективность на 4 раз по сравнению с существующими подходами. Результаты указывают на перспективу такого подхода для документов и перспективы его улучшения в сочетании с ростом мощности технологий LLMs.

Annotation:

Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone ...

ID: 2508.21693v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Annotation:

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furth...

ID: 2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
14
15
16
17
18
19
20

Показано 151 - 160 из 196 записей