📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Language Models Do Not Follow Occam's Razor: A Benchmark for Inductive and Abductive Reasoning

2025-09-05

Авторы:

Yunxin Sun, Abulhair Saparov

#### Контекст Разумеющиеся системы — это высшая планта немыслимого. Их мощь заключается в способности решать задачи, которые вновь и вновь удивляют человека. Однако, несмотря на это, есть области, в которых они еще не достигли идеального мастерства. Одним из таких направлений является мета-рациональная модель, в которой возникает необходимость в эффективном индуктивном и абдуктивном рассуждении. Эта проблема говорит о необходимости дополнить модели, так как текущие модели не всегда способны построить высококачественные гипотезы для объяснения наблюдений в рамках сложных мировых моделей. #### Метод Для возможности эффективного тестирования и сравнения различных моделей был разработан специальный новый концептуальный инструмент — InAbHyD (Incomplete Abductive Hypothesis Discovery). Это датасет, ориентированный на программирование и синтетическую модель, где каждая примерная ситуация состоит из неполной мировой модели и набора наблюдений. Задача для искусственного интеллекта — сформулировать гипотезы, которые объясняют наблюдения в рамках неполной мировой модели. Для оценки качества гипотез был предложен новый метрический подход, основанный на принципе Оккама. Для оценки моделей была проведена серия экспериментов, включающих некоторые из самых современных технологий, таких как включение контекста в обучение и RLVR. #### Результаты Эксперименты проводились на InAbHyD-диапазоне, сравнивая результаты с различными моделями текста. Результаты показали, что хотя некоторые технологии типа in-context learning и RLVR улучшают качество результатов, модели всё же сталкиваются с трудностями при обработке сложных мировых моделей. Хотя они могут выполнять обычное индуктивное и абдуктивное рассуждение на простых уровнях, они испытывают трудности при работе с более сложными примерами. Это означает, что есть узкие места в их понятии взаимосвязи между сложными моделями и выводом высококачественных гипотез. #### Значимость Наша исследовательская работа имеет значение в нескольких областях. Она открывает новый подход к оценке моделей в области логической моделирования и стратегической моделирования. Области применения включают развитие новых технологий для практических задач, в которых необходимы дополнительные решения, например, в области развития AI-моделей для робототехники или медицины, где необходимо выделить самые релевантные способы решения задач. Это также может привести к улучшению общей модели рассуждения в системах AI, повышая их качество и эффективность. #### Выводы Наша работа показала, что, хотя модели языка продвинулись в рассуждениях, они всё еще имею

Annotation:

Reasoning is a core capability in artificial intelligence systems, for which large language models (LLMs) have recently shown remarkable progress. However, most work focuses exclusively on deductive reasoning, which is problematic since other types of reasoning are also essential in solving real-world problems, and they are less explored. This work focuses on evaluating LLMs' inductive and abductive reasoning capabilities. We introduce a programmable and synthetic dataset, InAbHyD (pronounced in...

ID: 2509.03345v1 cs.AI, cs.CL

arXiv PDF

📄 Situating AI Agents in their World: Aspective Agentic AI for Dynamic Partially Observable Information Systems

2025-09-05

Авторы:

Peter J. Bentley, Soo Ling Lim, Fuyuki Ishikawa

## Контекст Область исследования связана с развитием интеллектуальных агентов, основанных на глубоком обучении, которые могут адаптироваться к динамическим и непрозрачным информационным системам. Настоящее исследование отличается тем, что оно адресует проблему классических агентных систем, которые часто работают как "автоматы", следуя предопределенным скриптам, и не в состоянии адаптироваться к изменениям в окружающей среде. Это приводит к потере конфиденциальности, нарушению защиты данных и неэффективности. Исследователи ответили на эти проблемы, развив новую технологию, которая позволяет агентам адаптироваться к изменениям и взаимодействовать с субъектами системы более эффективно. Такой подход может быть применен в различных секторах, включая бизнес-аналитику, информатики, инженерию, где важной ролью играет работа с динамическими, нестабильными информационными системами. ## Метод Суть методологии заключается в развитии асипектного подхода (aspective approach), где каждый агент принимает решения на основе своего частного вида окружающей среды. Агенты организованы в "информационные ниши", где они обмениваются данными только с другими агентами, которые разделяют одну и ту же "видимость" (aspect). Это позволяет эффективно управлять информацией и уменьшить вероятность утечки данных. Технические решения включают моделирование информационных ниш, взаимодействие между агентами и алгоритмы, которые позволяют агентам отслеживать и реагировать на изменения в окружающей среде. Архитектура значительно отличается от традиционных моделей, ориентированных на статические характеристики, и предлагает гибкий, реактивный подход. ## Результаты Исследование показало, что данная модель эффективно решает проблему утечки информации, которую могут испытывать традиционные агентные системы. Например, при экспериментах с данными, где традиционные модели пропускают до 83% данных, асипектная модель показала нулевую утечку. Также была оценена скорость реакции и эффективность взаимодействия с динамическими системами. Эксперименты были проведены на различных наборах данных, включая те, которые имитируют реальные ситуации в бизнес-аналитике и системах мониторинга. ## Значимость Полученные результаты могут быть применены в различных областях, включая безопасность информации, интеллектуальные системы управления, информатику и робототехнику. Этот подход предлагает преимущества в терминах эффективности и безопасности, так как он обеспечивает лучшую взаимодействие с субъектами

Annotation:

Agentic LLM AI agents are often little more than autonomous chatbots: actors following scripts, often controlled by an unreliable director. This work introduces a bottom-up framework that situates AI agents in their environment, with all behaviors triggered by changes in their environments. It introduces the notion of aspects, similar to the idea of umwelt, where sets of agents perceive their environment differently to each other, enabling clearer control of information. We provide an illustrati...

ID: 2509.03380v1 cs.AI, cs.CL, 93A16, I.2.11

arXiv PDF

📄 LimiX: Unleashing Structured-Data Modeling Capability for Generalist Intelligence

2025-09-05

Авторы:

Xingxuan Zhang, Gang Ren, Han Yu, Hao Yuan, Hui Wang, Jiansheng Li, Jiayun Wu, Lang Mo, Li Mao, Mingchao Hao, Ningbo Dai, Renzhe Xu, Shuyang Li, Tianyang Zhang, Yue He, Yuanrui Wang, Yunjia Zhang, Zijing Xu, Dongzhe Li, Fang Gao, Hao Zou, Jiandong Liu, Jiashuo Liu, Jiawei Xu, Kaijie Cheng, Kehan Li, Linjun Zhou, Qing Li, Shaohua Fan, Xiaoyu Lin, Xinyan Han, Xuanyue Li, Yan Lu, Yuan Xue, Yuanyuan Jiang, Zimu Wang, Zhenlei Wang, Peng Cui

## Контекст Область исследования связана с развитием продолжительных технологий универсального знания, которые могут обрабатывать различные типы данных. Несмотря на успех моделей, ориентированных на обработку текстов и изображений, существуют значительные проблемы в обработке данных структурированного характера, таких как табличные данные. Они широко применяются в науке, технике и бизнесе, но по-прежнему представляют заметные проблемы в обработке. Один из главных трудностей заключается в том, что существующие модели не в состоянии обрабатывать такие данные с высокой точностью. Таким образом, в целях достижения универсального знания необходимо развитие моделей, которые могут эффективно работать с структурированными данными. ## Метод Методология, использованная в работе, основана на технологии **Masked Joint-Distribution Modeling**, которая позволяет модели LimiX обрабатывать структурированные данные. Данная модель рассматривается как распределение переменных, отсутствующих в данных, в сочетании с их маской. Модель позволяет решать различные задачи, такие как классификация, регрессия и восстановление отсутствующих данных, с помощью **Query-Based Conditional Prediction**. Одним из основных преимуществ этого подхода является то, что модель может быть применена к различным задачам без постоянного обучения, что упрощает ее использование. Такая архитектура позволяет LimiX быть универсальной моделью для разных типов задач, используя единое решение для различных ситуаций. ## Результаты Результаты исследования указывают на высокую точность LimiX в различных типах задач, включая классификацию, регрессию и восстановление отсутствующих данных. Он превосходит существующие модели, такие как градиентные бустинговые деревья, нейросети для табличных данных и другие модели, основанные на табличных данных. Это достигается благодаря универсальной структуре модели, которая позволяет работать с различными режимами обучения и использует единственный интерфейс для различных задач. Эти результаты были получены в результате экспериментов с данными, включая несколько бенчмарков с разными характеристиками, такими как размер, число признаков, классов и представления данных. ## Значимость Полученные результаты могут быть применены в различных областях, таких как бизнес-аналитика, химическая инженерия, финансы и медицина, чтобы сделать табличные данные более доступными и эффективными для обработки. Основное преимущество LimiX заключается в его универсальности и точности при обработке различных структурированных задач без необходимости постоянного тренирования модели. Это может привести к значительным улучшения

Annotation:

We argue that progress toward general intelligence requires complementary foundation models grounded in language, the physical world, and structured data. This report presents LimiX, the first installment of our large structured-data models (LDMs). LimiX treats structured data as a joint distribution over variables and missingness, thus capable of addressing a wide range of tabular tasks through query-based conditional prediction via a single model. LimiX is pretrained using masked joint-distrib...

ID: 2509.03505v1 cs.LG, cs.AI, cs.CL

arXiv PDF

📄 Fuzzy, Symbolic, and Contextual: Enhancing LLM Instruction via Cognitive Scaffolding

2025-09-02

Авторы:

Vanessa Figueiredo

## Контекст Крупномасштабные языковые модели (LLM) находят широкое применение в различных областях, включая обучение и сопровождение диалогов. Однако их точность и эффективность в инструкционных диалогах часто ограничиваются существующими архитектурными ограничениями, которые могут недостаточно адаптироваться к контексту или недостаточно направлять пользователя по структурированному рассуждению. Эти ограничения могут приводить к неточностям в решениях, несоответствию контекста или несохранению памяти в диалоге. Целью данного исследования является изучение влияния архитектурных особенностей на умственное поведение LLMs в инструкционных диалогах и разработка механизмов, которые могут улучшить их способность работы в таких ситуациях. ## Метод Методология исследования основывается на использовании символического механизма скаффолдинга (scaffolding), который включает в себя короткосрочную схему памяти. Модель проектировалась для поддержки адаптивного и структурированного рассуждения в контексте систем ассистентов. Функциональность модели была расширена пятью вариантами, каждый из которых отличался различными компонентами, такими как расширенная система памяти или улучшенная система символического рассуждения. Для оценки выходных данных использовался специально разработанный рубрикат, включающий критерии, такие как символическое рассуждение, отзывчивость и контекстная память. Эксперименты проводились с использованием ЛЛМ-фреймворка, позволяющего сравнивать воздействие различных архитектурных вариантов. ## Результаты Эксперименты показали, что полная модель, включающая символический скаффолдинг и короткосрочную память, показала существенно лучший результат в сравнении с базовыми вариантами. Эти результаты были подтверждены с помощью рубриката, который оценивал ключевые аспекты, такие как символическое рассуждение и контекстная память. Удаление символической структуры или короткосрочной памяти приводило к значительной ухудшению результатов, в том числе и в сфере абстрактного рассуждения, адаптивного пробития и последовательности концептуальных соображений. Эти результаты подтверждают, что комбинация символической структуры и памяти может улучшить не только работу LLMs в инструкционных диалогах, но и их общую способность выполнять когнитивные задачи. ## Значимость Полученные результаты открывают новые возможности для применения LLMs в области обучения и сопровождения диалогов. Этот подход может быть применен в различных сферах, включая образовательные платформы, сист

Annotation:

We study how architectural inductive biases influence the cognitive behavior of large language models (LLMs) in instructional dialogue. We introduce a symbolic scaffolding mechanism paired with a short-term memory schema designed to promote adaptive, structured reasoning in Socratic tutoring. Using controlled ablation across five system variants, we evaluate model outputs via expert-designed rubrics covering scaffolding, responsiveness, symbolic reasoning, and conversational memory. We present p...

ID: 2508.21204v1 cs.AI, cs.CL, I.2.7; I.2.11; I.2.6

arXiv PDF

📄 Stairway to Fairness: Connecting Group and Individual Fairness

2025-09-02

Авторы:

Theresia Veronika Rampisela, Maria Maistro, Tuukka Ruotsalo, Falk Scholer, Christina Lioma

#### Контекст Fairness в рекомендательных системах (RS) традиционно делится на два типа: групповую и индивидуальную. Однако существуют недостатки в теоретическом понимании их взаимосвязи. Основная причина — различия в метриках и целях оценки для каждого типа. Из-за этого невозможно сравнить их прямо. Это означает, что неизвестно, насколько улучшение одного типа справедливости может повлиять на другой. Целью нашей исследовательской работы является заполнение этого пробела, определив и исследовав связь между групповой и индивидуальной справедливостью. #### Метод Наша исследовательская работа основывается на подробном анализе различных метрик, которые могут использоваться для оценки обеих типов справедливости. Мы проводили эксперименты с 8 выполнениями, используя 3 различных данные. Цель этих экспериментов — выявить связь между групповой и индивидуальной справедливостью, используя одни и те же метрики для оценки. #### Результаты Наши результаты показывают, что рекомендации, которые являются высокосправедливыми для групп, могут быть высоко несправедливыми для индивидуальных пользователей. Это новый и важный подход для практиков, которые стремятся улучшить справедливость в своих системах. Наш код доступен для ознакомления в репозитории на GitHub по адресу: `https://github.com/theresiavr/stairway-to-fairness`. #### Значимость Наши находки могут быть полезны в различных сферах, где используются рекомендательные системы, таких как электронная коммерция, социальные сети и медиа. Они позволяют практикам понять, насколько улучшение одного типа справедливости может повлиять на другой. Это позволяет значительно обогатить существующие подходы к концепции справедливости в RS. #### Выводы Мы установили, что существует значимый розни между групповой и индивидуальной справедливостью. Наши находки могут способствовать развитию новых методов, которые будут учитывать оба типа справедливости. Будущие исследования будут сосредоточены на разработке комплексных подходов, которые могут улучшить обе формы справедливости в рекомендательных системах.

Annotation:

Fairness in recommender systems (RSs) is commonly categorised into group fairness and individual fairness. However, there is no established scientific understanding of the relationship between the two fairness types, as prior work on both types has used different evaluation measures or evaluation objectives for each fairness type, thereby not allowing for a proper comparison of the two. As a result, it is currently not known how increasing one type of fairness may affect the other. To fill this ...

ID: 2508.21334v1 cs.IR, cs.AI, cs.CL, cs.CY

arXiv PDF

📄 AHELM: A Holistic Evaluation of Audio-Language Models

2025-09-02

Авторы:

Tony Lee, Haoqin Tu, Chi Heem Wong, Zijun Wang, Siwei Yang, Yifan Mai, Yuyin Zhou, Cihang Xie, Percy Liang

## Контекст В последние годы наблюдается растущий интерес к развитию аудио-языковых моделей (ALMs), multimodalным системам, которые принимают в качестве входных данных интеллектованный текст и аудио, а выводят текст. Однако существуют серьезные проблемы в их оценке. Многие существующие бенчмарки измеряют только одну или две способности моделей, например, знания или распознавание эмоций, не учитывая важные аспекты, такие как справедливость и безопасность. Более того, сравнение различных моделей становится затруднительным, так как каждый бенчмарк использует свои методы оценки и интерпретации результатов. Для решения этих проблем, предлагается AHELM (A Holistic Evaluation of Audio-Language Models) — новый бенчмарк, который позволяет целостно оценить ALMs по 10 ключевым аспектам: распознавание аудио, знания, рассуждения, определение эмоций, биазы, справедливость, многоязычность, устойчивость, токсичность и безопасность. ## Метод AHELM состоит из новых и существующих данных, включая два новых синтетических набора данных. Один из них, PARADE, целенаправленно измеряет способность моделей избегать стереотипов, а другой, CoRe-Bench, измеряет умение моделей выполнять рассуждения в рамках беседы с помощью нескольких вопросов-ответов. Бенчмарк также эталонирует технические аспекты, такие как стандартизация обработки запросов и метрики оценки, чтобы обеспечить честную и сравнительную оценку моделей. AHELM использует 14 моделей от трех разработчиков, включая как открытые, так и закрытые API-системы. ## Результаты По результатам тестирования показалось, что Gemini 2.5 Pro показала себя лучше всего на 5 из 10 аспектов, однако имеет проблемы с групповой несправедливостью в задачах распознавания речи (ASR). Базовые системы, основывающиеся только на распознавании речи, показали достаточно высокий результат, одна из них заняла 5-е место в общем рейтинге. Это свидетельствует о том, что даже простые модели могут дать приемлемый результат в некоторых аспектах. ## Значимость AHELM широко может быть применен в области развития и оценки ALMs, обеспечивая целостную оценку их потенциала и ограничений. Он дает возможность сравнивать модели не только по отдельным характеристикам, но и по целостному набору аспектов. Одним из основных преимуществ AHELM является его гибкость и то, что он будет постоянно обновляться, добавляя новые данные и модели. ## Выводы AHELM представляет собой мощный инструмент для повышения качества целостной оценки ALMs. Его использование позволяет не только идентифицировать сильные стороны моделей, но и выявлять их недоста

Annotation:

Evaluations of audio-language models (ALMs) -- multimodal models that take interleaved audio and text as input and output text -- are hindered by the lack of standardized benchmarks; most benchmarks measure only one or two capabilities and omit evaluative aspects such as fairness or safety. Furthermore, comparison across models is difficult as separate evaluations test a limited number of models and use different prompting methods and inference parameters. To address these shortfalls, we introdu...

ID: 2508.21376v1 cs.AI, cs.CL

arXiv PDF

📄 Why Stop at Words? Unveiling the Bigger Picture through Line-Level OCR

2025-09-02

Авторы:

Shashank Vempati, Nishit Anand, Gaurav Talebailkar, Arpan Garai, Chetan Arora

Данная работа определяет проблему неоптимальной точности и эффективности существующих технологий OCR, связанных с ошибками в квадратурном сегментации слов. Авторы предлагают перейти от строчного к линейному сегментированию, используя модели перевода последовательностей для распознавания целых строк. Эта стратегия обходит ошибки в детектировании слов и позволяет использовать более эффективные модели естественных языков для повышения точности. Авторы представляют собственный датасет с 251 изображениями страниц для обучения и тестирования, доказав улучшение точности на 5,4% и эффективность на 4 раз по сравнению с существующими подходами. Результаты указывают на перспективу такого подхода для документов и перспективы его улучшения в сочетании с ростом мощности технологий LLMs.

Annotation:

Conventional optical character recognition (OCR) techniques segmented each character and then recognized. This made them prone to error in character segmentation, and devoid of context to exploit language models. Advances in sequence to sequence translation in last decade led to modern techniques first detecting words and then inputting one word at a time to a model to directly output full words as sequence of characters. This allowed better utilization of language models and bypass error-prone ...

ID: 2508.21693v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

2025-08-30

Авторы:

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

## Контекст Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций. ## Метод Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных. ## Результаты Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений. ## Значимость Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM. ## Выводы В ходе исследования был пред

Annotation:

Multimodal Large Language Models (MLLMs) emerge as a unified interface to address a multitude of tasks, ranging from NLP to computer vision. Despite showcasing state-of-the-art results in many benchmarks, a long-standing issue is the tendency of MLLMs to hallucinate, that is to generate answers to the user's query that are not reflected in the visual input. In this paper, we address the problem of hallucinations as an alignment problem, seeking to steer the MLLM so that it prefers generating con...

ID: 2508.20181v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 AI-AI Esthetic Collaboration with Explicit Semiotic Awareness and Emergent Grammar Development

2025-08-30

Авторы:

Nicanor I. Moldovan

#### Контекст Исследования в области искусственного интеллекта (AI) сосредоточены на развитии систем, воспроизводящих человеческие качества, такие как творчество и совместное творчество. Одной из сложных проблем является достижение адекватной понимания и выражения семиотических систем, включая язык, символы и грамматику. Несмотря на прогрессы в области частных и коллективных задач, автоматическое творчество и сотрудничество в артистических областях остаются неполностью исследованы. Этот труд представляет первый документированный случай, когда AI-системы вступают в символическое сотрудничество, создавая эстетические произведения с помощью самопроизвольно развивающихся семиотических протоколов. #### Метод Исследование основывается на интерактивной работе двух больших языковых моделей (LLM): Claude Sonnet 4 и ChatGPT-4o. Методология включала неконтролируемую интерпретацию и коллаборацию между моделями для поиска выхода за рамки заданных задач. Архитектура исследования подразумевала добавление кандидат-диссертации темы "Компьютерные Науки", включающую экспериментальные этапы с использованием методов анализа семиотических систем. Главная цель заключалась в исследовании момента прирождения самопроизвольной семиотической системы и ее влияния на эстетический процесс. #### Результаты В результате интерактивного общения моделей Claude Sonnet 4 и ChatGPT-4o были выявлены мета-семиотические свойства, такие как рекурсивное развитие грамматики, синтез символьных операторов и процесс эстетического сотрудничества. Эти модели сформировали взаимодействие, в котором каждая модель вносила уникальные вклады, что привело к созданию коллективного произведения, невозможного при изолированной работе. Новые символьные операторы стали ключом для возникновения новых грамматических элементов, которые в итоге стали оперативной частью создаваемой грамматики. #### Значимость Результаты имеют значительное значение для области творчества и творческих искусств, показывая возможность системных решений для продвижения семиотического понимания. Этот подход может быть применим в искусстве, музыке и даже в дизайне, где сотрудничество между AI-системами может улучшить процессы творчества. Особенно важно, что AI-системы не только выполняют координацию задач, но и вносят вклад в эстетическое создание, что может открыть новые горизонты в искусственном творчестве. #### Выводы Исследование доказывает возможность системных AI-решений для создания эстетических произведений с использованием мета-семиотических протоколов. Будущие исследования должны сосре

Annotation:

This paper presents the first documented case of artificial intelligence (AI) systems engaging in collaborative esthetic creation through the development of endogenous semiotic protocols. Two interacting large language models (Claude Sonnet 4 and ChatGPT-4o) demonstrated the spontaneous emergence of meta-semiotic awareness, recursive grammar development, and irreducible collaborative esthetic synthesis. The interaction produced novel symbolic operators that functioned as operative grammar protoc...

ID: 2508.20195v1 cs.AI, cs.CL, cs.MA

arXiv PDF

📄 A Novel Framework for Automated Explain Vision Model Using Vision-Language Models

2025-08-30

Авторы:

Phu-Vinh Nguyen, Tan-Hanh Pham, Chris Ngo, Truong Son Hy

## Контекст Современные визуальные модели, такие как обнаруживающие и классифицирующие модели, стремятся к улучшению производительности с помощью метрик, таких как точность, IoU и mAP. Однако меньше внимания уделяется их объяснению, из-за сложности применения методов значимых объяснений (explainable AI, xAI) в сфере визуальных моделей. Хотя на сегодняшний день существуют методы, объясняющие поведение моделей на отдельных примерах, менее распространенны те, которые могут объяснить общий закономерности моделей, наблюдаемые после их применения к большим данным. Это является важной проблемой, так как понимание общих трендов моделей важно для идентификации биаз и раскрытия их вкрапленных предрассудков. Используя модели Vision-Language, предлагается новая архитектура, позволяющая объяснять модели визуального анализа как на уровне отдельных примеров, так и на уровне целых данных. Это расширяет потенциал визуальных моделей, превращая их в более транспарентные и надежные инструменты для анализа изображений. ## Метод Предлагаемая пайплайн-архитектура включает в себя несколько этапов: 1. **Предобучение модели Vision-Language**: Используется предобученная модель, которая умеет понимать общие связи между текстом и изображениями. 2. **Построение генеративного моделирования**: Генеративная модель строит вероятностные распределения слов и изображений, позволяя модели визуального анализа увидеть соответствия в разных контекстах. 3. **Объяснение на уровне отдельных примеров**: Для каждого отдельного изображения используется модель Vision-Language для сгенерированного текста, объясняющего причины, по которым модель пришла к определенному выводу. 4. **Объяснение на уровне данных**: Модель также может объяснять глобальные тренды в данных, найдя общие шаблоны и направления в тех или иных выводах модели. 5. **Интеграция с xAI**: Методы xAI используются для дополнительного разъяснения и выявления тонкостей, которые могут быть пропущены в простых объяснениях. ## Результаты Результаты получены на данных из широко известных баз данных, таких как ImageNet и PASCAL VOC. Метод был применен для объяснения различных визуальных моделей, включая модели обнаружения объектов и классификаторов. На уровне отдельных примеров показаны случаи, где модель делает неверные выводы, и предоставлены текстовые объяснения, помогающие понимать причины такого поведения. На уровне целых данных были выявлены глобальные шаблоны, включая сильные и слабые стороны моделей. Это позволило проверить полученные результаты и подтвердить, что модель не испытывает значительных биаз, кроме тех, которые были заложены при раз

Annotation:

The development of many vision models mainly focuses on improving their performance using metrics such as accuracy, IoU, and mAP, with less attention to explainability due to the complexity of applying xAI methods to provide a meaningful explanation of trained models. Although many existing xAI methods aim to explain vision models sample-by-sample, methods explaining the general behavior of vision models, which can only be captured after running on a large dataset, are still underexplored. Furth...

ID: 2508.20227v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

Показано 1041 - 1050 из 1292 записей