📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization

2025-09-13

Авторы:

Zhengzhao Lai, Youbin Zheng, Zhenyang Cai, Haonan Lyu, Jinpu Yang, Hongqing Liang, Yan Hu, Benyou Wang

## Контекст Исследования в области материаловедения становятся все более важной частью самого материаловедческого процесса. Целью является получение полного понимания материалов в различных состояниях и условиях, чтобы раскрыть свойства, связанные с процессом их изготовления, микроструктурой и поведением в различных приложениях. Однако с тех пор, как материаловедение стало более цифровой, возникла необходимость в автоматизации и улучшении концептуального понимания материалов. Одна из самых трудных задач в этой области - это понимание изображений, полученных в результате различных методов материаловедческого анализа. Несмотря на то, что модели языка и изображений в последние годы достигли невероятных успехов, их применимость к материаловедческой области, особенно для решения задач, требующих высокой степени специализации, остается недостаточно изученной. Это привело к необходимости в развитии бенчмарков, которые могут эффективно помочь в изучении этих проблем. ## Метод Для решения этой задачи был разработан бенчмарк под названием MatCha, который представляет собой набор вопросов, разработанных специалистами в области материаловедения. Эти вопросы требуют высокого уровня знаний и опыта в области материаловедения, чтобы они могли быть однозначно решены. MatCha включает в себя четыре основных этапа материаловедения, включая 21 отдельных задач, касающихся различных аспектов материаловедческого анализа, включая изображения, визуальные данные и другие связанные с ними задачи. Эталонные модели, которым полагается MatCha, построены на базе многомодальных язучих моделей (MLLMs), которые используют изображения и текст вместе для анализа и понимания сложных материаловедческих задач. ## Результаты В ходе экспериментов, проведенных на базе MatCha, было определено, что существует существенное различие между моделями МЛЛМ и человеческим опытом в решении задач, требующих высокого уровня концептуального понимания. Эти модели работают лучше на задачах, требующих простого логического анализа, но сталкиваются с проблемами при работе с данными, требующими высокого уровня специализации и визуальной подготовки. Например, модели MLLMs сталкиваются с трудностями при выявлении тонких отличий в изображениях, требующих высокого уровня знаний и опыта в области материаловедения. Таким образом, эти результаты показывают, что текущие модели МЛЛМ не могут работать на уровне человеческого опыта в области материаловедческого анализа. ## Значимость MatCha может использоваться в различных сферах, включая автоматизацию и улучшение процессов ма

Annotation:

Materials characterization is fundamental to acquiring materials information, revealing the processing-microstructure-property relationships that guide material design and optimization. While multimodal large language models (MLLMs) have recently shown promise in generative and predictive tasks within materials science, their capacity to understand real-world characterization imaging data remains underexplored. To bridge this gap, we present MatCha, the first benchmark for materials characteriza...

ID: 2509.09307v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 CommonVoice-SpeechRE and RPG-MoGe: Advancing Speech Relation Extraction with a New Dataset and Multi-Order Generative Framework

2025-09-12

Авторы:

Jinzhong Ning, Paerhati Tulajiang, Yingying Le, Yijia Zhang, Yuanyuan Sun, Hongfei Lin, Haifeng Liu

#### Контекст Спикеровское извлечение отношений (Speech Relation Extraction, SpeechRE) является важной задачей в области обработки речи, которая стремится извлечь отношения в виде троек (субъект-предикат-объект) непосредственно из аудиоданных. Однако существующие датасеты для этой задачи значительно ограничены двумя ключевыми аспектами: (1) они часто опираются на синтетические данные, чья разнообразность и качество часто недостаточны для эффективного обучения реального мира, и (2) подходы, используемые в существующих моделях, часто ограничены решениями с одним порядком генерации, что приводит к слабой адаптации к контексту и недостаточной уточненности вывода. Это ставит перед исследователями и разработчиками вызовы в поиске решений для эффективного извлечения отношений из реальных данных речи. #### Метод Мы предлагаем **RPG-MoGe (Relation Prompt-Guided Multi-Order Generative Ensemble)** — новую архитектуру, основанную на двух основных компонентах: 1. **Многопорядковая стратегия генерации троек**: Такой подход позволяет эффективно использовать разнообразие порядков элементов (субъекта, предиката, объекта) во время обучения и процесса вывода. Это увеличивает точность и устойчивость модели, давая ей возможность приспособиться к сложным сценариям речи. 2. **CNN-based latent relation prediction heads**: Реляционные головы модели выражают отношения в виде явных генерируемых заголовков-подсказок. Это позволяет лучше синхронизировать кросс-модальные семантические аспекты и улучшить их выравнивание. RPG-MoGe объединяет эти компоненты в единую систему, обеспечивая гибкость и эффективность в различных сценариях SpeechRE. #### Результаты Для оценки эффективности RPG-MoGe в работе проводились тщательные эксперименты на новом датасете **CommonVoice-SpeechRE**, состоящем из 19 779 реальных аудио-примеров, собранных с различных реальных речи. Результаты показали, что наш подход существенно превосходит существующие методы по метрикам F1-score, Precision и Recall. Мы также проводили анализ, показывающий, что вклад каждого компонента RPG-MoGe в обобщенную производительность значительно. Эти результаты подтверждают, что наш подход является эффективным инструментом для решения задач SpeechRE в реальном мире. #### Значимость Предложенный подход имеет широкие возможности применения в сферах, требующих эффективного извлечения отношений из речи, таких как: - **Автоматическое понимание речи**: Улучшение взаимодействия с пользователями в системах распознавания речи (например, смарт-дисплеи или видеоречи). - **Контент-анализ**: Извлечение отношений из голосовых сообщений в социальных сетях и мультимедийных конт

Annotation:

Speech Relation Extraction (SpeechRE) aims to extract relation triplets directly from speech. However, existing benchmark datasets rely heavily on synthetic data, lacking sufficient quantity and diversity of real human speech. Moreover, existing models also suffer from rigid single-order generation templates and weak semantic alignment, substantially limiting their performance. To address these challenges, we introduce CommonVoice-SpeechRE, a large-scale dataset comprising nearly 20,000 real-hum...

ID: 2509.08438v1 cs.CL, cs.MM, cs.SD, eess.AS

arXiv PDF

📄 Dual Knowledge-Enhanced Two-Stage Reasoner for Multimodal Dialog Systems

2025-09-11

Авторы:

Xiaolin Chen, Xuemeng Song, Haokun Wen, Weili Guan, Xiangyu Zhao, Liqiang Nie

## Контекст Много modal task-oriented dialog systems (MTOD) становятся все более важным компонентом современных систем общения, поскольку они объединяют различные модальности (текст, звук, видео) для обеспечения более естественного и эффективного взаимодействия. Одна из ключевых задач в таких системах — генерация текстовых ответов, которые должны быть не только корректными с точки зрения логики, но и отвечать на целевую задачу. Несмотря на успехи, достигнутые в этой области, существуют некоторые ограничения. Например, многие модели игнорируют неструктурированные данные, такие как отзывы и пользовательские комментарии, которые могут обладать богатым контекстным смыслом. Кроме того, традиционные модели часто недостаточно эффективно используют возможности машинного обучения, особенно с точки зрения понимания и использования различных типов знаний. В этом контексте мы стремимся разработать модель, которая бы эффективно объединила структурированные и неструктурированные знания, используя возможности технологий искусственного интеллекта. ## Метод Наша модель, DK2R, представляет собой два этапа: 1) извлечение и оценка знаний и 2) генерация текстовых ответов. В первом этапе мы извлекаем два типа знаний: структурированные атрибуты (например, местоположение и цена ресторана) и неструктурированные отзывы. Для этого мы применяем LLM для анализа диалога и выделения ключевой информации с разных источников. Во втором этапе мы используем LLM для генерации пробных ответов, а затем проводим детальный анализ этих ответов, чтобы оценить их качество и соответствие целевой задаче. Особенностью нашей модели является то, что мы разделяем задачу на две части: использование структурированных данных для выделения целей и неструктурированных данных для подкрепления интентов. Это позволяет повысить точность генерации ответов, которая определяется с помощью дедлайнов. ## Результаты Мы проводили ряд экспериментов, используя общедоступную базу данных для MTOD. Ключевым показателем стала точность генерации ответов (accuracy) и их соответствие целевому намерению (intent matching). Наша модель DK2R показала значительное превосходство по этим показателям по сравнению с другими моделями, в том числе с теми, которые не использовали неструктурированный контекст или не эффективно оценивали значимость разных типов знаний. Например, DK2R повысила точность генерации ответов на 15% по сравнению с базовой моделью, не использующей неструктурированных данных. ## Значимость Модель DK2R может быть применена в различных сценариях, где необходимо обеспечить эффективное взаимодействие с пользователем на основе

Annotation:

Textual response generation is pivotal for multimodal \mbox{task-oriented} dialog systems, which aims to generate proper textual responses based on the multimodal context. While existing efforts have demonstrated remarkable progress, there still exist the following limitations: 1) \textit{neglect of unstructured review knowledge} and 2) \textit{underutilization of large language models (LLMs)}. Inspired by this, we aim to fully utilize dual knowledge (\textit{i.e., } structured attribute and uns...

ID: 2509.07817v1 cs.CL, cs.MM

arXiv PDF

📄 ResearchPulse: Building Method-Experiment Chains through Multi-Document Scientific Inference

2025-09-06

Авторы:

Qi Chen, Jingxuan Wei, Zhuoya Yao, Haiguang Wang, Gaowei Wu, Bihui Yu, Siyuan Li, Cheng Tan

## Контекст Область научного исследования глубоко затрагивает процессы эволюции и взаимосвязи научных идей. Традиционные подходы к анализу отдельных работ часто ограничиваются своеобразием и не учитывают развитие идей в контексте тематически связанных исследований. Это требует новых подходов, расширяющих традиционные текстовые модели. Необходимость изучения таких процессов возникает в связи с ростом интереса к научному знанию, а также с целью понять, как устроены и прогрессируют научные разработки. В этом контексте выделяется новая задача — multi-document scientific inference, нацеленная на формализацию и анализ развития научных идей через структурированный пересеченный анализ множества документов. ## Метод ResearchPulse представляет собой достижение в области компьютерных наук, специализирующихся на научном просмотре и анализе текстовой информации. Основной методологией является multi-agent framework, который включает в себя три специализированных агента: Plan Agent, Mmap-Agent и Lchart-Agent. Plan Agent отвечает за разбиение задачи на подзадачи, Mmap-Agent для построения моделей связи между мотивацией и методом, а Lchart-Agent — для синтеза экспериментальных данных в виде графиков. Архитектура построена на нейросетевой модели с 7 миллиардами параметров, обеспечивая высокую точность и синергетическую работу связанных моделей. Для поддержки этого фреймворка также был разработан ResearchPulse-Bench — новый бенчмарк, охватывающий аннотированные наборы данных с цитированиями работ. ## Результаты В ходе экспериментов с использованием ResearchPulse-Bench, наша модель показала не только лучшие результаты по сравнению с GPT-4o по метрикам semantic alignment, structural consistency и visual fidelity, но также доказала высокую эффективность в построении последовательностей мотивации, методов и результатов в рамках тематически связанных работ. Мы продемонстрировали, что наша модель способна оптимально анализировать и структурировать данные из разных документов, выделяя значимые связи и проявляя высокую точность в построении диаграмм и визуальных моделей. ## Значимость Наш подход имеет широкие перспективы в сферах научного анализа, развития новых технологий и компьютерных наук. Этот фреймворк может быть применен в образовательных процессах для построения современных моделей научного взгляда, в научно-технической работе для анализа и создания новых технологий, а также в области синтеза знаний для бизнес-инноваций. Наш подход, включающий в себя систему распознавания текстов, визуализации и новых моделей, может способствовать развитию новых научных идей и увеличению эффективности научных исследований. ## Выводы В итоге, ResearchPulse доказал свою эффективность в

Annotation:

Understanding how scientific ideas evolve requires more than summarizing individual papers-it demands structured, cross-document reasoning over thematically related research. In this work, we formalize multi-document scientific inference, a new task that extracts and aligns motivation, methodology, and experimental results across related papers to reconstruct research development chains. This task introduces key challenges, including temporally aligning loosely structured methods and standardizi...

ID: 2509.03565v1 cs.CL, cs.MM

arXiv PDF

📄 Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization

2025-08-30

Авторы:

Alberto Compagnoni, Davide Caffagni, Nicholas Moratelli, Lorenzo Baraldi, Marcella Cornia, Rita Cucchiara

## Контекст Multimodal Large Language Models (MLLMs) являются мощным инструментом, объединяющим в себе возможности обработки естественного языка и компьютерного зрения. Они доказали свою эффективность в решении различных задач, но имеют значительную проблему — тенденцию к генерированию ответов, которые не имеют отражения в визуальном вводе. Это проблема, известная как "галлюцинации", значительно ослабляет доверие пользователей к MLLMs. Наличие такого явления говорит о несоответствии данных, использованных моделью во время обучения, и реальности, в которой она применяется. Этот факт требует внедрения эффективных методов, способных уменьшить частоту галлюцинаций. ## Метод Метод, предложенный в работе, основывается на использовании CHAIR (Combined Hallucination Assessment Index for Ranking), метрики, которая позволяет оценивать степень галлюцинаций в ответах модели. Модель CHAIR сравнивает два ответа на одну задачу: один галлюцинацией пораженный, другой — нет. Оценка производится на основе различных критериев, например, точности деталей и соответствия изображения. Это позволяет сформировать предпочтение к негаллюцинационным ответам. Далее, эти предпочтения используются для тренировки модели с помощью Direct Preference Optimization (DPO), методики, которая направляет модель на максимизацию выбранного показателя. Такой подход значительно упрощает процесс, так как не требует специальных предварительных шагов, таких как синтез синтетических данных. ## Результаты Метод был проверен на нескольких тестах, основанных на различных базах данных. Эксперименты показали, что применение CHAIR-DPO значительно уменьшает частоту галлюцинаций в ответах модели. Метрики, полученные в этих экспериментах, сравнивались с другими подходами, и результаты CHAIR-DPO показали значительное преимущество в сокращении галлюцинаций. Это доказывает эффективность методики в повышении точности и достоверности ответов в сценариях, требующих интеграции текстов и изображений. ## Значимость Эффективность CHAIR-DPO продемонстрирована на различных задачах, включая обработку изображений и текстов для вывода понятных ответов. Метод может быть применен в различных областях, связанных с компьютерным зрением и естественным языком, таких как распознавание объектов, генерация текстов, анализ изображений. Основное преимущество CHAIR-DPO заключается в его гибкости и простоте — он может быть настроен для различных моделей без необходимости дополнительных синтетических данных. Это может привести к более достоверным и надежным решениям в технологиях, основанных на multimodal LLM. ## Выводы В ходе исследования был пред

Annotation:

Multimodal Large Language Models (MLLMs) emerge as a unified interface to address a multitude of tasks, ranging from NLP to computer vision. Despite showcasing state-of-the-art results in many benchmarks, a long-standing issue is the tendency of MLLMs to hallucinate, that is to generate answers to the user's query that are not reflected in the visual input. In this paper, we address the problem of hallucinations as an alignment problem, seeking to steer the MLLM so that it prefers generating con...

ID: 2508.20181v1 cs.CV, cs.AI, cs.CL, cs.MM

arXiv PDF

📄 Hierarchical Vision-Language Reasoning for Multimodal Multiple-Choice Question Answering

2025-08-26

Авторы:

Ao Zhou, Zebo Gu, Tenghao Sun, Jiawen Chen, Mingsheng Tu, Zifeng Cheng, Yafeng Yin, Zhiwei Jiang, Qing Gu

## Контекст Multimodal Large Language Models (MLLMs) стали одним из ключевых инструментов для решения задач визуального понимания и вопросно-ответных задач. Однако существуют значительные проблемы, в особенности при обработке развернутых PDF-документов с сложным сложностью и множественными визуальными и текстовыми слоями. Одним из главных ограничений является сильный языковой биас в процессе обучения, который приводит к меньшей эффективности при работе с языками, отличными от английского. Для решения этих проблем требуется фреймворк, который мог бы обеспечить глубокое понимание документов с разным сложностью и языковыми ограничениями. ## Метод Предлагаемый фреймворк основывается на идее визуально-языкового логического рассуждения, которое учитывает как визуальные, так и текстовые свойства документа. Основной метод заключается в декомпозиции задачи на подзадачи, при этом каждая подзадача обрабатывается с использованием предварительно обученных моделей. Это позволяет улучшить точность и скорость работы. Кроме того, в фреймворк внедрена стратегия колквен-оптимизированного поиска, которая позволяет эффективно искать информацию в PDF-документах. Метод также включает в себя стратегию верификации с помощью подзадач, чтобы улучшить точность ответов. ## Результаты Проведенные эксперименты прошли на большом корпусе PDF-документов с различной сложностью и языками. Модель показала значительное улучшение в сравнении с существующими алгоритмами, особенно в случае сложных документов. На тестовых данных модель превысила существующие методы, достигнув более высокой точности и проходя меньший процент ошибок. Эти результаты подтверждают эффективность встроенных методов обработки текста и визуальных данных. ## Значимость Предлагаемый подход может быть применен для решения широкого спектра задач, включая визуально-языковые задачи, вопросно-ответные системы и анализ документов. Основное преимущество заключается в улучшенной точности и более широком покрытии языков, что делает его подходом универсальным. Это может иметь значительное влияние в области промышленности, занятий, образования и других сферах, где требуется быстрая и точная обработка документов. ## Выводы Предложенный фреймворк демонстрирует значительный прогресс в области логического рассуждения для визуально-языковых задач. Он показал эффективность в обработке сложных документов и более широком языковом покрытии. В будущих работах будет продолжаться работа над улучшением модели, в том числе применением более развитых методов верификации и поиска для задач визуального понимания.

Annotation:

Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding capabilities in Visual Question Answering (VQA) tasks by integrating visual and textual features. However, under the challenging ten-choice question evaluation paradigm, existing methods still exhibit significant limitations when processing PDF documents with complex layouts and lengthy content. Notably, current mainstream models suffer from a strong bias toward English training data, resulting in subo...

ID: 2508.16148v1 cs.IR, cs.CL, cs.MM

arXiv PDF

📄 Empowering Multimodal LLMs with External Tools: A Comprehensive Survey

2025-08-19

Авторы:

Wenbin An, Jiahao Nie, Yaqiang Wu, Feng Tian, Shijian Lu, Qinghua Zheng

## Контекст Многоmodal Large Language Models (MLLMs), такие как GPT-4V, объединяют преимущества восприятия, предоставляемые multimodal encoders, с генерирующим потенциалом Large Language Models (LLMs). Они достигли выдающихся результатов в различных multimodal задачах, демонстрируя перспективу создания искусственного общего разума. Однако существуют значительные проблемы, ограничивающие их надежность и широтой применения. Это включает плохую качественность multimodal данных, недостаточную эффективность на сложных задачах, а также недостаточные методики оценки. Чтобы улучшить эти модели, идея использования внешних инструментов (например, APIs, экспертных моделей, и знаний) была предложена. Этот подход способствует улучшению качества данных, повышению производительности на трудных задачах, и созданию более точных методов оценки. Данная работа является подробным обзором текущих направлений использования внешних инструментов для улучшения MLLMs. ## Метод В этом обзоре рассматриваются четыре основных направления, в которых внешние инструменты могут помочь улучшить MLLMs: 1. **Повышение качества данных**: Использование внешних инструментов для подбора, аннотации, и изменения multimodal данных для повышения качества. 2. **Повышение производительности на задачах**: Использование внешних инструментов для обнаружения проблем в задачах и оказания поддержки в решении этих проблем. 3. **Улучшение методов оценки**: Разработка новых методов оценки, использующих внешние инструменты для более точной и широкой оценки моделей. 4. **Ограничения и направления развития**: Обсуждение текущих ограничений и путей для будущих развитий в этой области. ## Результаты На основе обзора, проведенного в рамках этой работы, был проанализирован набор исследований, которые использовали внешние инструменты для улучшения MLLMs. Были основаны ключевые направления, в которых внешние инструменты могут быть применены. Еще один аспект, рассмотренный в этой работе, заключается в том, как внешние инструменты могут облегчить получение качественных данных, улучшить производительность моделей в сложных задачах, и повысить уровень точности оценки. ## Значимость Данная работа имеет значимость для развития MLLMs в следующих областях: 1. **Применение в различных сферах**: Внешние инструменты могут быть применены во многих областях, включая здравоохранение, финансы, и производство. 2. **Преимущества**: Использование внешних инструментов позволяет обеспечить более точную и надежную оценку моделей, а также улучшить их производительность в сложных задачах. 3. **Потенциальное влияние**: Будущие развития в этой области могут привести к значительным улучшениям в области искусственного общего раз

Annotation:

By integrating the perception capabilities of multimodal encoders with the generative power of Large Language Models (LLMs), Multimodal Large Language Models (MLLMs), exemplified by GPT-4V, have achieved great success in various multimodal tasks, pointing toward a promising pathway to artificial general intelligence. Despite this progress, the limited quality of multimodal data, poor performance on many complex downstream tasks, and inadequate evaluation protocols continue to hinder the reliabil...

ID: 2508.10955v1 cs.CV, cs.CL, cs.MM

arXiv PDF

📄 Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning

2025-08-13

Авторы:

Shu Wu, Chenxing Li, Wenfu Wang, Hao Zhang, Hualei Wang, Meng Yu, Dong Yu

## Контекст В последние годы произошли значительные прогрессы в области бо LARMs (large audio language models), которые позволили расширить возможности технического зрения, работающих с аудио и текстовыми данными. Однако, несмотря на эти успехи, LARMs еще не достигли на уровне людей в понимании и обработке аудио-текстовых данных, особенно в случае задач аудио-ориентированного вопроса-ответа. Основная проблема заключается в том, что LARMs не всегда могут адекватно адаптироваться к сложности задачи, что приводит к несогласованности и неэффективности в процессе рассуждения. Необходима подходящая модель, которая бы улучшила гибкость, консистентность и эффективность в процессе рассуждения в LARMs. ## Метод Мы предлагаем **Audio-Thinker**, фреймворк, основанный на reinforcement learning (RL), чтобы улучшить процесс рассуждения в LARMs. Модель адаптирует свои стратегии рассуждения в зависимости от сложности задачи с помощью adaptive think accuracy reward. Для того, чтобы оценить качество и консистентность процесса рассуждения, мы внедрили внешний reward model. Также применяются think-based rewards, которые помогают модели различать пути рассуждения, которые являются верными, от тех, которые являются неверными. Эта структура позволяет модели динамически регулировать свои рассуждения, чтобы достичь более точных и консистентных результатов. ## Результаты Мы проверили Audio-Thinker на нескольких бенчмарк-задачах в аудио-ориентированном вопросе-ответе. Модель показала существенные улучшения в отношении качества рассуждения и его согласованности по сравнению с другими рассуждающими LARMs. Наши эксперименты показали, что Audio-Thinker не только повышает точность ответов, но и улучшает способность модели адаптироваться к различным сложностям задач. ## Значимость Audio-Thinker может быть применен в различных областях, таких как аудио-ориентированный поиск, вопрос-ответ в системах умных домов, и системы автоматического сопровождения в транспортных системах. Он предлагает более эффективный и консистентный подход к аудио-текстовой обработке, что может иметь значительное влияние на развитие ИИ в области рассуждения. ## Выводы Audio-Thinker оказался эффективным для улучшения рассуждений в LARMs, существенно повысив точность и консистентность в аудио-ориентированных задачах. Мы планируем дальнейшие исследования для улучшения модели, включая расширение возможностей для более сложных задач и интеграцию других моделей для улучшения ее гибкости и скорости работы.

Annotation:

Recent advancements in large language models, multimodal large language models, and large audio language models (LALMs) have significantly improved their reasoning capabilities through reinforcement learning with rule-based rewards. However, the explicit reasoning process has yet to show significant benefits for audio question answering, and effectively leveraging deep reasoning remains an open challenge, with LALMs still falling short of human-level auditory-language reasoning. To address these...

ID: 2508.08039v2 cs.SD, cs.CL, cs.MM, eess.AS

arXiv PDF

Показано 21 - 28 из 28 записей