📚 Саммари научных статей из arXiv

Найдено 46 результатов по запросу 'cs.CL, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing

2025-09-30

Авторы:

Ke Wang, Houxing Ren, Zimu Lu, Mingjie Zhan, Hongsheng Li

## Контекст Voice-first AI assistants, возникшие в свете развития крупных языковых моделей и мультимодальных систем, предлагают новые возможности для взаимодействия через голос. Однако текущие бенчмарки не могут полностью охватить их разнообразные способности, ограничиваясь одним или несколькими аспектами. Например, существующие бенчмарки могут оценивать только способность распознавания речи или дорожного знака, но не могут оценить взаимодействие между этими способностями. Для более полного исследования ряда трудностей, связанных с многомодальными системами (например, обработка звука и визуальных данных вместе), необходимо новый подход к оценке. Одним из ключевых вопросов является то, могут ли мелкие модели соответствовать большим в области мультимодальных возможностей. Данный рабочий ход включает в себя изучение возможностей мультимодальных AI-моделей в сценариях, основанных на реальных задачах, позволяя протестировать их с помощью задач, которые требуют использования нескольких модальностей. ## Метод VoiceAssistant-Eval представляет собой новый подход к оценке мультимодальных AI-моделей. Он представляет 13 задач, разделенных на три категории: **"Listening"** (слушание), **"Speaking"** (говорение) и **"Viewing"** (видение). Задачи в каждой категории включают разные сценарии, такие как распознавание различных звуков, цифровой имитации голосов, ролевых игр и визуальной обработки изображений. Каждая задача имеет свой собственный набор данных, который может включать сложные реальные сценарии и визуальные данные. Бенчмарк отличается тем, что он использует 10,497 акуратно подготовленных примеров для тестирования, что позволяет оценить качество ответов моделей на различных типах задач, включая многоключевые диалоги, анализ звука и визуальное восприятие. Этот подход позволяет протестировать как количественные аспекты (например, точность распознавания), так и качественные аспекты (например, естественность реплик) моделей. ## Результаты VoiceAssistant-Eval был протестирован на 21 моделях, включая 20 опен-сорсных моделей и одну проприетарную модель GPT-4o-Audio. Результаты показали, что некоторые модели, даже если они меньше, могут показать лучшую производительность по сравнению с более крупными моделями. Например, модель Step-Audio-2-mini (7B) показала более двойной точности распознавания звука по сравнению с LLaMA-Omni2-32B-Bilingual. Однако были выявлены трудности в обработке мультимодальных входных данных (звук + вид) и ролевых имитаций голоса. Было также выявлено, что некоторые модели, несмотря на их простоту, выдают результаты, которые сопоставимы с

Annotation:

The growing capabilities of large language models and multimodal systems have spurred interest in voice-first AI assistants, yet existing benchmarks are inadequate for evaluating the full range of these systems' capabilities. We introduce VoiceAssistant-Eval, a comprehensive benchmark designed to assess AI assistants across listening, speaking, and viewing. VoiceAssistant-Eval comprises 10,497 curated examples spanning 13 task categories. These tasks include natural sounds, music, and spoken dia...

ID: 2509.22651v1 cs.CL, cs.AI, cs.CV, cs.HC, cs.SD

arXiv PDF

📄 Qwen3-Omni Technical Report

2025-09-24

Авторы:

Jin Xu, Zhifang Guo, Hangrui Hu, Yunfei Chu, Xiong Wang, Jinzheng He, Yuxuan Wang, Xian Shi, Ting He, Xinfa Zhu, Yuanjun Lv, Yongqi Wang, Dake Guo, He Wang, Linhan Ma, Pei Zhang, Xinyu Zhang, Hongkun Hao, Zishan Guo, Baosong Yang, Bin Zhang, Ziyang Ma, Xipin Wei, Shuai Bai, Keqin Chen, Xuejing Liu, Peng Wang, Mingkun Yang, Dayiheng Liu, Xingzhang Ren, Bo Zheng, Rui Men, Fan Zhou, Bowen Yu, Jianxin Yang, Le Yu, Jingren Zhou, Junyang Lin

## Контекст В последние годы наблюдается устойчивое развитие моделей глубокого обучения, обладающих многомодальностью. Эти модели способны обрабатывать и взаимодействовать с различными типами данных, такими как текст, изображения, звук и видео. Однако существуют значительные проблемы в области моделей многомодальности, включая ухудшение качества решения задач при увеличении количества модалей, неэффективность архитектур и недостаточное доступность научной информации. Эти факторы способствуют сложностям в реализации многомодальных решений, что приводит к необходимости в разработке более мощных и эффективных моделей. ## Метод Qwen3-Omni представляет собой модель многомодальности с одним контекстом, которая обеспечивает согласованное выполнение задач над различными типами данных. Метод основывается на архитектуре Thinker-Talker Model of Experts (MoE), которая объединяет функции представления и генерации для разных модалей. Модель имеет 30 миллиардов параметров и поддерживает текстовую работу на 119 языках, распознавание речи на 19 языках и генерацию речи на 10 языках. Для улучшения производительности в стриминговой синтезе речи Talker-авторегрессионно предсказывает дискретные кодеки с помощью многокодекового подхода. Эта модель также включает в себя новую модель Thinking, которая активно рассматривает входные данные из любой модалии, что позволяет улучшить многомодальное разумение. ## Результаты Исследования были проведены на 36 аудио- и аудио-видеонаборах, где Qwen3-Omni достигла лучших результатов среди открытых моделей и установила собственные рекорды. Она превзошла модели как открытых, так и закрытых, включая Gemini-2.5-Pro, Seed-ASR и GPT-4o-Transcribe. Модель также показала более высокие результаты в обработке звука и видео, в том числе в задачах аудио-капшнинга, где Qwen3-Omni-30B-A3B-Captioner обеспечивает масштабируемые и точные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные подробные

Annotation:

We present Qwen3-Omni, a single multimodal model that, for the first time, maintains state-of-the-art performance across text, image, audio, and video without any degradation relative to single-modal counterparts. Qwen3-Omni matches the performance of same-sized single-modal models within the Qwen series and excels particularly on audio tasks. Across 36 audio and audio-visual benchmarks, Qwen3-Omni achieves open-source SOTA on 32 benchmarks and overall SOTA on 22, outperforming strong closed-sou...

ID: 2509.17765v1 cs.CL, cs.AI, cs.CV, eess.AS

arXiv PDF

📄 CoachMe: Decoding Sport Elements with a Reference-Based Coaching Instruction Generation Model

2025-09-17

Авторы:

Wei-Hsin Yeh, Yu-An Su, Chih-Ning Chen, Yi-Hsueh Lin, Calvin Ku, Wen-Hsin Chiu, Min-Chun Hu, Lun-Wei Ku

## Контекст Спорт — важная часть жизнедеятельности, способствующая физическому здоровью, развитию координации и самооценки. Однако для достижения высоких результатов необходимы качественные тренировки и корректировка техники. Одной из ключевых задач тренера является обнаружение ошибок в движениях и предоставление конструктивного фидбэка. Несмотря на развитие мультимодальных моделей, которые улучшают понимание движений, генерация точных и специфических для спорта инструкций остается трудной задачей. Особенностью данной области является необходимость в доступном, информативном и целевом фидбэке, который может помочь спортсмену в понимании и устранении двигательных ошибок. ## Метод Разработанная модель CoachMe использует референсный подход для разбора спортивных движений. Она анализирует различия между движениями спортсмена и стандартными движениями, учтя такие аспекты, как физические особенности и временные показатели. Такой подход позволяет модели обучаться с применением общих знаний о движениях, а затем применять их к конкретным типам спорта. Модель вырабатывает инструкции, которые не только становятся более конкретными для спорта, но и включают подробные описания ошибок и методы их устранения. ## Результаты За счет использования техники сравнения движений внутри специфических спортивных движений, CoachMe демонстрирует высокую точность в генерации инструкций. Например, в шахте этой модели удалось преобразовать общие модели распознавания движений в технические инструкции для спортсменов. Также были проведены эксперименты на фигурном катании. На тестировании показатель G-Eval показал, что CoachMe превосходит GPT-4o на 31.6% в оценке качества инструкций по фигурному катанию и на 58.3% в случае бокса. Эти результаты подтверждают эффективность модели в генерировании понятных и полезных инструкций. ## Значимость CoachMe может применяться в различных отраслях спорта, в том числе в фигурном катании, боксе и других спортивных дисциплинах. Ее преимущества заключаются в том, что она может обучаться на универсальных данных о движениях и применять их к конкретным видам спорта с ограниченным объемом тренировочных данных. Это увеличивает эффективность тренировок и позволяет спортсменам быстро корректировать свою технику. В будущем модель может быть расширена для других видов спорта и использована для создания интерактивных систем тренировочного контроля. ## Выводы CoachMe представляет собой прорыв в области корректировки техники в спорте, обеспечивая точные и информативные инструкции. Она применяет референсный подход, что позволяет

Annotation:

Motion instruction is a crucial task that helps athletes refine their technique by analyzing movements and providing corrective guidance. Although recent advances in multimodal models have improved motion understanding, generating precise and sport-specific instruction remains challenging due to the highly domain-specific nature of sports and the need for informative guidance. We propose CoachMe, a reference-based model that analyzes the differences between a learner's motion and a reference und...

ID: 2509.11698v1 cs.CL, cs.AI, cs.CV, cs.LG, I.2.7; I.2.10

arXiv PDF

📄 Can Vision-Language Models Solve Visual Math Equations?

2025-09-13

Авторы:

Monjoy Narayan Choudhury, Junling Wang, Yifan Hou, Mrinmaya Sachan

#### Контекст Область исследований, связанная с визуальными математическими задачами, широко распростронена в артифициальном интеллекте. Эта область включает в себя задачи, требующие объединения визуального понимания и символического вычисления. Одна из таких задач — решение визуальных математических уравнений, где нужно интерпретировать иконки, представляющие простые вещественные числа, а также выполнять арифметические вычисления. Хотя существуют модели, очень эффективны в решении текстовых уравнений, их производительность на визуальных эквивалентах остается низкой. Этот факт подчеркивает недостатки в способности моделей решать задачи, требующие интеграции визуального понимания с символическим рассуждением. Это влечет за собой ограничения в применении моделей к реальному миру, где такие задачи являются частью повседневных задач. #### Метод Для изучения этих ограничений визуально-языковых моделей (VLMs), авторы предлагают разделить задачу решения визуальных уравнений на две подзадачи: счет и распознавание. Затем, используя эти подзадачи, они выполняют ряд экспериментов с использованием визуальных уравнений, где коэффициенты должны быть вычислены с помощью счета изображенных в изображении объектов. Также, рассматривается роль точности распознавания в итоговую оценку. Для этих целей используются визуальные модели, которые были обучены на текстовых уравнениях, а затем проверяются на их визуальных аналогах. Эти эксперименты позволяют изучить различные аспекты производительности моделей и выявлять основные недостатки. #### Результаты В ходе экспериментов было выявлено, что модели VLMs имеют значительные проблемы с выполнением счета в визуальных уравнениях, даже когда распознавание объектов и их иконок производится с высокой точностью. Также, показано, что композиция распознавания и символического вычисления вводит дополнительные ошибки, что подтверждает трудности в многошаговом визуальном рассуждении. Кроме того, увеличение сложности уравнений приводит к еще большим ошибкам в рассуждениях, что ограничивает эффективность моделей. Эти результаты раскрывают основные ограничения нынешних моделей и указывают на необходимость улучшений в области визуального математического рассуждения. #### Значимость Результаты этих исследований имеют значительное значение для развития технологий, использующих визуальные и языковые модели. Они могут быть применены в области образовательных технологий, где необходимо решать визуальные задачи, а также в системах, которые должны выполнять а

Annotation:

Despite strong performance in visual understanding and language-based reasoning, Vision-Language Models (VLMs) struggle with tasks requiring integrated perception and symbolic computation. We study this limitation through visual equation solving, where mathematical equations are embedded in images, variables are represented by object icons, and coefficients must be inferred by counting. While VLMs perform well on textual equations, they fail on visually grounded counterparts. To understand this ...

ID: 2509.09013v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Sample-efficient Integration of New Modalities into Large Language Models

2025-09-09

Авторы:

Osman Batur İnce, André F. T. Martins, Oisin Mac Aodha, Edoardo M. Ponti

#### Контекст В настоящее время имеется возможность обрабатывать несколько модальностей путем использования multimodal foundation models. Однако, поскольку количество возможных модальностей велико и постоянно растет, обучение модели с нуля для включения всех модальностей становится невозможным. Кроме того, внедрение новой модальности в существующую foundation model требует значительного количества парных данных, которые часто недоступны для ресурсоподдерживающих модальностей. Данная работа предлагает метод sample-efficient integration (SEMI) для включения новых модальностей в Large Language Models (LLMs). SEMI позволяет эффективно использовать небольшое количество семплов для обучения модели на различных модальностях. #### Метод SEMI основывается на использовании hypernetwork, который может адаптировать shared projector, расположенный между modality-specific encoders и LLM. Этот hypernetwork обучается на высокоресурсных модальностях (например, текст, речь, звук, видео) и может адаптироваться к нестандартным модальностям в ходе вывода. Для увеличения разнообразия модальностей, используются isometric transformations, которые позволяют увеличить количество модальностей в ходе обучения. Например, для достижения той же точности, необходимо 64 раз больше данных, если обучать projector с нуля по сравнению с 32-shot SEMI. #### Результаты На основе экспериментов было показано, что SEMI эффективно включает новые модальности в LLMs с минимальным количеством данных. За счет hypernetwork можно использовать несколько модальностей, включая satellite images, astronomical images, inertial measurements и molecules. Это позволяет максимально эффективно использовать ресурсы и находит широкое применение в области multimodal foundation models. #### Значимость SEMI расширяет возможности foundation models, их модальности и границы. Это делает их более гибкими и пригодными для различных применений, включая видеообработку, доступ к информации и даже работу с нетипичными модальностями. Этот подход может способствовать дальнейшей разработке multimodal foundation models, увеличению их модификации, а также увеличению их разнообразия и гибкости. #### Выводы В данной работе был представлен эффективный подход для интеграции новых модальностей в LLMs с минимальными обучающими данными. Этот метод может быть применен для расширения возможностей foundation models. В будущем, технологии могут быть усовершенствованы для использования в различных приложениях, включая обработку данных с различных источников, включая video, astronomy и даже специальные модальности, такие как медицинская информация.

Annotation:

Multimodal foundation models can process several modalities. However, since the space of possible modalities is large and evolving over time, training a model from scratch to encompass all modalities is unfeasible. Moreover, integrating a modality into a pre-existing foundation model currently requires a significant amount of paired data, which is often not available for low-resource modalities. In this paper, we introduce a method for sample-efficient modality integration (SEMI) into Large Lang...

ID: 2509.04606v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 Med-RewardBench: Benchmarking Reward Models and Judges for Medical Multimodal Large Language Models

2025-09-02

Авторы:

Meidan Ding, Jipeng Zhang, Wenxuan Wang, Cheng-Yi Li, Wei-Chieh Fang, Hsin-Yu Wu, Haiqin Zhong, Wenting Chen, Linlin Shen

## Контекст Многомодальные большие языковые модели (Multimodal Large Language Models, MLLMs) обладают большим потенциалом в области медицины, в том числе в диагностике заболеваний, клиническом принятии решений и оценке данных. Однако эти задачи требуют высокой точности, контекстуальной адекватности и профессиональной аллигации ответов. Это делает критически важным развитие эффективных моделей награды (Reward Models, MRMs) и критиков (Judges), которые могут адекватно оценивать выходные данные MLLMs в медицинских сценариях. Несмотря на их важность, MRMs и критики для медицины остаются недостаточно исследованы, и существуют лишь небольшие направления по оценке выходов MLLMs в таких областях, как клиническая точность и адекватность. Чтобы заполнить это промежуточное пространство, мы предлагаем Med-RewardBench — первый бенчмарк, специально разработанный для оценки MRMs и критиков в медицинских сценариях. ## Метод Med-RewardBench использует многомодальный датасет, охватывающий 13 органов и 8 клинических отделений, с 1026 касательно наблюдений, которые были экспертно проанализированы. Для обеспечения высокого качества этих данных для оценки, мы применяем трехшаговую процедуру: (1) сбор и описание данных; (2) синтезирование клинических сценариев; (3) выполнение критериев экспертной оценки. Методы классификации и оценки используются для реализации критериев критика в шести клинических аспектах: диагностическая точность, клиническая соответствия, лечимость, безопасность, эффективность и общий мотив. Мы оцениваем 32 современных MLLMs, включая открытые, проприетарные и медицинские модели, чтобы проверить их возможности в среде с клиническими задачами. Мы также разработали базовые модели, которые достигли значительных улучшений с помощью обучения. ## Результаты Наши эксперименты показали, что существуют значительные проблемы в совпадении выходов MLLMs с медицинскими критериями, особенно в области диагностической точности и клинической соответствия. Мы сравнили 32 моделей, включая стандартные, медицинские и открытые модели, и обнаружили, что многие из них сталкиваются с проблемами в точности выводов и клинической адекватности. Базовые модели, разработанные нами, показали значительные улучшения в производительности при использовании методов оптимизации и обучения. ## Значимость Med-RewardBench открывает новые возможности для оценки MLLMs в медицинских задачах, призванных решать проблемы в диагностике и клиническом принятии решений. Он предоставляет среду для проверки моделей на высокую точность, клиническую соответствию и профессиональную аллигацию ответов. Он также откры

Annotation:

Multimodal large language models (MLLMs) hold significant potential in medical applications, including disease diagnosis and clinical decision-making. However, these tasks require highly accurate, context-sensitive, and professionally aligned responses, making reliable reward models and judges critical. Despite their importance, medical reward models (MRMs) and judges remain underexplored, with no dedicated benchmarks addressing clinical requirements. Existing benchmarks focus on general MLLM ca...

ID: 2508.21430v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 GUARD: Guideline Upholding Test through Adaptive Role-play and Jailbreak Diagnostics for LLMs

2025-08-30

Авторы:

Haibo Jin, Ruoxi Chen, Peiyan Zhang, Andy Zhou, Yang Zhang, Haohan Wang

## Контекст В последние годы широко распространились бо LLM (Large Language Models) в различные сферы, от здравоохранения до финансов. Это проникновение привело к существенным вопросам о безопасности и моральности их использования. Национальные правительства выпустили широковещательные руководства, называющие требования к разработчикам LLMs в сфере поведения, агрессии, языка и других областях. Однако, несмотря на эти руководства, существует значительная проблема: нет действительных методов для проверки соответствия более низкоуровневым требованиям руководств к реальным поведениям LLMs. Это создает риск того, что LLMs могут выдавать потенциально вредные ответы, несоответствующие этим руководствам. GUARD была разработана для решения этой проблемы, предоставляя метод, который преобразует высокоуровневые теоретические утверждения в экспериментальные тесты, используя систему ролевого игрового процесса. ## Метод GUARD использует три основных этапа для тестирования соответствия LLMs руководствам. Во-первых, она автоматически генерирует вопросы, которые могут вызвать нарушение руководств. Эти вопросы генерируются на основе государственных руководств и нацелены на проверку поведения LLMs в сложных ситуациях. Во-вторых, GUARD использует механизм "адаптивного ролевого игрового процесса", где система имитирует различные роли, в том числе пользователя, руководителя и других, чтобы вызвать реакцию LLMs. В-третьих, GUARD-JD (Jailbreak Diagnostics) использует диагностический подход, создавая сценарии, которые могут вызвать потенциально небезопасный или неэтичный ответ, даже при наличии встроенных механизмов безопасности. GUARD совершенствует ролевое игровое тестирование и добавляет диагностику, которая может выявить эти небезопасные ситуации, выявляя уязвимости в системе. ## Результаты Мы провели тесты на семи LLMs, включая Vicuna-13B, LongChat-7B, Llama2-7B, Llama-3-8B, GPT-3.5, GPT-4, GPT-4o и Claude-3.7. Мы проверили соответствие требований трех разных государственных руководств в различных сферах, включая этику, безопасность и агрессию. Мы также проводили диагностику "jailbreak", чтобы выявить моменты, когда LLMs могут выдавать небезопасные или неэтичные ответы. Результаты показали, что GUARD может выявлять значительные проблемы с соответствием руководств с помощью адаптивных ролей и jailbreak-диагностик. Например, мы обнаружили, что некоторые LLMs могут выдавать небезопасные ответы, даже если они не нарушают прямые конкретные утверждения руководств. ## Значимость GUARD может использоваться в разных сферах, где LLMs использу

Annotation:

As Large Language Models become increasingly integral to various domains, their potential to generate harmful responses has prompted significant societal and regulatory concerns. In response, governments have issued ethics guidelines to promote the development of trustworthy AI. However, these guidelines are typically high-level demands for developers and testers, leaving a gap in translating them into actionable testing questions to verify LLM compliance. To address this challenge, we introdu...

ID: 2508.20325v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 MovieCORE: COgnitive REasoning in Movies

2025-08-28

Авторы:

Gueter Josmy Faure, Min-Hung Chen, Jia-Fong Yeh, Ying Cheng, Hung-Ting Su, Yung-Hao Tang, Shang-Hong Lai, Winston H. Hsu

#### Контекст В последние годы видеозапросы к ответам (Video Question Answering, VQA) стали важной областью исследований в рамках глубокого понимания видеоматериалов. Однако большинство существующих VQA-датасеты сфокусированы на понимании видео на поверхностном уровне, не доставляя достаточного вызова для глубоких когнитивных систем. Это проблема возникает из-за отсутствия вопросов, требующих глубокого системного (System-2) мышления, что характерно для людей при оценке и понимании контента видео. Для решения этой проблемы предлагается MovieCORE — новый VQA-датасет, который решает эту проблему, создавая вопросы, которые не только требуют активного участия System-2, но и ориентированы на конкретный контент видео. #### Метод MovieCORE был создан с использованием инновационного подхода, основанного на мульти-LLM brainstorming. Мы использовали несколько бо LLM в качестве "мыслительных агентов", чтобы сгенерировать и уточнить качественные вопросы и ответы. Этот подход позволил нам создавать вопросы, которые не только требуют глубокого понимания контекста, но и поднимают сложные вопросы для анализа. Для оценки качества датасета мы разработали ряд тестов, оценивающих глубину мышления, синтаксическую сложность и потенциал пробуждения вопросов. Также мы представили Agentic Choice Enhancement (ACE) — модуль, который улучшает модели видео-языковых моделей (VLMs), позволяя им лучше принимать решения и улучшать рассуждения в 25%. #### Результаты Мы провели эксперименты, используя MovieCORE для оценки уровней глубины мышления, потенциала вызова и синтаксической сложности вопросов. Данные эксперименты показали, что наши вопросы не только требуют глубокого понимания контекста, но и могут вызывать сложные рассуждения. Мы также проверили различные модели VQA на нашем датасете и получили результаты, показывающие, что даже самые продвинутые модели находятся в трудностях при работе с более сложными вопросами. Это подтверждает необходимость дальнейшего исследования для улучшения моделей VQA. #### Значимость MovieCORE может быть применен в различных областях, включая развитие интеллектуальных систем для анализа видео, создание более глубокого понимания контента, использование в области обучения и развлечений. Этот датасет дает возможность развивать модели, которые не только понимают видео, но и способны думать на более сложном уровне, что является ключевым аспектом в развитии AI. Благодаря ACE модулю, мы улучшили модели VQA, увеличив их рассуждения на 25%. #### Выводы MovieCORE представляет собой новую модель для VQA, которая расширяет границы глубокого понимания видеоматериалов. Этот датасет позволяет провери

Annotation:

This paper introduces MovieCORE, a novel video question answering (VQA) dataset designed to probe deeper cognitive understanding of movie content. Unlike existing datasets that focus on surface-level comprehension, MovieCORE emphasizes questions that engage System-2 thinking while remaining specific to the video material. We present an innovative agentic brainstorming approach, utilizing multiple large language models (LLMs) as thought agents to generate and refine high-quality question-answer p...

ID: 2508.19026v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning

2025-08-23

Авторы:

Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie

## Контекст Исследование адаптивных систем ретриева и логического рендеринга (RAG), ориентированных на лечебные задачи, является ключевым направлением в современной медицинской информатике. Одной из главных проблем является точность диагноза, которая часто страдает из-за недостатка знаний, решающихся с помощью ретриева значимых данных, и недостаточной возможности проведения методологического анализа, которая может возникнуть из-за недостаточного развития технологий анализа данных. Эти проблемы значительно сказываются на качестве предпринимаемых диагностических мер. Улучшение технологий RAG становится важным для обеспечения более точной и прозрачной диагностики, что позволяет клиническим работникам делать более надежные выводы и принимать усовершенствованные решения в области лечения. ## Метод Deep-DxSearch представляет собой агентскую систему RAG, обученную с помощью развития политики реформы использования внешнего знания и интеллектуального анализа. Для обеспечения решения диагностических задач, мы строим большой медицинский репликатор, включающий записи пациентов и достоверные медицинские источники. Основной компонент — выборка текстов, по которым обучена система, поддерживающая интеграцию внешних источников. Мы используем разработку отдельных признаков для формирования LLM-агента, который может взаимодействовать с репликатором. Благодаря reinforcement learning (RL) и техническим развитиям, мы добились того, чтобы LLM мог взаимодействовать с репликатором по сценарию, используя структурированные реакции и диагностические сигналы. ## Результаты Запуская эксперименты с Deep-DxSearch, мы применяли данные из различных медицинских центров. Это позволило нам измерить точность диагноза в задачах классической диагностики. Результаты показали, что данная система опережает другие системы, включая GPT-4o и DeepSeek-R1, как в классических задачах, так и в тех, которые подразумевают использование редких данных. Мы также проводили анализ штрафов и мотиваций внутри системы, который подтвердил значительное влияние на точность и структуру диагностического процесса. Это демонстрирует, что Deep-DxSearch может повысить роль значимых данных в диагностических сценариях. ## Значимость Система Deep-DxSearch может быть применена в различных сферах, включая клиническое лечение, оптимизацию диагностических процессов и поддержку клинических решений. Ее преимущества заключаются в том, что она обеспечивает более точные диагностические решения, повышает транспарентность в диагностическом процессе и дает клиническим работникам большую в

Annotation:

Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct...

ID: 2508.15746v1 cs.CL, cs.AI, cs.CV

arXiv PDF

📄 ShizhenGPT: Towards Multimodal LLMs for Traditional Chinese Medicine

2025-08-22

Авторы:

Junying Chen, Zhenyang Cai, Zhiheng Liu, Yunjin Yang, Rongsheng Wang, Qingying Xiao, Xiangyi Feng, Zhan Su, Jing Guo, Xiang Wan, Guangjun Yu, Haizhou Li, Benyou Wang

#### Контекст Классические знания о традиционной китайской медицине (TCM), основанные на глубокой теоретической базе, весьма ценны для понимания и корректного применения этого направления в лечении. Однако существуют две основные проблемы: отсутствие достаточного количества высококачественных данных для обучения и высокая многомодальность TCM, включающей в себя такие сенсорные модели, как видение, слух, осязание и даже сенсорное восприятие пульса. Традиционные трансформации текста не могут успешно решить эти задачи. Из-за этого LLMs (large language models), несмотря на их успех в других областях, пока не применимы для решения проблем в области TCM. Мы предлагаем ShizhenGPT - первый мультимодальный LLM, разработанный специально для решения проблем в области Традиционной китайской медицины. #### Метод ShizhenGPT разрабатывается на основе предварительной обученной модели LLMs, которая получила многомодальные данные, включая текстовые данные, изображения, аудио и даже физиологические сигналы. Мы сформировали одну из крупнейших коллекций данных в сфере Традиционной китайской медицины, состоящую из 100 ГБ текстовых данных и 200 ГБ мультимодальных данных. Данные включают 1,2 миллиона изображений, 200 часов аудио и физиологические сигналы. Модель ShizhenGPT была обучена на этих данных с использованием предварительной обученной модели LLMs и инструментами обучения с помощью инструкций. Это позволило модели не только получать глубокие знания о Традиционной китайской медицине, но также производить мультимодальный анализ. #### Результаты Мы проверили ShizhenGPT на крупнейших национальных экзаменах по квалификации в области Традиционной китайской медицины. Также был создан визуальный бенчмарк для оценки визуального распознавания и диагностики лекарственных средств. Эксперименты показали, что ShizhenGPT оказалась выигрышной в сравнении с соревнующимися моделями различных масштабов и даже с более крупными моделями, которые имеют доступ к большим ресурсам. Особенно важно отметить, что ShizhenGPT проявила лучшую способность к визуальному распознаванию в TCM, включая распознавание медикаментов по их визуальным свойствам, и демонстрирует гармоничное восприятие данных в разных модальностях, таких как звук, пульс, запах и визуальные сигналы. #### Значимость Мы видим широкие возможности применения ShizhenGPT в области Традиционной китайской медицины. Эта модель может использоваться в области диагностики, лечения, учебных программ и проектах по изучению Традиционной китайской медицины. Широкий спектр модальностей, которые модель может об

Annotation:

Despite the success of large language models (LLMs) in various domains, their potential in Traditional Chinese Medicine (TCM) remains largely underexplored due to two critical barriers: (1) the scarcity of high-quality TCM data and (2) the inherently multimodal nature of TCM diagnostics, which involve looking, listening, smelling, and pulse-taking. These sensory-rich modalities are beyond the scope of conventional LLMs. To address these challenges, we present ShizhenGPT, the first multimodal LLM...

ID: 2508.14706v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

1
2
3
4
5

Показано 31 - 40 из 46 записей