📚 Саммари научных статей из arXiv

Найдено 196 результатов по запросу 'cs.AI, cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA

2025-08-13

Авторы:

Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang

#### Контекст Knowledge editing (KE) является эффективным способом обновления фактического знания в больших языковых моделях без полной переучетов. Изучены текстовые и медицинские задачи QA, но решения для multimodal medical KE остаются недооцененными. В отличие от текстовых моделей, multimodal KE требует интеграции знаний с визуальным разумом для безопасного и интерпретируемого клинического принятия решений. Несмотря на важность этой области, существуют недостатки в методах и бенчмарках для ее оценки. Мы предлагаем MultiMedEdit — первую библиотеку, ориентированную на KE в multimodal medical tasks, позволяющую провести cross-paradigm evaluation и определить критерии для клинической надежности, генеральности и локальности. #### Метод MultiMedEdit состоит из сценарио-ориентированных задач, охватывающих как простые вопросы с ответами (SQuAD-like), так и рассуждения с глубоким визуальным разумом (Visual QA). Определяется многомерный трехмерный метрический подход (reliability, generality, locality) для сравнения KE моделей в различных сценариях. Метод предлагает разделение на two-stage KE и lifelong KE, позволяющий оценить их качество в различных политиках редактирования. Библиотека поддерживает не только обучение моделей, но и поддерживает перенос знаний при повторном редактировании. Использованы большие данные медицинских сценариев, включая как текстовые, так и визуальные, с целью провести широкую экспериментальную оценку. #### Результаты Выполнены эксперименты под различными условиями редактирования знаний (single-editing и lifelong-editing). Методы KE показали слабую generalization и неэффективность в решении задач с long-tail разделениями. Библиотека MultiMedEdit позволяет четко выявить эти проблемы и сравнивать performance в разных сценариях, включая те, когда необходимо корректировать клинически важные знания. Была проведена эффективность работы KE-парадигм с разными trade-offs между вычислительными ресурсами и скоростью редактирования. #### Значимость MultiMedEdit предоставляет широкие возможности для клинических приложений, включая обновление моделей в здравоохранении, клинические визуальные задачи и поддержку принятия решений. Библиотека предоставляет уникальный подход к KE, пригодному для решения сложных клинических задач. Результаты показали, что существуют значительные проблемы в предыдущих моделях, относящиеся к generalization и long-tail reasoning. Это позволяет значительно улучшить будущие модели и сделать их более надежными для клинических приложений. #### Выводы MultiMedEdit раскрывает недостатки и ограничения существующих KE-методов в multimodal medical tasks. Библиотека поддерживает развитие клинически надежных моделей KE, используя сценарио-ориентированные бенчмарки. Будущие исследования должны сосредоточиться на улучшении generalization и разви

Annotation:

Knowledge editing (KE) provides a scalable approach for updating factual knowledge in large language models without full retraining. While previous studies have demonstrated effectiveness in general domains and medical QA tasks, little attention has been paid to KE in multimodal medical scenarios. Unlike text-only settings, medical KE demands integrating updated knowledge with visual reasoning to support safe and interpretable clinical decisions. To address this gap, we propose MultiMedEdit, the...

ID: 2508.07022v1 cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 ReasonRank: Empowering Passage Ranking with Strong Reasoning Ability

2025-08-13

Авторы:

Wenhan Liu, Xinyu Ma, Weiwei Sun, Yutao Zhu, Yuchen Li, Dawei Yin, Zhicheng Dou

## Контекст Поиск и сортировка актуальной информации является важной задачей в различных областях, от поисковых систем до рекомендательных систем. Несмотря на успех глубоко обученных моделей, проблемы с недостаточной силой логического моделирования и ограниченным доступом к качественному обучающему данным существуют. Эти проблемы сказываются на качестве результатов поиска, особенно при работе с сложными запросами. Обеспечение сильной логической модели и создание методологии, позволяющей улучшить качество рейтинга, являются целями этого исследования. ## Метод Разработана модель ReasonRank, которая использует широкомасштабное моделирование слов с помощью Large Language Models (LLM) для выполнения рейтинга. Для повышения модели силами логического моделирования, разработана методика автоматического синтеза тренировочных данных на основе DeepSeek-R. Данные подвергаются фильтрации с помощью системы самоконсистентности, чтобы обеспечить их качество. Далее, применена последовательная постобучениевая методика. В первой стадии используется супервизированное тренирование для выделения шаблонов успешного логического моделирования. Во второй стадии применяется развитие модели через глубокое обучение с подкреплением (RL), где используется многообзорная оценка результатов для повышения рейтинга. ## Результаты Реализованная модель протестирована на нескольких наборах данных, в том числе BRIGHT. Эксперименты показали, что ReasonRank превосходит существующие модели по метрикам качества рейтинга. На BRIGHT leaderboard ReasonRank достиг рекордного результата 40.6, показав значительное превосходство по сравнению с другими решениями. Благодаря использованию многообзорной оценки, модель достигла лучшего баланса между точностью и скоростью работы. ## Значимость Предложенная модель ReasonRank устанавливает новый стандарт в области развития логического моделирования в пассаж-рейтинге. Она применима не только в поисковых системах, но и в рекомендательных системах, во временной динамике. Модель отличается низкой задержкой, что делает её привлекательной для реального времени. Будущие исследования будут фокусированы на расширении модели для более сложных сценариев и улучшении её универсальности для различных приложений.

Annotation:

Large Language Model (LLM) based listwise ranking has shown superior performance in many passage ranking tasks. With the development of Large Reasoning Models, many studies have demonstrated that step-by-step reasoning during test-time helps improve listwise ranking performance. However, due to the scarcity of reasoning-intensive training data, existing rerankers perform poorly in many complex ranking scenarios and the ranking ability of reasoning-intensive rerankers remains largely underdevelop...

ID: 2508.07050v1 cs.IR, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2025-08-13

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

## Контекст Обучение и оценка доменно-специальных бо LLM (Large Language Models) являются ключевыми аспектами их применения в специализированных областях. Несмотря на то что многочисленные бенчмарки были разработаны для оценки этих моделей, существуют проблемы с эффективностью и эффективностью их построения. Большинство существующих бенчмарков фокусируются на масштабировании за счет огромных корпусов для подготовки или порождения обширных наборов вопросов для широкого покрытия. Однако не достаточно изучено влияние корпуса и набора вопросов-ответов (QA) на точность и полноту доменных LLMs. Мотивация для данного исследования заключается в изучении этих зависимостей и разработке более эффективного подхода к построению бенчмарков для доменных LLMs. ## Метод Мы предлагаем Comp-Comp, новый фреймворк для построения бенчмарков, основанный на принципе сочетания полноты (comprehensiveness) и сжатости (compactness). Метод Comp-Comp работает в итеративном режиме, где полнота гарантирует комплексность семантического покрытия домена, а сжатость улучшает точность модели. Этот подход применяется как для построения корпуса, так и для создания набора вопросов и ответов. Мы используем методы семантической обработки текста, адаптированные для этих задач, которые позволяют эффективно отбирать и оценивать материалы на каждом этапе построения бенчмарка. ## Результаты Мы провели эксперименты с XUBench, бенчмарком, созданным на основе Comp-Comp, используя домен академический. Эксперименты показали, что наш подход значительно улучшает точность и полноту доменных моделей LLMs по сравнению с традиционными методами. Мы также провели сравнение с другими бенчмарками, установив, что XUBench предоставляет более качественную оценку моделей, обеспечивая более точные результаты. Бенчмарк XUBench также продемонстрировал широкую эффективность в оценке моделей на различных доменах, не ограничиваясь только академическим. ## Значимость Наша работа доказывает, что при построении бенчмарков для доменных LLMs не всегда эффективно следовать закону масштабирования. Метод Comp-Comp обеспечивает более компактный и эффективный подход, позволяющий повысить точность и полноту оценки моделей. Этот подход может быть распространен на различные сферы применения, включая медицину, юриспруденцию, и другие, помимо академии. Мы видим будущие направления исследований в расширении Comp-Comp для решения задач в новых областях и улучшении его адаптации к различным доменам. ## Выводы Мы представили Comp-Comp, новый фреймворк для построения бенчмарков, который призван обеспечить более эффективную и точную оценку доменных LLMs. Мы продемонстрировали эффективность этого подхода на XUBench в до

Annotation:

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexp...

ID: 2508.07353v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Generative AI for Strategic Plan Development

2025-08-13

Авторы:

Jesse Ponnock

## Контекст Генерируемое искусственное интеллектуальное обеспечение (Generative Artificial Intelligence, GAI) получило огромное распространение в сфере технических и профессиональных услуг, где Аппаратное Интеллектуальное Обеспечение (AI) ранее считалось невозможным для автоматизации. Это новаторский подход обеспечивает значительные повышения эффективности и уменьшение расходов в многомерной сфере, в том числе в разработке стратегических планов для крупных организаций. Однако существуют вызовы в технической реализации и эффективном использовании GAI в таких контекстах. Большая часть работы, основывающихся на генерируемом искусственном интеллекте, остается недокументированной или закрытой, что ограничивает комплексное понимание способности GAI в разработке стратегических планов. Данная статья проводит оценку текущих возможностей и модели, а также определяет возможности использования таких моделей в процессе разработки стратегических планов. ## Метод Для разработки стратегических планов в крупных организациях, таких как правительственные органы, предлагается модульная модель, позволяющая использовать GAI. Одна из модулей, концентрирующаяся на тематическом моделировании (topic modeling) для генерирования тем, представляющих "видения" в рамках стратегического плана, была выбрана для подробного анализа. Для этого были применены методы BERTopic и Non-negative Matrix Factorization (NMF) к большому объему отчетов, предоставленных Government Accountability Office (GAO). Использование этих методов позволило генерировать темы, которые позже были сравнены с "видениями", изложенными в стратегических планах. Экспериментальная часть включала обучение моделей, оценку полученных результатов и сравнение их с исходными данными. ## Результаты Было определено, что оба исследованные методы — BERTopic и NMF — способны генерировать темы, представляющие собой подходящие "видения" в рамках стратегического плана. Однако BERTopic показал более высокую эффективность, с корреляцией более чем половины тем с "видениями", определенными в стратегических планах. Это означает, что BERTopic может лучше адаптироваться для генерирования тем, отражающих стратегические цели и подходы. Эти результаты подтверждают, что генерируемое искусственное интеллектуальное обеспечение может быть эффективно использовано в процессе разработки стратегических планов. ## Значимость Результаты этого исследования имеют практическое значение для многомильных-долларовой отрасли стратегического планирования и поддержки правительственных органов. Этот подход может существенно снизить затраты, уменьшить время, необходимое для разработки планов, и обеспечить

Annotation:

Given recent breakthroughs in Generative Artificial Intelligence (GAI) and Large Language Models (LLMs), more and more professional services are being augmented through Artificial Intelligence (AI), which once seemed impossible to automate. This paper presents a modular model for leveraging GAI in developing strategic plans for large scale government organizations and evaluates leading machine learning techniques in their application towards one of the identified modules. Specifically, the perfo...

ID: 2508.07405v1 cs.AI, cs.CL, cs.LG, I.2.7; I.5.4

arXiv PDF

📄 CP-Agent: Agentic Constraint Programming

2025-08-13

Авторы:

Stefan Szeider

## Контекст Constraint Programming (CP) является мощным подходом к решению разнообразных задач, особенно тех, которые могут быть представлены в виде ограничений. Однако главной проблемой этого подхода является трудность перевода проблем, описанных на человеческом языке, в обобщенные модели ограничений. Эта задача требует глубоких знаний в области задачи и навыков моделирования в CP. На сегодняшний день существуют стандартные рабочие процессы для автоматизации этой задачи, однако они часто ограничиваются фиксированными пайплайнами и не могут успешно решить многие реальные задачи. Наша мотивация заключается в разработке нового подхода, который бы старался решить проблему с использованием гибкого, agent-based подхода без использования фиксированного pipeline. ## Метод Мы предлагаем **CP-Agent**, который основывается на принципе **ReAct (Reason and Act)**. Этот pure agent-based подход не требует фиксированной модели для решения задач. Основным инструментом является общего назначения Python-based кодинговый agent, работающий в сочетании с **IPython kernel**, что обеспечивает stateful code execution и iterative development. Агент не встраивает никакого constraint programming logic в свою структуру. Вместо этого он получает достаточное количество domain-specific knowledge через специально сконструированное project prompt. Этот prompt включает в себя все необходимые модели, формат и ограничения, которые требуются для решения задачи. Агент также имеет доступ к файловой системе, а также способен выполнять код, тестировать гипотезы и верифицировать решения. Такой подход позволяет ему быть гибким и адаптироваться к различным задачам без нужды в предварительном определении логики. ## Результаты Мы проверили наше решение на **CP-Bench**, который содержит 101 задач constraint programming. CP-Agent успешно решил все эти задачи, показывая высокую гибкость и эффективность. Мы также провели анализ качества решений и заметили, что агент не только смог решить задачи, но и адаптировался к различным форматам и ограничениям. Это доказывает, что данный подход эффективен и может быть применен в различных областях, где требуется моделирование ограничений. ## Значимость Предлагаемый подход имеет большое количество областей применения, включая сферы, где требуется автоматизация моделирования ограничений, такие как логистика, распределение ресурсов, проектирование и даже в области AI-based decision-making. В отличие от других методов, CP-Agent предлагает более гибкий и адаптивный подход, который не требует предварительного определения моделей или рабочих процессов. Это делает его применимым в ситуациях, где задачи могут быть разнообразными и нестандартными. ## Выводы Мы доказали, что constraint modeling может быть эффективно решено с помощью agentic подходов, которые не требуют фиксированных моде

Annotation:

Translating natural language problem descriptions into formal constraint models remains a fundamental challenge in constraint programming, requiring deep expertise in both the problem domain and modeling frameworks. Previous approaches to automating this translation have employed fixed workflows with predetermined modeling steps, failing on a significant number of benchmark problems. We present a new approach using a pure agentic strategy without any fixed pipeline. We developed a general-purpos...

ID: 2508.07468v1 cs.AI, cs.CL, cs.LG, cs.SE

arXiv PDF

📄 ThinkTuning: Instilling Cognitive Reflections without Distillation

2025-08-13

Авторы:

Aswin RRV, Jacob Dineen, Divij Handa, Md Nayem Uddin, Mihir Parmar, Chitta Baral, Ben Zhou

#### Контекст Современные тестируемые широковезучные языковые модели (LLMs) обладают способностью выполнять многошаговую мысль и саморефлексию. Однако многие из этих моделей не обладают исходной способностью мыслить и анализировать. Вместо этого они так называемые "мыслящие" способности приобретают, опираясь на результаты работы генетического алгоритма. Это означает, что возможности мыслить не формируются действительно внутри модели, а просто обнаруживаются и используются. Поэтому, возникает вопрос: можно ли научить модели, которые не обладают естественной способностью мыслить, развить эту способность самостоятельно? В нашем исследовании мы предлагаем ThinkTuning — метод, основанный на подкреплении взаимодействия с целью развития модели не только саморазвития, но и рационального мышления. #### Метод ThinkTuning предлагает интерактивный подход для обучения модели с использованием градиентного подкрепления на основе политик (GRPO). Мы используем метод обучения, который подобен занятиям с учителем. Учитель (teacher-model) предлагает задачу, позволяет ученику (student-model) попробовать решить ее самостоятельно, а затем предоставляет корректирующую информацию, указывая на правильный путь. Эта корректировка помогает модели раскрыть внутреннее потенциальное мышление, которое позволяет правильно решить задачу. Итак, мы используем градиентный подкрепление для учителя, а затем используем его для улучшения модели-ученика. Метод был протестирован на различных данных, в том числе на бенчмарках MATH-500, AIME и GPQA-Diamond, показав положительные результаты по сравнению с базовым GRPO. #### Результаты Мы провели эксперименты для оценки ThinkTuning на нескольких датасетах, в том числе на MATH-500, AIME и GPQA-Diamond. Наша модель показала средний выигрыш в производительности в 3,85% по сравнению с нулевым шагом (zero-shot). На MATH-500, AIME и GPQA-Diamond, ThinkTuning показала поимки в 2,08%, 2,23% и 3,99% соответственно по сравнению с базовым GRPO. Эти результаты показали, что ThinkTuning позволяет модели без начальной способности мыслить развить этот навык, а также повысить свои результаты на задачах, требующих многошаговой логической работы. #### Значимость Развитие моделей, которые могут мыслить и саморефлексироваться, имеет значимую значимость в области ИИ. Например, такие модели могут быть использованы в преподавании, диагностике, и сложных задачах, требующих комплексного анализа. ThinkTuning предлагает новый подход к развитию этих способностей, не зависящий от предварительного создания базы знаний, что может упростить развитие новых моделей, которые могут выполнять сложные рассуждения

Annotation:

Recent advances in test-time scaling have led to the emergence of thinking LLMs that exhibit self-reflective behaviors and multi-step reasoning. While RL drives this self-improvement paradigm, a recent study (Gandhi et al., 2025) shows that RL alone does not truly instill these new reasoning abilities - it merely draws out behaviors already present in the base models. This raises a question: How can we train the models that don't exhibit such thinking behavior to develop it in the first place? T...

ID: 2508.07616v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Investigating the Design Space of Visual Grounding in Multimodal Large Language Model

2025-08-13

Авторы:

Weitai Kang, Weiming Zhuang, Zhizhong Li, Yan Yan, Lingjuan Lyu

## Контекст В последние годы многомодальные большие языковые модели (MLLMs) стали центром внимания в искусственном интеллекте, особенно в сфере обработки текста и визуальной информации. Одной из ключевых задач, с которой сталкиваются эти модели, является **визуальная граундинг (Visual Grounding, VG)** — техника, которая позволяет модели ассоциировать текстовые запросы с конкретными объектами на изображениях. Несмотря на то, что существующие модели показали значительные улучшения в этой области, они часто используют различные и несогласованные подходы к оптимизации моделей для VG. Это существенно сковывает их потенциал и затрудняет правильные сравнения между подходами. В данном исследовании мы определились на полной исследовательской диаграмме, чтобы изучить, как различные дизайн-решения влияют на возможности MLLMs в области VG. ## Метод Исследование включает детальный анализ различных дизайн-решений, влияющих на результаты VG в MLLMs. Мы выбрали **LLaVA-1.5** — одну из самых известных моделей MLLMs — для всех экспериментов, чтобы обеспечить выводы, которые могут быть распространены на другие архитектуры. Мы исследовали два главных вопроса: 1. **Изучение визуальных граундинговых парадигм**: Мы оценили разные подходы к визуальной граундинг-оптимизации MLLM, выявив максимально эффективные решения и получив полезные рекомендации для дальнейшей работы. 2. **Оптимизация данных для VG**: Мы проводили абляционные исследования для оптимизации тренировочных данных в VG, чтобы определить, как желательно изменять модель в ходе тренировки. ## Результаты Наши эксперименты показали, что управление различными дизайн-решениями может значительно влиять на результаты VG моделей. Мы обнаружили, что наша оптимизированная модель LLaVA-1.5 показала улучшение в +5.6% / +6.9% / +7.0% на RefCOCO/+/g общих данных по сравнению с исходной версией. Эти результаты указывают на значительный вклад нашего исследования в улучшение качества визуальных граундинговых моделей. ## Значимость Наша работа имеет широкие применения в области многомодального обучения и визуальной граундинг-оптимизации. Она может заинтересовать исследователей, работающих в сфере мультимодальных моделей и технологий обработки текста и изображений. Наши рекомендации могут помочь сократить разрыв между теоретическим потенциалом и практическим применением визуальной граундинг-технологии в MLLMs. Кроме того, наши результаты открывают возможности для дальнейшего исследования в этих областях, в том числе разработки более сложных моделей и улучшения существующих архитектур. ## Вы

Annotation:

Fine-grained multimodal capability in Multimodal Large Language Models (MLLMs) has emerged as a critical research direction, particularly for tackling the visual grounding (VG) problem. Despite the strong performance achieved by existing approaches, they often employ disparate design choices when fine-tuning MLLMs for VG, lacking systematic verification to support these designs. To bridge this gap, this paper presents a comprehensive study of various design choices that impact the VG performance...

ID: 2508.08066v1 cs.CV, cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Trainable Dynamic Mask Sparse Attention

2025-08-09

Авторы:

Jingze Shi, Yifan Wu, Bingheng Wu, Yiran Peng, Liangdong Wang, Guang Liu, Yuyu Luo

Большие языковые модели сталкиваются с проблемой моделирования длинных контекстов из-за квадратичной сложности стандартного self-attention механизма. Для решения этой проблемы предложен механизм Dynamic Mask Attention (DMA), который эффективно использует две формы спарсинга: содержательно-ориентированную (content-aware) и позиционно-ориентированную (position-aware). DMA динамически генерирует маски для валидных позиций, адаптируясь к контексту, и оптимизирует вычисления, пропуская ненужные регионы. Этот подход эффективно сочетает высокую эффективность и поддержание точности. Исследования показали, что DMA превосходит множественный self-attention, скользящее окно и другие способы в задачах предсказания языка (perplexity) и многозадачных задачах, таких как associative recall. Эксперименты в 1.7B параметров подтвердили, что DMA обеспечивает значительное улучшение в производительности и моделировании длинных контекстов, делая его привлекательным решением для современных моделей.

Annotation:

In large language models, the demand for modeling long contexts is constantly increasing, but the quadratic complexity of the standard self-attention mechanism often becomes a bottleneck. Although existing sparse attention mechanisms have improved efficiency, they may still encounter issues such as static patterns or information loss. We introduce a trainable dynamic mask sparse attention mechanism, Dynamic Mask Attention, which effectively utilizes content-aware and position-aware sparsity. DMA...

ID: 2508.02124v1 cs.AI, cs.CL, cs.LG

arXiv PDF

1
2
17
18
19
20

Показано 181 - 190 из 196 записей