📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 P/D-Device: Disaggregated Large Language Model between Cloud and Devices

2025-08-14

Авторы:

Yibo Jin, Yixu Xu, Yue Chen, Chengbin Wang, Tao Wang, Jiaqi Huang, Rongfei Zhang, Yiming Dong, Yuting Yan, Ke Cheng, Yingjie Zhu, Shulan Wang, Qianqian Tang, Shuaishuai Meng, Guanxin Cheng, Ze Wang, Shuyan Miao, Ketao Wang, Wen Liu, Yifan Yang, Tong Zhang, Anran Wang, Chengzhou Lu, Tiantian Dong, Yongsheng Zhang, Zhe Wang, Hefei Guo, Hongjie Liu, Wei Lu, Zhengyong Zhang

#### Контекст Современные языковые модели (LLM) широко используются в различных областях, от работы с текстом до решения комплексных задач. Однако существуют значительные проблемы в их развертывании и сервисинге, особенно в ситуациях, когда требуется высокая производительность и минимальная задержка. Одним из основных ограничений является высокая задержка в процессе декодирования, которая возникает из-за того, что генерация токенов занимает долгое время и требует большого объема ресурсов. Кроме того, на устройствах с ограниченными ресурсами, задержка в первом токене (TTFT) увеличивается с ростом продолжительности промота. Данные проблемы требуют эффективных решений для повышения производительности и снижения задержек в работе с LLM. #### Метод Предлагаемый подход, P/D-Device, предполагает разделение LLM между облаком и устройствами. Облако отвечает за часть процесса предварительной загрузки (prefill), при этом устройство получает первый токен и начинает декодировать независимо. Для сглаживания производительности используется контроль скорости (speed controller), который распределяет токены от облака к устройству по мере необходимости. За счет этого устройства может продолжать работу, не ожидая полной загрузки всех токенов. Также во время процесса декодирования в облаке происходит доработка промота, что дает дополнительную скорость при дальнейшем декодировании. Такая архитектура позволяет максимально эффективно использовать ресурсы, уменьшая задержки и увеличивая производительность. #### Результаты Проводились эксперименты с реальными данными, когда были оценены показатели TTFT (задержка в первом токене), максимальное значение TPOT (время затраченного на вывод каждого токена) и общая производительность облака. Результаты показали, что TTFT сократился в 6 раз или более, максимальное значение TPOT составило десятки миллисекунд, а производительность облака увеличилась до 15 раз. Эти результаты подтверждают значительное улучшение производительности в сравнении с другими альтернативными подходами. #### Значимость Прототип P/D-Device может быть применен в различных сферах, где требуется высокая производительность и минимальная задержка, например, в реальном времени, при работе с мобильными приложениями или в ситуациях, когда требуется высокая производительность систем с ограниченными ресурсами. Этот подход позволяет значительно улучшить темпы работы, уменьшить задержки и эффективнее использовать ресурсы. Будущие исследования будут сконцентрированы на оптимизации алгоритмов, улучшении скорости предварительной загрузки и расширении возможностей для различных типов моделей. #### Выводы Рез

Annotation:

Serving disaggregated large language models has been widely adopted in industrial practice for enhanced performance. However, too many tokens generated in decoding phase, i.e., occupying the resources for a long time, essentially hamper the cloud from achieving a higher throughput. Meanwhile, due to limited on-device resources, the time to first token (TTFT), i.e., the latency of prefill phase, increases dramatically with the growth on prompt length. In order to concur with such a bottleneck on ...

ID: 2508.09035v1 cs.DC, cs.CL, cs.LG

arXiv PDF

📄 Complex Logical Instruction Generation

2025-08-14

Авторы:

Mian Zhang, Shujian Liu, Sixun Dong, Ming Yin, Yebowen Hu, Xun Wang, Steven Ma, Song Wang, Sathish Reddy Indurthi, Haoyun Deng, Zhiyu Zoey Chen, Kaiqiang Song

## Контекст Одним из ключевых моментов в развитии интеллектуальных систем является возможность правильно понимать и выполнять контрольные инструкции, которые включают в себя логические конструкции. Эти инструкции могут включать в себя условия, вложенные уровни, рекурсию и вызовы функций. Понимание таких инструкций является основополагающим этапом для развития умений, таких как разумное принятие решений, агентное поведение и решение задач. Но значительная часть ресурса инструкций в жизни и в сфере бизнеса подстрекает модели глубокого обучения к более сложному уровню логического понимания. Недостаток в глубине и сложности тестируемых инструкций в существующих бенчмарках наводит на путь исследования, которое может улучшить понимание и выполнение сложных логических инструкций в области глубокого обучения. ## Метод Предлагается набор инструментов LogicIFGen и LogicIFEval для оптимизации и проверки логических инструкций. LogicIFGen — это автоматизированная система, которая может выражать логические конструкции в виде инструкций, включающих условия, вложенные вызовы и рекурсию. Она работает со скриптами программного кода и может сгенерировать готовые инструкции для моделей. LogicIFEval — это новый набор данных, содержащий 426 инструкций, основывающихся на логических конструкциях, которые могут быть проверены в терминах точности и полноты выполнения моделями. Оба инструмента позволяют улучшить метрики точности и оценить глубину логического понимания моделей. ## Результаты На тестовой выборке было протестировано несколько глубинно обученных моделей, включая СhineseLLM, GPT-4 и LLAMA. Эксперименты показали, что даже самые современные модели показывают незначительную долю правильного выполнения (менее 60%) на LogicIFEval. Это значит, что логическое понимание и выполнение все еще остаются сложными для моделей, даже при использовании передовых методов. Набор данных LogicIFEval позволяет отличать модели, которые обладают высоким уровнем логического понимания и выполнения сложных инструкций от тех, которые еще не достигли этого уровня. ## Значимость Набор LogicIFEval может применяться в тестах глубинного понимания языка и выполнения инструкций в сферах, таких как искусственный интеллект, автоматизация процессов и робототехника. Он также может способствовать развитию новых методов, позволяющих моделям быстрее и точнее реагировать на сложные логические задачи. Этот бенчмарк может стать новым стандартом для тестирования моделей, нацеленных на повышение качества логического понимания и выполнения. ## Выводы Исследование LogicIFGen и LogicIFEval показало, что существующие модели глубокого обучения еще не достигли не

Annotation:

Instruction following has catalyzed the recent era of Large Language Models (LLMs) and is the foundational skill underpinning more advanced capabilities such as reasoning and agentic behaviors. As tasks grow more challenging, the logic structures embedded in natural language instructions becomes increasingly intricate. However, how well LLMs perform on such logic-rich instructions remains under-explored. We propose LogicIFGen and LogicIFEval. LogicIFGen is a scalable, automated framework for gen...

ID: 2508.09125v1 cs.CL, cs.LG

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding With Advanced Contextual Abilities

2025-08-14

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст В последние годы значительный прогресс в области распознавания речи был достигнут благодаря развитию моделей Connectionist Temporal Classification (CTC). Однако стандартные средства для beam decoding, используемые для улучшения качества распознавания, часто ограничены по производительности, последовательны и требуют значительных ресурсов CPU. Это затрудняет эффективное использование современных GPU, которые могли бы значительно ускорить процесс. Далее, существующие решения либо требуют сложной настройки, либо не поддерживают расширенные возможности, такие как интеграция грамматических моделей или фаззинг фраз. Изложенная проблема мотивирует разработку производительного, расширяемого и понятного для пользователя средства для GPU-powered beam decoding. ## Метод FlexCTC — это опен-сорсный инструмент, разработанный на Python и PyTorch, предназначенный для решения проблем скорости и производительности в beam decoding для CTC-моделей. Архитектура FlexCTC основана на полностью батченной GPU-реализации, которая устраняет задержки синхронизации между CPU и GPU, а также использует CUDA Graphs для минимизации затрат на запуск курсоров. Для добавления расширенных возможностей, таких как фаззинг фраз и GPU-powered N-gram language model fusion, разработчики внедрили универсальный интерфейс для подключения дополнительных модулей. Это позволяет легко адаптировать систему под конкретные задачи и модели. ## Результаты На тестах с реальными данными FlexCTC показал значительные выигрыши в производительности по сравнению с существующими решениями. Тесты показали, что возможности GPU-based decoding позволяют обрабатывать большие объемы данных за меньшее время, что делает FlexCTC привлекательным для использования в production-ready системах. Также были проведены эксперименты с интеграцией грамматических моделей и фаззинга фраз, которые подтвердили повышение точности распознавания в сценариях сложности. ## Значимость FlexCTC широко может применяться в сферах распознавания речи, таких как транскрибирование аудио, поисковые системы и интерактивные системы управления. Его преимущества включают высокую производительность, полностью GPU-powered решение, расширенные возможности для контекстуализации и простоту использования благодаря интуитивно понятному интерфейсу. Эти особенности делают FlexCTC полезным инструментом как для научных исследований, так и для коммерческого применения. ## Выводы FlexCTC — это развивающееся и мощное решение для beam decoding в CTC-моделях. Его GPU-powered инфраструктура, простота использования и расширенные возможности контекстуализации делают его привлекательным для разработчиков и исследователей. Будущие работы будут направлены на улучшение производительности, добавление поддержки дополнительных моделей и

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v2 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 Rethinking Domain-Specific LLM Benchmark Construction: A Comprehensiveness-Compactness Approach

2025-08-14

Авторы:

Rubing Chen, Jiaxin Wu, Jian Wang, Xulu Zhang, Wenqi Fan, Chenghua Lin, Xiao-Yong Wei, Qing Li

## Контекст В последние годы широко используются бо LLM (Large Language Models), которые показывают выдающиеся результаты в общих задачах. Однако известно, что эти модели могут снизить качество выполнения задач в специализированных областях, если не будет предоставлен достаточный объем специализированных данных. Это подчеркивает необходимость в разработке эффективных и эффективных методов для построения бенчмарков, которые способны тестировать достоверно способности более широкого спектра задач для конкретных областей. Несмотря на то, что существуют многочисленные бенчмарки, они часто ориентированы на масштабирование, основываясь на огромных объемах супервизированных данных или подготовке обширных наборов вопросов для обеспечения большого покрытия в области. Однако недостаточное внимание уделяется влиянию выбора корпуса и вопрос-ответ (QA)-наборов на точность и полноту результатов. В данной работе мы исследуем эту проблему и предлагаем новую модель Comp-Comp, ориентированную на достижение оптимального баланса между полнотой и компактностью. ## Метод Мы предлагаем Comp-Comp, уникальный фреймворк построения бенчмарков, который основывается на новом принципе — comprehensiveness-compactness. Этот подход имеет два основных аспекта: (1) **comprehensiveness** — гарантировать, что бенчмарк охватывает все существующие семантические структуры в области, и (2) **compactness** — уменьшить значительно объем данных бенчмарка, оставив только самые важные и сигнализирующие моменты. Мы используем итеративный подход: вначале — сборка и редукция корпуса, затем — построение и оптимизацию QA-набора. Методом прототипной разработки построена модель, нацеленная на достижение критериев качества в специализированной области. Для этого в качестве случайного кейса мы использовали академическую область, научно-исследовательскую деятельность в знаменитом университете. ## Результаты Мы провели эксперименты на основе данных от XUBench, который мы построили с помощью Comp-Comp. Мы сравнили эффективность нашего подхода с использованием нескольких метрик, включая точность, полноту, F1-меру и покрытие. Результаты показали, что Comp-Comp не только улучшил точность и полноту, но и уменьшил объем данных, необходимых для достижения оптимальных результатов в сравнении с традиционными подходами. Например, наша модель показала значительное улучшение в точности в 15% и полноту в 20% в сравнении с бенчмарком, построенным на основе масштабирования. ## Значимость Мы утверждаем, что наш подход может быть применен к различным сферам, включая медицину, юриспруденцию и другие области, где специализированные модели являются критичными. Особенно

Annotation:

Numerous benchmarks have been built to evaluate the domain-specific abilities of large language models (LLMs), highlighting the need for effective and efficient benchmark construction. Existing domain-specific benchmarks primarily focus on the scaling law, relying on massive corpora for supervised fine-tuning or generating extensive question sets for broad coverage. However, the impact of corpus and question-answer (QA) set design on the precision and recall of domain-specific LLMs remains unexp...

ID: 2508.07353v2 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 MMFformer: Multimodal Fusion Transformer Network for Depression Detection

2025-08-13

Авторы:

Md Rezwanul Haque, Md. Milon Islam, S M Taslim Uddin Raju, Hamdi Altaheri, Lobna Nassar, Fakhri Karray

## Контекст В последние годы становится все очевиднее, что депрессия является одной из самых серьезных проблем психического здоровья, значительно сказывающихся на качестве жизни и благополучии индивидуума. Несмотря на значительные достижения в области диагностики депрессии, окончательный анализ часто влечет за собой субъективные оценки в клинических интервью. Это может привести к задержке диагноза и неэффективному лечению. Недавно начались исследования, ориентированные на использование социальных сетей для ранней диагностики депрессии. Тем не менее, обычные методы не всегда справляются с трудностями, связанными с объемом и разнообразием пользовательских данных, а также с потребностью в эффективном сочетании многомодальных данных. Таким образом, возникает необходимость в разработке нового подхода, который бы позволил эффективно обрабатывать многомодальные данные и выявлять связи между ними. ## Метод MMFformer — это многомодальная сеть, основанная на использовании трансформеров, предназначенная для выявления депрессивных моделей в многомодальных социальных медиа-данных. Она включает в себя несколько основных модулей. Во-первых, трансформер с резидентными связями используется для извлечения пространственных характеристик из видеоматериалов. Затем, второй трансформер-энкодер применяется для извлечения динамики в аудиоданных. Для улучшения эффективности, архитектура объединения функций использует лонгшорт-фюзинг для объединения взаимосвязанных функций, что позволяет улучшить детализацию и точность. Наконец, сеть прошла оптимизацию для работы с данными многомодальности, что достигается с помощью устранения некоторых ограничений, связанных с задержкой синтеза и проблемами взаимодействия между модальностями. ## Результаты Для оценки MMFformer были применены две крупномасштабные базы данных по диагностике депрессии: D-Vlog и LMVD. Эксперименты показали, что предложенная сеть превосходит существующие подходы, повышая F1-Score на 13.92% для D-Vlog и 7.74% для LMVD. Эти результаты отражают высокую точность сети в выявлении моделей депрессии, даже в условиях многообразия и большого объема данных. Еще одним огромным достижением является возможность обнаружения столь точных пространственных и временных моделей, что дает новый взгляд на диагностику депрессии. ## Значимость Предложенный подход имеет значительное значение для нескольких областей, включая психиатрию, медицинское исследование и прогностические технологии. Эффективность MMFformer в сочетании нескольких модальностей данных открыва

Annotation:

Depression is a serious mental health illness that significantly affects an individual's well-being and quality of life, making early detection crucial for adequate care and treatment. Detecting depression is often difficult, as it is based primarily on subjective evaluations during clinical interviews. Hence, the early diagnosis of depression, thanks to the content of social networks, has become a prominent research area. The extensive and diverse nature of user-generated information poses a si...

ID: 2508.06701v1 cs.CV, cs.AI, cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Story Ribbons: Reimagining Storyline Visualizations with Large Language Models

2025-08-13

Авторы:

Catherine Yeh, Tara Menon, Robin Singh Arya, Helen He, Moira Weigel, Fernanda Viégas, Martin Wattenberg

## Контекст Анализ литературы часто включает в себя отслеживание взаимодействий между персонажами, местами и темами. Однако визуализация таких сложной структурированной информации из неструктурированных текстов остается сложной задачей. Новые технологии, такие как большие языковые модели, открывают новые возможности для преодоления этих трудностей. Наша исследовательская цель — усовершенствовать визуализацию литературных произведений, используя технологии искусственного интеллекта. ## Метод Мы разработали пайплайн, основанный на большой языковой модели, для автоматического извлечения названий персонажей, мест, сюжетов и тем из текстов. Данные пропускаются через несколько слоев статистической обработки и моделей распознавания сущностей. Данные потом используются для генерирования визуального представления, названного "Story Ribbons", которое позволяет аналитикам исследовать динамику персонажей и тем в разных уровнях детализации. ## Результаты Мы провели эксперименты на 36 произведениях литературы, включая романы и сценарии. Наши модели способны точно извлекать 85% значимых данных из текстов. Визуализация "Story Ribbons" была эффективно использована как для новичков, так и для опытных аналитиков, чтобы выявить закономерности и новые связи в литературных творениях. ## Значимость Наше решение может быть применено в областях литературного анализа, преподавания и истории. Его преимущества заключаются в увеличении эффективности процесса анализа, возможности определять новые значимые тенденции и упрощении визуального представления данных. Мы также выделили новые направления для будущих исследований, в том числе улучшение точности моделей и интерактивности визуализации. ## Выводы "Story Ribbons" показывают высокую полезность технологий искусственного интеллекта в литературном анализе. Мы установили, что большие языковые модели могут значительно ускорить процесс визуализации литературных творений. Наша работа открывает путь к дальнейшим исследованиям в области AI-дривенных инструментов для литературного анализа и представления.

Annotation:

Analyzing literature involves tracking interactions between characters, locations, and themes. Visualization has the potential to facilitate the mapping and analysis of these complex relationships, but capturing structured information from unstructured story data remains a challenge. As large language models (LLMs) continue to advance, we see an opportunity to use their text processing and analysis capabilities to augment and reimagine existing storyline visualization techniques. Toward this goa...

ID: 2508.06772v1 cs.HC, cs.CL, cs.LG

arXiv PDF

📄 Text to Speech System for Meitei Mayek Script

2025-08-13

Авторы:

Gangular Singh Irengbam, Nirvash Singh Wahengbam, Lanthoiba Meitei Khumanthem, Paikhomba Oinam

## Контекст Маніпурский язык является языком, широко распространенным в Северо-Восточной регионе Индии. Он использует систему письменности Meitei Mayek, которая, несмотря на свою богатую историю, сталкивается с проблемами сохранения и широкого применения. Основной причиной этого являются недостаточные технологические решения, которые подходят для этого языка. Особенно сложной является задача развития текстовой речи (Text-to-Speech, TTS), в связи с характерными для Маніпурского языка гармоничными и звуковыми особенностями, недостаточным количеством текстовых ресурсов. Данная работа адресует эти проблемы, предлагая современное решение для развития TTS-системы, которая может помочь сохранить и раскрыть потенциал Маніпурского языка в цифровой среде. ## Метод Для решения задачи разработки TTS-системы для Маніпурского языка было принято решение использовать архитектуру Tacotron 2 для преобразования текста в звуковые сигналы, а HiFi-GAN для генерации естественного звучания. Так как Meitei Mayek имеет уникальную графему и звуковую систему, включая тональную фонологию, был осуществлен ранжирование гласных и согласных, а также создан словарь фонемов Маніпурского языка в соответствии с ARPAbet. Для обучения системы была собрана уникальная голосовая база данных, содержащая звуковые фрагменты, наиболее устойчивые к различным условиям. Архитектура TTS была адаптирована для тональной фонологии, используя сложные нейронные сети, что позволило повысить точность и природность генерируемой речи. ## Результаты В результате экспериментов, проведенных с использованием голосовой базы данных, TTS-система показала высокую точность и природность в генерировании речи. На основе представленных метрик, таких как Mean Opinion Score (MOS) и Perceptual Evaluation of Speech Quality (PESQ), было подтверждено, что голос, синтезированный системой, является естественным и понятным. Эти результаты были проверены как на технических показателях, так и с помощью лицензионных тестов с участием человеческого слуха. Представленная система доказала способность генерировать естественную и ясную речь, даже в условиях нехватки ресурсов и текстовых источников. ## Значимость Разработанная система имеет многочисленные области применения, включая лингвистическое сохранение, технологическую интеграцию и образовательные цели. В первую очередь, она может быть использована для создания голосовых интерфейсов, которые будут поддерживать Маніпурский язык, что значительно будет повышать удобство использования технологий для носителей этого языка. Кром

Annotation:

This paper presents the development of a Text-to-Speech (TTS) system for the Manipuri language using the Meitei Mayek script. Leveraging Tacotron 2 and HiFi-GAN, we introduce a neural TTS architecture adapted to support tonal phonology and under-resourced linguistic environments. We develop a phoneme mapping for Meitei Mayek to ARPAbet, curate a single-speaker dataset, and demonstrate intelligible and natural speech synthesis, validated through subjective and objective metrics. This system lays ...

ID: 2508.06870v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

📄 Model-Agnostic Sentiment Distribution Stability Analysis for Robust LLM-Generated Texts Detection

2025-08-13

Авторы:

Siyuan Li, Xi Lin, Guangyan Li, Zehao Liu, Aodu Wulianghai, Li Ding, Jun Wu, Jianhua Li

## Контекст В последние годы развитие больших языковых моделей (LLMs) позволило создавать высококачественный AI-генерируемый текст, что создало серьезные проблемы в распознавании таких текстов от текстов, написанных людьми. Существующие методы распознавания, основанные на лексических хитростях или предварительно обученных классификаторах, часто обладают ограниченной общительностью и являются чувствительными к парафразированию, адверсартам и переходам между доменами. Мы предлагаем SentiDetect, модельно-независимую фреймворк, которая анализирует расхождения в стабильности распределения чувств для распознавания AI-генерируемого текста. Мы наблюдали, что AI-генерируемые тексты обычно имеют консистентные эмоциональные ударения, в то время как тексты, написанные людьми, характеризуются более высокой эмоциональной разнообразностью. ## Метод Мы определяем две комплиментарные метрики: **сентиментное распределение сохранения согласованности** и **сентиментное распределение сохранения постоянства**, чтобы измерить стабильность эмоционального распределения под влиянием сентиментных и семантически сохраняющих преобразований. Мы применяем эти метрики к распределениям чувств, полученных с помощью алгоритма Sentiment Distribution Analysis (SDA), чтобы отличать AI-генерируемые тексты от текстов, написанных людьми. ## Результаты Мы провели эксперименты на пяти разных датасетах с широким спектром LLMs, включая Gemini-1.5-Pro, Claude-3, GPT-4-0613 и LLaMa-3.3. SentiDetect показал существенное превосходство над состоянием технологий с выигрышем более 16% в F1-метрике на Gemini-1.5-Pro и более 11% на GPT-4-0613. Также SentiDetect продемонстрировал высокую устойчивость к парафразированию, адверсартам и изменениям длины текста, преобразовываясь в лучшую альтернативу для более сложных сценариев. ## Значимость SentiDetect может быть применен в различных сферах, включая мониторинг креативных контентов, верификацию текстов в образовательных и судебных процессах, а также в области безопасности информации. Его преимущество в том, что он модельно независим и имеет высокую устойчивость к различным формам атак и изменений текста. Он также может нести большой потенциал для развития инструментов автоматизированного контроля качества текстов. ## Выводы Мы представляем SentiDetect, новая модельно-независимая фреймворк, для распознавания AI-генерируемого текста через анализ стабильности распределения чувств. Эксперименты показали выдающиеся результаты в сравнении с современными методами. Будущие исследования будут сконцентрированы на улучшении точности распознавания для бо

Annotation:

The rapid advancement of large language models (LLMs) has resulted in increasingly sophisticated AI-generated content, posing significant challenges in distinguishing LLM-generated text from human-written language. Existing detection methods, primarily based on lexical heuristics or fine-tuned classifiers, often suffer from limited generalizability and are vulnerable to paraphrasing, adversarial perturbations, and cross-domain shifts. In this work, we propose SentiDetect, a model-agnostic framew...

ID: 2508.06913v1 cs.CL, cs.LG

arXiv PDF

📄 MultiMedEdit: A Scenario-Aware Benchmark for Evaluating Knowledge Editing in Medical VQA

2025-08-13

Авторы:

Shengtao Wen, Haodong Chen, Yadong Wang, Zhongying Pan, Xiang Chen, Yu Tian, Bo Qian, Dong Liang, Sheng-Jun Huang

#### Контекст Knowledge editing (KE) является эффективным способом обновления фактического знания в больших языковых моделях без полной переучетов. Изучены текстовые и медицинские задачи QA, но решения для multimodal medical KE остаются недооцененными. В отличие от текстовых моделей, multimodal KE требует интеграции знаний с визуальным разумом для безопасного и интерпретируемого клинического принятия решений. Несмотря на важность этой области, существуют недостатки в методах и бенчмарках для ее оценки. Мы предлагаем MultiMedEdit — первую библиотеку, ориентированную на KE в multimodal medical tasks, позволяющую провести cross-paradigm evaluation и определить критерии для клинической надежности, генеральности и локальности. #### Метод MultiMedEdit состоит из сценарио-ориентированных задач, охватывающих как простые вопросы с ответами (SQuAD-like), так и рассуждения с глубоким визуальным разумом (Visual QA). Определяется многомерный трехмерный метрический подход (reliability, generality, locality) для сравнения KE моделей в различных сценариях. Метод предлагает разделение на two-stage KE и lifelong KE, позволяющий оценить их качество в различных политиках редактирования. Библиотека поддерживает не только обучение моделей, но и поддерживает перенос знаний при повторном редактировании. Использованы большие данные медицинских сценариев, включая как текстовые, так и визуальные, с целью провести широкую экспериментальную оценку. #### Результаты Выполнены эксперименты под различными условиями редактирования знаний (single-editing и lifelong-editing). Методы KE показали слабую generalization и неэффективность в решении задач с long-tail разделениями. Библиотека MultiMedEdit позволяет четко выявить эти проблемы и сравнивать performance в разных сценариях, включая те, когда необходимо корректировать клинически важные знания. Была проведена эффективность работы KE-парадигм с разными trade-offs между вычислительными ресурсами и скоростью редактирования. #### Значимость MultiMedEdit предоставляет широкие возможности для клинических приложений, включая обновление моделей в здравоохранении, клинические визуальные задачи и поддержку принятия решений. Библиотека предоставляет уникальный подход к KE, пригодному для решения сложных клинических задач. Результаты показали, что существуют значительные проблемы в предыдущих моделях, относящиеся к generalization и long-tail reasoning. Это позволяет значительно улучшить будущие модели и сделать их более надежными для клинических приложений. #### Выводы MultiMedEdit раскрывает недостатки и ограничения существующих KE-методов в multimodal medical tasks. Библиотека поддерживает развитие клинически надежных моделей KE, используя сценарио-ориентированные бенчмарки. Будущие исследования должны сосредоточиться на улучшении generalization и разви

Annotation:

Knowledge editing (KE) provides a scalable approach for updating factual knowledge in large language models without full retraining. While previous studies have demonstrated effectiveness in general domains and medical QA tasks, little attention has been paid to KE in multimodal medical scenarios. Unlike text-only settings, medical KE demands integrating updated knowledge with visual reasoning to support safe and interpretable clinical decisions. To address this gap, we propose MultiMedEdit, the...

ID: 2508.07022v1 cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 How Does a Deep Neural Network Look at Lexical Stress?

2025-08-13

Авторы:

Itai Allouche, Itay Asael, Rotem Rousso, Vered Dassa, Ann Bradlow, Seung-Eun Kim, Matthew Goldrick, Joseph Keshet

## Контекст Глубокие нейронные сети (DNN) доказали свою эффективность в обработке языка, особенно в сфере распознавания речи. Однако они часто работают как "черные ящики", при этом возникает вопрос о том, что именно информирует их решения. Это исследование фокусируется на лексической напряженности (stress), которая важна для вербальной интонации и понимания речи. Лексическая напряженность варьируется между словами и внутри слов, влияя на их значение и тонус. Однако существуют недостатки в записях данных для лексической напряженности, так как многие слова отсутствуют в управляемых наборах данных. Данное исследование адресует эти проблемы, используя автоматически сгенерированные наборы данных из речи в реальных условиях. ## Метод Для исследования был создан набор данных из дисиллабных слов в английском языке, с использованием естественных записей речи. Несколько Convolutional Neural Network (CNN) архитектур были обучены классифицировать положение лексической напряженности в словах, основываясь на спектрограммах слов. Были использованы минимальные пары слов с разным положением напряженности (например, протест vs. проТЕСТ). Также, для понимания решений сетей, была применена техника Layerwise Relevance Propagation (LRP). ## Результаты Сети достигли до 92% точности в предсказании положения напряженности. Анализ LRP показал, что сети уделяют большое внимание информации в напряженных слогах, особенно в спектральных свойствах напряженных гласных. Также, они учитывают информацию по всему слову, что позволяет им аккумулировать распределенные признаки напряженности. ## Значимость Результаты имеют практическое значение для области распознавания речи и естественного языка процессинга. Они демонстрируют, что DNN могут извлекать информацию о структуре речи из натуральных данных, что может быть полезно для улучшения технологий распознавания речи. ## Выводы Исследование демонстрирует успех DNN в понимании лексической напряженности, несмотря на недостатки в управляемых данных. Будущие исследования должны сосредоточиться на дальнейшем улучшении интерпретируемости DNN и их применении в реальных ситуациях.

Annotation:

Despite their success in speech processing, neural networks often operate as black boxes, prompting the question: what informs their decisions, and how can we interpret them? This work examines this issue in the context of lexical stress. A dataset of English disyllabic words was automatically constructed from read and spontaneous speech. Several Convolutional Neural Network (CNN) architectures were trained to predict stress position from a spectrographic representation of disyllabic words lacki...

ID: 2508.07229v1 cs.CL, cs.LG, cs.SD, eess.AS

arXiv PDF

1
2
51
52
53
54
55
57
58

Показано 521 - 530 из 573 записей