📚 Саммари научных статей из arXiv

Найдено 14827 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 35039 Добавлено сегодня: 432

Последнее обновление: сегодня

📄 "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas

2025-08-13

Авторы:

Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li

## Контекст В последние годы значительное внимание уделяется исследованию возможностей и функциональных характеристик Бо LLM (большие языковые модели), включая их участие в принятии этически важных решений. Эти модели применяются в различных сферах, включая право, медицину и социальную сферу. Однако их возможности в моральном рассуждении и понимании значения человеческих ценностей до сих пор недостаточно изучены. Наличие моральных базисов в Бо LLM является важной задачей для того, чтобы обеспечить их безопасное и эффективное использование в решении проблем, возникающих в сложных ситуациях. Это исследование поднимает вопрос о том, насколько модели эффективно применяют моральные принципы в своих решениях, и как они могут строить свои ответы в зависимости от культурных и этических контекстов. ## Метод Для эту статью была проведена комплексная эмпирическая оценка 14 лидирующих моделей Бо LLM, включая модели с признаками морального рассуждения и общего назначения. Эти модели были протестированы на 27 ситуациях, основанных на такой моральной проблемой, как "trolley problem", которые были формально поставлены в рамках 10 различных моральных философий, включая утилитаризм, деонтологию и альтруизм. Использовалась факторическая техника подсказки (prompting), чтобы вызвать 3780 бинарных решений, а также естественные языковые обоснования. Это стало возможным благодаря анализу решений по составленным этим моделям, включая уровень решательности, консистентность объяснений, соответствие общественному моральному стандарту и чувствительность к этически незначимым признакам. ## Результаты Результаты экспериментов показали значительную разницу в поведении моделей в зависимости от моральных фрэймворков и типов моделей. Заметились высокие степени решательности и структурированности в моделях с признаками морального рассуждения по сравнению с общей целевой моделью. Однако эти модели не всегда согласовывались с человеческим согласием в своих решениях. Были выявлены "sweet zones" в моральных фрэймворках, таких как альтруизм, справедливость и виртуозность, где модели показали сбалансированное решение с высоким уровнем вмешательства, низким конфликтом в объяснениях и минимальным отклонением от среднего человеческого суждения. Однако модели различались в своих решениях, когда речь шла о фрэймворках, таких как кровные связи, законность или индивидуальное интересование, что привело к этически спорным результатам. ## Значимость Эти полученные результаты имеют важное значение для сфер, где Бо LLM применяются в решениях этичес

Annotation:

As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language just...

ID: 2508.07284v1 cs.CL, cs.AI, cs.CY

arXiv PDF

📄 EndoAgent: A Memory-Guided Reflective Agent for Intelligent Endoscopic Vision-to-Decision Reasoning

2025-08-13

Авторы:

Yi Tang, Kaini Wang, Yang Chen, Guangquan Zhou

## Контекст Исследование развития искусственного интеллекта (AI) для поддержки диагностики на основе эндоскопических изображений является важной областью поиска. Существующие методы, основанные на больших наборах данных и предварительной обучении, часто страдают от отсутствия унифицированного подхода к решению различных задач и сложности с многошаговыми процессами в клинических работах. Хотя AI-агенты доказали свою эффективность в адаптивном исполнении инструкций и интеграции инструментов в различных областях, их потенциал в области эндоскопии остается недостаточно исследованным. Целью данной работы является разработка EndoAgent — первого AI-агента, основанного на памяти, для визуально-решающего анализа эндоскопических изображений, который комбинирует итеративное разумение с адаптивным выбором инструментов и сотрудничеством. ## Метод EndoAgent основывается на двухкомпонентной системе памяти: краткосрочной, для отслеживания действий, и долгосрочной, для улучшения рассуждений в процессе. Агент интегрирует множество специализированных инструментов, разработанных экспертами, в единую логическую структуру. Методология решения задач включает интерактивное взаимодействие с изображениями, адаптивные выборки инструментов и итеративную коррекцию решений. Для эффективного обучения и оценки производительности разработан EndoAgentBench — бенчмарк, содержащий 5709 визуальных вопросов-ответов, оценивающих уровень понимания и построение решений в реальных ситуациях. ## Результаты Экспериментальные исследования показали, что EndoAgent превосходит общие и медицинские многомодальные модели, демонстрируя высокую гибкость и компетентность в рассуждениях. Он показал себя эффективнее в задачах, требующих многошагового анализа и управления инструментами. Это доказывает значительный потенциал EndoAgentа в применении к клиническим задачам, где требуется глубокий анализ информации и быстрая адаптивность. ## Значимость EndoAgent может быть применен в различных областях медицины, где требуется визуальный анализ и принятие решений, таких как диагностика, планирование хирургических операций и улучшение операционных процессов. Визуально-решающий подход с учетом памяти и интеграции инструментов делает EndoAgent очень гибким и эффективным в различных рабочих процессах. Благодаря своему уникальному подходу, EndoAgent может существенно улучшить точность диагностики и эффективность работы в сложных клинических ситуациях. ## Выводы EndoAgent представляет собой прорыв в области визуально-решающих AI-систем для эндоскопической диагностики. Он дока

Annotation:

Developing general artificial intelligence (AI) systems to support endoscopic image diagnosis is an emerging research priority. Existing methods based on large-scale pretraining often lack unified coordination across tasks and struggle to handle the multi-step processes required in complex clinical workflows. While AI agents have shown promise in flexible instruction parsing and tool integration across domains, their potential in endoscopy remains underexplored. To address this gap, we propose E...

ID: 2508.07292v1 cs.AI, cs.CL, cs.CV

arXiv PDF

📄 Revisiting Data Attribution for Influence Functions

2025-08-13

Авторы:

Hongbo Zhu, Angelo Cangelosi

#### Контекст В статье "Revisiting Data Attribution for Influence Functions" авторы исследуют возможности воздействия функций влияния (influence functions) в глубоком обучении. Целью исследования является определение влияния отдельных обучающих примеров на модель, что оказывается ключевым для глубокого понимания модели, дебаггинга данных и улучшения ответственности моделей. Использование функций влияния позволяет эффективно оценить влияние данных на обученные параметры модели без необходимости полного переобучения. Эта тема становится важной в свет растущего интереса к интерпретируемости и ответственности моделей, особенно в применениях с большими объемами данных. #### Метод Авторы применяют теоретические и алгоритмические подходы для исследования воздействия функций влияния в глубоком обучении. Они рассматривают подходы, основанные на робастных статистиках, для эффективного оценивания воздействия отдельных данных на обученные модели. Работа также исследует алгоритмические усовершенствования для точного вычисления производных, таких как обратные произведения Хессиана. Архитектура исследования основывается на анализе теоретической основы и практического применения функций влияния в глубоком обучении, включая оценку их эффективности в распознавании неверно отбеленных данных. #### Результаты Авторы проводят эксперименты для оценки эффективности функций влияния в различных сценариях, таких как машинное обучение с большими данными. Они применяют алгоритмы для вычисления влияния отдельных обучающих примеров на модель и проверяют их точность в распознавании неверно отбеленных примеров. Результаты показывают, что функции влияния эффективны в обнаружении и исправлении ошибок в данных, при этом обеспечивая высокую скорость и точность. #### Значимость Исследование имеет значительное значение в области интерпретируемости глубокого обучения и дебаггинга данных. Авторы показывают, как функции влияния могут быть использованы для распознавания неверно отбеленных данных и улучшения моделей. Эти технологии могут применяться в различных сценариях, таких как мобильные приложения, интернет-платформы и бизнес-системы, где требуется высокая точность и ответственность моделей. Алгоритмы, описанные в статье, могут способствовать улучшению интеллектуальных систем. #### Выводы В статье достигнуты важные достижения в исследовании влияния функций влияния на модели глубокого обучения. Авторы подчеркивают, что эти функции могут быть применены для улучшения интерпретируемости моделей, дебаггинга данных и улучшения ответственности моделей. Будущие исследования будут сфокусированы на расши

Annotation:

The goal of data attribution is to trace the model's predictions through the learning algorithm and back to its training data. thereby identifying the most influential training samples and understanding how the model's behavior leads to particular predictions. Understanding how individual training examples influence a model's predictions is fundamental for machine learning interpretability, data debugging, and model accountability. Influence functions, originating from robust statistics, offer a...

ID: 2508.07297v1 cs.LG, cs.AI

arXiv PDF

📄 When Is Prior Knowledge Helpful? Exploring the Evaluation and Selection of Unsupervised Pretext Tasks from a Neuro-Symbolic Perspective

2025-08-13

Авторы:

Lin-Han Jia, Si-Yu Han, Wen-Chao Hu, Jie-Jing Shao, Wen-Da Wei, Zhi Zhou, Lan-Zhe Guo, Yu-Feng Li

## Контекст Проблемы с недостатком меток в области машинного обучения стимулируют развитие самостоятельных и самоподкрепляющихся подходов. Однако многие из этих подходов опираются на некоторые предположения, которые могут быть недостаточно надежными или точными, что влияет на эффективность моделей. Нейро-символьное (Nesy) обучение позволяет моделям улучшить свои результаты, сочетая в себе обучение с подкреплением и работу с символьным знанием. В этой работе авторы расширяют Nesy-теорию, применяя ее к случаю недостоверных предположений (например, неполных или неточных моделей), чтобы создать теоретическую платформу, объединяющую Nesy и методы самостоятельного и семи-самоподкрепляющего обучения. ## Метод Авторы развивают прогностическую модель, которая оценивает потенциальную эффективность независимых меток на основе трех основных метрик: научности (научные знания могут быть приобретены моделью), надежности (знания верны и надежны в контексте данных) и полноты (знания полностью охватывают целевую задачу). Для операционизации этих метрик, авторы предлагают метод, который использует небольшие объемы данных для прогнозирования результатов обучения модели в больших масштабах. Метод является гибким и может применяться к различным случаям независимых меток. ## Результаты В экспериментах авторы используют различные модели и данные для проверки прогностической модели. Они показывают, что предсказания модели крайне точны, когда используются небольшие объемы данных для оценки. Это доказывает, что метод может быть применен для эффективного выбора независимых меток до запуска полного обучения. Такая прогностическая модель позволяет избежать ненужных экспериментов с неэффективными метками, что сокращает время и ресурсы, необходимые для выбора лучших меток. ## Значимость Предложенный подход имеет широкое применение в самоподкрепляющихся и самостоятельных подходах к обучению моделей без меток. Он предоставляет более надежный и целенаправленный способ выбора независимых меток, улучшая эффективность и точность моделей. В будущем, это может привести к более универсальным и надежным моделям для обработки данных в различных областях, таких как робототехника, здравоохранение и обработка естественного языка. ## Выводы Данная работа предлагает новую теоретическую модель для оценки и выбора независимых меток в обучении с подкреплением. Она показывает, как нейро-символьные техники могут улучшить работу моделей, даже в случае недостоверных предположений. Будущими направлениями исследований будет расширение этой модели для различных типов данных и моделей,

Annotation:

Neuro-symbolic (Nesy) learning improves the target task performance of models by enabling them to satisfy knowledge, while semi/self-supervised learning (SSL) improves the target task performance by designing unsupervised pretext tasks for unlabeled data to make models satisfy corresponding assumptions. We extend the Nesy theory based on reliable knowledge to the scenario of unreliable knowledge (i.e., assumptions), thereby unifying the theoretical frameworks of SSL and Nesy. Through rigorous th...

ID: 2508.07299v1 cs.LG, cs.AI

arXiv PDF

📄 From Knowledge to Conjectures: A Modal Framework for Reasoning about Hypotheses

2025-08-13

Авторы:

Fabio Vitali

## Контекст Область исследования сосредоточена на формализации и анализе логик для вывода причинных утверждений, которые могут функционировать в условиях неполного сведения. Одна из существующих проблем состоит в том, что традиционные логические системы не всегда могут адекватно описывать логику гипотетической рассуждения, когда знания расширяются через нереализованные, но потенциально важные, гипотезы. Это мотивирует разработку инструментов, позволяющих логически обрабатывать такие гипотезы, и, таким образом, улучшать модели развития знаний. Мотивация заключается в создании формализованной системы для описания и анализа гипотетического модального рассуждения, чтобы обеспечить более точную и эффективную модель развития знаний. ## Метод Методология основывается на разработке новой семейства модальных логик, которые формализуют гипотетическое модальное рассуждение. Основополагающий принцип — Axiom C ($\varphi \rightarrow \Box\varphi$) — гарантирует сохранение фактических утверждений при переходе к гипотетическим ситуациям. Чтобы обойти проблему модального коллапса, связанную с классическими логическими предположениями, используется паракомплетная семантика, основанная на Weak Kleene logic или Description Logic. Эта семантика допускает неопределенность в утверждениях и разделяет фактические и гипотетические утверждения слоями. Архитектура системы включает в себя модальные системы, такие как KC и KDC, которые являются полными, решаемыми и стабильными в условиях частичного знания. Операция $\mathsf{settle}(\varphi)$ представляет собой логическое преобразование, описывающее переход от гипотезы к факту, и является ключевым инструментом для управления состоянием знаний. ## Результаты Эксперименты проводились на многочисленных наборах гипотетических ситуаций, где определялись устойчивость и точность результатов. Использовались данные, охватывающие пространства ситуаций с разным уровнем неопределенности. Результаты показали, что модальные системы KC и KDC эффективно работают в условиях частичного знания, обеспечивая решение задач модального вывода с высокой точностью. Эти системы также демонстрируют способность корректно обрабатывать неопределенность и превращать гипотезы в факты, что является ключевым аспектом логического моделирования. ## Значимость Полученные системы могут применяться в различных областях, где важно отслеживать и преобразовывать гипотезы в факты, например, в искусственном интеллекте, логике, физике или риск-анализе. Одним из основных преимуществ является способность этих систем обрабатывать неопредел

Annotation:

This paper introduces a new family of cognitive modal logics designed to formalize conjectural reasoning: a modal system in which cognitive contexts extend known facts with hypothetical assumptions to explore their consequences. Unlike traditional doxastic and epistemic systems, conjectural logics rely on a principle, called Axiom C ($\varphi \rightarrow \Box\varphi$), that ensures that all established facts are preserved across hypothetical layers. While Axiom C was dismissed in the past due to...

ID: 2508.07304v1 cs.LO, cs.AI

arXiv PDF

📄 DragonFruitQualityNet: A Lightweight Convolutional Neural Network for Real-Time Dragon Fruit Quality Inspection on Mobile Devices

2025-08-13

Авторы:

Md Zahurul Haquea, Yeahyea Sarker, Muhammed Farhan Sadique Mahi, Syed Jubayer Jaman, Md Robiul Islam

## Контекст Dragon fruit (Hylocereus spp.) набирает всё большую популярность в мировом агробизнесе благодаря своим высоким питательным значениям и экономическим преимуществам. Однако, вследствие трудной транспортации и плохой упаковки, часто возникают проблемы с качеством, что приводит к потерям во время переработки и хранения. Традиционные методы оценки качества требуют много времени и вовлечения человеческого фактора, что может привести к неточности. Недавно, становится все более востребованой использование искусственного интеллекта в сельском хозяйстве, в том числе для оценки качества фруктов. Наша исследовательская группа разработала DragonFruitQualityNet, алгоритм, основанный на сверточных нейронных сетях (CNN), который работает в реальном времени и может использоваться на мобильных устройствах. ## Метод Мы создали специальный сет Downsampling MobileNet для первоначальной обработки изображений, а затем использовали разделенную сеть DragonFruitQualityNet, которая состоит из двух подсетей: подсеть для классификации степени дозрелости и подсеть для определения дефектов. Мы использовали 13 789 изображений, разделенных на четыре категории: свежие, недозрелые, дозрелые и дефектные фрукты. Для обучения и валидации нашей модели мы использовали данные из своих сборов и данные из открытого набора данных Mendeley Data. ## Результаты Модель DragonFruitQualityNet показала важное улучшение в точности в 10% по сравнению с существующими алгоритмами, достигнув точность 93,98%. Мы также проводили эксперименты с тем, как наш алгоритм работает на устройствах с разным объемом памяти, подтвердив, что он достаточно легкий для работы на мобильных устройствах. ## Значимость Наш алгоритм может быть применен для оценки качества драконовых фруктов во время их роста, перед тем как они будут упакованы и отправлены на рынок. Это позволит улучшить управление послесборной работой, уменьшить потери и повысить экономическую выгоду для фермеров. Кроме того, мы разработали приложение для мобильных устройств, чтобы дать фермерам возможность проводить реальное время оценку качества фруктов прямо на месте. ## Выводы Мы разработали DragonFruitQualityNet, сверточную сеть, которая показала высокую точность в классификации качества драконовых фруктов. Мы также приложили усилия, чтобы обеспечить интеграцию этого алгоритма с мобильными устройствами, чтобы дать фермерам возможность применять его на практике. Наша работа открывает новые возможности для продвижения цифрового сельского хозяйства и поддерживает усиление устойчивого сельскохозяйственного производства. Будущие исследования будут сфокусированы на расширении этой модели для других видов фруктов и изучении её

Annotation:

Dragon fruit, renowned for its nutritional benefits and economic value, has experienced rising global demand due to its affordability and local availability. As dragon fruit cultivation expands, efficient pre- and post-harvest quality inspection has become essential for improving agricultural productivity and minimizing post-harvest losses. This study presents DragonFruitQualityNet, a lightweight Convolutional Neural Network (CNN) optimized for real-time quality assessment of dragon fruits on mo...

ID: 2508.07306v1 cs.CV, cs.AI

arXiv PDF

📄 MCITlib: Multimodal Continual Instruction Tuning Library and Benchmark

2025-08-13

Авторы:

Haiyang Guo, Fei Zhu, Hongbo Zhao, Fanhu Zeng, Wenzhuo Liu, Shijie Ma, Da-Han Wang, Xu-Yao Zhang

## Контекст В последние годы становится все очевиднее, что современные системы машинного обучения должны иметь возможность постоянного обучения, чтобы как можно эффективнее адаптироваться к новым задачам и источникам данных. Одной из проблем в этом направлении является **multimodal continual learning**, которая заключается в обучении моделей относительно небольших данных, но на множествах постоянно меняющихся задач, при этом не допуская потери предыдущих знаний. Эта задача становится наиболее актуальной, когда речь идет о моделях, обученных на multimodal data, таких как текст и изображения. Одним из ключевых аспектов в этой области является **instruction tuning**, который позволяет моделям учиться на сочетании разных типов задач в разных модах. Однако, существуют ряд проблем, в том числе catastrophic forgetting, которая усложняет возможность постоянного обучения моделей в контексте multimodal continual learning. ## Метод MCITlib представляет собой **code library и benchmark для multimodal continual instruction tuning (MCIT)**. В её составе включены 8 различных algorithmic approaches для решения задачи сохранения знаний при постоянном обучении. Исследования проводились на двух benchmarks, которые систематически оценивали качество моделей в задаче multimodal continual learning. Ключевые технические решения включают: - **Continual Learning Algorithms**: 8 различных алгоритмов для решения catastrophic forgetting при обучении на множествах задач. - **Multimodal Tuning**: Методы, которые позволяют модели учиться на multimodal data, при этом сохраняя возможность обучения на новых задачах. - **Benchmark Evaluation**: Эталонные наборы данных, которые позволяют оценивать качество решений в контексте multimodal continual learning. ## Результаты На основе MCITlib были проведены ряд экспериментов, в которых были оценены несколько методов continual learning в задачах multimodal continual learning. Результаты показали, что: - Некоторые алгоритмы показали значительную эффективность в минимизации catastrophic forgetting, поддерживая качество модели при обучении на новых задачах. - Другие алгоритмы, в свою очередь, были более эффективны в задачах обучения на нескольких модах, но с меньшей устойчивостью к потерям известных знаний. - Общие результаты показали, что continual instruction tuning может быть весьма эффективным для решения задач multimodal continual learning, но необходимы дополнительные исследования для улучшения моделей. ## Значимость MCITlib имеет значительное значение для развития области multimodal continual learning. Она предоставляет комплексное решение для решения проблем **catastrophic forgetting** и предоставляет возможность проводить эксперименты с различными методами continual learning. Также, MCITlib может быть использована в различных областях, таких как: - **Vision and Language Tasks**: Обучение моделей для комбинации текста и изображений в задачах, таких как сверточные модели, NLP и т.д. - **Real-time Adaptation**: Модели, которые могут быть дополнительно обучены в реальном времени, чтобы адаптироваться к новым данным и постоянно изменяющимся

Annotation:

Continual learning aims to equip AI systems with the ability to continuously acquire and adapt to new knowledge without forgetting previously learned information, similar to human learning. While traditional continual learning methods focusing on unimodal tasks have achieved notable success, the emergence of Multimodal Large Language Models has brought increasing attention to Multimodal Continual Learning tasks involving multiple modalities, such as vision and language. In this setting, models a...

ID: 2508.07307v1 cs.CV, cs.AI

arXiv PDF

📄 HealthBranches: Synthesizing Clinically-Grounded Question Answering Datasets via Decision Pathways

2025-08-13

Авторы:

Cristian Cosentino, Annamaria Defilippo, Marco Dossena, Christopher Irwin, Sara Joubbi, Pietro Liò

#### Контекст В области искусственного интеллекта, специально развитые датасеты, посвященные медицинской Question-Answering (Q&A), играют ключевую роль в измерении и улучшении моделей ло LLM (Large Language Models). Одной из сложностей в этой области является возникновение задач, требующих многоэтапного интерпретационного моделирования, что требует высокой точности и надежности моделей. Наличие таких датасетов позволяет оценивать модели не только с точки зрения точности ответов, но и с точки зрения того, насколько интерпретируема и логично обоснована их работа. Проблема в том, что существующие датасеты часто не покрывают все аспекты клинического решательства, что делает их менее эффективными для тренировки моделей, предназначенных для работы в высокорисковых сферах, таких как медицина. #### Метод HealthBranches — это инновационный датасет, строительство которого основывается на методологии, основанной на клинических путях решения. Он создается через семиавтоматизированный процесс, который преобразует решательные пути, извлеченные из научных и клинических источников, в реалистичные сценарии, основанные на случаях пациентов. Этот процесс включает в себя выделение ключевых факторов, соединение их в логические цепи, а также формирование вопросов и ответов, которые точно отражают клинические ситуации. Датасет состоит из 4063 случаев из 17 различных медицинских областей, таких как кардиология, дерматология и оториноларингология. На каждый случай прикреплен решательный путь, который позволяет оценивать не только верность ответов, но и логику их построения. Эта структурированная архитектура датасета позволяет проводить многоэтапный анализ моделей ЛЛМ, включая их способность к многошаговой инференции и работе в контекстах Retrieval-Augmented Generation (RAG). #### Результаты В ходе экспериментов HealthBranches было протестировано на различных моделях ЛЛМ, включая модели с открытым исходным кодом и коммерческие модели со значительным числом параметров. Было проведено ряд экспериментов, включая задачи открытого ответа, множественного выбора и структурированного Retrieval-Augmented Generation. Результаты показали, что HealthBranches достигает высокой степени сложности, требуя от моделей не только верного ответа, но и подтверждения логики рассуждений. Особое внимание было уделено оценке точности интерпретации ответов, а также возможности моделей работать с цепочками клинического решательства. Это дало возможность провести сравнительный анализ, показав, что HealthBranches делает модели более интерпретируемыми и надежными в клиническом контексте. #### Значимость HealthBranches представляет собой революционный подход к созданию датасетов для

Annotation:

HealthBranches is a novel benchmark dataset for medical Question-Answering (Q&A), specifically designed to evaluate complex reasoning in Large Language Models (LLMs). This dataset is generated through a semi-automated pipeline that transforms explicit decision pathways from medical source into realistic patient cases with associated questions and answers. Covering 4,063 case studies across 17 healthcare topics, each data point is based on clinically validated reasoning chains. HealthBranches sup...

ID: 2508.07308v1 cs.CL, cs.AI, cs.IR, cs.LG

arXiv PDF

📄 FlexCTC: GPU-powered CTC Beam Decoding with advanced Contextual Abilities

2025-08-13

Авторы:

Lilit Grigoryan, Vladimir Bataev, Nikolay Karpov, Andrei Andrusenko, Vitaly Lavrukhin, Boris Ginsburg

## Контекст Улучшение качества речевого распознавания является ключевым заданием в машинном обучении, особенно в задачах ASR (Automatic Speech Recognition). Одна из основных проблем в этой области заключается в том, что стандартные решения для декодирования, такие как простой жадный поиск, часто не могут обеспечить достаточно высокую точность. Для решения этой проблемы, был предложен метод биконным поиском (beam search), который позволил значительно повысить качество распознавания. Однако, существующие реализации beam search, как правило, являются медленными и выполняются серийно, опираясь на CPU, что неэффективно использует мощь современных GPU. Это мотивирует развитие эффективных GPU-powered решений для декодирования, которые могут ускорить и улучшить процесс распознавания речи. ## Метод FlexCTC — это современный и открытый инструмент, разработанный на основе Python и PyTorch, специально для GPU-based beam decoding в рамках Connectionist Temporal Classification (CTC) моделей. Инструмент реализован в полном графическом ускоренном режиме (full GPU), что позволяет исключить задержки синхронизации между CPU и GPU, а также снизить накладные расходы на запуск CUDA-кодов, используя CUDA Graphs. Благодаря своей батч-ориентированной архитектуре, FlexCTC обеспечивает высокую производительность и эффективность. Кроме того, он поддерживает расширенные техники контекстуализации, такие как GPU-powered N-gram language model fusion и phrase-level boosting, что позволяет добиться точного и быстрого декодирования. ## Результаты Проведенные эксперименты показали, что FlexCTC обеспечивает значительное ускорение процесса декодирования в сравнении с существующими решениями. Использования CUDA Graphs и батч-ориентированного подхода позволило достичь высокой производительности, даже при обработке больших наборов данных. Выполненные тесты показали, что FlexCTC обеспечивает чуть ли не в два раза более быстрое декодирование по сравнению с однопоточными решениями. Также, инструмент поддерживает высокоточное распознавание благодаря встроенным техникам контекстуализации, таким как граммотическое моделирование и фазистое усиление фраз. ## Значимость FlexCTC может быть применен в различных областях, таких как ASR, NLP и другие задачи, требующие точного декодирования речи. Он предоставляет уникальные преимущества, такие как улучшенная скорость и точность, а также гибкость в настройке под различные задачи. Это делает FlexCTC полезным для исследователей и разработчиков, которые нуждаются в эффективных GPU-powered решениях для обработки речи. Инструмент также может способствовать развитию новых алгоритмов в области речи и текста, улучшая базовые технологии в этой области. ## Выводы FlexCTC — это мощный и эффективный инструмент для GPU-based beam decoding, разработанный с учетом современных

Annotation:

While beam search improves speech recognition quality over greedy decoding, standard implementations are slow, often sequential, and CPU-bound. To fully leverage modern hardware capabilities, we present a novel open-source FlexCTC toolkit for fully GPU-based beam decoding, designed for Connectionist Temporal Classification (CTC) models. Developed entirely in Python and PyTorch, it offers a fast, user-friendly, and extensible alternative to traditional C++, CUDA, or WFST-based decoders. The toolk...

ID: 2508.07315v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.SD

arXiv PDF

📄 ObfusQAte: A Proposed Framework to Evaluate LLM Robustness on Obfuscated Factual Question Answering

2025-08-13

Авторы:

Shubhra Ghosh, Abhilekh Borah, Aditya Kumar Guru, Kripabandhu Ghosh

## Контекст Актуальность исследования связана с быстрым развитием систем на основе Больших Лингвистических Моделей (LLM), которые применяются для обеспечения систем роботов-техпомощников. Одной из основных проблем в этой области является недостаточная оценка устойчивости таких систем к внесению обобщенных изменений в фактические вопросы. Эти изменения, называемые "обфускацией", могут состоять в искажении именованных сущностей, добавлении развлекательных материалов или смыслового перегружения. Без тестирования таких изменений невозможно оценить надежность и точность LLMs в работе с вопросами и ответами. Исследование посвящено выявлению этих проблем и разработке системы для их систематического исследования. ## Метод Методология исследования основывается на разработке многоуровневой системы обфускации, которая включает три различных типа изменений в вопросах. **Named-Entity Indirection** состоит в замене именованных сущностей (например, ФИО, местами происшествий) на их формальные представления (например, "Субъект 1"). **Distractor Indirection** включает в себя вывод отвлеченных ответных вариантов, которые не соответствуют фактическим данным. **Contextual Overload** предполагает добавление лишней информации, которая может сбить с толку модель. Таким образом, ObfusQAte представляет собой новую методологию для тестирования LLM на систематические искажения вопросов в ходе имитации реальных условий работы. ## Результаты В ходе экспериментов, проведенных с использованием широкого круга данных, было изучено поведение LLMs в ответ на обфусцированные вопросы. Основной показатель — это уменьшение точности ответов, возрастающее в небольших шагах при наличии обфускации. Модели не только предоставляют неточные ответы, но и вводят ложноположительные варианты. Эти результаты были получены при оценке моделей на объеме данных, представляющем собой широкую спектр текстов, включая новостные материалы, энциклопедические статьи и справочные данные. ## Значимость Результаты имеют важное значение для развития роботов-техпомощников, так как позволяют оценить устойчивость LLM к ошибкам при обобщенных вопросах. Обфускация позволяет выявить ошибки в моделях, мотивируя разработку методов улучшения их надежности. Эта работа может быть применена в сферах, где точность ответов критична, например, в медицине, юриспруденции и финансовых системах. Она также открывает пути для развития новых моделей устойчивых к таким изменениям. ## Выводы Разработанная ObfusQAte-фреймворк предоставляет многоуровневый подход для оценки устойчивости LLM к обфускации вопросов. Основные достижения включаю

Annotation:

The rapid proliferation of Large Language Models (LLMs) has significantly contributed to the development of equitable AI systems capable of factual question-answering (QA). However, no known study tests the LLMs' robustness when presented with obfuscated versions of questions. To systematically evaluate these limitations, we propose a novel technique, ObfusQAte and, leveraging the same, introduce ObfusQA, a comprehensive, first of its kind, framework with multi-tiered obfuscation levels designed...

ID: 2508.07321v1 cs.CL, cs.AI, cs.LG, I.2.7

arXiv PDF

1
2
1400
1401
1402
1403
1404
1482
1483

Показано 14011 - 14020 из 14827 записей