📚 Саммари научных статей из arXiv

Найдено 573 результатов по запросу 'cs.CL, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 TICL: Text-Embedding KNN For Speech In-Context Learning Unlocks Speech Recognition Abilities of Large Multimodal Models

2025-09-19

Авторы:

Haolong Zheng, Yekaterina Yegorova, Mark Hasegawa-Johnson

## Контекст Speech In-Context Learning (SICL) — это процесс, в котором модели понимают и обрабатывают речь, полагаясь не только на ранее прослушанные примеры, но и на контекст, в котором происходит данное выражение. Несмотря на то, что существуют многомодальные модели, включающие в себя множество языков и акцентов, их эффективность в сложных сценариях (например, речи с акцентом, детской речи или мультилингвальной речи) остается недостаточной. Это происходит из-за недостатка в эффективном выборе контекстных примеров для обучения в контексте. Отсутствие эффективных методов для выбора этих примеров приводит к ухудшению качества распознавания речи. В настоящий момент нет элементарных средств для решения этой проблемы, что ставит под угрозу достижение высокой точности в распознавании речи. ## Метод TICL (Text-Embedding KNN for SICL) — это простая архитектура, основанная на использовании текстовых примеров для улучшения распознавания речи. Она построена на базе больших моделей мультимодального понимания, таких как LLaMA или PaLM. Работа процесса TICL состоит в следующем: для каждого нового примера речи работает процесс поиска семантически близких примеров из предварительно обученного набора данных. Эти примеры являются ключевыми для ситуации, когда необходимо понять и распознать речь в контексте. Используя эти примеры, TICL оптимизирует процесс распознавания речи без непосредственного тренировочного процесса модели. Это позволяет повысить точность распознавания речи, даже в случаях, когда примеры речи отличаются от обучающего набора (например, речь с акцентом или детской речи). ## Результаты Надёжность и эффективность метода TICL были проверены на многочисленных сложных задачах распознавания речи. Это включало в себя речь с акцентом, мультилингвальную речь и речь детей. На этих задачах TICL позволил моделям достичь результатов, лучше нулевого запуска, с помощью относительного снижения Relative Word Error Rate (WER) до 84.7%. Для подтверждения результатов проводились абляционные исследования, показавшие, что качество работы TICL не зависит от выбора конкретной модели и работает эффективно с разными типами мультимодальных моделей. Эта надёжность демонстрирует значительный потенциал TICL в области распознавания речи. ## Значимость TICL открывает новые возможности для распознавания речи в различных сложных сценариях. Он может применяться для улучшения распознавания речи в реальном времени, включая системы управления, медицинское применение и технологии обучения. За счёт того, что TICL улучшает точность распознавания речи без необходимости дополнительной моделирования, он экономит ресурсы. Это может привести к более быстрому развитию технологий ра

Annotation:

Speech foundation models have recently demonstrated the ability to perform Speech In-Context Learning (SICL). Selecting effective in-context examples is crucial for SICL performance, yet selection methodologies remain underexplored. In this work, we propose Text-Embedding KNN for SICL (TICL), a simple pipeline that uses semantic context to enhance off-the-shelf large multimodal models' speech recognition ability without fine-tuning. Across challenging automatic speech recognition tasks, includin...

ID: 2509.13395v1 eess.AS, cs.AI, cs.CL, cs.LG, cs.MM

arXiv PDF

📄 SteeringControl: Holistic Evaluation of Alignment Steering in LLMs

2025-09-19

Авторы:

Vincent Siu, Nicholas Crispino, David Park, Nathan W. Henry, Zhun Wang, Yang Liu, Dawn Song, Chenguang Wang

## Контекст Обучение лагерных языковых моделей (LLMs) на больших данных ведет к появлению нежелательных поведений, таких как синкопаторность, генерация вредных сообщений и неверности. Эти проблемы могут быть вызваны неэффективным распределением внимания языковой модели к конкретным аспектам представленной информации. Одним из подходов к решению этих проблем является "representation steering", который стремится изменять внутреннюю модельный процессы для контроля поведения LLMs. Несмотря на рост интереса к этой области, существуют недостатки в систематическом оценивании показателей steering, особенно в отношении основных алгоритмов и их влияния на вторичные признаки. Мы предлагаем бенчмарк SteeringControl, который предназначен для оценки эффективности различных методов steering в трех основных областях: синкопаторность, вредная генерация и наложение. ## Метод SteeringControl представляет собой модульный фреймворк, состоящий из пяти основных методов steering, каждый из которых может использоваться для контроля представленной информации в текстах. Методы зависят от типа нарушения (синкопаторность, вредная генерация и т.д.) и представляют собой компоненты, которые изменяют внутренние представления языковой модели. Мы создали также большой набор данных, включающий в себя основные (primary) и вторичные (secondary) показатели этих нарушений. Эти данные используются для оценки того, насколько эффективно работает каждый метод steering в отношении конкретных задач. Мы проверяем эти методы на моделях Qwen-2.5-7B и Llama-3.1-8B, что позволяет получить значимые инсайты для трех основных показателей. ## Результаты В ходе экспериментов мы показали, что сильная стееринговой производительность зависит от конкретной комбинации метода steering, модели и целевого поведения. Мы обнаружили, что некоторые комбинации могут привести к серьезным концептуальным связанностям, которые препятствуют достижению целей steering. Например, модель Llama-3.1-8B показала лучшую производительность в случае синкопаторного steering, но сильные побочные эффекты, такие как вредная генерация, были замечены при использовании некоторых методов steering. На модели Qwen-2.5-7B, напротив, мы заметили лучшую производительность комбинаций steering методов, которые приводят к меньшему количеству побочных эффектов. ## Значимость SteeringControl предоставляет широкий круг возможностей для оценки steering методов в LLMs. Он может быть применен для эффективной оценки и контроля нежелательных поведений, таких как синкопаторность и вредная генерация. Мы предлагаем свой бенчмарк в открытом доступе, чтобы помочь улучшить долгосрочную безопасность и эффективность мо

Annotation:

We introduce SteeringControl, a benchmark for evaluating representation steering methods across core alignment objectives--bias, harmful generation, and hallucination--and their effects on secondary behaviors such as sycophancy and commonsense morality. While prior alignment work often highlights truthfulness or reasoning ability to demonstrate the side effects of representation steering, we find there are many unexplored tradeoffs not yet understood in a systematic way. We collect a dataset of ...

ID: 2509.13450v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Dense Video Understanding with Gated Residual Tokenization

2025-09-19

Авторы:

Haichao Zhang, Wenhao Chai, Shwai He, Ang Li, Yun Fu

## Контекст Область видеопонимания (video understanding) является ключевым направлением искусственного интеллекта, которое призвано извлекать значимые сведения из видеоданных. Улучшение этой области имеет решающее значение для приложений, таких как анализ видео, системы рекомендации, автоматическая система оповещения и анализ социальных сетей. Однако существуют значительные вызовы, связанные с высокой стоимостью вычислений и большим объемом данных, которые необходимо обрабатывать. Особенно вызовы становятся актуальными при работе с высокочастотными видео (high-FPS video), где кадры проигрываются почти в реальном времени, и требуется точное временное выравнивание. Основная проблема заключается в том, что популярные технологии, такие как глубокие нейронные сети (deep neural networks) и видео-большие языковые модели (video large language models, VLLM), обычно работают с низкочастотными видео (low-frame-rate), либо выполняют выборку кадров, либо используют ключевые кадры. Это приводит к потере тонких деталей и неэффективности в обработке высокочастотных видео. Таким образом, необходимо разработать методы, которые позволят эффективно и точно обрабатывать высокочастотные видео, не жертвуя скоростью и точностью. ## Метод Для решения этой проблемы предлагается новая методология, основанная на двух этапах: _Motion-Compensated Inter-Gated Tokenization_ и _Semantic-Scene Intra-Tokenization Merging_. В первом этапе _Motion-Compensated Inter-Gated Tokenization_ используется пиксельный расчет движения для определения статичных областей видео, которые могут быть пропущены в процессе токенизации. Это позволяет эффективно сократить количество токенов и вычислительных ресурсов, необходимых для обработки высокочастотных видео. Во втором этапе _Semantic-Scene Intra-Tokenization Merging_ происходит слияние токенов внутри статичных сцен с целью уменьшить ненужную хаотичность и сохранить динамические свойства видео. Это два этапа обеспечивают наибольшую эффективность, точность и ресурсосберегающую модель, которая может быть применена для работы с высокочастотными видео и данными. ## Результаты Результаты экспериментов проводились на новом бенчмарке Dense Information Video Evaluation (DIVE), который был разработан для тестирования моделей на точность временного выравнивания и обработки высокочастотных видео. Модель Gated Residual Tokenization (GRT) доказала свою превосходность перед более крупными моделями VLLM, улучшив показатели точности в 20% и достигнув высокой эффективности в токенизации, что позволило сократить количество вычислительных операций на 30%. Благодаря двухэтапной токенизации, модель GRT не только эффективно обрабатывает высокочастотные видео, но и экономит ресурсы, что делает ее применимую в реальных ситуациях, таких как лекционный

Annotation:

High temporal resolution is essential for capturing fine-grained details in video understanding. However, current video large language models (VLLMs) and benchmarks mostly rely on low-frame-rate sampling, such as uniform sampling or keyframe selection, discarding dense temporal information. This compromise avoids the high cost of tokenizing every frame, which otherwise leads to redundant computation and linear token growth as video length increases. While this trade-off works for slowly changing...

ID: 2509.14199v2 cs.CV, cs.AI, cs.CL, cs.LG, 68T45, 68T07, 68T05, 68T10, 68T50, 68T09, 68U10, 68P20, 94A08, 94A34, 62H30, 62H35, I.2.10; I.2.6; I.2.7; I.5.1; I.5.2; I.5.3; I.5.4; I.4.8; I.4.9; I.4.2; H.3.1; H.3.3; H.3.4; H.5.1; H.5.2; H.2.8

arXiv PDF

📄 LLMAP: LLM-Assisted Multi-Objective Route Planning with User Preferences

2025-09-18

Авторы:

Liangqi Yuan, Dong-Jun Han, Christopher G. Brinton, Sabine Brunswicker

## Контекст Рост больших языковых моделей (LLMs) способствовал развитию новых подходов к маршрутизации, основанным на естественном языке. Эта область исследований охватывает многообразные пользовательские предпочтения и задачи. Существующие методы делятся на два типа: **LLM-as-Agent**, где LLMs прямо выполняют планирование маршрутов, и **graph-based strategies**, основанные на графах, которые позволяют искать оптимальные маршруты. Однако, LLM-as-Agent страдает от ограниченных возможностей обработки разреженных данных глобальных карт, а graph-based подходы ограничиваются в своей способности разбирать естественный язык пользовательских предпочтений. Это приводит к недостатку гибкости в учете пользовательских задач. Дополнительно, глобальная неоднородность и предсказательность зависимостей времени и расположения пользователей добавляет сложности. Наша цель заключается в разработке новой системы LLMAP, которая объединяет преимущества LLM-as-Parser и мощной многоцелевой оптимизации, чтобы обеспечить точное понимание задач и оптимальное планирование маршрутов. ## Метод LLMAP использует LLM-as-Parser для того, чтобы распознавать задачи, понимать естественный язык и извлекать пользовательские предпочтения, включая зависимости между задачами. Для оптимального планирования требуется использовать LLM в сочетании с Multi-Step Graph Construction with Iterative Search (MSGS) — алгоритмом построения графа и поиска маршрута. Многоцелевая оптимизация позволяет адаптивно управлять весами задач, чтобы приоритизировать качество точек интереса (POI), выполнение задач и минимизировать расстояние маршрута. Таким образом, гибко применяются три ограничения: временные рамки, динамика открытия точек интереса и зависимости между задачами. Это позволяет находить решение, учитывающее характеристики пользователя и глобальных ограничений. ## Результаты Мы провели эксперименты с 1000 сценариями маршрутизации, распределенными по 14 странам и 27 городам. Наши результаты показали, что LLMAP достигает высокой точности в обработке естественного языка, а также эффективно решает задачи многоцелевой оптимизации. Наши результаты показали, что система LLMAP превышает предыдущие подходы в обеспечении решений с гарантированным качеством, учитывая все ограничения. Кроме того, наш подход демонстрирует высокую гибкость в учете динамических изменений на карте, включая изменения времени работы точек интереса и изменения зависимостей между задачами. ## Значимость Полученные результаты открывают новые возможности для развития технологий маршрутизации, основанных на естественном языке. LLMAP может применяться в различных сферах, включая туризм

Annotation:

The rise of large language models (LLMs) has made natural language-driven route planning an emerging research area that encompasses rich user objectives. Current research exhibits two distinct approaches: direct route planning using LLM-as-Agent and graph-based searching strategies. However, LLMs in the former approach struggle to handle extensive map data, while the latter shows limited capability in understanding natural language preferences. Additionally, a more critical challenge arises from...

ID: 2509.12273v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 SENTRA: Selected-Next-Token Transformer for LLM Text Detection

2025-09-18

Авторы:

Mitchell Plyler, Yilun Zhang, Alexander Tuzhilin, Saoud Khalifah, Sen Tian

#### Контекст На протяжении последних нескольких лет генерируемый текстом Л LМ (LLM-generated text) стал востребованным ресурсом в многих областях, включая генерацию текста, перевод, синтез речи и др. Однако вместе с этим возрастает риск их непрозрачного использования, которое может привести к ущербу авторству, фальсификации информации и даже к мошенничеству. Необходимость развития методов, которые способны точно определять LLM-generated text, набирает обороты. Из-за этого появилось много исследований, которые стремятся развить новые методы, улучшив точность и общую универсальность. В данной работе, мы адресуем проблему непрозрачного использования генерируемого текстом LLM, предлагая новую модель - SENTRA (SElected-Next-Token tRAnsformer). #### Метод SENTRA представляет собой Transformer-based encoder, который работает на основе выбранных следующих токенов и их вероятностей. Модель использует последовательность выбранных следующих токенов (Selected-Next-Token sequences), которая отражает вероятности следующего токена в процессе генерации текста. Таким образом, SENTRA может определять структуру и порядок генерируемых текстов. Для повышения универсальности модели, авторы применяют методы contrastive pre-training на больших объемах не отмеченных данных. Это позволяет модели захватывать широкий спектр языковых и стилистических характеристик. Таким образом, SENTRA может быть применена как к тексту внутри домена, так и к тексту, созданному в незнакомых доменах. #### Результаты В ходе экспериментов, проведенных на трех популярных общедоступных датасетах, SENTRA была изучена на 24 различных тематиках. Результаты показывают, что SENTRA значительно избыляет популярные модели-базы в ситуации out-of-domain. Модель показала высокую точность в определении LLM-generated text, даже при работе с текстом, созданным в незнакомых классах. Эти результаты указывают на большую универсальность и возможность SENTRA для распознавания генерируемого LLM-текста в различных сценариях. #### Значимость Mодель SENTRA может быть применена в различных областях, где требуется распознавание генерируемого текстом LLM. Это может включить в себя социальные сети, где необходимо выявить автоматически сгенерированный контент, литературный мир, где требуется установить подлинность текста, а также область безопасности, где ликвидация мошенничества является важной задачей. SENTRA имеет несколько преимуществ, включая высокую точность, общую универсальность и легкость в использовании. В будущем, SENTRA может применяться в новых областях, например, в распознавании генерируемого текста в технологиях,

Annotation:

LLMs are becoming increasingly capable and widespread. Consequently, the potential and reality of their misuse is also growing. In this work, we address the problem of detecting LLM-generated text that is not explicitly declared as such. We present a novel, general-purpose, and supervised LLM text detector, SElected-Next-Token tRAnsformer (SENTRA). SENTRA is a Transformer-based encoder leveraging selected-next-token-probability sequences and utilizing contrastive pre-training on large amounts of...

ID: 2509.12385v1 cs.CL, cs.LG

arXiv PDF

📄 LEAF: Knowledge Distillation of Text Embedding Models with Teacher-Aligned Representations

2025-09-18

Авторы:

Robin Vujanic, Thomas Rueckstiess

Описание статьи: ## Контекст **LEAF** ("Lightweight Embedding Alignment Framework") — это инновационная методология для тренировки моделей текстовых эмбеддингов. Она стремится улучшить эффективность моделей, создаваемых с помощью значительно более мощных "учительских" моделей. Эта проблема актуальна в сфере обработки естественного языка, где необходимо сбалансировать качество результатов и вычислительные затраты. Основная проблема, которую решает LEAF, заключается в трудности достижения высокой модельной эффективности без потери точности. Традиционные подходы часто требуют значительных ресурсов для обучения и хранения моделей. LEAF предлагает универсальный фреймворк, который может быть применен к различным задачам, таким как информационная поисковая система и многозадачные модели. ## Метод LEAF основывается на **процессе знаний извлечения из моделей** (knowledge distillation). Он учитывает специфику семантического взаимодействия между текстами, предлагая асимметричную архитектуру: "учитель" — большая модель для кодирования документов, "ученик" — меньшая модель для обработки запросов. Основным изобретением является система **teacher-aligned representations**, которая позволяет моделям-ученикам автоматически получать свойства, такие как многозадачность (MRL) и устойчивость к квантованию, без дополнительной тренировки. Также, LEAF требует малого количества данных и ресурсов, что делает его привлекательным для реализации на устройствах с ограниченными мощностями. ## Результаты Результаты тестирования LEAF показали выдающиеся результаты. Модель leaf-ir, размером 23 миллионов параметров, стала новым стандартом точности (SOTA) на бенчмарке **BEIR**, опередив все модели схожего размера. Кроме того, в асимметричном режиме, где документы обрабатываются большой моделью, а запросы — упрощенной моделью, выдача LEAF значительно улучшилась. Другая модель, **leaf-mt**, показала схожий успех, став новым стандартом точности на **MTEB v2 (English)**. Этот результат продемонстрирован на практике, с указанием повышения эффективности и уменьшения ресурсов. ## Значимость LEAF открывает новые возможности в области моделей текстовых эмбеддингов. Он позволяет использовать большие модели для генерации данных, в то же время уменьшая затраты на их развертывание в сервисах. Такие модели могут использоваться в различных задачах, включая информационное поисковое взаимодействие, многозадачные модели, а также для оптимизации работы на устройствах с ограниченными ресурсами. Особенно важно, что LEAF не требует трудоемких стадий обучения с трудными отрицательными примерами, что делает его привлекательным для разработчиков. ## В

Annotation:

We present LEAF ("Lightweight Embedding Alignment Framework"), a knowledge distillation framework for text embedding models. A key distinguishing feature is that our distilled leaf models are aligned to their teacher. In the context of information retrieval, this allows for flexible asymmetric architectures where documents are encoded with the larger teacher model, while queries can be served with the smaller leaf models. We also show that leaf models automatically inherit MRL and robustness to ...

ID: 2509.12539v1 cs.IR, cs.CL, cs.LG

arXiv PDF

📄 Do Natural Language Descriptions of Model Activations Convey Privileged Information?

2025-09-18

Авторы:

Millicent Li, Alberto Mario Ceballos Arroyo, Giordano Rogers, Naomi Saphra, Byron C. Wallace

## Контекст Современные глубоко обученные языковые модели (LLM) используют внутренние представления для выполнения сложных задач. Однако понимание того, как эти модели представляют и обрабатывают входные данные, остается неполным. Это недостаточное понимание затрудняет их анализ и настройку. Одним из подходов к решению этой проблемы является использование второй модели языка для перевода внутренних представлений LLM в удобочитаемые естественные языковые описания. Такой подход, известный как "декодирование активаций", называется также "деклассификацией" или "уточнением". Он стремится предоставить пользователю лучшего качества инсайтов в работу LLM, однако его эффективность и достоверность подвергались критике. Неясно, насколько эти методы действительно позволяют понять внутренние механизмы модели, а не лишь трактуют входные данные. ## Метод Мы исследуем популярные методы декодирования активаций, оценивая их работу на различных данных и задачах. Методология включает эксперименты с целевыми моделями и вспомогательными моделями во время обучения, а также с использованием выборок входного текста. Мы устанавливаем несколько условий для тестирования: отсутствие доступа к внутренним представлениям LLM (только входные данные) и сравнение результатов с предварительно обученными методами. Наши эксперименты использовали обученные модели GPT-3 и BERT на различных задачах, включая классификацию и семантическое понимание. ## Результаты Наши эксперименты показали, что методы декодирования активаций дают высокие результаты на бенчмарках, но эти результаты оказались связаны с контекстом входных данных, а не с реальными внутренними представлениями LLM. Например, даже при отсутствии доступа к модели, техники декодирования позволили достичь высокого уровня точности в задаче классификации. Дополнительные эксперименты показали, что результаты зависят от параметров и обучения вспомогательной модели-декодера, а не от силы LLM-целевой. Это указывает на то, что методы деклассификации могут просто отражать предварительную знания модели-декодера, а не трактуют внутренние представления LLM. ## Значимость Результаты имеют высокую значимость для развития методов интерпретирования LLM. Мы показали, что существующие бенчмарки для оценки этих методов неэффективны, так как они не отражают реальную силу техник. Наши результаты подчеркивают необходимость создания новых, более тщательных бенчмарков, которые будут контролировать зависимость результатов от контекста и параметров вспомогательных моделей. Это позволит доказать, насколько эффективно техники декодировани

Annotation:

Recent interpretability methods have proposed to translate LLM internal representations into natural language descriptions using a second verbalizer LLM. This is intended to illuminate how the target model represents and operates on inputs. But do such activation verbalization approaches actually provide privileged knowledge about the internal workings of the target model, or do they merely convey information about its inputs? We critically evaluate popular verbalization methods across datasets ...

ID: 2509.13316v1 cs.CL, cs.LG

arXiv PDF

📄 Struct-Bench: A Benchmark for Differentially Private Structured Text Generation

2025-09-17

Авторы:

Shuaiqi Wang, Vikas Raunak, Arturs Backurs, Victor Reis, Pei Zhou, Sihao Chen, Longqi Yang, Zinan Lin, Sergey Yekhanin, Giulia Fanti

## Контекст Differentially private (DP) synthetic data generation является перспективным подходом для использования закрытых данных, которые не могут быть раскрыты для обучения моделей или других аналитических целей. Хотя существует много исследований по созданию защищенных неструктурированных текстов и изображений, в организационных средах структурированные данные (например, табличные) более распространены, часто включая текстовые поля. Текущие методы оценки синтетических данных, такие как FID, не удается точно охватить структурные свойства и корреляции таких данных. Наша мотивация заключается в создании бенчмарка, который бы стандартизировал оценку синтетических данных из структурированных источников с естественным языком. ## Метод Мы предлагаем Struct-Bench, фреймворк и бенчмарк для оценки синтетических данных, полученных из структурированных источников с естественным языком. Методология Struct-Bench основана на Context-Free Grammar (CFG), которая позволяет пользователям определять структуру исходных данных. Бенчмарк включает в себя 7 датасетов (5 реальных и 2 синтетических), каждый аннотированный CFG. Мы также предоставляем стандартные реализации метрик и лидербورд, чтобы обеспечить унифицированную оценку методов защищенного генерирования данных. ## Результаты Мы проводили эксперименты, используя 5 реальных и 2 синтетических датасеты. Результаты показали, что даже устойчивые методы защищенного генерирования данных структурированного текста сталкиваются с значительными трудностями на Struct-Bench. Наши данные подтверждают, что различия в структуре данных могут значительно сказываться на качестве синтетических данных. ## Значимость Struct-Bench широко может применяться в области приватного генерирования данных, в частности, для оценки методов DP synthetic data generation. Он позволяет учитывать структуры данных, что делает его особенно удобным для табличных данных. Мы также показали, что Struct-Bench может быть использован для улучшения качества синтетических данных в Private Evolution (PE). ## Выводы Struct-Bench является первым развитой базой для оценки синтетических данных структурированных источников. Его стандартизированный подход позволяет сравнивать различные методы генерирования данных. Будущие исследования будут сфокусированы на расширении Struct-Bench для новых типов структудных данных и улучшении его метрик.

Annotation:

Differentially private (DP) synthetic data generation is a promising technique for utilizing private datasets that otherwise cannot be exposed for model training or other analytics. While much research literature has focused on generating private unstructured text and image data, in enterprise settings, structured data (e.g., tabular) is more common, often including natural language fields or components. Existing synthetic data evaluation techniques (e.g., FID) struggle to capture the structural...

ID: 2509.10696v1 cs.CL, cs.LG

arXiv PDF

📄 PolyTruth: Multilingual Disinformation Detection using Transformer-Based Language Models

2025-09-17

Авторы:

Zaur Gouliev, Jennifer Waters, Chengqian Wang

#################### ## Контекст #################### Распространение дезинформации превышает границы языков и культур, что создает сложные вызовы для моделей искусственного интеллекта. Хотя transformer-based language models показали замечательные результаты в обнаружении дезинформации на языке английском, их эффективность в многоязычных условиях остается неясной. Этот факт мотивирует исследователей расширить гибкость и полноту моделей, чтобы они могли анализировать дезинформацию на разных языках. Основной мотивацией является необходимость создания моделей, которые могут правильно различать фальшивые утверждения от истинных в разных языковых и культурных контекстах, помогая таким образом бороться с распространением дезинформации. #################### ## Метод #################### Для решения этой проблемы авторы предлагают систематическую оценку пяти моделей трансформеров: mBERT, XLM, XLM-RoBERTa, RemBERT и mT5, примененных к задаче классификации "фальшивого утверждения против истинного". Использование пяти моделей позволило провести сравнительный анализ их эффективности. Для тестирования, разработчики представили PolyTruth Disinfo Corpus — большой корпус данных, состоящий из 60,486 пар утверждений (фальшивое утверждение и фактическая коррекция), представленных на 25 языках. Данные включают различные тематики, такие как политика, здравоохранение, климат, финансы и конспирации. Многие из этих утверждений были проверены на фактность, используя расширенный MindBugs Discovery Dataset. Методы включали обучение моделей на ограниченных ресурсах и оценку их возможности работать в многоязычных условиях. #################### ## Результаты #################### Эксперименты показали различия в поведении моделей. Модель RemBERT проявила высокую точность в целом, особенно в условиях нехватки данных. Модели mBERT и XLM показали значительные ограничения при недостатке тренировочных данных. Эти результаты указывают на то, что выбор модели зависит от конкретных условий, в том числе доступности данных и тематики дезинформации. Было проведено подробное анализирование этих отличий, чтобы выявить узкие места и потенциал моделей в многоязычных условиях. #################### ## Значимость #################### Предложенный подход имеет значительное значение в области борьбы с международной дезинформацией. Модели, протестированные в PolyTruth Disinfo Corpus, могут использоваться в различных сферах, включая социальные сети, новостные ресурсы и политические аналитические системы. Многоязычность моделей позволяет расширить их применение за рубежом, что делает их полезными для международных организаций и правоохранительных органов. Этот подход также может способствовать развитию новых технологи

Annotation:

Disinformation spreads rapidly across linguistic boundaries, yet most AI models are still benchmarked only on English. We address this gap with a systematic comparison of five multilingual transformer models: mBERT, XLM, XLM-RoBERTa, RemBERT, and mT5 on a common fake-vs-true machine learning classification task. While transformer-based language models have demonstrated notable success in detecting disinformation in English, their effectiveness in multilingual contexts still remains up for debate...

ID: 2509.10737v1 cs.CL, cs.LG, 68T50, 68T07, I.2.7; H.3.3

arXiv PDF

📄 Why Bonds Fail Differently? Explainable Multimodal Learning for Multi-Class Default Prediction

2025-09-17

Авторы:

Yi Lu, Aifan Ling, Chaoqun Wang, Yaxin Xu

## Контекст В 2022 году в Китае произошло значительное количество банкротств, что привело к возникновению кризиса на внутреннем рынке облигаций. Это связано с регулированием, макроэкономической неопределенностью и нестабильностью на финансовых рынках. Использование традиционных моделей машинного обучения для прогнозирования банкротств становится неэффективным из-за сложной структуры финансовых данных, сильных временных зависимостей и отсутствия интерпретируемости. Улучшение моделей для более точных и интуитивных прогнозов является ключевым заданием в этой области. ## Метод Предлагаемая модель EMDLOT (Explainable Multimodal Deep Learning for Time-series) является современным подходом к прогнозированию банкротств на рынке облигаций. Она объединяет в себе цифровые данные (финансовые и макроэкономические показатели) и неструктурированные текстовые данные (проспекты облигаций). Модель использует Time-Aware LSTM для обработки неправильно секвенциальных данных, а также soft clustering и многоуровневую аттенцию для повышения прозрачности. Она способна сформировать экономически обоснованные причины для прогнозируемых классов, что обеспечивает повышенной уровень доверия в модели. ## Результаты Опытные исследования проводились на базе данных, включающей 1994 компаний в Китае за период с 2015 по 2024 год. EMDLOT показала значительное превосходство по показателям F1-score и mAP по сравнению с традиционными моделями (например, XGBoost) и даже с глубокими нейросетями (например, LSTM). Особенно выдачными были результаты в области классификации фирм, которые могут быть как банкроты, так и дефолтные. Анализы аблаций показали значительный вклад каждого компонента модели. Анализ аттенции позволил выявить наиболее важные факторы, влияющие на банкротство. ## Значимость Модель EMDLOT может быть применена в сфере финансовых услуг для предупреждения рисков и прогнозирования банкротств. Она предоставляет достоверные интерпретации, что позволяет финансовым аналитикам и управляющим рискам принимать более обоснованные решения. Данная модель может стать стандартом для моделей, использующих многорежимные данные, и привнести новый знак в область моделирования финансового риска. ## Выводы EMDLOT успешно объединяет многорежимные данные, обеспечивает высокую точность в прогнозировании банкротств и обеспечивает прозрачность решений. Будущие исследования будут фокусироваться на дальнейшем оптимизации моделей и исследовании других финансовых областей, в которых могут быть применены подобные подходы.

Annotation:

In recent years, China's bond market has seen a surge in defaults amid regulatory reforms and macroeconomic volatility. Traditional machine learning models struggle to capture financial data's irregularity and temporal dependencies, while most deep learning models lack interpretability-critical for financial decision-making. To tackle these issues, we propose EMDLOT (Explainable Multimodal Deep Learning for Time-series), a novel framework for multi-class bond default prediction. EMDLOT integrate...

ID: 2509.10802v1 q-fin.RM, cs.CL, cs.LG, q-fin.CP

arXiv PDF

1
2
37
38
39
40
41
57
58

Показано 381 - 390 из 573 записей