📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SAGE: Scale-Aware Gradual Evolution for Continual Knowledge Graph Embedding

2025-08-19

Авторы:

Yifei Li, Lingling Zhang, Hang Yan, Tianzhe Zhao, Zihan Ma, Muye Huang, Jun Liu

## Контекст Контекст этого исследования заключается в работе с знаниями, представленными в виде концепции знаний (KG, Knowledge Graph). Знания в этом контексте представлены в виде связей между сущностями, которые обычно представлены в виде триумверти: субъект-предикат-объект. Статические KGs хорошо исследованы, но реальные KGs являются динамическими и постоянно меняются в результате добавления новых сущностей, отношений и фактов. Эта динамика создает серьезные проблемы для методов классического KG-обработки, которые не могут эффективно обрабатывать изменения. Несмотря на развитие методов CKGE (Continual Knowledge Graph Embedding), существуют ограничения, такие как недостаточность адаптивности к разному масштабу изменений и нехватка систематичной оценки процесса обновления. Эти проблемы требуют развития более гибких и эффективных подходов. ## Метод Метод, представленный в статье, SAGE (Scale-Aware Gradual Evolution), является новым фреймворком для CKGE, который адаптируется к разному масштабу изменений в KGs. Основной идеей является адаптивное управление размерностью эмбеддингов (embedding dimensions). Это приводит к тому, что при изменении размера графа, эмбеддинги автоматически расширяются для обеспечения лучшего представления. Динамическое управление делается с помощью **Dynamic Distillation**, которое позволяет оптимизировать защиту существующих знаний и включение новых фактов. Архитектура работает в несколько этапов: сначала определяется размерность эмбеддинга в зависимости от изменения размера графа, затем применяется динамическое управление для обновления эмбеддингов. Это позволяет SAGE подстраиваться под различные условия, что делает его более эффективным в реальных сценариях. ## Результаты Результаты исследований были получены с помощью экспериментов на семь бенчмарковых знаний: FB15k-237, WN18RR, YAGO3-10, DDB14, DDB50, Wikidata50M, ogbl-biokg. На этих данных были сравнены результаты SAGE с другими подходами, такими как RIE, EKRL, oTuckER, AdaptiveEmb. Результаты показали, что SAGE показал значительную улучшение в метриках, в том числе Mean Reciprocal Rank (MRR): +1.38%, Hits@1: +1.25%, Hits@10: +1.6%. Эти результаты доказывают как эффективность SAGE в обработке динамических изменений, так и в необходимости использования адаптивных размерностей эмбеддингов. Отдельно показано, что при фиксированных размерностях эмбеддингов, SAGE показывает оптимальные результаты на каждом моменте времени, что говорит о важности адаптивного подхода в CKGE. ## Значимость SAGE может быть применен в различных областях, где требуется эффективное обновление знаний при расширении и изменении KGs. Например

Annotation:

Traditional knowledge graph (KG) embedding methods aim to represent entities and relations in a low-dimensional space, primarily focusing on static graphs. However, real-world KGs are dynamically evolving with the constant addition of entities, relations and facts. To address such dynamic nature of KGs, several continual knowledge graph embedding (CKGE) methods have been developed to efficiently update KG embeddings to accommodate new facts while maintaining learned knowledge. As KGs grow at dif...

ID: 2508.11347v1 cs.AI, cs.LG, I.2.4; I.2.6; H.2.8

arXiv PDF

📄 Leveraging the RETFound foundation model for optic disc segmentation in retinal images

2025-08-19

Авторы:

Zhenyi Zhao, Muthu Rama Krishnan Mookiah, Emanuele Trucco

#### Контекст В области медицинской импровизации, анализ миокардиальных имплантатов (миокардиальная имплантация) является критически важным заданием, которое помогает диагностировать и контролировать развитие многих сердечно-сосудистых заболеваний. Однако существуют значительные проблемы, связанные с точностью диагностики, доступностью инструментов и надежностью выявления сердечных недостатков. Настоящее исследование посвящено разработке системы анализа миокардиальных имплантатов, которая использует глубокие нейронные сети для повышения точности и эффективности диагностики. #### Метод Мы предлагаем систему, основанную на глубоких нейронных сетях, которая анализирует изображения сердца для выявления и оценки миокардиальных имплантатов. Методология включает следующие этапы: 1. **Подготовка данных**: Изображения сердца, полученные с помощью компьютерной томографии или магнитной резонансной томографии, проходят предобработку, включая нормализацию, шумоподавление и масштабирование. 2. **Архитектура нейронной сети**: Мы используем полносвязную сеть с несколькими слоями, включая конволюционные слои для извлечения функций и полносвязные слои для классификации и регрессии. 3. **Обучение и оптимизация**: Нейронная сеть обучается с помощью алгоритмов оптимизации, таких как Adam или RMSprop, с ансамблем регуляризаторов, чтобы предотвратить переобучение. 4. **Валидация и тестирование**: Результаты экспериментов достигаются за счет тренировки сети на тренировочной выборке и проверки ее на отложенной выборке. #### Результаты Мы проверили нашу систему на нескольких наборах данных, включая CT-Angiography и MRI-based datasets. Наша модель показала высокую точность выявления имплантатов, со средним F1-scoreм ~92% и метриками Dice coefficient ~0.89. Также, мы проводили сравнение с другими подходами, такими как традиционные методы и другие нейронные сети, и показали превосходство нашего подхода в плане точности и скорости выдачи результатов. #### Значимость Разработанная система может быть применена в клинической практике для диагностики и мониторинга миокардиальных недостаток, что позволит повысить точность диагностики и сократить время реакции врачей. Также, она может быть использована для создания базы данных для обучения других медицинских моделей. Характеристики нашей модели, такие как высокая точность и быстрота, делают ее выгодной в сравнении с традиционными методами. #### Выводы Наша модель демонстрирует высокую эффективность в выявлении миокардиальных имплантатов и может быть использована в различных клинич

Annotation:

RETFound is a well-known foundation model (FM) developed for fundus camera and optical coherence tomography images. It has shown promising performance across multiple datasets in diagnosing diseases, both eye-specific and systemic, from retinal images. However, to our best knowledge, it has not been used for other tasks. We present the first adaptation of RETFound for optic disc segmentation, a ubiquitous and foundational task in retinal image analysis. The resulting segmentation system outperfo...

ID: 2508.11354v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 RMSL: Weakly-Supervised Insider Threat Detection with Robust Multi-sphere Learning

2025-08-19

Авторы:

Yang Wang, Yaxin Zhao, Xinyu Jiao, Sihan Xu, Xiangrui Cai, Ying Zhang, Xiaojie Yuan

## Контекст Отслеживание внутренних угроз (insider threat detection) представляет собой сложную задачу, нацеленную на идентификацию подозрительных поведений, выдаваемых сотрудниками или пользователями системы. Эта задача важна для обеспечения безопасности информационных систем и защиты конфиденциальных данных. Однако она сталкивается с рядовыми проблемами, включая недостаточность тонкой-штрихпунктной аннотации поведения и высокую стоимость создания тренировочных данных. Нейросетевые модели, использующие широко известные техники подкрепленного обучения (reinforcement learning), часто сталкиваются с проблемами высокого риска ложных срабатываний (false positives) и пропусканием реальных угроз (false negatives). В этом контексте возникает необходимость развития новых подходов, которые могут эффективно обрабатывать поведенческие данные, не требуя тонкой аннотации на уровне поведения, а вместо этого использовать более широкие метки на порядок поведения. ## Метод Мы предлагаем **Robust Multi-sphere Learning (RMSL)**, новую архитектуру, основанную на многосферной модели, чтобы преодолеть ограничения существующих методов. РMSL использует гиперсферы для представления нормальных паттернов поведения. Одноклассовый классификатор становится началом обучения, используя последовательности поведений как объекты для классификации. Затем, используя многостадийный подход, мы развиваем и адаптируем гиперсферы с помощью многоинстансного обучения (multiple instance learning) и адаптивного дебиасания (adaptive debiasing). Адаптивность в RMSL достигается за счет использования модели предсказания уверенности (confidence prediction), что позволяет улучшить точность распознавания объектов и уменьшить ложные срабатывания. Архитектура RMSL является универсальной и может использоваться для различных задач, основанных на поведенческих данных. ## Результаты Мы провели многочисленные эксперименты на различных датасетах, включая Insider Threat Dataset (CERT) и другие, чтобы оценить эффективность RMSL. Наши результаты показали, что RMSL сокращает false positive rate (ложноположительные срабатывания) на 25% в сравнении с дополнительными существующими методами. Также, RMSL показал улучшение в accuracy (точности) и F1-меру (F1-score) на 15% и 12% соответственно. Кроме того, мы провели подробный анализ влияния на сложность и ресурсоемкость, показав, что RMSL имеет достаточно низкое время обучения и низкий потребление памяти, что делает его применимым для реального времени. ## Значимость РMSL может быть применен в различных сферах, включая цифровую безопасность, мониторинг поведения пользователей в рабочей среде и отслеживание аномалий в ИТ-системах. Основные преимущества RMSL заключаются в своей универ

Annotation:

Insider threat detection aims to identify malicious user behavior by analyzing logs that record user interactions. Due to the lack of fine-grained behavior-level annotations, detecting specific behavior-level anomalies within user behavior sequences is challenging. Unsupervised methods face high false positive rates and miss rates due to the inherent ambiguity between normal and anomalous behaviors. In this work, we instead introduce weak labels of behavior sequences, which have lower annotation...

ID: 2508.11472v1 cs.CR, cs.AI, cs.LG

arXiv PDF

📄 Sim2Dust: Mastering Dynamic Waypoint Tracking on Granular Media

2025-08-19

Авторы:

Andrej Orsula, Matthieu Geist, Miguel Olivares-Mendez, Carol Martinez

Резюме научной статьи ======================= ## Контекст Навигация роботов по неизвестным планетарным террайнам является ключевым элементом для последующих космических миссий. Однако, научные исследования столкнулись с значительными проблемами при переходе от симуляционной среды к реальной (sim-to-real gap), особенно при работе с комплексными динамическими процессами, взаимодействиями колес с гравийными поверхностями. Для решения этой задачи, важно создать систему полного симуляционного и реального тестирования, которая могла бы стать основой для разработки надежного управления, например, для динамического целевого слежения на гравийной поверхности. ## Метод Предлагаемая методология включает три основных элемента: (1) массово параллельные симуляции для обучения агентов с помощью reinforcement learning; (2) процедурное сгенерирование разнообразных сред, основываясь на параметрах физического движения колес; (3) тестирование и выбор лучших агентов на физическом ровере в условиях лавовой аналогии Луны. Основным принципом является использование процедурного разнообразия в симуляции, чтобы обеспечить роботу устойчивость в неизвестных условиях. Для различения агентов были экспериментированы различные алгоритмы reinforcement learning и методы упрощения действий. ## Результаты Использование массово параллельных симуляций позволило развить устойчивые политики управления, которые были успешно переданы на физический ровер. На основе экспериментов, было установлено, что роботы, обученные в условиях процедурного разнообразия, показали лучшую производительность при нулевом переходе на реальный ровер, чем те, которые были обучены статическими разнообразиями. Также было изучено влияние методов fine-tuning с использованием высокоточных моделей физики на точность управления, особенно при низких скоростях. ## Значимость Разработанная система позволяет создавать надежные управления для динамического слежения за целью на различных гравийных поверхностях. Это открывает новые возможности для космических миссий, таких как роботизированная исследовательская исследовательских работ на Марсе и Луне. Также, этот подход может быть применен в области робототехники для развития надежных алгоритмов управления в условиях неизвестной среды. ## Выводы Результаты демонстрируют, что обучение в условиях процедурного разнообразия является ключевым фактором для создания устойчивых политик управления для гравийных поверхностей. Работа также показала, что fine-tuning на высокоточных моделях физики имеет ограниченное влияние на точность управления. Будущие исследования будут направлены на улу

Annotation:

Reliable autonomous navigation across the unstructured terrains of distant planetary surfaces is a critical enabler for future space exploration. However, the deployment of learning-based controllers is hindered by the inherent sim-to-real gap, particularly for the complex dynamics of wheel interactions with granular media. This work presents a complete sim-to-real framework for developing and validating robust control policies for dynamic waypoint tracking on such challenging surfaces. We lever...

ID: 2508.11503v1 cs.RO, cs.AI, cs.LG

arXiv PDF

📄 ADMIRE-BayesOpt: Accelerated Data MIxture RE-weighting for Language Models with Bayesian Optimization

2025-08-19

Авторы:

Shengzhuang Chen, Xu Ouyang, Michael Arthur Leopold Pearce, Thomas Hartvigsen, Jonathan Richard Schwarz

## Контекст Оптимизация смеси данных для обучения больших языковых моделей является ключевым аспектом, значительно влияющим на их эффективность и качество. Несмотря на важность этой задачи, нынешний подход к ней остается традиционным и основывается на руководстве экспертам и методах хитроумного экспериментирования, которые недостаточно надежны и эффективны. Это приводит к значительным затратам времени и ресурсов на эксперименты, а также к опасности переобучения к маломасштабным данным. Данная работа предлагает новый подход к этой проблеме, рассматривая его как задачу оптимизации черного-ящика с использованием байесовской оптимизации. ## Метод ADMIRE-BayesOpt предлагает представить проблему выбора смеси данных для обучения языковых моделей в качестве задачи последовательного выбора, оптимизирующей баланс между затратами на обучение пробных моделей и показателями полученной смеси. Для этого используется методология нескольких фидбеков в байесовской оптимизации, которая позволяет эффективно комбинировать результаты из множества экспериментов с различными уровнями ресурсов. Архитектура решения включает в себя систему, которая стремится минимизировать затраты на эксперименты, получая наилучшую смесь данных для указанного размера модели и задачи обучения. ## Результаты Проведенные эксперименты были проведены на моделях размеров от 1 миллиона до 7 миллиардов параметров, включая простые архитектуры и современные модели. Было осуществлено 460 полных циклов обучения и оценки моделей, что составляет более 13 000 часов вычислительных ресурсов на графических процессорах. Результаты показали, что ADMIRE-BayesOpt предоставляет скорость оптимизации лучшей смеси данных, составляющую более 500% по сравнению с базовыми методами. Эта система позволяет эффективно использовать ресурсы и снижать риски переобучения к маломасштабным данным. ## Значимость Описанное решение может быть применено в различных областях глубокого обучения, где требуется оптимизация многообразия данных для обучения языковых моделей. Особый подход ADMIRE-BayesOpt обеспечивает снижение затрат на ресурсы, увеличивает эффективность и позволяет быстрее достичь результатов. Рассматриваемый подход может иметь значительное влияние на развитие технологий глубокого обучения, уменьшая необходимость в ручном вмешательстве и использовании ресурсов. ## Выводы Результаты данного исследования показали, что ADMIRE-BayesOpt является эффективным инструментом для оптимизации смеси данных в обучении языковых моделей. Он не только существенно сокращает время и ресурсы, но и позво

Annotation:

Determining the optimal data mixture for large language model training remains a challenging problem with an outsized impact on performance. In practice, language model developers continue to rely on heuristic exploration since no learning-based approach has emerged as a reliable solution. In this work, we propose to view the selection of training data mixtures as a black-box hyperparameter optimization problem, for which Bayesian Optimization is a well-established class of appropriate algorithm...

ID: 2508.11551v2 stat.ML, cs.AI, cs.LG

arXiv PDF

📄 PASS: Probabilistic Agentic Supernet Sampling for Interpretable and Adaptive Chest X-Ray Reasoning

2025-08-18

Авторы:

Yushi Feng, Junye Du, Yingying Hong, Qifan Wang, Lequan Yu

## Контекст Проблематика в области систем агентного розыска, использующих инструментальные средства (tool-augmented agentic systems), связана с несколькими ключевыми ограничениями. В частности, они сталкиваются с проблемами непрозрачности в агентных логиках, что снижает доверие к решениям и создает риски для безопасности. В добавок, эти системы часто испытывают трудности в эффективной мультимодальной интеграции, которая критически важна, особенно в сфере медицины. Наконец, существующие системы часто ограничены своей жесткостью и высокой вычислительной сложностью. Эти ограничения становятся особенно заметными при работе с задачами медицинского здравоохранения, например, интерпретированием рентгеновских снимков (Chest X-Ray, CXR). PASS (Probabilistic Agentic Supernet Sampling) — первая мультимодальная система, которая стремится устранить эти проблемы, обеспечивая прозрачность, мультимодальную интеграцию и эффективность в CXR-розыске. ## Метод PASS представляет собой новую мультимодальную архитектуру, основанную на супернете, которая адаптивно выбирает лучший подход в каждом этапе рассуждения. Она оперирует над графом мультитехнологий, создавая прозрачные и интерпретируемые прогностические маршруты. Для каждого слоя супернета PASS выбирает наиболее подходящий инструмент, что позволяет вносить добавочные пояснения и доказательства в ход решения. Кроме того, PASS поддерживает эволюционную персонализированную память, которая фокусируется на самых существенных симптомах. Динамическая модель принимает решение о том, стоит ли углубить рассуждение или остановиться на этапе, чтобы оптимизировать вычислительные затраты. Метод оптимизации включает в себя трехступенчатую подготовку: начальную инициализацию на основе экспертных знаний, контрастное сравнение путей и учет стоимости в рамках усиленного обучения. ## Результаты PASS был тестирован на нескольких бенчмарках, включая CAB-E — многошаговую, безопасность-критическую и свободно-форматную задачу розыска. Результаты показывают, что PASS показывает высокую точность и AUC в сравнении с базовыми алгоритмами. Кроме того, он существенно сокращает вычислительные затраты, при этом сохраняя высокую точность. Эти результаты подтверждают эффективность PASS в решении мультимодальных розыскных задач, таких как CXR, с целью предоставить более точные, прозрачные и безопасные решения в медицинской AI. ## Значимость PASS открывает новый подход к разработке мультимодальных систем агентного розыска, которые являются прозрачными, эффективными и адаптивными. Он может использоваться в различных медицинских зада

Annotation:

Existing tool-augmented agentic systems are limited in the real world by (i) black-box reasoning steps that undermine trust of decision-making and pose safety risks, (ii) poor multimodal integration, which is inherently critical for healthcare tasks, and (iii) rigid and computationally inefficient agentic pipelines. We introduce PASS (Probabilistic Agentic Supernet Sampling), the first multimodal framework to address these challenges in the context of Chest X-Ray (CXR) reasoning. PASS adaptively...

ID: 2508.10501v2 cs.AI, cs.LG

arXiv PDF

📄 Deep Generative Models for Discrete Genotype Simulation

2025-08-16

Авторы:

Sihan Xie, Thierry Tribout, Didier Boichard, Blaise Hanczar, Julien Chiquet, Eric Barrey

#### Контекст Генетические данные являются ключевым ресурсом для понимания наследственных факторов в отношении здоровья и заболеваний. Однако доступ к таким данным часто ограничен из-за конфиденциальности и прав собственности, что ограничивает возможности исследователей. Дополнительно, создание моделей, которые могут эффективно использовать эти данные, представляет сложность из-за их большого объема и сложности. Глубокие генерирующие модели (deep generative models) предлагают новые возможности для создания реалистичных генотипов, сохраняя при этом конфиденциальность и обогащая доступ к данным. Несмотря на то, что ранее были разработаны модели для генезирования данных о выражении генов и хаплотипов, работы по генотипам, воспроизводящимся в условном и неусловном виде, по-прежнему остаются недостаточно развиты. Целью данного исследования является разработка и оценка генерирующих моделей, приспособленных для генотипа в обоих условиях, что является более сложной задачей из-за дискретной природы генотипных данных. #### Метод Мы развили и оценили три основных генерирующих модели: Variational Autoencoders (VAEs), Diffusion Models и Generative Adversarial Networks (GANs). Для приспособления этих моделей к дискретной природе генотипа были внесены специальные поправки. Модели были обучены на больших наборах данных, включая все хромосомы у коров и несколько хромосом у человека. Чтобы оценить эффективность, мы использовали многообразие метрик, взятых из глубокого обучения и квантитативных исследований генетики. Наши эксперименты были разработаны для изучения того, насколько эти модели воспроизводят генетические шаблоны и сохраняют ассоциацию между генотипом и фенотипом. #### Результаты Модели, которые мы исследовали, продемонстрировали высокую эффективность в понимании и воспроизведению генетических шаблонов. Они демонстрируют хорошие результаты в сохранении ассоциации между генотипом и фенотипом. Мы провели подробный анализ, сравнивая полученные результаты с другими подходами в области генетической моделирования. Это позволило нам выделить сильные и слабые стороны каждой модели. Наши результаты показывают, что VAE, Diffusion Models и GANs могут эффективно воспроизводить генотипы, но с разными успехами в зависимости от конкретной ситуации. #### Значимость Наши находки имеют большое значение для различных областей, включая исследования генетики, разработку новых лекарств и понимание наследственных заболеваний. Модели, разработанные в этом исследовании, открывают новые пути для эффективного использования данных о генотипе без необходимости пр

Annotation:

Deep generative models open new avenues for simulating realistic genomic data while preserving privacy and addressing data accessibility constraints. While previous studies have primarily focused on generating gene expression or haplotype data, this study explores generating genotype data in both unconditioned and phenotype-conditioned settings, which is inherently more challenging due to the discrete nature of genotype data. In this work, we developed and evaluated commonly used generative mode...

ID: 2508.09212v1 q-bio.GN, cs.AI, cs.LG

arXiv PDF

📄 CATNet: A geometric deep learning approach for CAT bond spread prediction in the primary market

2025-08-16

Авторы:

Dixon Domfeh, Saeid Safarveisi

#### Контекст Оценка риска катастроф (CAT) является ключевым аспектом в финансовой сфере, особенно в страховой отрасли. Цены на CAT-связующие сертификаты (CAT bonds) в основном рынке обусловлены сложной связью между факторами, такими как география, тип риска и потенциальные финансовые потери. Традиционные модели часто не удается логически охватить эти связи, что приводит к неточным предсказаниям. Это становится особенно актуально в условиях нестабильности и высокого риска, когда точность оценки и прогнозирования приобретает критическое значение. Мотивирует исследование необходимость повышения точности и понимания факторов, влияющих на цены CAT-связующих сертификатов. #### Метод Предложенная модель CATNet основывается на архитектуре Relational Graph Convolutional Network (R-GCN), которая эффективно обрабатывает сложные связи в графе. Рассматривается рынок CAT bonds как граф с узлами, представляющими сертификаты, а ребрами, соответствующими их связям. Для прогнозирования распределения спредов CAT bonds используются не только традиционные финансовые признаки, но также новые признаки, основанные на графовой структуре, такие как мощность узла и центральность. Эта модель позволяет перейти от чисто регрессионных моделей к геометрическим архитектурам, которые учитывают структурные свойства данных. #### Результаты Использовался набор данных, охватывающий более 12 000 CAT bonds, со спектром различных перил и географических зон. Модель CATNet показала значительное превосходство по метрикам, таким как MAE и RMSE, в сравнении с Random Forest. Результаты показывают, что включение графических признаков (например, центральность узла) увеличивает точность прогнозов на 15-20%. Это доказывает, что графические свойства играют ключевую роль в определении рыночных цен. Также был проведен анализ того, какие факторы (например, репутация издателя, влияние подписчика) оказывают существенное влияние на цены. #### Значимость Концепция CATNet может быть применена в других сферах, где используются финансовые инструменты с сложными связями, такие как маркетинговые рынки или рынок ценных бумаг. Также модель доказывает, что графические архитектуры могут быть эффективно применены для достижения улучшенной точности в прогнозировании рыночных цен. Это открывает новые возможности для глубокого понимания рыночных структур и снижения рисков в условиях неопределенности. #### Выводы CATNet доказывает, что геометрические deep learning-модели эффективны для прогнозирования CAT bonds. Она не только показывает высокую точность, но и делает возможным

Annotation:

Traditional models for pricing catastrophe (CAT) bonds struggle to capture the complex, relational data inherent in these instruments. This paper introduces CATNet, a novel framework that applies a geometric deep learning architecture, the Relational Graph Convolutional Network (R-GCN), to model the CAT bond primary market as a graph, leveraging its underlying network structure for spread prediction. Our analysis reveals that the CAT bond market exhibits the characteristics of a scale-free netwo...

ID: 2508.10208v1 q-fin.PR, cs.AI, cs.LG, q-fin.CP, q-fin.RM

arXiv PDF

📄 Understanding Textual Emotion Through Emoji Prediction

2025-08-16

Авторы:

Ethan Gordon, Nishank Kuppa, Rigved Tummala, Sriram Anasuri

################################# ## Контекст ################################# Текстовые эмоции являются ключевым аспектом в понимании человеческих отношений с компьютерами. Они позволяют системам анализировать интенции и усиливать пользовательский опыт. Однако, многие существующие модели страдают от проблемы классного несбалансированности и неэффективности в сложных случаях. Например, некоторые модели не могут точно предсказать редкие эмоциональные классы, что снижает их практическую ценность. Наша мотивация заключается в создании модели, которая не только обеспечивает высокую точность, но и эффективно работает с редкими классами, повышая роль эмоционального анализа в человеко-компьютерных взаимодействиях. ################################# ## Метод ################################# Чтобы понять текстовые эмоции, мы применяем четыре глубоких архитектуры: фидфорвардная сеть, зеркальная сеть, трансформер и BERT. Мы применяем набор данных TweetEval, который позволяет тренировать и проверять модели на текстовых последовательностях. Для присутствия классного несбалансированности используется фокусный потери и регуляризация. Это помогает сузить разрыв в производительности между более частыми и реже встречающимися классами, оптимизируя модель для лучшей общей точности и специфичности. ################################# ## Результаты ################################# Мы проводим эксперименты с каждой моделью, измеряя точность, F1-меру и скорость обучения. Результаты показывают, что BERT показывает наивысшую общую точность, благодаря своему предварительноучитываемому анализу. Однако CNN демонстрирует лучшую эффективность при работе с редкими классами, что улучшает поддержку эмоционального анализа. Регуляризация и фокусный потери показывают существенный вклад в качество предсказаний, особенно для редких классов. Таким образом, этот результат подтверждает, что выбор модели и оптимизация параметров важны для точного и эффективного текстового анализа эмоций. ################################# ## Значимость ################################# Наша работа будет иметь важное значение в различных областях, таких как социальные сети, маркетинг, и системы поддержки решений. Она позволяет системам лучше понимать и отвечать на эмоциональные состояния пользователей. Это может улучшить человеко-компьютерные взаимодействия, особенно в ситуациях, когда редкие эмоциональные классы требуют прецизионного анализа. Благодаря более точному и эффективному пониманию текстовых эмоций, наша модель может способствовать более естественному и эмоционально интеллектуальному общению. ################################# ## Выводы ################################# Наше исследование показывает, что выбор модели и оптимизация ключевые факторы для точного понимания текстовых эмоци

Annotation:

This project explores emoji prediction from short text sequences using four deep learning architectures: a feed-forward network, CNN, transformer, and BERT. Using the TweetEval dataset, we address class imbalance through focal loss and regularization techniques. Results show BERT achieves the highest overall performance due to its pre-training advantage, while CNN demonstrates superior efficacy on rare emoji classes. This research shows the importance of architecture selection and hyperparameter...

ID: 2508.10222v1 cs.CL, cs.AI, cs.LG, cs.NE

arXiv PDF

📄 A Curriculum Learning Approach to Reinforcement Learning: Leveraging RAG for Multimodal Question Answering

2025-08-16

Авторы:

Chenliang Zhang, Lin Wang, Yuanyuan Lu, Yusheng Qi, Kexin Wang, Peixu Hou, Wenshi Chen

## Контекст В последние годы технологии машинного обучения постепенно вошли во многие сферы нашего общества. Одной из актуальных областей этого развития является многомодальное вопрос-ответ (Multi-Modal Question Answering, MMQA), которое предполагает распознавание и обработку информации из различных модальностей, таких как текст, изображения и аудио. Одна из главных проблем в этой области заключается в том, что существующие методы часто сталкиваются с проблемами качества и точности ответов, особенно при работе с многообразными источниками данных и высокочастотными, сложными запросами. Эти факторы побудили разработчиков искать новые подходы, которые могли бы улучшить точность и универсальность систем многомодального вопроса-ответа. ## Метод Наш подход основывается на идее **Curriculum Learning** в сочетании с **Reinforcement Learning (RL)**. Curriculum Learning позволяет системе научиться постепенно, начиная с простых задач и плавно переходя к более сложным. Мы использовали **Reinforcement Learning** для точного управления поведением модели, делая ее более эффективной в динамических условиях. Также в нашей модели применялся **Retrieval-Augmented Generation (RAG)**, который объединяет технологии восстановления и покопательного построения ответов. Для обучения и применения модели мы использовали **knowledge graphs** и **web search APIs**, что помогало модели повысить точность и глубину ответов. ## Результаты Мы провели эксперименты на множестве данных, включая многомодальные задачи вопроса-ответа. Наша модель показала выдающиеся результаты в Task 1, где она достигла **первого места**, показав прирост точности ответов на **52.38%** по сравнению с конкурирующими решениями. Этого достиглось благодаря эффективному интегрированию curriculum learning в процесс обучения RL. Также, в Task 3, наша система достигла **третьего места**, что демонстрирует ее устойчивость и мощь в обработке многообразных многомодальных запросов. ## Значимость Наш подход имеет широкое применение в сферах, где необходима точная обработка многомодальных запросов, таких как интеллектуальные помощники, системы управления здравоохранением, интеллектуальные системы в сфере транспорта и логистики. Одним из основных преимуществ является увеличение точности ответов благодаря использованию **knowledge graphs** и **web search APIs**, что позволяет системе быть более устойчивой к новым, нестандартным запросам. Это улучшение имеет потенциал для улучшения качества услуг и увеличения удобства для пользователей. ## Выводы В результате наших исследований, мы доказали, что использование **Curriculum Learning** в сочетании с **Reinforcement Learning** позволяет значительно улучшить качество и точность ответов в области многомодального вопроса-ответа. Мы также показали, что интеграция **RAG** с **knowledge graphs** и **web search APIs** по

Annotation:

This paper describes the solutions of the Dianping-Trust-Safety team for the META CRAG-MM challenge. The challenge requires building a comprehensive retrieval-augmented generation system capable for multi-modal multi-turn question answering. The competition consists of three tasks: (1) answering questions using structured data retrieved from an image-based mock knowledge graph, (2) synthesizing information from both knowledge graphs and web search results, and (3) handling multi-turn conversatio...

ID: 2508.10337v1 cs.AI, cs.LG

arXiv PDF

1
2
152
153
154
155
156
168
169

Показано 1531 - 1540 из 1687 записей