📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 A Visual Tool for Interactive Model Explanation using Sensitivity Analysis

2025-08-09

Авторы:

Manuela Schuler

**Резюме** В статье представлен SAInT, инструмент на базе Python для визуального анализа и объяснения поведения моделей машинного обучения (ML) с использованием методов чувствительности. Инструмент решает проблему недостаточного понимания моделей ML, обеспечивая интерактивный интерфейс для конфигурирования, обучения, оценки и объяснения моделей без необходимости программирования. SAInT поддерживает Human-in-the-Loop (HITL) рабочие процессы, позволяя исследователям и доменным экспертам взаимодействовать с моделями на глобальном и локальном уровнях. Глобальная атрибуция функций основана на методе чувствительности по дисперсии, а локальные объяснения предоставляются с помощью LIME и SHAP. На примере задачи классификации для прогнозирования выживаемости на Titanic демонстрируется, как SAInT может оптимизировать выбор функций и улучшить качество данных.

Annotation:

We present SAInT, a Python-based tool for visually exploring and understanding the behavior of Machine Learning (ML) models through integrated local and global sensitivity analysis. Our system supports Human-in-the-Loop (HITL) workflows by enabling users - both AI researchers and domain experts - to configure, train, evaluate, and explain models through an interactive graphical interface without programming. The tool automates model training and selection, provides global feature attribution usi...

ID: 2508.04269v1 cs.LG, cs.AI

arXiv PDF

📄 A Few Words Can Distort Graphs: Knowledge Poisoning Attacks on Graph-based Retrieval-Augmented Generation of Large Language Models

2025-08-09

Авторы:

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Graph-based Retrieval-Augmented Generation (GraphRAG) представляет собой передовой подход к улучшению функциональности крупных языковых моделей (Large Language Models, LLMs), который заключается в преобразовании неструктурированного текста в структурированные знанительные графы. Этот подход позволяет значительно повысить точность и интерпретируемость результатов, особенно в задачах, требующих глубокого понимания и вывода. Однако, несмотря на его преимущества, GraphRAG зависит от точности и целостности процесса извлечения знаний, который осуществляется с помощью LLMs. Этот этап уязвим к воздействию вредоносных акторов, которые могут искажать генерируемые графы, внедряя в них поддельную информацию. Существующие исследования показывают, что атаки на знанительные системы часто фокусируются на непосредственном изменении данных или моделей. Однако, в случае GraphRAG, даже небольшие изменения в исходном тексте могут привести к существенным искажениям в построенном графе, что может оказать значительное влияние на результаты вывода. Эта уязвимость вызывает серьёзные проблемы в отношении безопасности и надежности GraphRAG-систем, особенно в приложениях, где точность вывода имеет критическую важность. Мотивацией данного исследования является идентификация и исследование возможных векторов атак на GraphRAG, особенно таких, которые могут быть выполнены с минимальными изменениями в исходном тексте. Авторы предлагают два типа знанительных отравлений (Knowledge Poisoning Attacks, KPAs), которые демонстрируют, как небольшие, но целенаправленные изменения в тексте могут серьёзно повлиять на качество и точность вывода GraphRAG-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два типа знанительных отравлений: Targeted KPA (TKPA) и Universal KPA (UKPA). **Targeted KPA (TKPA)** основывается на графотеоретическом анализе для идентификации уязвимых узлов в графе. Эти узлы соответствуют ключевым частям текста, которые могут быть изменены для достижения конкретных целей, таких как искажение ответов на конкретные вопросы. Атака использует LLMs для редактирования этих узлов таким образом, чтобы изменения были незаметны для человека, но при этом имели значительное влияние на вывод системы. TKPA достигает высокой степени управляемости, с успешной манипуляцией ответами на вопросы в 93,1% случаев, при этом сохраняя естественность и флуэнтность текста. **Universal KPA (UKPA)**, напротив, нацелен на глобальные изменения в графе, используя лингвистические особенности, такие как местоимения и зависимости в структуре текста. UKPA изменяет ключевые слова, которые влияют на целостность графа, приводя к серьёзным искажениям в выводе. Эта атака требует изменения менее 0,05% от общего объёма текста, но при этом приводит к снижению точности ответов с 95% до 50%. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности предложенных атак. Использовались различные наборы данных, включая тексты различной сложности и объёма. Результаты показали, что TKPA может точно контролировать вывод GraphRAG в отношении конкретных вопросов, с высокой степенью успешности. UKPA, с другой стороны, демонстрирует более широкое воздействие, серьёзно понижая общую точность системы. Кроме того, эксперименты показали, что современные методы защиты от атак не способны эффективно обнаруживать или предотвращать KPAs, что подчеркивает необходимость разработки новых подходов к безопасности GraphRAG-систем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты данного исследования имеют значительное практическое значение для областей, где GraphRAG используется для критически важных приложений, таких как медицинский диагноз, юридический анализ и финансовые прогнозы. Уязвимость GraphRAG к знанительным отравлениям подчеркивает необходимость в разработке более надёжных методов защиты и валидации генерируемых графов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что даже небольшие изменения в исходном тексте могут иметь серьёзное влияние на функциональность GraphRAG-систем. Это вызывает острую необходимость в разработке новых методов защиты и детектирования атак. Будущие исследования могут фокусироваться на разработке более продвинутых методов для обнаружения и предотвращения знанительных отравлений, а также на создании более устойчивых архитектур GraphRAG.

Annotation:

Graph-based Retrieval-Augmented Generation (GraphRAG) has recently emerged as a promising paradigm for enhancing large language models (LLMs) by converting raw text into structured knowledge graphs, improving both accuracy and explainability. However, GraphRAG relies on LLMs to extract knowledge from raw text during graph construction, and this process can be maliciously manipulated to implant misleading information. Targeting this attack surface, we propose two knowledge poisoning attacks (KPAs...

ID: 2508.04276v1 cs.CL, cs.AI

arXiv PDF

📄 Large Language Model's Multi-Capability Alignment in Biomedical Domain

2025-08-09

Авторы:

Wentao Wu, Linqing Chen, Hanmeng Zhong, Weilei Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта (ИИ) в сфере биомедицинских приложений сталкивается с существенными вызовами, связанными с необходимостью обеспечить высокую точность, надежность и безопасность при решении многофункциональных задач. Традиционные модели ИИ, ориентированные на одну задачу, часто не могут эффективно объединять различные способности, такие как медицинское знание, логическое мышление и способность к выполнению инструкций. Это приводит к проблемам, включающим в себя несогласованность, потерю точности и риски неправильного применения в клинической практике. Одной из главных проблем является "вмешательство способностей" (capability interference), когда несколько функций модели конфликтуют друг с другом, приводя к ухудшению качества и нестабильности. Более того, безопасность и точность клинических решений требуют не только глубокого понимания медицинских знаний, но и соблюдения строгих клинических стандартов. Исследование, основанное на рамках BalancedBio, предлагает решение для этих проблем путем разработки комплексной методологии для многоспособности и безопасности в биомедицинском домене. Целью является создание эффективной, надежной и безопасной модели, способной обеспечить высокоточное медицинское мышление и применение в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД BalancedBio представляет собой параметрически-эффективную платформу, основанную на теоретически обоснованном подходе к решению проблемы многоспособного выравнивания в биомедицинском контексте. Основные компоненты методологии включают: 1. **Medical Knowledge Grounded Synthetic Generation (MKGSG)**: Этот подход расширяет метод Source2Synth путем внедрения клинических ограничений и валидации на основе медицинской онтологии. Это обеспечивает высокую точность и соответствие клиническим стандартам при генерации синтетических данных. 2. **Capability Aware Group Relative Policy Optimization (CAG-RPO)**: Этот метод оптимизирует гибридные награды для обеспечения сохранения ортогональности между способностями во время обучения с подкреплением (RL). Он использует модель наград, сочетающую правилами основанные и модельными оценками, адаптированные к биомедицинским задачам. Теоретический анализ доказывает, что такой подход обеспечивает Парето-оптимальное сходимость, сохраняя высокую производительность в различных способностях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на базе данных BIOMED-MMLU, охватывающей различные биомедицинские задачи. Модель BalancedBio достигла выдающихся результатов: - **Доменная экспертиза**: 80.95% (+15.32% по сравнению с базовой моделью). - **Логическое мышление**: 61.94% (+7.75%). - **Выполнение инструкций**: 67.95% (+6.44%). - **Интеграция способностей**: 86.7% (+18.5%). Кроме того, модель доказала свою эффективность в реальном мире, уменьшив затраты на 78%, повысив точность диагностики на 23% и обеспечив высокую доверительность клиницистов (89%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ BalancedBio имеет широкий спектр приложений в биомедицинской практике, включая диагностику, лечение и поддержку клинических решений. Его преимущества включают высокую точность, безопасность, экономическую эффективность и удобство использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ BalancedBio устанавливает новый стандарт для многоспособного выравнивания в биомедицинском ИИ. Будущие направления исследований могут включать расширение модели для обработки более широких клинических сценариев и интеграцию с другими доменными знаниями.

Annotation:

BalancedBio is a theoretically grounded framework for parameter-efficient biomedical reasoning, addressing multi-capability integration in domain-specific AI alignment. It establishes the Biomedical Multi-Capability Convergence Theorem, proving orthogonal gradient spaces are essential to prevent capability interference for safe deployment. Key innovations include: (1) Medical Knowledge Grounded Synthetic Generation (MKGSG), extending Source2Synth with clinical workflow constraints and medical on...

ID: 2508.04278v1 cs.AI

arXiv PDF

📄 Enhancing Vision-Language Model Training with Reinforcement Learning in Synthetic Worlds for Real-World Success

2025-08-09

Авторы:

George Bredis, Stanislav Dereka, Viacheslav Sinii, Ruslan Rakhimov, Daniil Gavrilov

## КОНТЕКСТ И ПРОБЛЕМАТИКА Контекст исследования заключается в развитии интерактивных мультимодальных агентов, которые могут эффективно использовать визуальные наблюдения для выполнения последовательности действий, условиями которых является языковой ввод. Такая задача представляет собой ключевой шаг к созданию систем, способных решать сложные задачи в реальном мире. Однако современные vision-language models (VLMs) ещё не обладают необходимыми способностями для эффективного выполнения таких задач в условиях динамических и непредсказуемых окружений. Прежние попытки применения reinforcement learning (RL) к VLMs сталкивались со значительными ограничениями. Многие методы требовали калибровки гиперпараметров, что делало их чувствительными к изменениям, или основывались на средах с высокой плотностью вознаграждений и низкой вариативностью состояний, что ограничивало их применимость в реальных ситуациях. Также, существующие подходы редко проверяли, насколько полученные модели могут обобщаться за пределами сред, в которых они были обучены. Это создавало значительный барьер для использования VLMs в реальных приложениях. Мотивацией исследования является разработка метода, который позволит обучать VLMs в простой и недорогой среде, но при этом обеспечит высокую способность к обобщению на реальных данных. Такой подход может стать важной вехой в развитии интеллектуальных систем, которые могут эффективно взаимодействовать с визуальной и языковой информацией в сложных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают Vision-Language Decoupled Actor-Critic (VL-DAC), новый легковесный алгоритм RL, предназначенный для обучения VLMs без необходимости гиперпараметрической настройки. Основной инновацией VL-DAC является декоуплирование обновлений для action tokens и value function. Алгоритм применяет Proximal Policy Optimization (PPO) на уровне action tokens, в то время как value function обучается только на уровне шагов в среде. Этот подход устраняет нестабильные весовые коэффициенты, которые характерны для традиционных RL-методов, и обеспечивает более быструю и надёжную сходимость. VL-DAC обучает VLMs последовательно в разных недорогих симуляторах, таких как MiniWorld, Gym-Cards, ALFWorld и WebShop. Это позволяет модели развивать универсальные стратегии, которые могут быть эффективно перенесены на реальные задачи. Архитектура VL-DAC проста в реализации и не требовательна к вычислительным ресурсам, что делает её пригодной для широкого круга приложений. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проводилось на нескольких бенчмарках, включая BALROG (для игрового контроля), VSI-Bench (для пространственного планирования) и VisualWebBench (для навигации в вебе). Результаты показали значительные улучшения: +50% относительного прироста на BALROG, +5% на самой сложной части VSI-Bench и +2% на VisualWebBench. Эти улучшения были достигнуты без ух peor данности общей точности распознавания изображений, что подтверждает эффективность VL-DAC в обеспечении обобщения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость VL-DAC заключается в его способности обучать VLMs в недорогих симуляторах, при этом обеспечивая высокую эффективность в реальных задачах. Это открывает новые возможности для применения VLMs в областях таких как агентский контроль, пространственное планирование и навигация в вебе. Метод также может быть использован в сферах, требующих высокого уровня взаимодействия между визуальными и языковыми компонентами, что делает его полезным для разработки интеллектуальных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Исследование демонстрирует, что VL-DAC является первым алгоритмом, способным обучать VLMs в простых симуляторах и показывающим значительные результаты на реальных задачах. Будущие исследования могут фокусироваться на дальнейшем улучшении эффективности алгоритма и расширении его применимости к более сложным задачам и средам.

Annotation:

Interactive multimodal agents must convert raw visual observations into coherent sequences of language-conditioned actions -- a capability that current vision-language models (VLMs) still lack. Earlier reinforcement-learning (RL) efforts could, in principle, endow VLMs with such skills, but they have seldom tested whether the learned behaviours generalize beyond their training simulators, and they depend either on brittle hyperparameter tuning or on dense-reward environments with low state varia...

ID: 2508.04280v1 cs.LG, cs.AI

arXiv PDF

📄 Synthetic POMDPs to Challenge Memory-Augmented RL: Memory Demand Structure Modeling

2025-08-09

Авторы:

Yongyi Wang, Lingfeng Li, Bozhou Chen, Ang Li, Hanyu Liu, Qirui Zheng, Xionghui Yang, Wenxin Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее времение исследования в области reinforcement learning (RL) стали активно развиваться, особенно в контексте memory-augmented RL алгоритмов. Эти алгоритмы предназначены для работы в средах, характеризующихся частичной наблюдаемостью (Partially Observable Markov Decision Processes, POMDPs), где агенты должны использовать информацию из прошлых наблюдений для принятия решений. Несмотря на то, что существующие бенчмарки предлагают сложные реальному миру задачи, они часто не позволяют точно контролировать уровень сложности для моделей памяти. Это ограничение существенно осложняет процесс детальной оценки и разработки эффективных методов для memory-augmented RL. Синтетические среды, напротив, предлагают большую гибкость и контроль над динамикой, что делает их крайне полезными для тщательного анализа и тестирования. Исследование синтетических POMDPs позволяет моделировать различные уровни сложности и изучать их влияние на производительность алгоритмов RL. В этой области, однако, не существует универсального метода для моделирования и анализа POMDPs с учетом потребностей memory-augmented RL. Необходимо разработать концептуальный и практический фреймворк для создания синтетических сред, которые будут отвечать натуральным требованиям и предоставлять подробные данные о требованиях к памяти. Целью данного исследования является разработка такого фреймворка, который будет позволять создавать POMDP среды с заранее определенными свойствами и сложностями. Это позволит лучше понять проблемы, связанные с использованием памяти в RL, и обеспечить более эффективный выбор и оптимизацию моделей памяти. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данном исследовании разработана комплексная методология для создания и анализа POMDP сред, основанная на концепции Memory Demand Structure (MDS). Эта методология включает в себя три основных этапа: 1. **Теоретический фреймворк:** Был разработан фреймворк для анализа POMDPs, который основывается на понятиях MDS, инвариантности переходов и других математических понятий. Этот фреймворк позволяет формализовать свойства сред и определять уровни сложности для memory-augmented RL. 2. **Методология построения сред:** Используя линейные динамические процессы, агрегацию состояний и перераспределение наград, была разработана методика для построения POMDP сред с конкретными характеристиками. Этот подход позволяет создавать среды с предварительно заданными сложностями и требованиями к памяти. 3. **Экспериментальная валидация:** Была разработана серия POMDP сред с постепенно увеличивающейся сложностью. Эти среды были экспериментально проверены на их способность представлять различные уровни задач для RL алгоритмов. Такая методология позволяет детально анализировать влияние различных факторов, таких как сложность динамики и требования к памяти, на производительность RL алгоритмов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного метода была проведена серия экспериментов. Использовались различные наборы данных, созданные на основе синтетических POMDP сред. Эти данные были специально сконструированы для того, чтобы представлять задачи с различными уровнями сложности. В ходе экспериментов была произведена оценка производительности различных memory-augmented RL алгоритмов в зависимости от сложности сред. Результаты показали, что сложность среды имеет значительное влияние на производительность алгоритмов. Было также показано, что предложенный метод позволяет точно контролировать уровень сложности, что делает его эффективным инструментом для анализа и оптимизации RL алгоритмов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкое применение в области разработки и оптимизации memory-augmented RL алгоритмов. Он может быть использован для создания более эффективных моделей памяти, которые будут лучше адаптированы к сложным задачам с частичной наблюваемостью. Кроме того, предложенный фреймворк может быть использован для разработки новых бенчмарков и сред для тестирования RL алгоритмов, что повысит качество их оценки и разработки. Потенциальное влияние этого исследования заключается в улучшении производительности RL алгоритмов в реальных приложениях, где частичная наблюдаемость играет ключевую роль. Это может быть применимо в таких областях, как робототехника, автономные транспортные системы и другие домены, требующие эффективного использования памяти для принятия решений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования был разработан комплексный фреймворк для моделирования и анализа POMDP сред, основанный на концепции Memory Demand Structure. Это позволяет создавать среды с контролируемой сложностью, что делает их идеальными для тестирования и оптимизации memory-augmented RL алгоритмов. В будущем, этот подход может быть расширен для создания еще более сложных и реалистичных сред, что позволит дальше продвинуть исследования в области RL. Кроме того, предложенный метод может быть использован для разработки новых методологий и алгоритмов, которые будут эффективнее использовать память для решения сложных задач в частично наблюдаемых средах.

Annotation:

Recent research has developed benchmarks for memory-augmented reinforcement learning (RL) algorithms, providing Partially Observable Markov Decision Process (POMDP) environments where agents depend on past observations to make decisions. While many benchmarks incorporate sufficiently complex real-world problems, they lack controllability over the degree of challenges posed to memory models. In contrast, synthetic environments enable fine-grained manipulation of dynamics, making them critical for...

ID: 2508.04282v1 cs.AI

arXiv PDF

📄 Challenges in Applying Variational Quantum Algorithms to Dynamic Satellite Network Routing

2025-08-09

Авторы:

Phuc Hao Do, Tran Duc Le

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные системы связи, включая динамические спутниковые сети, требуют эффективных решений для маршрутизации, чтобы обеспечить надежность и высокую производительность. Традиционные классические подходы к маршрутизации сталкиваются с значительными сложностями в условиях динамических и непредсказуемых сетей. Квантовые вычисления, особенно ближние к реализации (near-term) квантовые алгоритмы, представляют собой перспективное направление для решения таких задач. Однако их применение к динамической маршрутизации спутниковых сетей сопряжено с значительными техническими и концептуальными проблемами. Ключевая мотивация данного исследования заключается в оценке эффективности двух основных подходов квантовых вычислений: статические квантовые оптимизаторы, такие как Variational Quantum Eigensolver (VQE) и Quantum Approximate Optimization Algorithm (QAOA), а также Quantum Reinforcement Learning (QRL) для онлайн-решения задач. Несмотря на обещающие перспективы, эти методы сталкиваются с существенными трудностями в реальных условиях. Например, статические квантовые оптимизаторы не могут эффективно решать даже относительно простые классические задачи, такие как поиск кратчайшего пути в сети из 4 узлов, из-за высокой сложности оптимизационного пространства. Аналогично, QRL-методы, основанные на полисигматических методах, не способны эффективно адаптироваться к динамическим условиям сети, демонстрируя результаты, не превосходящие случайные решения. Данная работа стремится критически оценить эти подходы, выявить их основные недостатки и предоставить направления для будущих исследований. Значимость этого исследования заключается в том, что оно позволяет определить фундаментальные препятствия, связанные с баррен-плато (barren plateaus) и нестабильностью обучения, которые должны быть преодолены для реального применения квантовых алгоритмов в области коммуникационных сетей. ## ПРЕДЛОЖЕННЫЙ МЕТОД В рамках исследования рассмотрены два ключевых подхода квантовых алгоритмов: статические оптимизаторы и Quantum Reinforcement Learning. **Статические квантовые оптимизаторы**, такие как VQE и QAOA, предназначены для решения задач оптимизации в автономном режиме. Они работают путем кодирования задачи маршрутизации в квантовое пространство состояний и использования параметрических квантовых схем для поиска оптимальных решений. Однако эти алгоритмы требуют тщательной настройки и сталкиваются с проблемами, такими как высокая сложность оптимизации и неэффективность в решении даже простых классических задач, таких как кратчайший путь в сети из 4 узлов. **Quantum Reinforcement Learning (QRL)** предлагает динамический подход к задаче маршрутизации, где квантовый агент обучается принимать решения в реальном времени на основе полисигматических методов. Агент интерактивно взаимодействует с сетевой средой, настраивая свою стратегию по мере получения обратной связи. Однако, как показано в исследовании, базовый QRL-агент не способен эффективно обучаться в среде из 8 узлов, демонстрируя результаты, соответствующие случайным решениям. Оба подхода испытывают серьезные трудности, связанные с баррен-плато (barren plateaus) — феноменом, при котором градиенты теряются в пространстве параметров, что делает обучение квантовых моделей неэффективным. Эти проблемы выделяют необходимость разработки новых методов для улучшения стабильности и эффективности квантовых алгоритмов. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В исследовании проведены эксперименты на идеальных, безшумных симуляциях для оценки эффективности квантовых алгоритмов. Для статических квантовых оптимизаторов, таких как VQE и QAOA, была использована модель задачи кратчайшего пути в сети из 4 узлов. Результаты показали, что эти алгоритмы не могут найти оптимальное решение из-за высокой сложности оптимизационного пространства и нестабильности градиентов. Для QRL-методов была моделирована динамическая сеть из 8 узлов. Однако QRL-агент, основанный на полисигматических методах, не смог эффективно обучиться, показывая результаты, не превосходящие случайных действий. Эти результаты подтверждают, что существующие квантовые алгоритмы не готовы к решению практических задач маршрутизации в динамических сетях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Несмотря на отрицательные результаты, это исследование имеет важные практические последствия. Оно выявляет ключевые проблемы, связанные с баррен-плато и нестабильностью обучения, которые должны быть решены для реального применения квантовых алгоритмов в области связи. Будущие исследования могут сосредоточиться на разработке новых стратегий для преодоления этих препятствий, что может открыть путь к эффективному применению квантовых вычислений в динамических сетях. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что существующие квантовые алгоритмы сталкиваются с значительными проблемами при применении к задачам динамической маршрутизации. Баррен-плато и нестабильность обучения являются ключевыми факторами, ограничивающими эффективность этих методов. Будущие исследования должны сосредоточиться на разработке новых подходов для улучшения стабильности и эффективности квантовых алгоритмов, чтобы они могли быть использованы в реальных коммуникационных сетях.

Annotation:

Applying near-term variational quantum algorithms to the problem of dynamic satellite network routing represents a promising direction for quantum computing. In this work, we provide a critical evaluation of two major approaches: static quantum optimizers such as the Variational Quantum Eigensolver (VQE) and the Quantum Approximate Optimization Algorithm (QAOA) for offline route computation, and Quantum Reinforcement Learning (QRL) methods for online decision-making. Using ideal, noise-free simu...

ID: 2508.04288v1 quant-ph, cs.AI, cs.SY, eess.SY

arXiv PDF

📄 Comparative Analysis of Novel NIRMAL Optimizer Against Adam and SGD with Momentum

2025-08-09

Авторы:

Nirmal Gaud, Surej Mouli, Preeti Katiyar, Vaduguru Venkata Ramya

Данная статья предлагает NIRMAL (Novel Integrated Robust Multi-Adaptation Learning) — новую методику оптимизации, которая объединяет стратегии градиентного спуска, момента, стохастической погрешности, адаптивных обучений и нелинейных преобразований. Разработанный подход был протестирован на бенчмарковых датасетах MNIST, FashionMNIST, CIFAR-10 и CIFAR-100 с использованием пользовательской архитектуры CNN. Результаты показали, что NIRMAL демонстрирует высокую эффективность, особенно на сложных датасетах, таких как CIFAR-100, где достиг тестовой точности 45,32% и F1-score 0,4328. Это приемлемо превышает результаты Adam (41,79% точность, 0,3964 F1-score) и примерно соответствует SGD с моментом (46,97% точность, 0,4531 F1-score). Также NIRMAL проявил сильные тренды устойчивости при обучении и хорошую общей способность. Эти результаты подтверждают значительную потенциальную эффективность NIRMAL для решения задач в области глубокого обучения.

Annotation:

This study proposes NIRMAL (Novel Integrated Robust Multi-Adaptation Learning), a novel optimization algorithm that combines multiple strategies inspired by the movements of the chess piece. These strategies include gradient descent, momentum, stochastic perturbations, adaptive learning rates, and non-linear transformations. We carefully evaluated NIRMAL against two widely used and successful optimizers, Adam and SGD with Momentum, on four benchmark image classification datasets: MNIST, FashionM...

ID: 2508.04293v1 cs.IR, cs.AI

arXiv PDF

📄 Compressing Large Language Models with PCA Without Performance Loss

2025-08-09

Авторы:

Magnus Bengtsson

Огромные языковые модели, хотя и эффективны, требуют больших ресурсов для обучения и работы, что ограничивает их применение в устройствах с ограниченными мощностями и высокими требованиями к производительности. В статье "Compressing Large Language Models with PCA Without Performance Loss" авторы рассматривают метод сжатия моделей с помощью главных компонент анализа (PCA), позволяющий сократить модели без ущерба для их качества. Авторы демонстрируют результаты этого подхода на разных задачах, включая задачу классификации MNIST, обучение трансформера на данных 20 Newsgroups и генерацию токенов с помощью transformer-декодера. Они доказывают, что PCA-сжатие позволяет сократить модели до 17% от оригинального размера, при этом сохраняя высокую точность и гранулярность. Этот подход предлагается как эффективный способ уменьшить требования ресурсов для языковых моделей без потери качества.

Annotation:

We demonstrate that Principal Component Analysis (PCA), when applied in a structured manner, either to polar-transformed images or segment-wise to token sequences, enables extreme compression of neural models without sacrificing performance. Across three case studies, we show that a one-layer classifier trained on PCA-compressed polar MNIST achieves over 98 percent accuracy using only 840 parameters. A two-layer transformer trained on 70-dimensional PCA-reduced MiniLM embeddings reaches 76.62 pe...

ID: 2508.04307v1 cs.CE, cs.AI

arXiv PDF

📄 Beyond the Leaderboard: Rethinking Medical Benchmarks for Large Language Models

2025-08-09

Авторы:

Zizhan Ma, Wenxuan Wang, Guo Yu, Yiu-Fai Cheung, Meidan Ding, Jie Liu, Wenting Chen, Linlin Shen

**Резюме** Появление больших языковых моделей (LLMs) в области медицины открыло новые возможности, но остается спорным из-за недостатка надежности оценочных бенчмарков. Большинство таких бенчмарков либо недостаточно приближены к реальной клинической практике, либо страдают от проблем с данными, такими как попадание контролируемых случаев в обучающие выборки. Для устранения этих проблем авторы предлагают MedCheck — первую разработку, ориентированную на жизненный цикл бенчмарков, с целью глубокого анализа их качества. MedCheck включает 46 критериев, разделенных на 5 этапов жизненного цикла бенчмарков, начиная от разработки и заканчивая государственным управлением. Исследователи применяют MedCheck к 53 LLM-бенчмаркам, выявляя серьезные проблемы, включая отсутствие связи с клинической практикой, риски данных из-за негативного воздействия и недостаток оценки стойкости моделей и их понимания неопределенности. Результаты показывают, что MedCheck может стать мощным инструментом для оценки и улучшения бенчмарков, способствуя более надежной и транспаренной оценке AI в медицине.

Annotation:

Large language models (LLMs) show significant potential in healthcare, prompting numerous benchmarks to evaluate their capabilities. However, concerns persist regarding the reliability of these benchmarks, which often lack clinical fidelity, robust data management, and safety-oriented evaluation metrics. To address these shortcomings, we introduce MedCheck, the first lifecycle-oriented assessment framework specifically designed for medical benchmarks. Our framework deconstructs a benchmark's dev...

ID: 2508.04325v1 cs.CL, cs.AI, cs.CV, cs.LG, cs.MM

arXiv PDF

📄 Modelling and Classifying the Components of a Literature Review

2025-08-09

Авторы:

Francisco Bolaños, Angelo Salatino, Francesco Osborne, Enrico Motta

## КОНТЕКСТ И ПРОБЛЕМАТИКА Анализ научной литературы является ключевой задачей в научных исследованиях, поскольку позволяет выявить тенденции, проблемы и направления развития в различных областях знания. Однако, несмотря на широкий выбор методов и инструментов для анализа научных текстов, существуют значительные трудности в автоматизации процесса создания и классификации литературных обзоров. Одним из ключевых факторов, ограничивающих эффективность таких систем, является отсутствие точных и стандартизированных методов для аннотации текстов по ретוריческим ролям, таким как исследования, результаты, ограничения и расширения существующих методологий. В последние годы применение искусственного интеллекта (ИИ) в анализе научной литературы стало все более популярным, однако достижение высокого качества в автоматическом классификации текстовых фрагментов по-прежнему представляет собой сложную задачу. Многие существующие модели искусственного интеллекта (в том числе большие языковые модели, Large Language Models, LLMs) успешно применяются для решения различных задач, но их эффективность в классификации ретוריческих ролей в научных текстах остается недостаточно изученной. Данная статья предлагает решение этих проблем путем разработки новой аннотационной схемы, специально предназначенной для поддержки генерации литературных обзоров, и проведения комплексной оценки различных LLMs на задаче классификации ретוריческих ролей. Разработанная схема аннотации имеет потенциал для создания систем, способных генерировать высококачественные обзоры научной литературы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы статьи предлагают новую аннотационную схему, ориентированную на классификацию текстовых фрагментов по ретוריческим ролям, таким как "исследования", "результаты", "ограничения" и "расширения методологии". Эта схема разработана специально для поддержки процесса генерации литературных обзоров и включает в себя несколько ключевых элементов. Во-первых, авторы представляют Sci-Sentence, новый многодисциплинарный бенчмарк, который состоит из 700 фрагментов текста, аннотированных вручную экспертами, и 2240 фрагментов, аннотированных с помощью LLMs. Данный бенчмарк представляет собой важный инструмент для оценки эффективности моделей на задаче классификации ретוריческих ролей. Во-вторых, авторы оценивают 37 различных LLMs, представляющих собой разнообразные модели, включая как закрытые (проприетарные) модели, такие как GPT-4o, так и открытые модели. Оценка проводится в рамках двух подходов: zero-shot learning (обучение без дополнительных данных) и fine-tuning (дообучение модели на специально подготовленных данных). Третья часть методологии заключается в использовании семи-синтетических данных, сгенерированных LLMs, для дообучения моделей. Это позволяет улучшить качество классификации, особенно для малых моделей и открытых моделей, которые обычно имеют меньшие ресурсы по сравнению с закрытыми моделями. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках экспериментов были использованы 37 LLMs, включая модели различных размеров и семейств. Авторы провели оценку этих моделей на Sci-Sentence бенчмарке, используя zero-shot learning и fine-tuning. Результаты показали, что современные LLMs достигают высоких показателей точности (F1-меры выше 96%) при fine-tuning на высококачественных данных. Особенно высокие результаты показали закрытые модели, такие как GPT-4o, но некоторые легковесные открытые модели также показали отличные результаты. Кроме того, использование семи-синтетических данных, сгенерированных LLMs, показало свою эффективность в улучшении качества классификации. Это позволило малым моделям достичь более высоких результатов и значительно улучшило результаты нескольких открытых моделей с декодером. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанная аннотационная схема и Sci-Sentence бенчмарк имеют значительный потенциал для применения в области анализа научной литературы. Они могут быть использованы для создания систем, способных автоматически генерировать высококачественные литературные обзоры, что является важной задачей в научном сообществе. Преимущества метода включают в себя возможность использования открытых моделей с высоким качеством классификации, что делает метод более доступным для широкого круга исследователей. Кроме того, использование семи-синтетических данных может существенно повысить эффективность моделей, особенно для малых и открытых моделей, что позволяет расширить область их применения. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы были достигнуты значительные результаты в области классификации ретוריческих ролей в научной литературе. Авторы подтвердили высокую эффективность современных LLMs при fine-tuning на высококачественных данных и показали потенциал открытых моделей в этой области. Будущие исследования могут фокусироваться на дальнейшем улучшении аннотационной схемы и разработке более эффективных методов для генерации высококачественных синтетических данных. Кроме того, необходимо продолжать исследования в области открытых моделей, чтобы сделать их более доступными и эффективными для широкого круга пользователей.

Annotation:

Previous work has demonstrated that AI methods for analysing scientific literature benefit significantly from annotating sentences in papers according to their rhetorical roles, such as research gaps, results, limitations, extensions of existing methodologies, and others. Such representations also have the potential to support the development of a new generation of systems capable of producing high-quality literature reviews. However, achieving this goal requires the definition of a relevant ann...

ID: 2508.04337v1 cs.CL, cs.AI, cs.HC, cs.IR

arXiv PDF

1
2
3372
3373
3374
3375
3376
3402
3403

Показано 33731 - 33740 из 34022 записей