📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Fine-Tuning Small Language Models (SLMs) for Autonomous Web-based Geographical Information Systems (AWebGIS)

2025-08-09

Авторы:

Mahdi Nazari Ashani, Ali Asghar Alesheikh, Saba Kazemi, Kimya Kheirkhah, Yasin Mohammadi, Fatemeh Rezaie, Amir Mahdi Manafi, Hedieh Zarkesh

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современные веб-ориентированные географические информационные системы (WebGIS) стремятся к максимальной автоматизации и упрощению взаимодействия с пользователем. Традиционные интерфейсы WebGIS требуют от пользователя знания специализированных инструментов и терминологии, что существенно ограничивает доступность систем для широкой аудитории. В ответ на эту проблему развивается новое направление — автономные веб-ориентированные географические информационные системы (AWebGIS), способные выполнять геопространственные операции на основе естественно-языковых запросов. Основная проблема, стоящая перед разработчиками AWebGIS, заключается в необходимости обеспечить точное понимание и исполнение сложных пространственных запросов в условиях ограниченных вычислительных ресурсов. Большинство современных решений полагаются на облачные большие языковые модели (LLM), которые, несмотря на высокую точность, имеют ряд критических недостатков. Во-первых, они требуют постоянного подключения к интернету, что делает невозможным работу в офлайн-режиме. Во-вторых, централизованная обработка на серверах создает серьезные проблемы масштабируемости при увеличении числа пользователей. В-третьих, передача персональных данных и геолокационной информации в облако вызывает обоснованные опасения относительно конфиденциальности пользователей. Существующие offline-решения, основанные на классических алгоритмах машинного обучения, демонстрируют недостаточную точность интерпретации сложных пространственных запросов и не способны адаптироваться к новым типам задач без переобучения. Это создает технологический разрыв между потребностями пользователей в интуитивном и приватном взаимодействии с геоинформационными системами и возможностями существующих технологий. Необходимость разработки эффективного решения, способного работать локально без потери функциональности и точности, стала ключевым мотиватором проведенного исследования. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают революционный подход к созданию AWebGIS, основанный на использовании мелких языковых моделей (SLM), специально обученных для обработки геопространственных запросов в браузерной среде. В качестве базовой модели выбран T5-small — компактная версия архитектуры Text-to-Text Transfer Transformer, отличающаяся оптимальным соотношением между размером модели (60 миллионов параметров) и качеством обработки естественного языка. Процесс fine-tuning включал несколько этапов. На первом этапе был создан обширный датасет из 50 тысяч примеров естественно-языковых запросов и соответствующих им пространственных операций на языке SQL-геозапросов. Датасет охватывал разнообразные типы операций: фильтрацию по местоположению, расчет расстояний, определение пересечений, буферизацию, пространственные соединения и агрегацию данных. Каждый пример прошел ручную валидацию экспертами в области ГИС для исключения ошибок и неоднозначностей. На втором этапе модель была адаптирована под специфику геопространственного домена через технику instruction tuning. Добавлены специальные токены для обозначения типов геометрий (точка, линия, полигон), координатных систем и пространственных отношений. Архитектура модели была модифицирована для работы в браузерной среде через WebAssembly и TensorFlow.js. Для оптимизации производительности применены техники квантования (8-битное целочисленное представление весов) и последовательного выполнения операций для минимизации использования оперативной памяти. Третий этап включал интеграцию скриптов пред-обработки запросов для нормализации географических названий через локальный геокодер и обработку неоднозначностей в запросах. Модель также обучена генерировать не только SQL-запросы, но и метаданные о типе ожидаемого результата (карта, таблица, график), что позволяет системе автоматически выбирать оптимальный способ визуализации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности предложенного метода была разработана комплексная экспериментальная методология, включающая сравнение трех подходов к реализации AWebGIS. Первый подход представлял собой полностью автоматизированную онлайн-систему с использованием облачной LLM Cohere Command. Второй подход использовал офлайн-классификаторы на основе SVM и Random Forest для отображения естественно-языковых запросов в пространствен

Annotation:

Autonomous web-based geographical information systems (AWebGIS) aim to perform geospatial operations from natural language input, providing intuitive, intelligent, and hands-free interaction. However, most current solutions rely on cloud-based large language models (LLMs), which require continuous internet access and raise users' privacy and scalability issues due to centralized server processing. This study compares three approaches to enabling AWebGIS: (1) a fully-automated online method using...

ID: 2508.04846v1 cs.AI, cs.CL, cs.LG

arXiv PDF

📄 Large Language Models Reasoning Abilities Under Non-Ideal Conditions After RL-Fine-Tuning

2025-08-09

Авторы:

Chang Tian, Matthew B. Blaschko, Mingzhe Xing, Xiuxing Li, Yinliang Yue, Marie-Francine Moens

```markdown ## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы крупные модели языка (Large Language Models, LLMs) стали ключевым инструментом для решения задач, связанных с естественным языком, благодаря их впечатляющим способностям к логическому мышлению и генерации текста. Регулярное файн-тюнинг с помощью алгоритмов Reinforcement Learning (RL) стало важной техникой для улучшения таких способностей. Однако, несмотря на широкое применение RL-файн-тюнинга, большинство современных бенчмарков оценивают эти модели в идеализированных условиях, где входные данные четкие и без помех. Это создает значительную проблему, так как в реальных приложениях входные данные часто содержат шум, неполную информацию или контекстуальные ограничения. Авторы статьи выявили три типичных неидеальных сценария, которые имеют практическое значение: summary inference (вывод из кратких суммирований), fine-grained noise suppression (подавление тонких шумов), и contextual filtering (контекстуальная фильтрация). Они подчеркнули, что человеческое мышление остается надежным даже при несовершенных входных данных, в то время как LLMs, подвергаясь RL-файн-тюнингу, демонстрируют существенные недостатки в таких ситуациях. Это выявляет критические ограничения в их способности к логическому мышлению в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы предложили новое направление исследований, основанное на находках из науки о мозге. Они формально определили и оценили эти три сценария, используя методологию, основанную на RL-файн-тюнинге. Три LLMs и state-of-the-art large vision-language model (LVLM) были профайн-тюнированы с помощью policy-gradient алгоритма. Затем, эти модели были протестированы на восьми публичных датасетах, чтобы оценить их производительность в идеальных и неидеальных условиях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Результаты экспериментов показали, что RL-файн-тюнинг значительно улучшает базовую производительность LLMs в идеализированных условиях. Однако, когда модели были протестированы в неидеальных сценариях, их производительность резко снизилась. Это показало, что существующие методы RL-файн-тюнинга не справляются с проблемами, связанными с шумом и контекстуальными ограничениями. Хотя авторы предложили метод коррекции для каждого сценария, результаты показали, что эти методы не полностью устраняют недостатки в реальных условиях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Эта работа имеет значительное практическое значение, так как показывает, что способности LLMs к логическому мышлению часто преувеличиваются в исследованиях. Это подчеркивает важность тестирования моделей в реальных, неидеальных условиях. Результаты могут быть использованы для улучшения моделей в таких областях, как медицинская диагностика, автономные системы и другие, где надежность логического мышления критична. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, авторы подчеркнули, что хотя RL-файн-тюнинг является эффективным инструментом для улучшения LLMs, его эффективность существенно снижается в неидеальных условиях. Это открывает новые направления для исследований, направленных на улучшение способностей моделей к логическому мышлению в реальных условиях. Будущие исследования могут сосредоточиться на разработке более Adaptive RL-алгоритмов, которые могут справиться с шумом и контекстуальными ограничениями. ```

Annotation:

Reinforcement learning (RL) has become a key technique for enhancing the reasoning abilities of large language models (LLMs), with policy-gradient algorithms dominating the post-training stage because of their efficiency and effectiveness. However, most existing benchmarks evaluate large-language-model reasoning under idealized settings, overlooking performance in realistic, non-ideal scenarios. We identify three representative non-ideal scenarios with practical relevance: summary inference, fin...

ID: 2508.04848v1 cs.AI

arXiv PDF

📄 Provable Post-Training Quantization: Theoretical Analysis of OPTQ and Qronos

2025-08-09

Авторы:

Haoyu Zhang, Shihao Zhang, Ian Colbert, Rayan Saab

## КОНТЕКСТ И ПРОБЛЕМАТИКА Квантование после обучения (Post-Training Quantization, PTQ) представляет собой критически важный инструмент для снижения вычислительных и памятных затрат современных глубоких нейронных сетей, особенно крупных языковых моделей (Large Language Models, LLMs). В условиях экспоненциального роста размеров моделей, где параметры измеряются десятками и сотнями миллиардов, необходимость в эффективных методах сжатия без значительной потери качества становится первостепенной задачей. Среди существующих PTQ-алгоритмов фреймворк OPTQ (также известный как GPTQ) занял лидирующее положение благодаря своей вычислительной эффективности и сильной эмпирической производительности. Однако несмотря на широкое распространение OPTQ в практических приложениях, методология страдает от фундаментального недостатка: отсутствия строгих количественных теоретических гарантий. Это создает значительную проблему для практиков и исследователей, поскольку невозможно заранее предсказать, насколько точно квантованная модель будет приближать поведение оригинальной модели. Отсутствие теоретической базы также затрудняет обоснование практических эвристик, таких как порядок обработки признаков или выбор параметров регуляризации, что приводит к необходимости проведения дорогостоящих экспериментов для настройки гиперпараметров. Кроме того, современные PTQ-алгоритмы, включая Qronos - более современный метод, продемонстрировавший улучшенную эмпирическую производительность, также страдают от аналогичного недостатка теоретического обоснования. Это создает пробел между теорией и практикой, препятствуя систематическому улучшению методов квантования и ограничивая возможность их надежного применения в критически важных приложениях, где требуется строгий контроль над точностью. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют первый в своем роде количественный теоретический анализ OPTQ и связанных методов, предоставляя строгие гарантии ошибок для как детерминированных, так и стохастических вариантов алгоритма. Методология анализа строится на систематическом исследовании того, как итеративная процедура OPTQ накапливает квантовую ошибку на каждом шаге оптимизации. Ключевым элементом предложенного подхода является вывод неасимптотических оценок ошибки в 2-норме, которые явным образом зависят от калибровочных данных и параметра регуляризации, используемого в OPTQ. Это достигается через разложение общей ошибки квантования на отдельные компоненты, каждый из которых анализируется с использованием методов матричного анализа и теории аппроксимации. Особое внимание уделяется анализу эффекта упорядочивания признаков по убывающей норме - эвристики, широко используемой на практике, но до сих пор не имеющей теоретического обоснования. Для стохастического варианта алгоритма авторы устанавливают более сильные границы ошибки в infinity-норме, что позволяет контролировать необходимый алфавит квантования и особенно полезно для последующих слоев и нелинейностей. Анализ включает разработку новых вероятностных инструментов для оценки распределения ошибок квантования в многомерном пространстве, учитывающих корреляционную структуру весов. Расширение анализа на Qronos включает адаптацию разработанной методологии к специфическим особенностям этого алгоритма, включая его подход к обработке групп весов и использованию дополнительных оптимизационных техник. Это позволяет объяснить эмпирические преимущества Qronos через призму теоретических гарантий. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная часть работы фокусируется на эмпирической валидации полученных теоретических границ через систематическое исследование поведения ошибок квантования на различных архитектурах нейронных сетей и наборах данных. Исследование охватывает как классические сверточные сети (ResNet, VGG), так и современные трансформерные модели, включая BERT и GPT-семейство, что обеспечивает комплексное понимание применимости теоретических результатов. Для валидации 2-норм границ используются синтетические и реальные калибровочные наборы данных различного размера, позволяющие исследовать зависимость ошибки квантования от объема калибровочных данных. Результаты дем

Annotation:

Post-training quantization (PTQ) has become a crucial tool for reducing the memory and compute costs of modern deep neural networks, including large language models (LLMs). Among PTQ algorithms, the OPTQ framework-also known as GPTQ-has emerged as a leading method due to its computational efficiency and strong empirical performance. Despite its widespread adoption, however, OPTQ lacks rigorous quantitative theoretical guarantees. This paper presents the first quantitative error bounds for both d...

ID: 2508.04853v1 cs.LG, cs.AI, cs.IT, cs.NA, math.IT, math.NA, 68T07, 68W25, 62M45, 68Q25

arXiv PDF

📄 Sequence Aware SAC Control for Engine Fuel Consumption Optimization in Electrified Powertrain

2025-08-09

Авторы:

Wafeeq Jaleel, Md Ragib Rownak, Athar Hanif, Sidra Ghayour Bhatti, Qadeer Ahmed

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гибридные электромобили (HEV) становятся важным элементом стратегии декарбонизации грузового транспорта, особенно в сегменте тяжелых грузовиков. Однако эффективное управление энергопотреблением в таких системах представляет собой сложную задачу, требующую одновременного учета множества переменных: текущего состояния батареи, мощностных характеристик двигателя, условий движения и продолжительности маршрута. Традиционные методы управления, основанные на правилах или оптимизации в реальном времени, часто не обеспечивают оптимальный баланс между экономией топлива и сохранением заряда батареи для длительных поездок. Проблема усложняется тем, что в серийной архитектуре HEV двигатель внутреннего сгорания (ДВС) не напрямую приводит колеса, а работает как генератор, заряжая батарею и/или питая электродвигатель. Это создает дополнительные степени свободы в управлении, но также увеличивает пространство возможных стратегий управления. Существующие подходы, включая динамическое программирование (DP), обеспечивают теоретически оптимальные решения, но требуют полного знания будущего цикла вождения и не применимы в реальных условиях. Авторы статьи выделяют ключевую проблему: большинство существующих систем управления не учитывают последовательную природу задачи и временные зависимости между решениями. Текущие методы обучения с подкреплением (RL) часто используют нейронные сети прямого распространения (FFN), которые рассматривают каждое состояние независимо, теряя важную информацию о контексте предыдущих состояний и действий. Это особенно критично для тяжелых грузовиков, где решения о включении ДВС имеют длительные последствия из-за большой инерционности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы авторы предлагают новую архитектуру RL-агента на базе алгоритма Soft Actor-Critic (SAC), специально адаптированного для учета последовательной природы задачи управления энергопотоками в серийных HEV. Ключевой инновацией является интеграция механизмов памяти в обе сети актора и критика, что позволяет агенту учитывать историю состояний и действий при принятии решений. Архитектура предлагает три варианта реализации: первый использует в акторе Decision Transformer (DT) - трансформерную архитектуру, способную моделировать сложные длинные зависимости в последовательностях, и в критике - Gated Recurrent Units (GRU) для эффективного захвата среднесрочных временных паттернов. Второй вариант применяет GRU в обеих сетях, обеспечивая более компактную модель с сохранением способности к учету временных зависимостей. Третий вариант служит базовым, используя традиционные FFN-сети для сравнения эффективности. Методология включает несколько ключевых компонентов: формальную постановку задачи как процесса принятия последовательных решений в частично наблюдаемой среде, разработку специальной функции вознаграждения, балансирующей между топливной экономичностью и поддержанием заряда батареи, и механизм обучения с учетом различных начальных условий и сценариев вождения. Авторы также вводят концепцию "последовательного планирования", где агент не только реагирует на текущее состояние, но и прогнозирует последствия своих действий в контексте предполагаемого будущего цикла движения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания была направлена на всестороннюю оценку предложенных методов по трем ключевым критериям: эффективность топливной экономии по сравнению с теоретическим оптимумом, способность обобщаться на незнакомых циклах вождения и робастность к изменениям параметров системы. Для этого использовались три различных цикла вождения: стандартный Highway Fuel Economy Test (HFET) для базового сравнения, агрессивный US06 для проверки экстремальных условий и HHDDT cruise segment для моделирования специфических условий тяжелых грузовиков. Обучение проводилось на диверсифицированном наборе данных, включающем 5000 эпизодов с варьированием начального состояния заряда батареи (20-80%), продолжительности цикла (от 200 до 1200 секунд) и профилей мощности. Для каждого варианта архитектуры проводилось обучение с 10 различ

Annotation:

As hybrid electric vehicles (HEVs) gain traction in heavy-duty trucks, adaptive and efficient energy management is critical for reducing fuel consumption while maintaining battery charge for long operation times. We present a new reinforcement learning (RL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize engine control in series HEVs. We reformulate the control task as a sequential decision-making problem and enhance SAC by incorporating Gated Recurrent Units (GRUs) and Deci...

ID: 2508.04874v1 eess.SY, cs.AI, cs.LG, cs.SY

arXiv PDF

📄 Uncertainty Quantification for Surface Ozone Emulators using Deep Learning

2025-08-09

Авторы:

Kelsey Doerksen, Yuliya Marchetti, Steven Lu, Kevin Bowman, James Montgomery, Kazuyuki Miyazaki, Yarin Gal, Freddie Kalaitzis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Загрязнение воздуха представляет собой глобальную угрозу здоровью человека: по состоянию на 2023 год, 94 % населения планеты подвержены воздействию загрязняющих веществ, превышающих безопасные уровни. Среди ключевых загрязнителей особое место занимает приземный озон (O₃) — вторичный поллютант, образующийся в результате фотохимических реакций между оксидами азота (NOx) и летучими органическими соединениями (VOC) при участии солнечного света. Точное моделирование концентраций приземного озона и драйверов его пространственно-временной изменчивости остаётся вызовом для современной науки. Традиционные физически обоснованные модели, такие как MOMO-Chem (Multi-mOdel Multi-cOnstituent Chemical data assimilation), страдают от систематических ошибок (смещений) при переходе от глобальных к региональным и локальным масштабам, критически важным для оценки воздействия на здоровье человека. Эти смещения могут достигать 20-40 % по абсолютным значениям озона, что делает результаты моделирования недостаточно надёжными для принятия решений в области государственной политики и общественного здравоохранения. Глубокое обучение (Deep Learning) демонстрирует значительный потенциал в захвате сложных нелинейных зависимостей в климатических данных, включая пространственно-временную структуру полей загрязнителей. Однако существующие эмуляторы на основе нейронных сетей страдают от двух ключевых недостатков: (1) отсутствие количественной оценки неопределённости предсказаний, и (2) ограниченная интерпретируемость «чёрных ящиков», что делает их непригодными для критически важных приложений в области здравоохранения и экологической политики. Авторы статьи поднимают фундаментальный вопрос: как создать достаточно точный и при этом надёжный эмулятор ошибок приземного озона, способный не только предсказывать систематические смещения физической модели, но и количественно оценивать доверительные интервалы этих предсказаний. Решение этой проблемы позволит выявить географические области, где физическая модель наиболее/наименее надёжна, и определить оптимальные местоположения наземных станций мониторинга для коррекции смещений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения поставленной задачи авторы разработали неопределённостно-ориентированную архитектуру на основе модифицированной U-Net сети, специально адаптированной для предсказания пространственных остатков (ошибок) модели MOMO-Chem в приземном слое атмосферы. Архитектура включает энкодер-декодер структуру с пропускными соединениями (skip connections), что позволяет сохранить как глобальную, так и локальную пространственную информацию о распределении загрязнителей. Для количественной оценки неопределённости были реализованы два взаимодополняющих подхода: 1. **Байесовский U-Net**: реализован через применение метода Monte Carlo Dropout (MC-Dropout) при инференсе. Во время предсказания сеть запускается многократно (T=50 итераций) с включённым dropout-слоем (p=0.1-0.3), генерируя ансамбль предсказаний. Статистика по ансамблю (среднее и стандартное отклонение) используется для получения предсказательного распределения. Этот метод обеспечивает апостериорную оценку неопределённости параметров модели. 2. **Квантильная регрессия**: модель обучается одновременно предсказывать три квантильные функции (0.1, 0.5, 0.9) для получения 80 %-ного доверительного интервала. Используется модифицированная функция потерь pinball loss, которая поощряет предсказание верхней и нижней границ неопределённости. Этот подход позволяет учитывать гетероскедастичность ошибок (зависимость дисперсии от входных переменных). Ключевыми входными признаками стали: - Пространственные поля остатков MOMO-Chem (разрешение 0.5°×0.5°) - Метеорологические переменные (температура, влажность, скорость ветра) - Информация о землепользовании (Land Use/Land Cover - LULC) из MODIS - Топографические характеристики (высота рельефа, расстояние до побережья) Модель обучалась на данных за 2018 год и валидировалась на июне 2019 для регионов Северной Америки и Европы. Использовалась стратегия пространственной кросс-валидации для предотвращения утеч

Annotation:

Air pollution is a global hazard, and as of 2023, 94\% of the world's population is exposed to unsafe pollution levels. Surface Ozone (O3), an important pollutant, and the drivers of its trends are difficult to model, and traditional physics-based models fall short in their practical use for scales relevant to human-health impacts. Deep Learning-based emulators have shown promise in capturing complex climate patterns, but overall lack the interpretability necessary to support critical decision m...

ID: 2508.04885v1 cs.LG, cs.AI

arXiv PDF

📄 Leveraging Deep Learning for Physical Model Bias of Global Air Quality Estimates

2025-08-09

Авторы:

Kelsey Doerksen, Yuliya Marchetti, Kevin Bowman, Steven Lu, James Montgomery, Yarin Gal, Freddie Kalaitzis, Kazuyuki Miyazaki

## КОНТЕКСТ И ПРОБЛЕМАТИКА Атмосферный озон является ключевым загрязняющим веществом, которое негативно воздействует на здоровье человека и экологические системы. Он является одной из главных причин преждевременной смертности, причем в 2019 году ассоциировано более 6 млн преждевременных смертей. Несмотря на развитие физико-базированных моделей, таких как MOMO-Chem, моделирование поверхностного озона на масштабах, критичных для здоровья человека, остается сложной задачей. Основная проблема заключается в неизвестных факторах, влияющих на тренды концентрации озона, особенно в урбанизированных регионах. Традиционные модели часто не могут точно предсказывать резидуальные отклонения (bias), что ограничивает их практическую ценность для разработки экологической политики. Мотивацией данного исследования является необходимость создания более точных методов оценки поверхностного озона, которые могли бы компенсировать недостатки физико-базированных моделей. Использование методологий машинного обучения, в том числе глубокого обучения, предлагает перспективы для точного анализа и коррекции bias, особенно при интеграции высокоразрешенных данных, таких как спутниковые изображения. Целью данной работы является исследование возможностей 2D-конволюционных нейронных сетей (CNN) для улучшения оценки поверхностного озона путем моделирования резидуальных отклонений физико-базированных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи предлагают архитектуру на основе 2D-конволюционных нейронных сетей для моделирования резидуальных отклонений (bias) модели MOMO-Chem. Эта архитектура разработана для анализа пространственных данных и учитывает сложные взаимосвязи между различными факторами, влияющими на концентрацию озона. Ключевой аспект метода — интеграция данных о землепользовании, полученных из высокоразрешенных спутниковых изображений, что позволяет улучшить точность моделирования. Метод включает в себя следующие этапы: 1. **Предобработка данных**: Сбор и нормализация данных о концентрации озона, а также дополнительные данные о землепользовании и других факторах. 2. **Архитектура модели**: 2D CNN используется для анализа двумерных пространственных данных. Архитектура оптимизирована для выявления сложных закономерностей в пространственных шаблонах bias. 3. **Обучение модели**: Использование данных из регионов Северной Америки и Европы для обучения модели. Используются резидуальные отклонения между наблюдаемыми и моделируемыми значениями озона. 4. **Валидация и тестирование**: Модель проверяется на независимых данных для оценки ее точности и общей эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проведено на данных из Северной Америки и Европы, где концентрация поверхностного озона была измерена с высокой пространственной и временной разрешенностью. Модель CNN показала значительно лучшие результаты по сравнению с традиционными методами машинного обучения. Использование спутниковых данных о землепользовании значительно улучшило качество прогнозов, особенно в урбанизированных районах. Ключевые показатели эффективности: - **Снижение bias**: Модель CNN уменьшила среднеквадратическую ошибку (RMSE) резидуальных отклонений по сравнению с базовыми подходами. - **Важность данных о землепользовании**: Добавление высокоразрешенных данных улучшило прогнозы, особенно в регионах с высокой динамикой антропогенных изменений. - **Пространственная точность**: Модель лучше представляет пространственные шаблоны bias в урбанизированных и промышленных зонах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный метод имеет широкие применимости для улучшения мониторинга качества воздуха и разработки экологической политики. Точная оценка поверхностного озона может помочь в: - **Прогнозировании рисков для здоровья**: Улучшенные модели позволяют более точно оценивать риски, связанные с высокими концентрациями озона. - **Улучшение экологической политики**: Данные, полученные с помощью CNN, могут быть использованы для разработки более эффективных стратегий по снижению загрязнения воздуха. - **Научное понимание**: Исследование помогает выявить факторы, влияющие на bias в моделях, что может привести к улучшению физико-базированных моделей в будущем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует успешное применение глубокого обучения для коррекции bias в моделях поверхностного озона. Использование 2D CNN с высокоразрешенными данными о землепользовании показало высокую эффективность в регионах Северной Америки и Европы. В будущем, данный подход может быть расширен на другие регионы и загрязняющие вещества, что открывает новые возможности для мониторинга и управления качеством воздуха. Дальнейшие исследования могут фокусироваться на интеграции дополнительных данных, таких как метеорологические данные, для дальнейшего улучшения точности моделей.

Annotation:

Air pollution is the world's largest environmental risk factor for human disease and premature death, resulting in more than 6 million permature deaths in 2019. Currently, there is still a challenge to model one of the most important air pollutants, surface ozone, particularly at scales relevant for human health impacts, with the drivers of global ozone trends at these scales largely unknown, limiting the practical use of physics-based models. We employ a 2D Convolutional Neural Network based ar...

ID: 2508.04886v1 cs.LG, cs.AI

arXiv PDF

📄 Adversarial Attacks and Defenses on Graph-aware Large Language Models (LLMs)

2025-08-09

Авторы:

Iyiola E. Olatunji, Franziska Boenisch, Jing Xu, Adam Dziedzic

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) становятся все более интегрированными с графовыми структурами данных, что позволяет использовать их для задач, таких как классификация узлов, где традиционно доминировали Графовые Нейронные Сети (GNNs). Однако, несмотря на высокую эффективность такой интеграции, вопрос их устойчивости к адверсаряльным атакам остается в целом неизученным. Адверсаряльные атаки, которые могут быть направлены как на этап обучения (poisoning attacks), так и на этап тестирования (evasion attacks), представляют значительную угрозу для надежности моделей, особенно в контексте графовых структур. В данной статье авторы предпринимают первые шаги в изучении уязвимостей графо-ориентированных LLMs, анализируя два представительных модели: LLAGA (Chen et al., 2024) и GRAPHPROMPTER (Liu et al., 2024). Они применяют существующие методы атак, разработанные для графовых моделей, чтобы оценить возможности их использования против LLMs. Кроме того, авторы обнаруживают новую атакованную поверхность для LLAGA, где злоумышленник может внедрять вредоносные узлы в последовательность узлов, что может серьезно понизить качество работы модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют различные методы адверсаряльных атак, включая такие, которые вносят изменения в структуру графа (poisoning attacks) или во входные данные модели во время тестирования (evasion attacks). Для LLAGA, они используют подход, в котором злоумышленник может добавить вредоносные узлы в последовательность, что приводит к серьезному ухудшению производительности модели. Для GRAPHPROMPTER, которая использует GNN в качестве кодировщика, авторы оценивают ее устойчивость против таких атак. Кроме того, авторы предлагают новый метод защиты под названием GALGUARD. Этот метод представляет собой комбинацию модуля коррекции функций, основанного на LLMs, и адаптированных методов защиты GNN от структурных атак. GALGUARD предназначен для коррекции возможных внесенных изменений в функциональные параметры и структурные изменения в графе, что позволяет повысить устойчивость модели к атакам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят широкий спектр экспериментов, используя различные наборы данных для оценки эффективности предложенных методов атак и защиты. Исследования показывают, что LLAGA более уязвима к атакам, особенно когда злоумышленник может внедрять вредоносные узлы в последовательность. GRAPHPROMPTER, с другой стороны, демонстрирует большую устойчивость, в основном благодаря использованию GNN в качестве кодировщика. Однако, обе модели остаются уязвимыми к незаметным изменениям в функциональных параметрах, что подтверждает необходимость в дополнительных методах защиты. Результаты экспериментов также показывают, что GALGUARD эффективен в снижении воздействия атак, особенно когда речь идет о структурных изменениях в графе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование имеет значительное практическое значение, особенно в контексте безопасности и надежности графо-ориентированных LLMs. Раскрытие уязвимостей и разработка методов защиты, таких как GALGUARD, могут помочь улучшить безопасность моделей в реальных приложениях, где графовые данные играют ключевую роль. Это может быть применимо в таких областях, как анализ социальных сетей, биоинформатика и логистика, где графы широко используются для моделирования сложных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования были получены важные результаты, которые показывают, что графо-ориентированные LLMs могут быть уязвимы к различным видам адверсаряльных атак. Однако, предложенный метод защиты GALGUARD демонстрирует потенциал для улучшения их устойчивости. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов защиты и разработке новых подходов для обеспечения безопасности графо-ориентированных LLMs.

Annotation:

Large Language Models (LLMs) are increasingly integrated with graph-structured data for tasks like node classification, a domain traditionally dominated by Graph Neural Networks (GNNs). While this integration leverages rich relational information to improve task performance, their robustness against adversarial attacks remains unexplored. We take the first step to explore the vulnerabilities of graph-aware LLMs by leveraging existing adversarial attack methods tailored for graph-based models, in...

ID: 2508.04894v1 cs.CR, cs.AI, cs.SI

arXiv PDF

📄 Revealing Temporal Label Noise in Multimodal Hateful Video Classification

2025-08-09

Авторы:

Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимедийный контент в сети Интернет растет с быстрым темпом, что приводит к широкому распространению ненавистной речи (hate speech). Это создает серьезные социальные и регуляторные вызовы. В последние годы было достигнуто значительное прогрессирование в области мультимодальной детекции ненавистных видео, однако большинство существующих подходов основываются на грубых, видео-уровневых аннотациях, которые игнорируют временную гранулярность ненавистного контента. Это приводит к существенному шуму в метках (label noise), так как видео, отмеченные как ненавистные, часто содержат длительные сегменты, не относящиеся к ненавистной речи. Эта проблема особенно критична, потому что ненавистная речь часто выражается в контекстно-зависимом и временно-непрерывном формате. Грубые аннотации могут вводить в заблуждение модели, препятствуя точной классификации и пониманию контекста. Исследование, посвященное временным динамикам и характеристикам ненавистного контента, необходимо для создания более надежных и интерпретируемых моделей. В этой работе авторы предлагают файн-гранулярный подход для анализа временного шума в метках. Они используют временные метки (timestamps) для того, чтобы изолировать явно ненавистные сегменты из видео, а затем проводят анализ распределения и характеристик ненавистного и не-ненавистного контента. Целью этого исследования является выявление степени семантического перекрытия и путаницы, введенной грубыми аннотациями на уровне видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, которая включает в себя точное отсечение (trimming) видео с ненавистным контентом из датасетов HateMM и MultiHateClip. Это достигается путем использования аннотированных временных меток, которые позволяют изолировать только те сегменты, которые содержат явно ненавистную речь. Затем эти отрезки анализируются с точки зрения их семантических характеристик и распределения. Этот подход позволяет выявить степень перекрытия между ненавистным и не-ненавистным контентом, а также уровень путаницы, который вводится грубыми, видео-уровневыми аннотациями. Далее, авторы проводят контролируемые эксперименты для изучения влияния временного шума на модели классификации. Они демонстрируют, что шум во временных метках фундаментально изменяет границы принятия решений моделей и снижает уверенность в классификации. Это подчеркивает важность временно-зависимых моделей и бенчмарков для улучшения точности и интерпретируемости классификации ненавистной речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух датасетах: HateMM и MultiHateClip. Они используют аннотированные временные метки для изоляции явно ненавистных сегментов видео. Затем они проводят анализ этих сегментов, выявляя распределение и характеристики как ненавистного, так и не-ненавистного контента. Результаты показывают высокий уровень семантического перекрытия между этими категориями, что подтверждает наличие значительного шума в метках. Кроме того, авторы проводят контролируемые эксперименты, в которых они анализируют влияние временного шума на процесс классификации. Они демонстрируют, что шум во временных метках приводит к существенным изменениям в границах принятия решений моделей и снижению уверенности в классификации. Эти результаты подтверждают, что ненавистная речь является контекстно-зависимой и требует временно-зависимых моделей для более точного анализа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Настоящее исследование имеет значительное практическое значение для разработки более эффективных методов детекции и классификации ненавистной речи в мультимодальных видео. Оно подчеркивает необходимость разработки моделей, которые учитывают временную гранулярность и контекстную зависимость ненавистной речи. Такие модели могут быть использованы для улучшения точности классификации, а также для повышения интерпретируемости и надежности систем детекции ненавистной речи. Кроме того, данное исследование может быть применено в областях регулирования и модернизации социальных медиа-платформ, где необходимо эффективное обнаружение и модерирование ненавистного контента. Преимуществами этого подхода являются улучшенная точность, более глубокое понимание временных динамик и потенциальное снижение ложноположительных результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Выводы данного исследования показывают, что временной шум в метках имеет фундаментальное влияние на процесс классификации ненавистного контента в мультимодальных видео. Авторы выделяют необходимость разработки более точных и временно-зависимых моделей, которые могут лучше учитывать контекст и временную непрерывность ненавистной речи. Будущие исследования могут сосредоточиться на разработке более продвинутых алгоритмов, способных обрабатывать временной шум и улучшать точность классификации. Также может быть полезно создание новых бенчмарков, которые будут учитывать временную гранулярность ненавистного контента. Это может привести к более надежным и интерпретируемым системам детекции ненавистной речи.

Annotation:

The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such labe...

ID: 2508.04900v1 cs.CV, cs.AI

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 ConfAgents: A Conformal-Guided Multi-Agent Framework for Cost-Efficient Medical Diagnosis

2025-08-09

Авторы:

Huiya Zhao, Yinghao Zhu, Zixiang Wang, Yasha Wang, Junyi Gao, Liantao Ma

```yaml ## КОНТЕКСТ И ПРОБЛЕМАТИКА Искусственные интеллектуальные (ИИ) агенты в области здравоохранения обладают большим потенциалом для улучшения диагностики и лечения. Однако существующие решения характеризуются существенными ограничениями. Традиционные ИИ-агенты работают на основе статичных, предопределённых стратегий, что ограничивает их способность адаптироваться к сложным, непредвиденным ситуациям. Это приводит к тому, что агенты могут эффективно использовать инструменты, но не могут развивать стратегическое мышление, необходимое для решения сложных задач в области здравоохранения. Проблематика заключается в том, что современные фреймворки ИИ недостаточно адаптивны для динамических и сложных сред, таких как клинические исследования и обработка электронных медицинских карт (ЭМК). Это ограничение становится критичным в контексте решения задач, требующих высокого уровня автономии и адаптивности. Таким образом, необходимо разработать методологии, позволяющие ИИ-агентам не только улучшать свои навыки взаимодействия с инструментами, но и развивать высокоуровневые стратегические навыки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен HealthFlow, фреймворк, основанный на концепции конформально-ориентированного управления множеством агентов (ConfAgents). HealthFlow предлагает новую методологию, которая позволяет агентам развиваться самостоятельно на мета-уровне. Это достигается за счёт механизма мета-эволюции, который позволяет агентам анализировать свои собственные успехи и неудачи в решении задач, формируя на их основе прочную стратегическую базу знаний. Архитектура HealthFlow включает в себя несколько ключевых компонентов: 1. **Мета-уровень эволюции**: Агенты используют мета-оптимизацию для адаптации своих стратегий на основе прошлых опытов. 2. **Динамическая адаптация**: Агенты могут модифицировать свои поведенческие модели в реальном времени, основываясь на новых данных и обратной связи. 3. **Интеграция с клиническими данными**: Фреймворк предназначен для работы с реальными клиническими данными, включая данные из электронных медицинских карт. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности HealthFlow авторы разработали новый бенчмарк под названием EHRFlowBench. Этот бенчмарк содержит реалистичные клинические задачи, основанные на данных из пиер-ревьюированных исследований. Эксперименты показали, что HealthFlow значительно превосходит современные фреймворки ИИ в сложных задачах анализа клинических данных. Ключевые результаты: - **Превосходство в стратегическом планировании**: HealthFlow достигает высокого уровня автономии и эффективности в решении сложных клинических задач. - **Адаптивность и самостоятельное обучение**: Агенты, основанные на HealthFlow, показали значительно более высокие показатели адаптивности по сравнению с традиционными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр применений в области здравоохранения. HealthFlow может быть использован для: - **Оптимизации диагностики**: Автоматизация процесса диагностики на основе данных ЭМК. - **Персонализация лечения**: Адаптация лечебных стратегий к конкретным пациентам на основе их медицинской истории. - **Улучшение исследовательских процессов**: Автоматизация анализа данных в клинических исследованиях, что позволяет ускорить процесс научных открытий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HealthFlow является пионерским фреймворком, который сдвигает фокус с создания ИИ-агентов-инструментов на разработку самостоятельно эволюционирующих систем. Это открывает новые возможности для автономных и эффективных решений в области здравоохранения. Будущие исследования могут фокусироваться на дальнейшей оптимизации методологии мета-эволюции и расширении области применения HealthFlow в других сферах медицинских исследований. ```

Annotation:

The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...

ID: 2508.04915v1 cs.AI, cs.CL, cs.MA

arXiv PDF

1
2
3377
3378
3379
3380
3381
3402
3403

Показано 33781 - 33790 из 34022 записей