📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 Sequence Aware SAC Control for Engine Fuel Consumption Optimization in Electrified Powertrain

2025-08-09

Авторы:

Wafeeq Jaleel, Md Ragib Rownak, Athar Hanif, Sidra Ghayour Bhatti, Qadeer Ahmed

## КОНТЕКСТ И ПРОБЛЕМАТИКА Гибридные электромобили (HEV) становятся важным элементом стратегии декарбонизации грузового транспорта, особенно в сегменте тяжелых грузовиков. Однако эффективное управление энергопотреблением в таких системах представляет собой сложную задачу, требующую одновременного учета множества переменных: текущего состояния батареи, мощностных характеристик двигателя, условий движения и продолжительности маршрута. Традиционные методы управления, основанные на правилах или оптимизации в реальном времени, часто не обеспечивают оптимальный баланс между экономией топлива и сохранением заряда батареи для длительных поездок. Проблема усложняется тем, что в серийной архитектуре HEV двигатель внутреннего сгорания (ДВС) не напрямую приводит колеса, а работает как генератор, заряжая батарею и/или питая электродвигатель. Это создает дополнительные степени свободы в управлении, но также увеличивает пространство возможных стратегий управления. Существующие подходы, включая динамическое программирование (DP), обеспечивают теоретически оптимальные решения, но требуют полного знания будущего цикла вождения и не применимы в реальных условиях. Авторы статьи выделяют ключевую проблему: большинство существующих систем управления не учитывают последовательную природу задачи и временные зависимости между решениями. Текущие методы обучения с подкреплением (RL) часто используют нейронные сети прямого распространения (FFN), которые рассматривают каждое состояние независимо, теряя важную информацию о контексте предыдущих состояний и действий. Это особенно критично для тяжелых грузовиков, где решения о включении ДВС имеют длительные последствия из-за большой инерционности системы. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения проблемы авторы предлагают новую архитектуру RL-агента на базе алгоритма Soft Actor-Critic (SAC), специально адаптированного для учета последовательной природы задачи управления энергопотоками в серийных HEV. Ключевой инновацией является интеграция механизмов памяти в обе сети актора и критика, что позволяет агенту учитывать историю состояний и действий при принятии решений. Архитектура предлагает три варианта реализации: первый использует в акторе Decision Transformer (DT) - трансформерную архитектуру, способную моделировать сложные длинные зависимости в последовательностях, и в критике - Gated Recurrent Units (GRU) для эффективного захвата среднесрочных временных паттернов. Второй вариант применяет GRU в обеих сетях, обеспечивая более компактную модель с сохранением способности к учету временных зависимостей. Третий вариант служит базовым, используя традиционные FFN-сети для сравнения эффективности. Методология включает несколько ключевых компонентов: формальную постановку задачи как процесса принятия последовательных решений в частично наблюдаемой среде, разработку специальной функции вознаграждения, балансирующей между топливной экономичностью и поддержанием заряда батареи, и механизм обучения с учетом различных начальных условий и сценариев вождения. Авторы также вводят концепцию "последовательного планирования", где агент не только реагирует на текущее состояние, но и прогнозирует последствия своих действий в контексте предполагаемого будущего цикла движения. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Экспериментальная кампания была направлена на всестороннюю оценку предложенных методов по трем ключевым критериям: эффективность топливной экономии по сравнению с теоретическим оптимумом, способность обобщаться на незнакомых циклах вождения и робастность к изменениям параметров системы. Для этого использовались три различных цикла вождения: стандартный Highway Fuel Economy Test (HFET) для базового сравнения, агрессивный US06 для проверки экстремальных условий и HHDDT cruise segment для моделирования специфических условий тяжелых грузовиков. Обучение проводилось на диверсифицированном наборе данных, включающем 5000 эпизодов с варьированием начального состояния заряда батареи (20-80%), продолжительности цикла (от 200 до 1200 секунд) и профилей мощности. Для каждого варианта архитектуры проводилось обучение с 10 различ

Annotation:

As hybrid electric vehicles (HEVs) gain traction in heavy-duty trucks, adaptive and efficient energy management is critical for reducing fuel consumption while maintaining battery charge for long operation times. We present a new reinforcement learning (RL) framework based on the Soft Actor-Critic (SAC) algorithm to optimize engine control in series HEVs. We reformulate the control task as a sequential decision-making problem and enhance SAC by incorporating Gated Recurrent Units (GRUs) and Deci...

ID: 2508.04874v1 eess.SY, cs.AI, cs.LG, cs.SY

arXiv PDF

📄 Uncertainty Quantification for Surface Ozone Emulators using Deep Learning

2025-08-09

Авторы:

Kelsey Doerksen, Yuliya Marchetti, Steven Lu, Kevin Bowman, James Montgomery, Kazuyuki Miyazaki, Yarin Gal, Freddie Kalaitzis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Загрязнение воздуха представляет собой глобальную угрозу здоровью человека: по состоянию на 2023 год, 94 % населения планеты подвержены воздействию загрязняющих веществ, превышающих безопасные уровни. Среди ключевых загрязнителей особое место занимает приземный озон (O₃) — вторичный поллютант, образующийся в результате фотохимических реакций между оксидами азота (NOx) и летучими органическими соединениями (VOC) при участии солнечного света. Точное моделирование концентраций приземного озона и драйверов его пространственно-временной изменчивости остаётся вызовом для современной науки. Традиционные физически обоснованные модели, такие как MOMO-Chem (Multi-mOdel Multi-cOnstituent Chemical data assimilation), страдают от систематических ошибок (смещений) при переходе от глобальных к региональным и локальным масштабам, критически важным для оценки воздействия на здоровье человека. Эти смещения могут достигать 20-40 % по абсолютным значениям озона, что делает результаты моделирования недостаточно надёжными для принятия решений в области государственной политики и общественного здравоохранения. Глубокое обучение (Deep Learning) демонстрирует значительный потенциал в захвате сложных нелинейных зависимостей в климатических данных, включая пространственно-временную структуру полей загрязнителей. Однако существующие эмуляторы на основе нейронных сетей страдают от двух ключевых недостатков: (1) отсутствие количественной оценки неопределённости предсказаний, и (2) ограниченная интерпретируемость «чёрных ящиков», что делает их непригодными для критически важных приложений в области здравоохранения и экологической политики. Авторы статьи поднимают фундаментальный вопрос: как создать достаточно точный и при этом надёжный эмулятор ошибок приземного озона, способный не только предсказывать систематические смещения физической модели, но и количественно оценивать доверительные интервалы этих предсказаний. Решение этой проблемы позволит выявить географические области, где физическая модель наиболее/наименее надёжна, и определить оптимальные местоположения наземных станций мониторинга для коррекции смещений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения поставленной задачи авторы разработали неопределённостно-ориентированную архитектуру на основе модифицированной U-Net сети, специально адаптированной для предсказания пространственных остатков (ошибок) модели MOMO-Chem в приземном слое атмосферы. Архитектура включает энкодер-декодер структуру с пропускными соединениями (skip connections), что позволяет сохранить как глобальную, так и локальную пространственную информацию о распределении загрязнителей. Для количественной оценки неопределённости были реализованы два взаимодополняющих подхода: 1. **Байесовский U-Net**: реализован через применение метода Monte Carlo Dropout (MC-Dropout) при инференсе. Во время предсказания сеть запускается многократно (T=50 итераций) с включённым dropout-слоем (p=0.1-0.3), генерируя ансамбль предсказаний. Статистика по ансамблю (среднее и стандартное отклонение) используется для получения предсказательного распределения. Этот метод обеспечивает апостериорную оценку неопределённости параметров модели. 2. **Квантильная регрессия**: модель обучается одновременно предсказывать три квантильные функции (0.1, 0.5, 0.9) для получения 80 %-ного доверительного интервала. Используется модифицированная функция потерь pinball loss, которая поощряет предсказание верхней и нижней границ неопределённости. Этот подход позволяет учитывать гетероскедастичность ошибок (зависимость дисперсии от входных переменных). Ключевыми входными признаками стали: - Пространственные поля остатков MOMO-Chem (разрешение 0.5°×0.5°) - Метеорологические переменные (температура, влажность, скорость ветра) - Информация о землепользовании (Land Use/Land Cover - LULC) из MODIS - Топографические характеристики (высота рельефа, расстояние до побережья) Модель обучалась на данных за 2018 год и валидировалась на июне 2019 для регионов Северной Америки и Европы. Использовалась стратегия пространственной кросс-валидации для предотвращения утеч

Annotation:

Air pollution is a global hazard, and as of 2023, 94\% of the world's population is exposed to unsafe pollution levels. Surface Ozone (O3), an important pollutant, and the drivers of its trends are difficult to model, and traditional physics-based models fall short in their practical use for scales relevant to human-health impacts. Deep Learning-based emulators have shown promise in capturing complex climate patterns, but overall lack the interpretability necessary to support critical decision m...

ID: 2508.04885v1 cs.LG, cs.AI

arXiv PDF

📄 Leveraging Deep Learning for Physical Model Bias of Global Air Quality Estimates

2025-08-09

Авторы:

Kelsey Doerksen, Yuliya Marchetti, Kevin Bowman, Steven Lu, James Montgomery, Yarin Gal, Freddie Kalaitzis, Kazuyuki Miyazaki

## КОНТЕКСТ И ПРОБЛЕМАТИКА Атмосферный озон является ключевым загрязняющим веществом, которое негативно воздействует на здоровье человека и экологические системы. Он является одной из главных причин преждевременной смертности, причем в 2019 году ассоциировано более 6 млн преждевременных смертей. Несмотря на развитие физико-базированных моделей, таких как MOMO-Chem, моделирование поверхностного озона на масштабах, критичных для здоровья человека, остается сложной задачей. Основная проблема заключается в неизвестных факторах, влияющих на тренды концентрации озона, особенно в урбанизированных регионах. Традиционные модели часто не могут точно предсказывать резидуальные отклонения (bias), что ограничивает их практическую ценность для разработки экологической политики. Мотивацией данного исследования является необходимость создания более точных методов оценки поверхностного озона, которые могли бы компенсировать недостатки физико-базированных моделей. Использование методологий машинного обучения, в том числе глубокого обучения, предлагает перспективы для точного анализа и коррекции bias, особенно при интеграции высокоразрешенных данных, таких как спутниковые изображения. Целью данной работы является исследование возможностей 2D-конволюционных нейронных сетей (CNN) для улучшения оценки поверхностного озона путем моделирования резидуальных отклонений физико-базированных моделей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Исследователи предлагают архитектуру на основе 2D-конволюционных нейронных сетей для моделирования резидуальных отклонений (bias) модели MOMO-Chem. Эта архитектура разработана для анализа пространственных данных и учитывает сложные взаимосвязи между различными факторами, влияющими на концентрацию озона. Ключевой аспект метода — интеграция данных о землепользовании, полученных из высокоразрешенных спутниковых изображений, что позволяет улучшить точность моделирования. Метод включает в себя следующие этапы: 1. **Предобработка данных**: Сбор и нормализация данных о концентрации озона, а также дополнительные данные о землепользовании и других факторах. 2. **Архитектура модели**: 2D CNN используется для анализа двумерных пространственных данных. Архитектура оптимизирована для выявления сложных закономерностей в пространственных шаблонах bias. 3. **Обучение модели**: Использование данных из регионов Северной Америки и Европы для обучения модели. Используются резидуальные отклонения между наблюдаемыми и моделируемыми значениями озона. 4. **Валидация и тестирование**: Модель проверяется на независимых данных для оценки ее точности и общей эффективности. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование проведено на данных из Северной Америки и Европы, где концентрация поверхностного озона была измерена с высокой пространственной и временной разрешенностью. Модель CNN показала значительно лучшие результаты по сравнению с традиционными методами машинного обучения. Использование спутниковых данных о землепользовании значительно улучшило качество прогнозов, особенно в урбанизированных районах. Ключевые показатели эффективности: - **Снижение bias**: Модель CNN уменьшила среднеквадратическую ошибку (RMSE) резидуальных отклонений по сравнению с базовыми подходами. - **Важность данных о землепользовании**: Добавление высокоразрешенных данных улучшило прогнозы, особенно в регионах с высокой динамикой антропогенных изменений. - **Пространственная точность**: Модель лучше представляет пространственные шаблоны bias в урбанизированных и промышленных зонах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный метод имеет широкие применимости для улучшения мониторинга качества воздуха и разработки экологической политики. Точная оценка поверхностного озона может помочь в: - **Прогнозировании рисков для здоровья**: Улучшенные модели позволяют более точно оценивать риски, связанные с высокими концентрациями озона. - **Улучшение экологической политики**: Данные, полученные с помощью CNN, могут быть использованы для разработки более эффективных стратегий по снижению загрязнения воздуха. - **Научное понимание**: Исследование помогает выявить факторы, влияющие на bias в моделях, что может привести к улучшению физико-базированных моделей в будущем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует успешное применение глубокого обучения для коррекции bias в моделях поверхностного озона. Использование 2D CNN с высокоразрешенными данными о землепользовании показало высокую эффективность в регионах Северной Америки и Европы. В будущем, данный подход может быть расширен на другие регионы и загрязняющие вещества, что открывает новые возможности для мониторинга и управления качеством воздуха. Дальнейшие исследования могут фокусироваться на интеграции дополнительных данных, таких как метеорологические данные, для дальнейшего улучшения точности моделей.

Annotation:

Air pollution is the world's largest environmental risk factor for human disease and premature death, resulting in more than 6 million permature deaths in 2019. Currently, there is still a challenge to model one of the most important air pollutants, surface ozone, particularly at scales relevant for human health impacts, with the drivers of global ozone trends at these scales largely unknown, limiting the practical use of physics-based models. We employ a 2D Convolutional Neural Network based ar...

ID: 2508.04886v1 cs.LG, cs.AI

arXiv PDF

📄 Adversarial Attacks and Defenses on Graph-aware Large Language Models (LLMs)

2025-08-09

Авторы:

Iyiola E. Olatunji, Franziska Boenisch, Jing Xu, Adam Dziedzic

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последнее время Large Language Models (LLMs) становятся все более интегрированными с графовыми структурами данных, что позволяет использовать их для задач, таких как классификация узлов, где традиционно доминировали Графовые Нейронные Сети (GNNs). Однако, несмотря на высокую эффективность такой интеграции, вопрос их устойчивости к адверсаряльным атакам остается в целом неизученным. Адверсаряльные атаки, которые могут быть направлены как на этап обучения (poisoning attacks), так и на этап тестирования (evasion attacks), представляют значительную угрозу для надежности моделей, особенно в контексте графовых структур. В данной статье авторы предпринимают первые шаги в изучении уязвимостей графо-ориентированных LLMs, анализируя два представительных модели: LLAGA (Chen et al., 2024) и GRAPHPROMPTER (Liu et al., 2024). Они применяют существующие методы атак, разработанные для графовых моделей, чтобы оценить возможности их использования против LLMs. Кроме того, авторы обнаруживают новую атакованную поверхность для LLAGA, где злоумышленник может внедрять вредоносные узлы в последовательность узлов, что может серьезно понизить качество работы модели. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы используют различные методы адверсаряльных атак, включая такие, которые вносят изменения в структуру графа (poisoning attacks) или во входные данные модели во время тестирования (evasion attacks). Для LLAGA, они используют подход, в котором злоумышленник может добавить вредоносные узлы в последовательность, что приводит к серьезному ухудшению производительности модели. Для GRAPHPROMPTER, которая использует GNN в качестве кодировщика, авторы оценивают ее устойчивость против таких атак. Кроме того, авторы предлагают новый метод защиты под названием GALGUARD. Этот метод представляет собой комбинацию модуля коррекции функций, основанного на LLMs, и адаптированных методов защиты GNN от структурных атак. GALGUARD предназначен для коррекции возможных внесенных изменений в функциональные параметры и структурные изменения в графе, что позволяет повысить устойчивость модели к атакам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят широкий спектр экспериментов, используя различные наборы данных для оценки эффективности предложенных методов атак и защиты. Исследования показывают, что LLAGA более уязвима к атакам, особенно когда злоумышленник может внедрять вредоносные узлы в последовательность. GRAPHPROMPTER, с другой стороны, демонстрирует большую устойчивость, в основном благодаря использованию GNN в качестве кодировщика. Однако, обе модели остаются уязвимыми к незаметным изменениям в функциональных параметрах, что подтверждает необходимость в дополнительных методах защиты. Результаты экспериментов также показывают, что GALGUARD эффективен в снижении воздействия атак, особенно когда речь идет о структурных изменениях в графе. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Исследование имеет значительное практическое значение, особенно в контексте безопасности и надежности графо-ориентированных LLMs. Раскрытие уязвимостей и разработка методов защиты, таких как GALGUARD, могут помочь улучшить безопасность моделей в реальных приложениях, где графовые данные играют ключевую роль. Это может быть применимо в таких областях, как анализ социальных сетей, биоинформатика и логистика, где графы широко используются для моделирования сложных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данного исследования были получены важные результаты, которые показывают, что графо-ориентированные LLMs могут быть уязвимы к различным видам адверсаряльных атак. Однако, предложенный метод защиты GALGUARD демонстрирует потенциал для улучшения их устойчивости. Будущие исследования могут фокусироваться на дальнейшем улучшении этих методов защиты и разработке новых подходов для обеспечения безопасности графо-ориентированных LLMs.

Annotation:

Large Language Models (LLMs) are increasingly integrated with graph-structured data for tasks like node classification, a domain traditionally dominated by Graph Neural Networks (GNNs). While this integration leverages rich relational information to improve task performance, their robustness against adversarial attacks remains unexplored. We take the first step to explore the vulnerabilities of graph-aware LLMs by leveraging existing adversarial attack methods tailored for graph-based models, in...

ID: 2508.04894v1 cs.CR, cs.AI, cs.SI

arXiv PDF

📄 Revealing Temporal Label Noise in Multimodal Hateful Video Classification

2025-08-09

Авторы:

Shuonan Yang, Tailin Chen, Rahul Singh, Jiangbei Yue, Jianbo Jiao, Zeyu Fu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Мультимедийный контент в сети Интернет растет с быстрым темпом, что приводит к широкому распространению ненавистной речи (hate speech). Это создает серьезные социальные и регуляторные вызовы. В последние годы было достигнуто значительное прогрессирование в области мультимодальной детекции ненавистных видео, однако большинство существующих подходов основываются на грубых, видео-уровневых аннотациях, которые игнорируют временную гранулярность ненавистного контента. Это приводит к существенному шуму в метках (label noise), так как видео, отмеченные как ненавистные, часто содержат длительные сегменты, не относящиеся к ненавистной речи. Эта проблема особенно критична, потому что ненавистная речь часто выражается в контекстно-зависимом и временно-непрерывном формате. Грубые аннотации могут вводить в заблуждение модели, препятствуя точной классификации и пониманию контекста. Исследование, посвященное временным динамикам и характеристикам ненавистного контента, необходимо для создания более надежных и интерпретируемых моделей. В этой работе авторы предлагают файн-гранулярный подход для анализа временного шума в метках. Они используют временные метки (timestamps) для того, чтобы изолировать явно ненавистные сегменты из видео, а затем проводят анализ распределения и характеристик ненавистного и не-ненавистного контента. Целью этого исследования является выявление степени семантического перекрытия и путаницы, введенной грубыми аннотациями на уровне видео. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают методологию, которая включает в себя точное отсечение (trimming) видео с ненавистным контентом из датасетов HateMM и MultiHateClip. Это достигается путем использования аннотированных временных меток, которые позволяют изолировать только те сегменты, которые содержат явно ненавистную речь. Затем эти отрезки анализируются с точки зрения их семантических характеристик и распределения. Этот подход позволяет выявить степень перекрытия между ненавистным и не-ненавистным контентом, а также уровень путаницы, который вводится грубыми, видео-уровневыми аннотациями. Далее, авторы проводят контролируемые эксперименты для изучения влияния временного шума на модели классификации. Они демонстрируют, что шум во временных метках фундаментально изменяет границы принятия решений моделей и снижает уверенность в классификации. Это подчеркивает важность временно-зависимых моделей и бенчмарков для улучшения точности и интерпретируемости классификации ненавистной речи. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух датасетах: HateMM и MultiHateClip. Они используют аннотированные временные метки для изоляции явно ненавистных сегментов видео. Затем они проводят анализ этих сегментов, выявляя распределение и характеристики как ненавистного, так и не-ненавистного контента. Результаты показывают высокий уровень семантического перекрытия между этими категориями, что подтверждает наличие значительного шума в метках. Кроме того, авторы проводят контролируемые эксперименты, в которых они анализируют влияние временного шума на процесс классификации. Они демонстрируют, что шум во временных метках приводит к существенным изменениям в границах принятия решений моделей и снижению уверенности в классификации. Эти результаты подтверждают, что ненавистная речь является контекстно-зависимой и требует временно-зависимых моделей для более точного анализа. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Настоящее исследование имеет значительное практическое значение для разработки более эффективных методов детекции и классификации ненавистной речи в мультимодальных видео. Оно подчеркивает необходимость разработки моделей, которые учитывают временную гранулярность и контекстную зависимость ненавистной речи. Такие модели могут быть использованы для улучшения точности классификации, а также для повышения интерпретируемости и надежности систем детекции ненавистной речи. Кроме того, данное исследование может быть применено в областях регулирования и модернизации социальных медиа-платформ, где необходимо эффективное обнаружение и модерирование ненавистного контента. Преимуществами этого подхода являются улучшенная точность, более глубокое понимание временных динамик и потенциальное снижение ложноположительных результатов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Выводы данного исследования показывают, что временной шум в метках имеет фундаментальное влияние на процесс классификации ненавистного контента в мультимодальных видео. Авторы выделяют необходимость разработки более точных и временно-зависимых моделей, которые могут лучше учитывать контекст и временную непрерывность ненавистной речи. Будущие исследования могут сосредоточиться на разработке более продвинутых алгоритмов, способных обрабатывать временной шум и улучшать точность классификации. Также может быть полезно создание новых бенчмарков, которые будут учитывать временную гранулярность ненавистного контента. Это может привести к более надежным и интерпретируемым системам детекции ненавистной речи.

Annotation:

The rapid proliferation of online multimedia content has intensified the spread of hate speech, presenting critical societal and regulatory challenges. While recent work has advanced multimodal hateful video detection, most approaches rely on coarse, video-level annotations that overlook the temporal granularity of hateful content. This introduces substantial label noise, as videos annotated as hateful often contain long non-hateful segments. In this paper, we investigate the impact of such labe...

ID: 2508.04900v1 cs.CV, cs.AI

arXiv PDF

📄 RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory

2025-08-09

Авторы:

Jun Liu, Zhenglun Kong, Changdi Yang, Fan Yang, Tianqi Li, Peiyan Dong, Joannah Nanjekye, Hao Tang, Geng Yuan, Wei Niu, Wenbin Zhang, Pu Zhao, Xue Lin, Dong Huang, Yanzhi Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Multi-agent large language model (LLM) systems представляют собой мощное средство для решения сложных задач резонуирования и коллаборативного принятия решений. Однако существующие подходы к координации таких систем характеризуются рядом недостатков. Традиционные схемы маршрутизации контекста, такие как статические или полнотекстовые стратегии, часто приводят к избыточному потреблению токенов, излишнему обращению к памяти и ограниченной адаптивности в рамках различных этапов взаимодействия. Эти проблемы усугубляются тем, что современные LLMs требовательны к вычислительным ресурсам, а неэффективное использование контекста может привести к существенным накладным расходам. Дополнительной проблемой является отсутствие механизмов динамической адаптации контекста к конкретной роли или задаче, что может приводить к потере релевантности информации в процессе взаимодействия агентов. Также, существующие метрики оценки качества ответов часто ограничиваются простыми мерами точности (QA accuracy), не учитывая более глубокие аспекты генерируемых объяснений. Таким образом, необходим новый подход, который обеспечивал бы эффективную, адаптивную и ресурсоэкономичную координацию в мульти-агентных системах LLMs. ## ПРЕДЛОЖЕННЫЙ МЕТОД RCR-Router представляет собой инновационный модульный фреймворк для контекстной маршрутизации в мульти-агентных системах LLMs. Он основывается на концепции ролево-ориентированного контекстного роутинга, где для каждого агента динамически выбирается релевантный подмножество памяти в зависимости от его роли и текущего этапа задачи. Это позволяет сократить количество обрабатываемых токенов, сохраняя при этом высокое качество ответов. Ключевым элементом RCR-Router является легковесная скоринговая политика, которая определяет релевантность памяти для каждого агента. Помимо этого, выходные данные агентов интегрируются в общую память в процессе итеративного обращения, что позволяет достичь прогрессивного уточнения контекста. Этот подход не только сокращает избыточность, но также повышает адаптивность системы в различных сценариях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности RCR-Router проведены эксперименты на трех бенчмарках мульти-хоп QA: HotPotQA, MuSiQue и 2WikiMultihop. Результаты демонстрируют значительное сокращение потребления токенов (до 30%) без ухудшения, и в некоторых случаях даже с улучшением, качества ответов. Благодаря динамическому контекстному роутингу, система показывает высокую эффективность в использовании ресурсов, особенно в сравнении со статическими методами. Для более глубокого анализа была также предложена метрика Answer Quality Score, которая учитывает качество генерируемых объяснений в дополнение к стандартной мере точности. Это позволяет более полно оценить вклад системы в решение сложных задач. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ RCR-Router открывает новые возможности для применения мульти-агентных LLMs в областях, требующих высокоэффективное использование вычислительных ресурсов. Он может быть использован в таких сферах, как сложные системы рекомендаций, интеллектуальные поисковые системы и автоматизированные системы поддержки принятия решений. Преимущества этого метода заключаются в его способности адаптироваться к конкретным задачам и ролям агентов, что повышает эффективность взаимодействия и сокращает излишние расходы. Также, предложенная метрика Answer Quality Score может стать важным инструментом для оценки качества решений в будущих системах. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ RCR-Router является первым шагом к созданию более эффективных и адаптивных мульти-агентных систем на основе LLMs. Будущие исследования могут фокусироваться на дальнейшем улучшении механизмов контекстного роутинга, расширении области применения и интеграции с другими модулями для повышения общей производительности. Также, развитие метрик оценки качества, основанных на объяснениях, может стать ключевым направлением в будущем.

Annotation:

Multi-agent large language model (LLM) systems have shown strong potential in complex reasoning and collaborative decision-making tasks. However, most existing coordination schemes rely on static or full-context routing strategies, which lead to excessive token consumption, redundant memory exposure, and limited adaptability across interaction rounds. We introduce RCR-Router, a modular and role-aware context routing framework designed to enable efficient, adaptive collaboration in multi-agent LL...

ID: 2508.04903v1 cs.CL, cs.AI, cs.MA

arXiv PDF

📄 ConfAgents: A Conformal-Guided Multi-Agent Framework for Cost-Efficient Medical Diagnosis

2025-08-09

Авторы:

Huiya Zhao, Yinghao Zhu, Zixiang Wang, Yasha Wang, Junyi Gao, Liantao Ma

```yaml ## КОНТЕКСТ И ПРОБЛЕМАТИКА Искусственные интеллектуальные (ИИ) агенты в области здравоохранения обладают большим потенциалом для улучшения диагностики и лечения. Однако существующие решения характеризуются существенными ограничениями. Традиционные ИИ-агенты работают на основе статичных, предопределённых стратегий, что ограничивает их способность адаптироваться к сложным, непредвиденным ситуациям. Это приводит к тому, что агенты могут эффективно использовать инструменты, но не могут развивать стратегическое мышление, необходимое для решения сложных задач в области здравоохранения. Проблематика заключается в том, что современные фреймворки ИИ недостаточно адаптивны для динамических и сложных сред, таких как клинические исследования и обработка электронных медицинских карт (ЭМК). Это ограничение становится критичным в контексте решения задач, требующих высокого уровня автономии и адаптивности. Таким образом, необходимо разработать методологии, позволяющие ИИ-агентам не только улучшать свои навыки взаимодействия с инструментами, но и развивать высокоуровневые стратегические навыки. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье представлен HealthFlow, фреймворк, основанный на концепции конформально-ориентированного управления множеством агентов (ConfAgents). HealthFlow предлагает новую методологию, которая позволяет агентам развиваться самостоятельно на мета-уровне. Это достигается за счёт механизма мета-эволюции, который позволяет агентам анализировать свои собственные успехи и неудачи в решении задач, формируя на их основе прочную стратегическую базу знаний. Архитектура HealthFlow включает в себя несколько ключевых компонентов: 1. **Мета-уровень эволюции**: Агенты используют мета-оптимизацию для адаптации своих стратегий на основе прошлых опытов. 2. **Динамическая адаптация**: Агенты могут модифицировать свои поведенческие модели в реальном времени, основываясь на новых данных и обратной связи. 3. **Интеграция с клиническими данными**: Фреймворк предназначен для работы с реальными клиническими данными, включая данные из электронных медицинских карт. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности HealthFlow авторы разработали новый бенчмарк под названием EHRFlowBench. Этот бенчмарк содержит реалистичные клинические задачи, основанные на данных из пиер-ревьюированных исследований. Эксперименты показали, что HealthFlow значительно превосходит современные фреймворки ИИ в сложных задачах анализа клинических данных. Ключевые результаты: - **Превосходство в стратегическом планировании**: HealthFlow достигает высокого уровня автономии и эффективности в решении сложных клинических задач. - **Адаптивность и самостоятельное обучение**: Агенты, основанные на HealthFlow, показали значительно более высокие показатели адаптивности по сравнению с традиционными подходами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный метод имеет широкий спектр применений в области здравоохранения. HealthFlow может быть использован для: - **Оптимизации диагностики**: Автоматизация процесса диагностики на основе данных ЭМК. - **Персонализация лечения**: Адаптация лечебных стратегий к конкретным пациентам на основе их медицинской истории. - **Улучшение исследовательских процессов**: Автоматизация анализа данных в клинических исследованиях, что позволяет ускорить процесс научных открытий. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ HealthFlow является пионерским фреймворком, который сдвигает фокус с создания ИИ-агентов-инструментов на разработку самостоятельно эволюционирующих систем. Это открывает новые возможности для автономных и эффективных решений в области здравоохранения. Будущие исследования могут фокусироваться на дальнейшей оптимизации методологии мета-эволюции и расширении области применения HealthFlow в других сферах медицинских исследований. ```

Annotation:

The efficacy of AI agents in healthcare research is hindered by their reliance on static, predefined strategies. This creates a critical limitation: agents can become better tool-users but cannot learn to become better strategic planners, a crucial skill for complex domains like healthcare. We introduce HealthFlow, a self-evolving AI agent that overcomes this limitation through a novel meta-level evolution mechanism. HealthFlow autonomously refines its own high-level problem-solving policies by ...

ID: 2508.04915v1 cs.AI, cs.CL, cs.MA

arXiv PDF

📄 Taxonomy of Faults in Attention-Based Neural Networks

2025-08-09

Авторы:

Sigma Jahan, Saurabh Singh Rajput, Tushar Sharma, Mohammad Masudur Rahman

## КОНТЕКСТ И ПРОБЛЕМАТИКА Механизмы внимания (attention) стали фундаментальной основой современных нейронных архитектур, лежащих в основе таких систем, как ChatGPT, автономные транспортные средства и другие критически важные приложения. Эти механизмы обеспечивают выдающуюся способность моделей к пониманию контекста, обработке последовательностей и принятию сложных решений, что приводит к значительному экономическому и социальному воздействию. Однако недавние высокопрофильные сбои, включая генерацию бессмысленных ответов ChatGPT и приостановку Google Gemini генерации изображений из-за ошибок весов внимания, выявили критический пробел в понимании и диагностике сбоев в системах на основе внимания. Существующие таксономии сбоев в глубоком обучении, разработанные для традиционных нейронных сетей, не учитывают уникальные особенности механизмов внимания. Эти механизмы вводят новые типы сбоев, связанные с распределением весов внимания, масштабированием, позиционным кодированием и взаимодействием между множественными головами внимания. Отсутствие систематического понимания этих сбоев оставляет практиков без направленной диагностической помощи, что приводит к увеличению времени отладки и потенциально критическим ошибкам в продакшене. Проблема усугубляется экспоненциальным ростом сложности моделей на основе внимания и их широким распространением в продуктах, влияющих на миллионы пользователей. Традиционные методы отладки, такие как визуализация признаков или градиентный анализ, недостаточно эффективны для диагностики проблем, специфичных для механизмов внимания. Требуется новая системная методология для понимания, классификации и диагностики сбоев в этих критически важных системах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представили первое комплексное эмпирическое исследование сбоев в нейронных сетях на основе механизмов внимания (ABNNs). Исследование базируется на систематическом анализе 555 реальных сбоев, собранных из 96 проектов на основе десяти различных фреймворков, включая GitHub, Hugging Face и Stack Overflow. Методология исследования включала несколько этапов. На первом этапе проводился систематический поиск и сбор данных о сбоях в системах на основе внимания. Использовались автоматизированные инструменты для извлечения информации из открытых репозиториев, форумов и систем отслеживания ошибок. Каждый случай сбоя анализировался с использованием структурированной схемы кодирования, включающей контекст сбоя, проявляемые симптомы, архитектурные детали и последствия. На втором этапе осуществлялась классификация сбоев с использованием методов тематического анализа и кластеризации. Команда исследователей разработала новую таксономию, включающую семь категорий сбоев, специфичных для механизмов внимания. Эти категории были разработаны последовательно, начиная с открытого кодирования и заканчивая итеративной ревизией с помощью экспертной валидации. Третий этап включал корневой анализ причин сбоев. Для каждого сбоя идентифицировались первопричины, проявляемые симптомы и архитектурные особенности, способствующие возникновению проблем. Использовались статистические методы для выявления ассоциаций между симптомами и корневыми причинами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Исследование выявило семь уникальных категорий сбоев, специфичных для механизмов внимания, которые не были охвачены существующими таксономиями. Эти категории включают сбои, связанные с масштабированием внимания (scaling), позиционным кодированием (positional encoding), многоголовочным вниманием (multi-head attention), маскированием (masking), распределением весов внимания (attention weight distribution), последовательной зависимостью (sequence dependency) и градиентными потоками (gradient flow issues). Ключевым результатом является то, что более 50% всех проанализированных сбоев в ABNN возникали из-за механизмов, уникальных для архитектур с вниманием. Это подчеркивает фундаментальное различие между сбоями в традиционных нейронных сетях и системами на основе внимания. Анализ симптомов показал, что сбои проявляются в виде различных паттернов: отклонения в распределении весов внимания, нестабильность обучения, деградация производительности

Annotation:

Attention mechanisms are at the core of modern neural architectures, powering systems ranging from ChatGPT to autonomous vehicles and driving a major economic impact. However, high-profile failures, such as ChatGPT's nonsensical outputs or Google's suspension of Gemini's image generation due to attention weight errors, highlight a critical gap: existing deep learning fault taxonomies might not adequately capture the unique failures introduced by attention mechanisms. This gap leaves practitioner...

ID: 2508.04925v1 cs.SE, cs.AI

arXiv PDF

📄 Extending Foundational Monocular Depth Estimators to Fisheye Cameras with Calibration Tokens

2025-08-09

Авторы:

Suchisrit Gangopadhyay, Jung-Hee Kim, Xien Chen, Patrick Rim, Hyoungseob Park, Alex Wong

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА Одним из ключевых направлений в области компьютерного зрения является оценка глубины сцены на основе монокулярных изображений (monocular depth estimation). Несмотря на значительные успехи в этой области, большинство существующих методов ориентированы на работу с перспективными изображениями (perspective images), которые имеют стандартные параметры камеры и минимальные искажения. Однако в реальных сценариях, таких как автономные транспортные системы или робототехника, часто используются фишей-объективы (fisheye lenses), которые обеспечивают большое зрение поля, но вводят значительные искажения. Это создает проблему, так как фундаментальные модели оценки глубины (foundational monocular depth estimators, FMDEs), обученные на перспективных данных, не могут эффективно работать с фишей-изображениями из-за ковариативного сдвига (covariate shift), вызванного изменениями параметров калибровки камеры (intrinsic, distortion). Традиционные подходы к решению этой проблемы включают переобучение (retraining) или дообучение (finetuning) моделей на данных фишей-камер, что требует больших вычислительных ресурсов и доступа к большим наборам данных. Также, методы калибровки и преобразования изображений в канонический кадр могут вводить артефакты и потерю точности. Это подчеркивает необходимость в новом подходе, который мог бы адаптировать FMDEs для работы с фишей-изображениями без необходимости переобучения или тяжелых модификаций в пространстве изображений. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают новый метод, названный **Calibration Tokens**, который позволяет адаптировать FMDEs для фишей-изображений без необходимости в повторном обучении или преобразованиях изображений. Основная идея заключается в использовании Calibration Tokens – легковесных адаптационных механизмов, которые модулируют латентные вложения (latent embeddings) FMDEs для выравнивания их распределения с теми, что были обучены на перспективных изображениях. Calibration Tokens работают в латентном пространстве модели, избегая прямых модификаций в пространстве изображений, что позволяет избежать возникновения артефактов. Этот подход выгоден, поскольку латентное пространство FMDEs уже обладает выразительностью, которая может быть эффективно модифицирована для выравнивания распределений. Метод является self-supervised и не требует доступа к реальным фишей-изображениям для обучения. Вместо этого, он использует публично доступные наборы данных перспективных изображений. Для обучения, перспективные изображения перекалибруются в фишей-изображения, и затем происходит принуждение к согласованности (consistency) между оценками глубины для обоих типов изображений. Это позволяет эффективно переносить знания из перспективных моделей на фишей-камеры. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В экспериментах было продемонстрировано, что метод Calibration Tokens позволяет значительно улучшить точность оценки глубины для фишей-камер по сравнению с состоянием техники. Авторы провели эксперименты на различных FMDEs, включая модели обученные на больших наборах данных перспективных изображений. Результаты показали, что метод не только улучшает точность, но и обеспечивает согласованность оценок глубины между перспективными и фишей-изображениями. Данные для экспериментов были взяты из общедоступных наборов данных, которые включали как внутренние, так и наружные сцены. Метод был протестирован на различных типах сцен, где он показал последовательное улучшение по сравнению с другими подходами. Благодаря единому набору Calibration Tokens, метод демонстрирует высокую эффективность и простоту применения. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значение данного метода заключается в его возможности эффективного использования FMDEs в реальных сценариях, где часто используются фишей-объективы. Это может быть применено в автономных транспортных системах, робототехнике, видеонаблюдении и других областях, где необходима точная оценка глубины с использованием фишей-камер. Преимущества метода включают в себя: - **Быстрая адаптация** без необходимости переобучения модели. - **Снижение затрат вычислительных ресурсов**, так как не требуется фине-тюнинг или создание новых наборов данных. - **Улучшение точности** благодаря эффективной модификации латентных вложений. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В работе был представлен метод Calibration Tokens, который позволяет эффективно адаптировать FMDEs для фишей-камер без необходимости в повторном обучении или преобразованиях изображений. Этот метод является self-supervised и использует публично доступные наборы данных перспективных изображений для обучения. В будущем, данный подход может быть расширен для других типов камер или сцен, а также может быть интегрирован в более широкие системы компьютерного зрения. Он также может быть использован для улучшения точности в других задачах, связанных с обработкой изображений и оценкой глубины.

Annotation:

We propose a method to extend foundational monocular depth estimators (FMDEs), trained on perspective images, to fisheye images. Despite being trained on tens of millions of images, FMDEs are susceptible to the covariate shift introduced by changes in camera calibration (intrinsic, distortion) parameters, leading to erroneous depth estimates. Our method aligns the distribution of latent embeddings encoding fisheye images to those of perspective images, enabling the reuse of FMDEs for fisheye cam...

ID: 2508.04928v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 INTENTION: Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM

2025-08-09

Авторы:

Jin Wang, Weijie Wang, Boyuan Deng, Heng Zhang, Rui Dai, Nikos Tsagarakis

## КОНТЕКСТ И ПРОБЛЕМАТИКА Современная робототехника манипуляции сталкивается с фундаментальным противоречием между теоретической эффективностью и практической применимостью. Традиционные методы управления и планирования манипуляций роботов опираются на точные физические модели и предопределенные последовательности действий. Эти подходы демонстрируют высокую эффективность в структурированных, контролируемых средах, таких как производственные линии или лабораторные условия, где параметры окружающей среды можно точно измерить и предсказать. Однако при переходе в реальные неструктурированные условия эти методы сталкиваются с критическими ограничениями, связанными с неизбежными неточностями моделирования, неопределенностью параметров объектов взаимодействия и невозможностью заранее предусмотреть все возможные сценарии поведения. Проблема усложняется тем, что реальный мир характеризуется огромным разнообразием объектов, каждый из которых обладает уникальными физическими свойствами, геометрией и возможностями взаимодействия. Традиционные системы требуют ручного программирования правил для каждого нового объекта или задачи, что становится практически невозможным при масштабировании. Более того, предопределенные последовательности действий не обеспечивают необходимую адаптивность к изменяющимся условиям среды, что приводит к сбоям даже при незначительных отклонениях от ожидаемого сценария. В контрасте с роботами, человек демонстрирует поразительную способность интуитивно взаимодействовать с окружающей средой, быстро адаптируясь к новым условиям и принимая эффективные решения на основе неявного физического понимания. Человеческое взаимодействие опирается на богатый опыт предыдущих взаимодействий, позволяющий делать обоснованные предположения о свойствах объектов и возможных способах манипуляции без точного знания всех параметров. Это интуитивное понимание включает в себя распознавание физических связей между объектами, понимание их функциональных возможностей (аффордансов) и способность к обобщению знаний на новые ситуации. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанных проблем авторы предлагают революционный фреймворк INTENTION (Inferring Tendencies of Humanoid Robot Motion Through Interactive Intuition and Grounded VLM), который синтезирует достижения в области моделей зрения-языка (VLMs) с механизмами интерактивного обучения. Центральной концепцией фреймворка является создание системы, способной к автономному обучению из взаимодействий с окружающей средой, формируя интуитивное понимание, аналогичное человеческому. Основой архитектуры является Memory Graph - графовая структура данных, которая систематически записывает и организует информацию о сценах из предыдущих взаимодействий с задачами. Этот компонент эмулирует человеческую память о взаимодействиях, сохраняя не только визуальные признаки сцен, но и структурированные представления о физических связях между объектами, последовательности действий и их результаты. Memory Graph использует графовую топологию для представления сложных отношений между элементами сцены, позволяя эффективно запрашивать похожие ситуации из прошлого опыта и делать обобщенные выводы для новых сцен. Следующим ключевым компонентом является Intuitive Perceptor - специализированный модуль, который извлекает физические отношения и аффордансы из визуальных сцен. Этот модуль использует продвинутые компьютерные зрительные техники в сочетании с возможностями современных VLM для понимания контекста сцены. Он способен идентифицировать не только объекты и их позиции, но и фундаментальные физические свойства - такие как масса, стабильность, возможность скольжения или вращения, а также функциональные возможности объектов (например, "ручка позволяет тянуть", "крышка может открываться"). Интеграция этих компонентов реализуется через сложную систему обратной связи, где Intuitive Perceptor обеспечивает текущее понимание сцены, а Memory Graph предлагает контекстуально-зависимые рекомендации на основе истории взаимодействий. Эта архитекктура позволяет роботу делать обоснованные предположения о наиболее эффективных способах взаимодействия с новыми объектами без необходимости в явных инструкциях или точных моделях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ Р

Annotation:

Traditional control and planning for robotic manipulation heavily rely on precise physical models and predefined action sequences. While effective in structured environments, such approaches often fail in real-world scenarios due to modeling inaccuracies and struggle to generalize to novel tasks. In contrast, humans intuitively interact with their surroundings, demonstrating remarkable adaptability, making efficient decisions through implicit physical understanding. In this work, we propose INTE...

ID: 2508.04931v1 cs.RO, cs.AI

arXiv PDF

1
2
1418
1419
1420
1421
1422
1442
1443

Показано 14191 - 14200 из 14425 записей