📚 Саммари научных статей из arXiv

Найдено 14425 результатов по запросу 'cs.AI' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Empowering Time Series Forecasting with LLM-Agents

2025-08-09

Авторы:

Chin-Chia Michael Yeh, Vivian Lai, Uday Singh Saini, Xiran Fan, Yujie Fan, Junpeng Wang, Xin Dai, Yan Zheng

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы прогнозирование временных рядов стало ключевой задачей в различных прикладных областях, от финансовых прогнозов до управления трафиком. Однако традиционные подходы к автоматизации машинного обучения (AutoML) в этой области часто сосредоточены на поиске оптимальных моделей и автоматизации функционального поиска. Несмотря на значительные успехи, эти подходы имеют ограничения, особенно когда речь заходит о качестве данных. Действительно, существующие методы часто игнорируют важность улучшения качества входных данных, которое может иметь значительное влияние на прогнозную точность. В частности, временные ряды часто содержат шум, пропуски и другие аномалии, которые могут существенно повлиять на результаты прогнозирования. Более того, многие модели, особенно легковесные, могут достигать высокой точности, если данные предварительно обработаны и оптимизированы. Это привело к интересу к даноцентрическим подходам, которые стремятся улучшить качество данных вместо того, чтобы фокусироваться исключительно на моделях. В этой статье авторы предлагают исследовать возможности даноцентрического подхода для прогнозирования временных рядов, используя метаданные для оптимизации процесса очистки и подготовки данных. Их целью является разработка агента, который может эффективно использовать метаданные для повышения качества данных и, в конечном счете, улучшить прогнозную точность. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют DCATS (Data-Centric Agent for Time Series), инновационный агент, разработанный для оптимизации прогнозирования временных рядов путем фокусирования на качестве данных. DCATS использует метаданные, которые часто сопровождают временные ряды, для выполнения двух основных задач: очистка данных и оптимизация прогнозирования. Методология DCATS включает в себя несколько этапов. Во-первых, агент анализирует метаданные, такие как метаданные о шуме, пропусках и статистических характеристиках данных. На основе этого анализа он выполняет очистку данных, удаляя или корректируя ненужные или поврежденные части временных рядов. Во-вторых, DCATS использует оптимизированные данные для обучения и тестирования четырех различных моделей прогнозирования временных рядов. Эти модели включают в себя как традиционные, так и более современные подходы к прогнозированию. Затем, используя результаты этих моделей, DCATS выполняет дополнительную оптимизацию, настраивая процесс прогнозирования для достижения наилучших результатов. Архитектура DCATS основана на использовании Large Language Model (LLM) powered agents, которые выполняют роль "планировщиков" в процессе автоматизации. Эти агенты используют естественный язык для взаимодействия с данными и моделями, что позволяет им эффективно выполнять сложные задачи по очистке и оптимизации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DCATS авторы провели эксперименты на большом наборе данных по прогнозированию объемов трафика. Этот набор данных включает в себя различные временные ряды с различными характеристиками, что делает его идеальным для тестирования даноцентрических подходов. В эксперименте были использованы четыре модели прогнозирования временных рядов. Результаты показали, что DCATS достигает среднего уменьшения ошибки прогнозирования на 6% по сравнению с традиционными подходами. Это улучшение было наблюдаемым на различных временных горизонтах, что подтверждает универсальность и эффективность данного подхода. Кроме того, авторы продемонстрировали, что DCATS может адаптироваться к различным типам данных и моделей, что делает его универсальным инструментом для различных задач прогнозирования временных рядов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость DCATS лежит в том, что он предлагает новый подход к прогнозированию временных рядов, который фокусируется на качестве данных вместо моделей. Это может быть особенно полезно в ситуациях, когда данные содержат шум или пропуски, что является распространенной проблемой в реальных данных. Кроме того, DCATS может быть использован в различных приложениях, таких как управление трафиком, финансовые прогнозы и прогнозирование погоды. Его универсальность и способность адаптироваться к различным типам данных делают его привлекательным для различных секторов индустрии. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, DCATS представляет собой важный шаг вперед в области прогнозирования временных рядов. Использование даноцентрического подхода позволяет улучшить качество данных и, как следствие, повысить точность прогнозов. Результаты экспериментов показывают, что этот подход может быть эффективен в различных контекстах и может быть применен в различных областях. В будущем, авторы планируют продолжить исследование DCATS, включая эксперименты на более разнообразных наборах данных и моделях. Они также планируют исследовать возможности интеграции DCATS с другими AutoML системами для дальнейшего улучшения прогнозной точности.

Annotation:

Large Language Model (LLM) powered agents have emerged as effective planners for Automated Machine Learning (AutoML) systems. While most existing AutoML approaches focus on automating feature engineering and model architecture search, recent studies in time series forecasting suggest that lightweight models can often achieve state-of-the-art performance. This observation led us to explore improving data quality, rather than model architecture, as a potentially fruitful direction for AutoML on ti...

ID: 2508.04231v1 cs.LG, cs.AI

arXiv PDF

📄 Circuit-Aware SAT Solving: Guiding CDCL via Conditional Probabilities

2025-08-09

Авторы:

Jiaying Zhu, Ziyang Zheng, Zhengyuan Shi, Yalun Cai, Qiang Xu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В области Электронного Дизайна Автоматизированным Инструментарием (Electronic Design Automation, EDA), проблема Circuit Satisfiability (CSAT) является ключевым элементом для проверки логического эквивалентности (Logical Equivalence Checking, LEC) и других критических задач верификации. Традиционный подход к решению CSAT заключается в преобразовании схем в формулу в Канънской Нормальной Форме (Conjunctive Normal Form, CNF), которая затем обрабатывается общими SAT-решателями, основанными на Conflict-Driven Clause Learning (CDCL). Однако, такое преобразование часто приводит к потере важной структурной и функциональной информации, которая могла бы повысить эффективность решения. Традиционные подходы игнорируют богатую информацию о зависимостях между элементами схем, что может приводить к неоптимальному выбору критических переменных и неэффективному управлению клаузами. Это особенно заметно на крупных и сложных реальных схемах, где традиционные методы могут стать неэффективными из-за высокого уровня комплексности. Таким образом, необходимо разработать методы, которые сохраняют и используют структурную информацию схем напрямую, чтобы повысить эффективность SAT-решателей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы представляют CASCAD, инновационный circuit-aware SAT-решатель, который использует Graph Neural Networks (GNNs) для вычисления условных вероятностей на уровне логических элементов схемы. CASCAD построен на основе GNNs, которые моделируют зависимости между входами и выходами логических гейтов, позволяя эффективно вычислить условные вероятности. Эти вероятности затем используются для динамического руководства двух ключевых компонентов CDCL: выбор фазы переменных (variable phase selection) и управление клаузами (clause management). Ключевым элементом CASCAD является интеграция условных вероятностей непосредственно в процесс CDCL. Это позволяет решателю более информированно выбирать переменные и управлять клаузами на основе структурной информации схемы. Кроме того, CASCAD включает в себя стратегию probability-guided clause filtering, которая позволяет фильтровать клаузы на основе их вероятностей, что еще больше повышает эффективность решателя. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширные эксперименты на реальных бенчмарках LEC для оценки эффективности CASCAD по сравнению со стандартными CNF-based SAT-решателями. Результаты показали, что CASCAD снижает время решения до 10 раз по сравнению со стандартными подходами. Более того, использование probability-guided clause filtering дополнительно уменьшает время решения на 23,5%. Эти результаты демонстрируют значительное улучшение эффективности CASCAD по сравнению с традиционными методами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значеность CASCAD очевидна в контексте EDA, где эффективность SAT-решателей имеет прямое влияние на время и стоимость проектирования и верификации схем. Метод позволяет уменьшить время решения на больших и сложных схемах, что может привести к значительным экономиям времени и ресурсов в процессе разработки. Кроме того, CASCAD может быть интегрирован в существующие EDA инструменты, повышая их эффективность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, CASCAD представляет собой значительный шаг вперед в области SAT-решателей, демонстрируя преимущества использования структурной информации схем напрямую в процессе решения. Будущие исследования могут фокусироваться на дальнейшем улучшении GNN-based моделей и их интеграции с другими EDA инструментами для повышения общей эффективности процесса проектирования и верификации.

Annotation:

Circuit Satisfiability (CSAT) plays a pivotal role in Electronic Design Automation. The standard workflow for solving CSAT problems converts circuits into Conjunctive Normal Form (CNF) and employs generic SAT solvers powered by Conflict-Driven Clause Learning (CDCL). However, this process inherently discards rich structural and functional information, leading to suboptimal solver performance. To address this limitation, we introduce CASCAD, a novel circuit-aware SAT solving framework that direct...

ID: 2508.04235v1 cs.AI

arXiv PDF

📄 Automated ultrasound doppler angle estimation using deep learning

2025-08-09

Авторы:

Nilesh Patil, Ajay Anand

## КОНТЕКСТ И ПРОБЛЕМАТИКА Доплеровская ультразвуковая диагностика является ключевым инструментом в клинической практике для измерения скорости кровотока. Однако точность этого метода существенно зависит от правильности определения угла между направлением луча ультразвука и кровеносной артерией. Неточная оценка этого угла является одной из главных причин ошибок в оценке скорости кровотока, что может приводить к неправильной диагностике состояний, таких как стеноз артерий. Традиционные методы определения угла часто требуют вмешательства опытного оператора, что может быть подвержено субъективности и ошибкам. Авторы статьи выдвигают проблему необходимости автоматизации процесса определения угла в доплеровской ультразвуковой диагностике с целью повышения точности и надежности измерений. Разработка автоматических методов на основе искусственного интеллекта может существенно сократить частоту ошибок, связанных с неточной оценкой угла, и улучшить качество медицинской диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод автоматизации определения угла в доплеровской ультразвуковой диагностике, основанный на технологии глубокого обучения. Для этого было собрано набор данных, состоящий из 2100 изображений ультразвукового сканирования человеческих сосудов. Для улучшения обучения модели были применены методы аугментации изображений. Предлагаемый метод включает в себя использование пяти предварительно обученных нейронных сетей для извлечения признаков из изображений. Затем, эти признаки подаются на вход специально разработанной неглубокой нейронной сети, которая выполняет окончательную оценку угла доплеровского сдвига. Для проверки результатов были проведены сравнения с оценками, полученными вручную экспертами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты для оценки точности предлагаемого метода. Результаты показали, что среднеквадратичная ошибка (Mean Absolute Error, MAE) между автоматическим и ручным определением угла составила от 3.9° до 9.4° в зависимости от используемой модели. Лучшая из моделей дала результат, при котором средняя ошибка была ниже допустимого порога клинических ошибок, что позволяет избежать ошибочной классификации нормальных значений скорости кровотока как стеноза. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный метод имеет значительный потенциал для применения в клинической практике. Автоматизация процесса определения угла в доплеровской ультразвуковой диагностике может улучшить точность измерений, сократить время, затрачиваемое на диагностику, и снизить вероятность ошибок, связанных с человеческим фактором. Такой подход может быть интегрирован в коммерческие ультразвуковые системы, что позволит облегчить работу медицинских работников и повысить качество пациентского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было показано, что применение глубокого обучения для автоматизации определения угла в доплеровской ультразвуковой диагностике может значительно повысить точность измерений. Будущие исследования могут сосредоточиться на улучшении алгоритмов, расширении обучающих данных и внедрении таких методов в клиническую практику.

Annotation:

Angle estimation is an important step in the Doppler ultrasound clinical workflow to measure blood velocity. It is widely recognized that incorrect angle estimation is a leading cause of error in Doppler-based blood velocity measurements. In this paper, we propose a deep learning-based approach for automated Doppler angle estimation. The approach was developed using 2100 human carotid ultrasound images including image augmentation. Five pre-trained models were used to extract images features, an...

ID: 2508.04243v1 cs.LG, cs.AI, I.2.1

arXiv PDF

📄 TalkDep: Clinically Grounded LLM Personas for Conversation-Centric Depression Screening

2025-08-09

Авторы:

Xi Wang, Anxo Perez, Javier Parapar, Fabio Crestani

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблематика диагностики депрессии становится все более актуальной в свете роста спроса на психиатрические услуги, который значительно превышает доступные ресурсы для обучения клинических специалистов. Этот дефицит ресурсов ограничивает возможности для адекватного обучения и оценки профессионалов в области психического здоровья. Для улучшения этой ситуации, исследования в области интеллектуальных систем часто ориентируются на создание симулированных пациентов, которые могут имитировать различные клинические симптомы. Однако существующие подходы к созданию таких симуляторов часто сталкиваются с трудностями в обеспечении клинической валидности, естественности и разнообразия представленных симптомов. Основным препятствием является нехватка высококачественных данных, необходимых для обучения моделей, которые могли бы точно имитировать различные проявления депрессии. Кроме того, многие существующие модели не учитывают контекстуальные факторы, такие как индивидуальные различия пациентов, что может привести к недостаточной точности диагностики. Это вызывает потребность в разработке более надлежащих и клинически обоснованных методов для создания симулированных пациентов, которые могут быть использованы для обучения и оценки систем автоматической диагностики депрессии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый подход, основанный на использовании языковых моделей (LLM) для создания симулированных пациентов в рамках проекта TalkDep. Основная идея заключается в использовании клинициста в качестве консультанта (clinician-in-the-loop) для создания подробных и клинически обоснованных профилей пациентов. Эти профили базируются на критериях диагностики депрессии, шкалах оценки симптомов и контекстуальных факторах, что позволяет генерировать более аутентичные и разнообразные ответы пациентов. Архитектура TalkDep включает несколько этапов. Вначале, клиницисты создают профили пациентов, опираясь на психиатрические критерии диагностики и шкалы оценки симптомов. Затем, языковая модель используется для генерирования диалоговых ответов пациентов, которые соответствуют их профилям. Этот процесс поддерживается клиницистами, которые обеспечивают контроль качества и доработку модели. Использование клинических критериев и контекстуальных факторов позволяет создавать более точные и естественные симуляции, что является ключевым преимуществом данного подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного подхода были проведены эксперименты, в которых участвовали клинические профессионалы. Они оценивали аутентичность и клиническую валидность симулированных ответов пациентов, сгенерированных TalkDep. Результаты показали, что симулированные пациенты, созданные с помощью данного подхода, были оценены как высокоаутентичные и клинически валидные. Кроме того, была проведена оценка качества диалогов, созданных моделью, в сравнении с другими существующими подходами. TalkDep показал значительное улучшение в естественности и разнообразии симулированных ответов, что подтверждает его потенциал для использования в обучении и оценке систем автоматической диагностики депрессии. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкий круг применения в области ментального здоровья. TalkDep может быть использован для обучения клиническим специалистам, оценки систем автоматической диагностики депрессии и создания более надлежащих моделей для диагностики. Благодаря возможности генерирования разнообразных и клинически валидных симуляций, этот подход может значительно улучшить качество обучения и оценки клинических систем. Кроме того, TalkDep может быть адаптирован для использования в различных клинических сценариях, включая обучение студентов медицинских вузов и профессионалов в области психического здоровья. Это позволяет создать более доступные и масштабируемые ресурсы для обучения и оценки, что является важной составляющей в борьбе с дефицитом квалифицированных специалистов в этой области. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был предложен инновационный подход к созданию симулированных пациентов для диагностики депрессии, основанный на языковых моделях и клинической экспертизе. Результаты показали высокую аутентичность и клиническую валидность симулированных пациентов, что демонстрирует потенциал данного метода для улучшения обучения и оценки систем автоматической диагностики. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая расширение базы данных клинических профилей и интеграцию дополнительных контекстуальных факторов. Также важно продолжать исследования в области адаптации данного подхода для различных клинических сценариев и обеспечения его масштабируемости на большие наборы данных.

Annotation:

The increasing demand for mental health services has outpaced the availability of real training data to develop clinical professionals, leading to limited support for the diagnosis of depression. This shortage has motivated the development of simulated or virtual patients to assist in training and evaluation, but existing approaches often fail to generate clinically valid, natural, and diverse symptom presentations. In this work, we embrace the recent advanced language models as the backbone and...

ID: 2508.04248v1 cs.CL, cs.AI

arXiv PDF

📄 Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Annotation:

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...

ID: 2508.04260v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 SelectiveShield: Lightweight Hybrid Defense Against Gradient Leakage in Federated Learning

2025-08-09

Авторы:

Borui Li, Li Yan, Jianmin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Federated Learning (FL) является передовым подходом к коллаборативному обучению моделей на децентрализованных данных, который позволяет сохранять конфиденциальность данных на клиентских устройствах. Однако FL незащищен от рисков, связанных с **gradient leakage attacks**, которые могут позволить злоумышленникам восстановить чувствительную информацию о данных пользователей на основе градиентов, передаваемых в процессе обучения. Традиционные методы защиты, такие как **differential privacy (DP)** и **homomorphic encryption (HE)**, часто вводят значительный компромисс между конфиденциальностью, качеством модели и вычислительными затратами. Этот компромисс становится особенно критичным в **heterogeneous environments**, где данные клиентов неидентичны (non-IID), а возможности устройств различаются. Проблематика заключается в необходимости разработки метода, который бы обеспечил высокую конфиденциальность, сохраняя при этом высокую эффективность модели и умеренные вычислительные накладные расходы. Кроме того, важно учитывать требования **personalization**, где клиенты могут иметь уникальные локальные нужды, которые не должны быть скомпрометированы в процессе глобального обучения. Настоящие методы защиты часто недостаточно адаптивны к различиям между клиентами, что может привести к неэффективности защиты или ухудшению производительности модели. Таким образом, существует актуальная необходимость в разработке гибридного подхода, который мог бы комбинировать преимущества разных методов защиты, с учетом разнообразия данных и возможностей клиентов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **SelectiveShield**, легковесный гибридный фреймворк защиты, который интегрирует **selective homomorphic encryption** и **differential privacy** для защиты от gradient leakage. Основная идея заключается в адаптивном выборе параметров, которые требуют защиты, на основе **Fisher information**. 1. **Локальная квантификация чувствительности:** Каждый клиент вычисляет **Fisher information** для своих локальных данных, чтобы определить чувствительность параметров модели. Эта информация используется для определения критических параметров, которые требуют защиты. 2. **Коллаборативный протокол согласования:** Клиенты согласовываются по отношению к набору критических параметров, которые будут защищены с помощью **homomorphic encryption**. Это позволяет сократить вычислительные затраты, защищая только наиболее важные параметры. 3. **Локальное хранение уникальных параметров:** Параметры, которые важны только для конкретного клиента, хранятся локально, что позволяет поддерживать **personalization** без риска утечки информации. 4. **Адаптивное применение DP:** Остальные некритические параметры защищаются с помощью **differential privacy noise**, который применяется адаптивно в зависимости от контекста. Этот подход позволяет обеспечить баланс между конфиденциальностью, качеством модели и вычислительной эффективностью, а также поддерживает **scalability** в реальных системах FL. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на различных датасетах, включая non-IID данные, для оценки эффективности **SelectiveShield** по сравнению с существующими методами. - **Данные:** Использовались датасеты с различным уровнем разнообразия данных клиентов. - **Метрики:** Оценивались **model utility** (точность модели), **privacy leakage** (уровень утечки градиентов), и **computational overhead** (вычислительные затраты). - **Результаты:** SelectiveShield демонстрирует значительное снижение риска утечки градиентов в сравнении с методами, основанными только на DP или HE. Он также показывает сохранение высокого качества модели, даже при высокой неидентичности данных клиентов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SelectiveShield имеет широкое применение в реальных сценариях FL, где клиенты могут иметь разнообразные данные и ограниченные вычислительные ресурсы. Он предлагает: - **Персонализацию:** Локальное хранение уникальных параметров поддерживает индивидуальные потребности клиентов. - **Масштабируемость:** Легковесная архитектура позволяет эффективно использовать метод в системах с ограниченными ресурсами. - **Применимость в реальном мире:** Метод может быть интегрирован в существующие системы FL для повышения конфиденциальности без значительного увеличения вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SelectiveShield представляет собой эффективное решение для защиты от gradient leakage в FL, которое сочетает в себе преимущества homomorphic encryption и differential privacy. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности метода для более сложных сценариев и расширении его применимости к другим типам моделей и данных.

Annotation:

Federated Learning (FL) enables collaborative model training on decentralized data but remains vulnerable to gradient leakage attacks that can reconstruct sensitive user information. Existing defense mechanisms, such as differential privacy (DP) and homomorphic encryption (HE), often introduce a trade-off between privacy, model utility, and system overhead, a challenge that is exacerbated in heterogeneous environments with non-IID data and varying client capabilities. To address these limitation...

ID: 2508.04265v1 cs.DC, cs.AI, cs.CR

arXiv PDF

📄 A Visual Tool for Interactive Model Explanation using Sensitivity Analysis

2025-08-09

Авторы:

Manuela Schuler

**Резюме** В статье представлен SAInT, инструмент на базе Python для визуального анализа и объяснения поведения моделей машинного обучения (ML) с использованием методов чувствительности. Инструмент решает проблему недостаточного понимания моделей ML, обеспечивая интерактивный интерфейс для конфигурирования, обучения, оценки и объяснения моделей без необходимости программирования. SAInT поддерживает Human-in-the-Loop (HITL) рабочие процессы, позволяя исследователям и доменным экспертам взаимодействовать с моделями на глобальном и локальном уровнях. Глобальная атрибуция функций основана на методе чувствительности по дисперсии, а локальные объяснения предоставляются с помощью LIME и SHAP. На примере задачи классификации для прогнозирования выживаемости на Titanic демонстрируется, как SAInT может оптимизировать выбор функций и улучшить качество данных.

Annotation:

We present SAInT, a Python-based tool for visually exploring and understanding the behavior of Machine Learning (ML) models through integrated local and global sensitivity analysis. Our system supports Human-in-the-Loop (HITL) workflows by enabling users - both AI researchers and domain experts - to configure, train, evaluate, and explain models through an interactive graphical interface without programming. The tool automates model training and selection, provides global feature attribution usi...

ID: 2508.04269v1 cs.LG, cs.AI

arXiv PDF

📄 A Few Words Can Distort Graphs: Knowledge Poisoning Attacks on Graph-based Retrieval-Augmented Generation of Large Language Models

2025-08-09

Авторы:

Jiayi Wen, Tianxin Chen, Zhirun Zheng, Cheng Huang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Graph-based Retrieval-Augmented Generation (GraphRAG) представляет собой передовой подход к улучшению функциональности крупных языковых моделей (Large Language Models, LLMs), который заключается в преобразовании неструктурированного текста в структурированные знанительные графы. Этот подход позволяет значительно повысить точность и интерпретируемость результатов, особенно в задачах, требующих глубокого понимания и вывода. Однако, несмотря на его преимущества, GraphRAG зависит от точности и целостности процесса извлечения знаний, который осуществляется с помощью LLMs. Этот этап уязвим к воздействию вредоносных акторов, которые могут искажать генерируемые графы, внедряя в них поддельную информацию. Существующие исследования показывают, что атаки на знанительные системы часто фокусируются на непосредственном изменении данных или моделей. Однако, в случае GraphRAG, даже небольшие изменения в исходном тексте могут привести к существенным искажениям в построенном графе, что может оказать значительное влияние на результаты вывода. Эта уязвимость вызывает серьёзные проблемы в отношении безопасности и надежности GraphRAG-систем, особенно в приложениях, где точность вывода имеет критическую важность. Мотивацией данного исследования является идентификация и исследование возможных векторов атак на GraphRAG, особенно таких, которые могут быть выполнены с минимальными изменениями в исходном тексте. Авторы предлагают два типа знанительных отравлений (Knowledge Poisoning Attacks, KPAs), которые демонстрируют, как небольшие, но целенаправленные изменения в тексте могут серьёзно повлиять на качество и точность вывода GraphRAG-систем. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают два типа знанительных отравлений: Targeted KPA (TKPA) и Universal KPA (UKPA). **Targeted KPA (TKPA)** основывается на графотеоретическом анализе для идентификации уязвимых узлов в графе. Эти узлы соответствуют ключевым частям текста, которые могут быть изменены для достижения конкретных целей, таких как искажение ответов на конкретные вопросы. Атака использует LLMs для редактирования этих узлов таким образом, чтобы изменения были незаметны для человека, но при этом имели значительное влияние на вывод системы. TKPA достигает высокой степени управляемости, с успешной манипуляцией ответами на вопросы в 93,1% случаев, при этом сохраняя естественность и флуэнтность текста. **Universal KPA (UKPA)**, напротив, нацелен на глобальные изменения в графе, используя лингвистические особенности, такие как местоимения и зависимости в структуре текста. UKPA изменяет ключевые слова, которые влияют на целостность графа, приводя к серьёзным искажениям в выводе. Эта атака требует изменения менее 0,05% от общего объёма текста, но при этом приводит к снижению точности ответов с 95% до 50%. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели широкий спектр экспериментов для оценки эффективности предложенных атак. Использовались различные наборы данных, включая тексты различной сложности и объёма. Результаты показали, что TKPA может точно контролировать вывод GraphRAG в отношении конкретных вопросов, с высокой степенью успешности. UKPA, с другой стороны, демонстрирует более широкое воздействие, серьёзно понижая общую точность системы. Кроме того, эксперименты показали, что современные методы защиты от атак не способны эффективно обнаруживать или предотвращать KPAs, что подчеркивает необходимость разработки новых подходов к безопасности GraphRAG-систем. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Результаты данного исследования имеют значительное практическое значение для областей, где GraphRAG используется для критически важных приложений, таких как медицинский диагноз, юридический анализ и финансовые прогнозы. Уязвимость GraphRAG к знанительным отравлениям подчеркивает необходимость в разработке более надёжных методов защиты и валидации генерируемых графов. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Данное исследование демонстрирует, что даже небольшие изменения в исходном тексте могут иметь серьёзное влияние на функциональность GraphRAG-систем. Это вызывает острую необходимость в разработке новых методов защиты и детектирования атак. Будущие исследования могут фокусироваться на разработке более продвинутых методов для обнаружения и предотвращения знанительных отравлений, а также на создании более устойчивых архитектур GraphRAG.

Annotation:

Graph-based Retrieval-Augmented Generation (GraphRAG) has recently emerged as a promising paradigm for enhancing large language models (LLMs) by converting raw text into structured knowledge graphs, improving both accuracy and explainability. However, GraphRAG relies on LLMs to extract knowledge from raw text during graph construction, and this process can be maliciously manipulated to implant misleading information. Targeting this attack surface, we propose two knowledge poisoning attacks (KPAs...

ID: 2508.04276v1 cs.CL, cs.AI

arXiv PDF

📄 Large Language Model's Multi-Capability Alignment in Biomedical Domain

2025-08-09

Авторы:

Wentao Wu, Linqing Chen, Hanmeng Zhong, Weilei Wang

## КОНТЕКСТ И ПРОБЛЕМАТИКА Развитие искусственного интеллекта (ИИ) в сфере биомедицинских приложений сталкивается с существенными вызовами, связанными с необходимостью обеспечить высокую точность, надежность и безопасность при решении многофункциональных задач. Традиционные модели ИИ, ориентированные на одну задачу, часто не могут эффективно объединять различные способности, такие как медицинское знание, логическое мышление и способность к выполнению инструкций. Это приводит к проблемам, включающим в себя несогласованность, потерю точности и риски неправильного применения в клинической практике. Одной из главных проблем является "вмешательство способностей" (capability interference), когда несколько функций модели конфликтуют друг с другом, приводя к ухудшению качества и нестабильности. Более того, безопасность и точность клинических решений требуют не только глубокого понимания медицинских знаний, но и соблюдения строгих клинических стандартов. Исследование, основанное на рамках BalancedBio, предлагает решение для этих проблем путем разработки комплексной методологии для многоспособности и безопасности в биомедицинском домене. Целью является создание эффективной, надежной и безопасной модели, способной обеспечить высокоточное медицинское мышление и применение в реальных условиях. ## ПРЕДЛОЖЕННЫЙ МЕТОД BalancedBio представляет собой параметрически-эффективную платформу, основанную на теоретически обоснованном подходе к решению проблемы многоспособного выравнивания в биомедицинском контексте. Основные компоненты методологии включают: 1. **Medical Knowledge Grounded Synthetic Generation (MKGSG)**: Этот подход расширяет метод Source2Synth путем внедрения клинических ограничений и валидации на основе медицинской онтологии. Это обеспечивает высокую точность и соответствие клиническим стандартам при генерации синтетических данных. 2. **Capability Aware Group Relative Policy Optimization (CAG-RPO)**: Этот метод оптимизирует гибридные награды для обеспечения сохранения ортогональности между способностями во время обучения с подкреплением (RL). Он использует модель наград, сочетающую правилами основанные и модельными оценками, адаптированные к биомедицинским задачам. Теоретический анализ доказывает, что такой подход обеспечивает Парето-оптимальное сходимость, сохраняя высокую производительность в различных способностях. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Эксперименты проводились на базе данных BIOMED-MMLU, охватывающей различные биомедицинские задачи. Модель BalancedBio достигла выдающихся результатов: - **Доменная экспертиза**: 80.95% (+15.32% по сравнению с базовой моделью). - **Логическое мышление**: 61.94% (+7.75%). - **Выполнение инструкций**: 67.95% (+6.44%). - **Интеграция способностей**: 86.7% (+18.5%). Кроме того, модель доказала свою эффективность в реальном мире, уменьшив затраты на 78%, повысив точность диагностики на 23% и обеспечив высокую доверительность клиницистов (89%). ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ BalancedBio имеет широкий спектр приложений в биомедицинской практике, включая диагностику, лечение и поддержку клинических решений. Его преимущества включают высокую точность, безопасность, экономическую эффективность и удобство использования. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ BalancedBio устанавливает новый стандарт для многоспособного выравнивания в биомедицинском ИИ. Будущие направления исследований могут включать расширение модели для обработки более широких клинических сценариев и интеграцию с другими доменными знаниями.

Annotation:

BalancedBio is a theoretically grounded framework for parameter-efficient biomedical reasoning, addressing multi-capability integration in domain-specific AI alignment. It establishes the Biomedical Multi-Capability Convergence Theorem, proving orthogonal gradient spaces are essential to prevent capability interference for safe deployment. Key innovations include: (1) Medical Knowledge Grounded Synthetic Generation (MKGSG), extending Source2Synth with clinical workflow constraints and medical on...

ID: 2508.04278v1 cs.AI

arXiv PDF

1
2
1412
1413
1414
1415
1416
1442
1443

Показано 14131 - 14140 из 14425 записей