📚 Саммари научных статей из arXiv

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 ReasoningGuard: Safeguarding Large Reasoning Models with Inference-time Safety Aha Moments

2025-08-09

Авторы:

Yuquan Wang, Mi Zhang, Yining Wang, Geng Hong, Xiaoyu You, Min Yang

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы Large Reasoning Models (LRMs) достигли значительных успехов в решении задач, требующих сложного резонующего мышления. Однако, несмотря на их продвинутость, эти модели по-прежнему уязвимы к генерации вредного контента, особенно на средних и поздних этапах своего процесса резонирования. Это является критической проблемой, поскольку неконтролируемая генерация может привести к распространению небезопасной или неэтичной информации. Существующие методы защиты, такие как fine-tuning и добавление экспертного знания, хоть и эффективны, но имеют существенные ограничения. Они часто требуют больших затрат на вычисления и управление, что делает их маломально масштабируемыми для практического применения. Кроме того, эти методы могут неэффективно справляться с новыми типами атак, особенно теми, которые нацелены на процесс резонирования моделей. Таким образом, существует потребность в разработке более эффективных и менее затратных методов защиты, которые могут обеспечить безопасность в процессе резонирования без необходимости дорогостоящих модификаций моделей. Это то место, где ReasoningGuard может сыграть ключевую роль. ## ПРЕДЛОЖЕННЫЙ МЕТОД ReasoningGuard представляет собой метод защиты, работающий во время вывода (inference-time), который инжектирует "aha moments" — точки безопасного отражения — для направления модели к безопасному и полезному резонующему процессу. Основная идея заключается в том, чтобы использовать внутреннее поведение внимания модели для того, чтобы точно определять критические моменты в процессе резонирования. В техническом плане, ReasoningGuard работает на основе мониторинга внутренних сигналов модели, таких как attention maps, чтобы выявить ключевые точки, где модель может потенциально сделать небезопасный выбор. Когда такая точка обнаружена, ReasoningGuard инициирует рефлексивный процесс, который помогает модели избежать небезопасных действий. Этот процесс рефлексии не только помогает избежать ошибок в текущем шаге, но также влияет на последующие шаги резонирования. Кроме того, ReasoningGuard использует стратегию scaling sampling во время декодирования, что позволяет выбирать оптимальный путь резонирования. Этот подход не только улучшает безопасность, но также помогает избежать чрезмерной строгости в безопасности, что может привести к неправильным или неестественным ответам. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности ReasoningGuard были проведены ряд экспериментов, использующих различные наборы данных и сценарии атак. Данные для экспериментов включали в себя различные типы задач, требующих резонирования, включая задачи, связанные с рискованными или неэтичными вопросами. ReasoningGuard был протестирован против трех типов jailbreak attacks, включая самые новые атаки, нацеленные на процесс резонирования LRMs. Результаты показали, что ReasoningGuard успешно справляется с этими атаками, показывая значительное улучшение по сравнению с существующими методами защиты. Кроме того, ReasoningGuard также был сравнен с семью другими методами защиты. Результаты показали, что ReasoningGuard не только эффективен в защите от атак, но также избегает общих проблем, таких как чрезмерная строгость в безопасности, которая может привести к неточным или неестественным ответам. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ ReasoningGuard имеет широкое применение в различных областях, где безопасность и этика генерации контента играют ключевую роль. Например, он может быть использован в областях, связанных с поддержкой пользователей, образованием, медицинской диагностике, и даже в системах поддержки принятия решений. Одним из ключевых преимуществ ReasoningGuard является его низкий уровень дополнительных затрат на вычисления, что делает его более масштабируемым для практического применения. Более того, он может быть легко интегрирован в существующие модели без необходимости многочисленных изменений в архитектуре модели. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ ReasoningGuard представляет собой важный шаг в направлении создания более безопасных и этических LRMs. Он эффективен в защите от различных типов атак, обеспечивая безопасность в процессе резонирования без необходимости дорогостоящих модификаций. В будущем, ReasoningGuard может быть расширен для работы с более широким классом моделей и задач, а также может быть адаптирован для работы в реальном времени. Это может открыть новые возможности для применения LRMs в критически важных областях, где безопасность и этика играют решающую роль.

Annotation:

Large Reasoning Models (LRMs) have demonstrated impressive performance in reasoning-intensive tasks, but they remain vulnerable to harmful content generation, particularly in the mid-to-late steps of their reasoning processes. Existing defense mechanisms, however, rely on costly fine-tuning and additional expert knowledge, which restricts their scalability. In this work, we propose ReasoningGuard, an inference-time safeguard for LRMs, which injects timely safety aha moments to steer harmless whi...

ID: 2508.04204v1 cs.CL, cs.AI

arXiv PDF

📄 A Hybrid AI Methodology for Generating Ontologies of Research Topics from Scientific Paper Corpora

2025-08-09

Авторы:

Alessia Pisu, Livio Pompianu, Francesco Osborne, Diego Reforgiato Recupero, Daniele Riboni, Angelo Salatino

## КОНТЕКСТ И ПРОБЛЕМАТИКА Разработка таксономий и онтологий исследовательских тем является ключевой задачей в области управления научным знанием. Такие ресурсы, например, MeSH, UMLS, CSO или NLM, обеспечивают основу для интеллектуальных систем, позволяющих анализировать и интерпретировать научную литературу. Однако традиционные подходы к созданию таких онтологий основывались на ручном кураторстве, что характеризуется высокой трудоемкостью, подверженностью устареванию и ограниченностью в гранулярности. Эти ограничения существенно снижают эффективность их использования в современных интеллектуальных системах. Проблема ускорения и улучшения процесса создания таксономий становится все более актуальной с увеличением объемов научных публикаций. Традиционные методы не справляются с высокой скоростью появления новых тем и их взаимосвязей. Кроме того, существующие онтологии часто не обладают достаточной детализацией для эффективного использования в современных приложениях, таких как научные системы поиска, рекомендательные системы или инструменты для анализа литературы. В данной работе предлагается решение этих проблем путем разработки методологии Sci-OG, которая объединяет автоматизированные и полуавтоматизированные подходы. Целью является создание более точных, актуальных и гранулярных онтологий исследовательских тем за счет интеграции технологий естественного языка и машинного обучения. ## ПРЕДЛОЖЕННЫЙ МЕТОД Методология Sci-OG основывается на трех основных этапах: 1) Topic Discovery, 2) Relationship Classification, и 3) Ontology Construction. На этапе Topic Discovery выявляются потенциальные исследовательские темы путем анализа научных статей. Этот процесс основывается на идентификации ключевых фраз и терминов, которые потенциально могут представлять собой новые или существующие темы. На втором этапе, Relationship Classification, выполняется классификация семантических взаимосвязей между парами тем. Основным компонентом этого этапа является интеграция модели языка на основе энкодера с дополнительными признаками, описывающими встречаемость тем в научной литературе. Это позволяет точнее определять семантические отношения, такие как родственные, иерархические или ассоциативные связи между темами. На последнем этапе, Ontology Construction, производится организация и обогащение полученных тем в структурированную онтологию. Этот шаг включает в себя уточнение и переорганизацию взаимосвязей, создание иерархической структуры и проверку консистенции. Решение интегрирует энкодер-основу языковой модели совместно с метриками встречаемости тем, что позволяет достичь высокой точности классификации. Этот подход был протестирован на датасете из 21 649 ручной аннотации семантических троек, показав высокую эффективность. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки методологии Sci-OG был использован датасет, содержащий 21 649 семантических троек, которые были ручной аннотированы. Эксперименты проводились сравнением с несколькими альтернативными подходами, включая SciBERT и другие модели языкового моделирования, такие как GPT4-mini. Результаты показали, что Sci-OG достигает наивысшего значения F1-меры (0.951), превосходя другие модели. Кроме того, был проведен исследовательский кейс, в котором Sci-OG была применена для расширения онтологии CSO в области кибербезопасности. Этот кейс демонстрирует практическую эффективность методологии в реальных условиях. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемая методология имеет широкие возможности применения в области управления научным знанием. Sci-OG позволяет автоматизировать и ускорить процесс создания и обновления онтологий, что важно в условиях быстрого роста научных публикаций. Это открывает новые возможности для улучшения научных поисковых систем, рекомендательных сервисов и инструментов анализа литературы. Кроме того, Sci-OG может быть использована для расширения существующих онтологий, таких как CSO, в различных научных областях, что позволяет повысить их актуальность и гранулярность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Разработанная методология Sci-OG является важной шагом вперед в области автоматизации создания онтологий исследовательских тем. Её высокая точность и эффективность демонстрируют потенциал для практического использования в различных научных и технологических областях. В будущем можно рассмотреть возможность дальнейшего улучшения модели за счет интеграции более продвинутых языковых моделей и увеличения разнообразия данных для обучения. Также предлагается исследовать возможности применения этого подхода к другим областям, таким как медицина, биология или социальные науки.

Annotation:

Taxonomies and ontologies of research topics (e.g., MeSH, UMLS, CSO, NLM) play a central role in providing the primary framework through which intelligent systems can explore and interpret the literature. However, these resources have traditionally been manually curated, a process that is time-consuming, prone to obsolescence, and limited in granularity. This paper presents Sci-OG, a semi-auto\-mated methodology for generating research topic ontologies, employing a multi-step approach: 1) Topic ...

ID: 2508.04213v1 cs.DL, cs.AI, cs.IR

arXiv PDF

📄 Symmetric Behavior Regularization via Taylor Expansion of Symmetry

2025-08-09

Авторы:

Lingwei Zhu, Zheng Chen, Han Wang, Yukie Nagai

## КОНТЕКСТ И ПРОБЛЕМАТИКА В области обучения с подкреплением (Reinforcement Learning, RL) одной из ключевых задач является построение эффективных алгоритмов для политик управления. Одним из подходов к решению этой задачи является политика оптимизации с регуляризацией поведения (Behavior Regularization Policy Optimization, BRPO). Традиционные подходы, такие как регуляризация с использованием разности Кульбака-Лейблера (KL), основываются на асимметричных метриках различий между политиками. Однако такие методы имеют определенные ограничения, в том числе невозможность получения аналитической формы регуляризированной политики при использовании симметричных разностей, таких как $f$-разности. Симметричные разности являются более общими и гибкими инструментами для регуляризации, но их применение в BRPO сталкивается с серьезными вычислительными и численными проблемами. Традиционные методы не могут эффективно использовать симметричные разности из-за отсутствия аналитических решений и потенциальных трудностей с численной устойчивостью. Эта проблема мотивирует разработку новых методов, которые могли бы эффективно использовать симметричные разности для регуляризации в BRPO. Таким образом, целью данного исследования является создание нового метода, который позволит преодолеть трудности, связанные с использованием симметричных разностей, и обеспечить эффективную регуляризацию в BRPO. Авторы предлагают использовать ряд Тейлора для $f$-разностей для решения этих проблем, что является новаторским подходом в данной области. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной статье авторы предлагают метод политики регуляризации, основанный на ряде Тейлора для симметричных разностей. Основная идея заключается в том, чтобы использовать ряд Тейлора для аппроксимации $f$-разностей, что позволяет получить аналитическую форму регуляризированной политики. Авторы доказывают, что при использовании конечного числа членов ряда Тейлора можно получить аналитическое решение для регуляризированной политики, что является ключевым достижением. Для решения проблемы численной устойчивости, авторы предлагают разделить симметричную разность на асимметричную и симметричную составляющие. Затем, они используют ряд Тейлора для аппроксимации симметричной составляющей, что помогает уменьшить численные проблемы. Этот подход позволяет создать первый практически применимый алгоритм BRPO, основанный на симметричных разностях, который называется Symmetric $f$ Actor-Critic (S$f$-AC). Алгоритм S$f$-AC сочетает в себе преимущества симметричных разностей и ряда Тейлора, что позволяет обеспечить высокую эффективность и устойчивость алгоритма. Авторы также представляют математические доказательства эффективности их подхода, что делает его надежным и практичным для применения в реальных задачах. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы проводят эксперименты на двух видах задач: задаче аппроксимации распределения и задаче MuJoCo. На первой задаче, они проверяют качество аппроксимации распределения с помощью их метода. Результаты показывают, что S$f$-AC достигает высокой точности в аппроксимации распределения, что говорит о его эффективности в решении этой задачи. На второй задаче, которая проводится в среде MuJoCo, авторы сравнивают S$f$-AC с другими современными методами BRPO. Результаты показывают, что S$f$-AC демонстрирует конкурентоспособные результаты, превосходя другие методы в некоторых случаях. Это подтверждает практическую значимость их метода и его возможность быть эффективным в реальных задачах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод S$f$-AC имеет широкое применение в области обучения с подкреплением, особенно в задачах, где важна точная регуляризация поведения. Он может быть использован в различных приложениях, таких как робототехника, автономные системы и игры. Благодаря его эффективности и устойчивости, S$f$-AC может стать важной составляющей в разработке интеллектуальных систем, которые могут адаптироваться к сложным средам. Кроме того, метод может быть использован для улучшения существующих алгоритмов обучения с подкреплением, особенно в тех случаях, где требуется более тонкая регуляризация поведения. Это может привести к значительным улучшениям в производительности и качестве политик управления. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В данной статье представлен новый метод Symmetric $f$ Actor-Critic (S$f$-AC), который использует ряд Тейлора для симметричных разностей в BRPO. Этот метод предлагает эффективное решение проблем, связанных с использованием симметричных разностей, и демонстрирует высокую эффефиктивность в экспериментах. В будущем, авторы планируют расширить их метод для решения более сложных задач, включая задачи с высокой размерностью и нелинейными системами. Также, они планируют исследовать возможности применения их метода в задачах с неопределенными или частично известными данными. Эти направления исследований могут привести к дальнейшему улучшению методов обучения с подкреплением и их применения в реальных задачах.

Annotation:

This paper introduces symmetric divergences to behavior regularization policy optimization (BRPO) to establish a novel offline RL framework. Existing methods focus on asymmetric divergences such as KL to obtain analytic regularized policies and a practical minimization objective. We show that symmetric divergences do not permit an analytic policy as regularization and can incur numerical issues as loss. We tackle these challenges by the Taylor series of $f$-divergence. Specifically, we prove tha...

ID: 2508.04225v2 cs.LG, cs.AI

arXiv PDF

📄 LayerT2V: Interactive Multi-Object Trajectory Layering for Video Generation

2025-08-09

Авторы:

Kangrui Cen, Baixuan Zhao, Yi Xin, Siqi Luo, Guangtao Zhai, Xiaohong Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Реализация контролируемого генеративного моделирования видео из текстового описания (Text-to-Video, T2V) является актуальной проблемой в области компьютерного зрения. Особенно сложной задачей является управление траекториями движения объектов в сценах с несколькими движущимися объектами. Большинство моделей и датасетов в области T2V разработаны с учетом движения одного объекта, что существенно ограничивает возможности текущих генеративных моделей при работе с многообъектными сценами. Существующие подходы к контролю движения объектов в T2V часто не поддерживают сцены с несколькими перемещающимися объектами или значительно теряют в эффективности при возникновении пересечений траекторий. Такие коллизии приводят к семантическим конфликтам в областях пересечения, что осложняет создание когерентных видео. Таким образом, необходимо разработать метод, который позволит эффективно контролировать траектории нескольких объектов, избегая конфликтов и обеспечивая высокое качество синтеза. Вводная задача состоит в том, чтобы создать метод, позволяющий разделять объекты на разные слои в процессе генерации, чтобы каждый объект мог быть синтезирован независимо от других. Такой подход должен улучшить контроль над процессом генерации и повысить качество видео в многообъектных сценах. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения описанной проблемы авторы предлагают метод LayerT2V, который основывается на построении видео путем послойной композиции фона и объектов переднего плана. Каждый объект помещается на отдельный "слой", что позволяет изолировать его траекторию от других объектов. Этот подход обеспечивает гибкое интегрирование независимых элементов видео, улучшая контроль над процессом генерации. LayerT2V работает в несколько этапов. Сначала формируется фоновый слой, затем добавляются объекты переднего плана, каждый из которых располагается на своем слое. Это позволяет избегать семантических конфликтов при пересечении траекторий, так как каждый объект обрабатывается независимо. Также метод включает механизмы для обеспечения когерентности между слоями, что позволяет создавать более естественные и реалистичные видео. Архитектура LayerT2V включает модули для генерации фона, распознавания и отслеживания объектов, а также модули для их послойной композиции. Эти модули работают совместно, обеспечивая высокую точность и качество генерации видео. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели ряд экспериментов для оценки эффективности LayerT2V. Испытания проводились на датасетах, содержащих сцены с несколькими движущимися объектами. Были использованы метрики mIoU (mean Intersection over Union) и AP50 (Average Precision at 50% IoU) для оценки качества генерации. Результаты показали, что LayerT2V превосходит текущие лучшие методы (SOTA) по обеим метрикам. В частности, показатель mIoU улучшился на 1.4 раза, а AP50 – на 4.5 раза. Эти результаты демонстрируют высокую эффективность подхода LayerT2V при генерации видео в многообъектных сценах. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ LayerT2V имеет широкое применение в различных областях, где необходимо генерировать видео с несколькими движущимися объектами. Например, это может быть использовано в разработке систем автоматического видеомонтажа, виртуальной и дополненной реальности, а также в системах для создания контента. Преимущества LayerT2V заключаются в его способности обрабатывать сложные сцены с несколькими объектами, обеспечивая высокую точность и контроль над процессом генерации. Это может значительно упростить процесс создания видео для различных приложений, увеличив эффективность и качество конечного продукта. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ LayerT2V представляет собой значительный шаг вперед в области T2V генерации, особенно в контексте многообъектных сцен. Он решает проблему семантических конфликтов при пересечении траекторий и обеспечивает высокое качество генерации видео. В будущем можно рассмотреть расширение этого подхода для работы с более сложными сценами, включая те, где объекты имеют более сложные траектории движения. Также можно исследовать возможности интеграции этого метода с другими технологиями, такими как реальновременная генерация видео или адаптивное управление объектами в зависимости от контекста.

Annotation:

Controlling object motion trajectories in Text-to-Video (T2V) generation is a challenging and relatively under-explored area, particularly in scenarios involving multiple moving objects. Most community models and datasets in the T2V domain are designed for single-object motion, limiting the performance of current generative models in multi-object tasks. Additionally, existing motion control methods in T2V either lack support for multi-object motion scenes or experience severe performance degrada...

ID: 2508.04228v1 cs.CV, cs.AI, cs.LG, cs.MM

arXiv PDF

📄 Empowering Time Series Forecasting with LLM-Agents

2025-08-09

Авторы:

Chin-Chia Michael Yeh, Vivian Lai, Uday Singh Saini, Xiran Fan, Yujie Fan, Junpeng Wang, Xin Dai, Yan Zheng

## КОНТЕКСТ И ПРОБЛЕМАТИКА В последние годы прогнозирование временных рядов стало ключевой задачей в различных прикладных областях, от финансовых прогнозов до управления трафиком. Однако традиционные подходы к автоматизации машинного обучения (AutoML) в этой области часто сосредоточены на поиске оптимальных моделей и автоматизации функционального поиска. Несмотря на значительные успехи, эти подходы имеют ограничения, особенно когда речь заходит о качестве данных. Действительно, существующие методы часто игнорируют важность улучшения качества входных данных, которое может иметь значительное влияние на прогнозную точность. В частности, временные ряды часто содержат шум, пропуски и другие аномалии, которые могут существенно повлиять на результаты прогнозирования. Более того, многие модели, особенно легковесные, могут достигать высокой точности, если данные предварительно обработаны и оптимизированы. Это привело к интересу к даноцентрическим подходам, которые стремятся улучшить качество данных вместо того, чтобы фокусироваться исключительно на моделях. В этой статье авторы предлагают исследовать возможности даноцентрического подхода для прогнозирования временных рядов, используя метаданные для оптимизации процесса очистки и подготовки данных. Их целью является разработка агента, который может эффективно использовать метаданные для повышения качества данных и, в конечном счете, улучшить прогнозную точность. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы представляют DCATS (Data-Centric Agent for Time Series), инновационный агент, разработанный для оптимизации прогнозирования временных рядов путем фокусирования на качестве данных. DCATS использует метаданные, которые часто сопровождают временные ряды, для выполнения двух основных задач: очистка данных и оптимизация прогнозирования. Методология DCATS включает в себя несколько этапов. Во-первых, агент анализирует метаданные, такие как метаданные о шуме, пропусках и статистических характеристиках данных. На основе этого анализа он выполняет очистку данных, удаляя или корректируя ненужные или поврежденные части временных рядов. Во-вторых, DCATS использует оптимизированные данные для обучения и тестирования четырех различных моделей прогнозирования временных рядов. Эти модели включают в себя как традиционные, так и более современные подходы к прогнозированию. Затем, используя результаты этих моделей, DCATS выполняет дополнительную оптимизацию, настраивая процесс прогнозирования для достижения наилучших результатов. Архитектура DCATS основана на использовании Large Language Model (LLM) powered agents, которые выполняют роль "планировщиков" в процессе автоматизации. Эти агенты используют естественный язык для взаимодействия с данными и моделями, что позволяет им эффективно выполнять сложные задачи по очистке и оптимизации данных. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для оценки эффективности DCATS авторы провели эксперименты на большом наборе данных по прогнозированию объемов трафика. Этот набор данных включает в себя различные временные ряды с различными характеристиками, что делает его идеальным для тестирования даноцентрических подходов. В эксперименте были использованы четыре модели прогнозирования временных рядов. Результаты показали, что DCATS достигает среднего уменьшения ошибки прогнозирования на 6% по сравнению с традиционными подходами. Это улучшение было наблюдаемым на различных временных горизонтах, что подтверждает универсальность и эффективность данного подхода. Кроме того, авторы продемонстрировали, что DCATS может адаптироваться к различным типам данных и моделей, что делает его универсальным инструментом для различных задач прогнозирования временных рядов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значимость DCATS лежит в том, что он предлагает новый подход к прогнозированию временных рядов, который фокусируется на качестве данных вместо моделей. Это может быть особенно полезно в ситуациях, когда данные содержат шум или пропуски, что является распространенной проблемой в реальных данных. Кроме того, DCATS может быть использован в различных приложениях, таких как управление трафиком, финансовые прогнозы и прогнозирование погоды. Его универсальность и способность адаптироваться к различным типам данных делают его привлекательным для различных секторов индустрии. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, DCATS представляет собой важный шаг вперед в области прогнозирования временных рядов. Использование даноцентрического подхода позволяет улучшить качество данных и, как следствие, повысить точность прогнозов. Результаты экспериментов показывают, что этот подход может быть эффективен в различных контекстах и может быть применен в различных областях. В будущем, авторы планируют продолжить исследование DCATS, включая эксперименты на более разнообразных наборах данных и моделях. Они также планируют исследовать возможности интеграции DCATS с другими AutoML системами для дальнейшего улучшения прогнозной точности.

Annotation:

Large Language Model (LLM) powered agents have emerged as effective planners for Automated Machine Learning (AutoML) systems. While most existing AutoML approaches focus on automating feature engineering and model architecture search, recent studies in time series forecasting suggest that lightweight models can often achieve state-of-the-art performance. This observation led us to explore improving data quality, rather than model architecture, as a potentially fruitful direction for AutoML on ti...

ID: 2508.04231v1 cs.LG, cs.AI

arXiv PDF

📄 Circuit-Aware SAT Solving: Guiding CDCL via Conditional Probabilities

2025-08-09

Авторы:

Jiaying Zhu, Ziyang Zheng, Zhengyuan Shi, Yalun Cai, Qiang Xu

--- title: КОНТЕКСТ И ПРОБЛЕМАТИКА --- ### message ## КОНТЕКСТ И ПРОБЛЕМАТИКА В области Электронного Дизайна Автоматизированным Инструментарием (Electronic Design Automation, EDA), проблема Circuit Satisfiability (CSAT) является ключевым элементом для проверки логического эквивалентности (Logical Equivalence Checking, LEC) и других критических задач верификации. Традиционный подход к решению CSAT заключается в преобразовании схем в формулу в Канънской Нормальной Форме (Conjunctive Normal Form, CNF), которая затем обрабатывается общими SAT-решателями, основанными на Conflict-Driven Clause Learning (CDCL). Однако, такое преобразование часто приводит к потере важной структурной и функциональной информации, которая могла бы повысить эффективность решения. Традиционные подходы игнорируют богатую информацию о зависимостях между элементами схем, что может приводить к неоптимальному выбору критических переменных и неэффективному управлению клаузами. Это особенно заметно на крупных и сложных реальных схемах, где традиционные методы могут стать неэффективными из-за высокого уровня комплексности. Таким образом, необходимо разработать методы, которые сохраняют и используют структурную информацию схем напрямую, чтобы повысить эффективность SAT-решателей. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения этой проблемы, авторы представляют CASCAD, инновационный circuit-aware SAT-решатель, который использует Graph Neural Networks (GNNs) для вычисления условных вероятностей на уровне логических элементов схемы. CASCAD построен на основе GNNs, которые моделируют зависимости между входами и выходами логических гейтов, позволяя эффективно вычислить условные вероятности. Эти вероятности затем используются для динамического руководства двух ключевых компонентов CDCL: выбор фазы переменных (variable phase selection) и управление клаузами (clause management). Ключевым элементом CASCAD является интеграция условных вероятностей непосредственно в процесс CDCL. Это позволяет решателю более информированно выбирать переменные и управлять клаузами на основе структурной информации схемы. Кроме того, CASCAD включает в себя стратегию probability-guided clause filtering, которая позволяет фильтровать клаузы на основе их вероятностей, что еще больше повышает эффективность решателя. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели обширные эксперименты на реальных бенчмарках LEC для оценки эффективности CASCAD по сравнению со стандартными CNF-based SAT-решателями. Результаты показали, что CASCAD снижает время решения до 10 раз по сравнению со стандартными подходами. Более того, использование probability-guided clause filtering дополнительно уменьшает время решения на 23,5%. Эти результаты демонстрируют значительное улучшение эффективности CASCAD по сравнению с традиционными методами. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Практическая значеность CASCAD очевидна в контексте EDA, где эффективность SAT-решателей имеет прямое влияние на время и стоимость проектирования и верификации схем. Метод позволяет уменьшить время решения на больших и сложных схемах, что может привести к значительным экономиям времени и ресурсов в процессе разработки. Кроме того, CASCAD может быть интегрирован в существующие EDA инструменты, повышая их эффективность и надежность. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В заключение, CASCAD представляет собой значительный шаг вперед в области SAT-решателей, демонстрируя преимущества использования структурной информации схем напрямую в процессе решения. Будущие исследования могут фокусироваться на дальнейшем улучшении GNN-based моделей и их интеграции с другими EDA инструментами для повышения общей эффективности процесса проектирования и верификации.

Annotation:

Circuit Satisfiability (CSAT) plays a pivotal role in Electronic Design Automation. The standard workflow for solving CSAT problems converts circuits into Conjunctive Normal Form (CNF) and employs generic SAT solvers powered by Conflict-Driven Clause Learning (CDCL). However, this process inherently discards rich structural and functional information, leading to suboptimal solver performance. To address this limitation, we introduce CASCAD, a novel circuit-aware SAT solving framework that direct...

ID: 2508.04235v1 cs.AI

arXiv PDF

📄 Automated ultrasound doppler angle estimation using deep learning

2025-08-09

Авторы:

Nilesh Patil, Ajay Anand

## КОНТЕКСТ И ПРОБЛЕМАТИКА Доплеровская ультразвуковая диагностика является ключевым инструментом в клинической практике для измерения скорости кровотока. Однако точность этого метода существенно зависит от правильности определения угла между направлением луча ультразвука и кровеносной артерией. Неточная оценка этого угла является одной из главных причин ошибок в оценке скорости кровотока, что может приводить к неправильной диагностике состояний, таких как стеноз артерий. Традиционные методы определения угла часто требуют вмешательства опытного оператора, что может быть подвержено субъективности и ошибкам. Авторы статьи выдвигают проблему необходимости автоматизации процесса определения угла в доплеровской ультразвуковой диагностике с целью повышения точности и надежности измерений. Разработка автоматических методов на основе искусственного интеллекта может существенно сократить частоту ошибок, связанных с неточной оценкой угла, и улучшить качество медицинской диагностики. ## ПРЕДЛОЖЕННЫЙ МЕТОД В статье предлагается метод автоматизации определения угла в доплеровской ультразвуковой диагностике, основанный на технологии глубокого обучения. Для этого было собрано набор данных, состоящий из 2100 изображений ультразвукового сканирования человеческих сосудов. Для улучшения обучения модели были применены методы аугментации изображений. Предлагаемый метод включает в себя использование пяти предварительно обученных нейронных сетей для извлечения признаков из изображений. Затем, эти признаки подаются на вход специально разработанной неглубокой нейронной сети, которая выполняет окончательную оценку угла доплеровского сдвига. Для проверки результатов были проведены сравнения с оценками, полученными вручную экспертами. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ В рамках исследования были проведены эксперименты для оценки точности предлагаемого метода. Результаты показали, что среднеквадратичная ошибка (Mean Absolute Error, MAE) между автоматическим и ручным определением угла составила от 3.9° до 9.4° в зависимости от используемой модели. Лучшая из моделей дала результат, при котором средняя ошибка была ниже допустимого порога клинических ошибок, что позволяет избежать ошибочной классификации нормальных значений скорости кровотока как стеноза. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Разработанный метод имеет значительный потенциал для применения в клинической практике. Автоматизация процесса определения угла в доплеровской ультразвуковой диагностике может улучшить точность измерений, сократить время, затрачиваемое на диагностику, и снизить вероятность ошибок, связанных с человеческим фактором. Такой подход может быть интегрирован в коммерческие ультразвуковые системы, что позволит облегчить работу медицинских работников и повысить качество пациентского обслуживания. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В результате исследования было показано, что применение глубокого обучения для автоматизации определения угла в доплеровской ультразвуковой диагностике может значительно повысить точность измерений. Будущие исследования могут сосредоточиться на улучшении алгоритмов, расширении обучающих данных и внедрении таких методов в клиническую практику.

Annotation:

Angle estimation is an important step in the Doppler ultrasound clinical workflow to measure blood velocity. It is widely recognized that incorrect angle estimation is a leading cause of error in Doppler-based blood velocity measurements. In this paper, we propose a deep learning-based approach for automated Doppler angle estimation. The approach was developed using 2100 human carotid ultrasound images including image augmentation. Five pre-trained models were used to extract images features, an...

ID: 2508.04243v1 cs.LG, cs.AI, I.2.1

arXiv PDF

📄 TalkDep: Clinically Grounded LLM Personas for Conversation-Centric Depression Screening

2025-08-09

Авторы:

Xi Wang, Anxo Perez, Javier Parapar, Fabio Crestani

## КОНТЕКСТ И ПРОБЛЕМАТИКА Проблематика диагностики депрессии становится все более актуальной в свете роста спроса на психиатрические услуги, который значительно превышает доступные ресурсы для обучения клинических специалистов. Этот дефицит ресурсов ограничивает возможности для адекватного обучения и оценки профессионалов в области психического здоровья. Для улучшения этой ситуации, исследования в области интеллектуальных систем часто ориентируются на создание симулированных пациентов, которые могут имитировать различные клинические симптомы. Однако существующие подходы к созданию таких симуляторов часто сталкиваются с трудностями в обеспечении клинической валидности, естественности и разнообразия представленных симптомов. Основным препятствием является нехватка высококачественных данных, необходимых для обучения моделей, которые могли бы точно имитировать различные проявления депрессии. Кроме того, многие существующие модели не учитывают контекстуальные факторы, такие как индивидуальные различия пациентов, что может привести к недостаточной точности диагностики. Это вызывает потребность в разработке более надлежащих и клинически обоснованных методов для создания симулированных пациентов, которые могут быть использованы для обучения и оценки систем автоматической диагностики депрессии. ## ПРЕДЛОЖЕННЫЙ МЕТОД В данной работе предлагается новый подход, основанный на использовании языковых моделей (LLM) для создания симулированных пациентов в рамках проекта TalkDep. Основная идея заключается в использовании клинициста в качестве консультанта (clinician-in-the-loop) для создания подробных и клинически обоснованных профилей пациентов. Эти профили базируются на критериях диагностики депрессии, шкалах оценки симптомов и контекстуальных факторах, что позволяет генерировать более аутентичные и разнообразные ответы пациентов. Архитектура TalkDep включает несколько этапов. Вначале, клиницисты создают профили пациентов, опираясь на психиатрические критерии диагностики и шкалы оценки симптомов. Затем, языковая модель используется для генерирования диалоговых ответов пациентов, которые соответствуют их профилям. Этот процесс поддерживается клиницистами, которые обеспечивают контроль качества и доработку модели. Использование клинических критериев и контекстуальных факторов позволяет создавать более точные и естественные симуляции, что является ключевым преимуществом данного подхода. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Для проверки эффективности предложенного подхода были проведены эксперименты, в которых участвовали клинические профессионалы. Они оценивали аутентичность и клиническую валидность симулированных ответов пациентов, сгенерированных TalkDep. Результаты показали, что симулированные пациенты, созданные с помощью данного подхода, были оценены как высокоаутентичные и клинически валидные. Кроме того, была проведена оценка качества диалогов, созданных моделью, в сравнении с другими существующими подходами. TalkDep показал значительное улучшение в естественности и разнообразии симулированных ответов, что подтверждает его потенциал для использования в обучении и оценке систем автоматической диагностики депрессии. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предлагаемый метод имеет широкий круг применения в области ментального здоровья. TalkDep может быть использован для обучения клиническим специалистам, оценки систем автоматической диагностики депрессии и создания более надлежащих моделей для диагностики. Благодаря возможности генерирования разнообразных и клинически валидных симуляций, этот подход может значительно улучшить качество обучения и оценки клинических систем. Кроме того, TalkDep может быть адаптирован для использования в различных клинических сценариях, включая обучение студентов медицинских вузов и профессионалов в области психического здоровья. Это позволяет создать более доступные и масштабируемые ресурсы для обучения и оценки, что является важной составляющей в борьбе с дефицитом квалифицированных специалистов в этой области. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ В рамках данной работы был предложен инновационный подход к созданию симулированных пациентов для диагностики депрессии, основанный на языковых моделях и клинической экспертизе. Результаты показали высокую аутентичность и клиническую валидность симулированных пациентов, что демонстрирует потенциал данного метода для улучшения обучения и оценки систем автоматической диагностики. Будущие исследования могут фокусироваться на дальнейшем улучшении модели, включая расширение базы данных клинических профилей и интеграцию дополнительных контекстуальных факторов. Также важно продолжать исследования в области адаптации данного подхода для различных клинических сценариев и обеспечения его масштабируемости на большие наборы данных.

Annotation:

The increasing demand for mental health services has outpaced the availability of real training data to develop clinical professionals, leading to limited support for the diagnosis of depression. This shortage has motivated the development of simulated or virtual patients to assist in training and evaluation, but existing approaches often fail to generate clinically valid, natural, and diverse symptom presentations. In this work, we embrace the recent advanced language models as the backbone and...

ID: 2508.04248v1 cs.CL, cs.AI

arXiv PDF

📄 Segment Any Vehicle: Semantic and Visual Context Driven SAM and A Benchmark

2025-08-09

Авторы:

Xiao Wang, Ziwen Wang, Wentao Wu, Anjie Wang, Jiashu Wu, Yantao Pan, Chenglong Li

## КОНТЕКСТ И ПРОБЛЕМАТИКА Автономные транспортные системы и роботизированные технологии ставят все более высокие требования к качеству и точности восприятия объектов окружающей среды. Одним из ключевых задач в этой области является детектирование и сегментация автомобилей, включая тонкую сегментацию их частей. Несмотря на значительные успехи в области компьютерного зрения, существующие решения сталкиваются с рядом ограничений. Предобученные модели сегментации, такие как Segment Anything Model (SAM), открыли новые возможности в области искусственного интеллекта, но имеют существенные ограничения при применении к задачам тонкой сегментации, например, сегментации деталей автомобилей. SAM не предоставляет доступ к функции сегментации на основе текстовых запросов, а также не позволяет получать маски с готовыми семантическими метками, что существенно ограничивает его применимость к задачам, требующим структурированного понимания объектов. Дополнительная сложность заключается в том, что существующие модели не всегда учитывают конкретные структурные и контекстные отношения между частями объектов, что критично для задач, связанных с анализом деталей автомобилей. Кроме того, отсутствие достаточно больших и качественных датасетов для сегментации автомобильных компонентов препятствует развитию этой области. Эти проблемы подчеркивают необходимость разработки нового подхода, который сочетает в себе преимущества предобученных моделей с дополнительными контекстными и структурными элементами. ## ПРЕДЛОЖЕННЫЙ МЕТОД Для решения вышеуказанных проблем авторы предлагают фреймворк SAV, который состоит из трех основных компонентов. 1. **SAM-based Encoder-Decoder**: Этот компонент основывается на SAM и расширяет его способности за счет интеграции кодирования дополнительной контекстной информации. Он использует энкодер-декодер для повышения качества сегментации, особенно при работе с деталями автомобилей. 2. **Vehicle Part Knowledge Graph**: Для моделирования структурных и пространственных отношений между частями автомобиля используется знание онтологии. Это позволяет кодировать предварительные структурные знания и улучшает точность сегментации за счет лучшего понимания контекста. 3. **Context Sample Retrieval Encoding Module**: Данный модуль оптимизирует сегментацию за счет идентификации визуально похожих экземпляров из данных обучения. Он предоставляет богатый контекст для модели, повышая ее способность к обобщению. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗЫЛЬТАТЫ Авторы провели ряд экспериментов на новом датасете VehicleSeg10K, который содержит 11 665 высококачественных аннотированных изображений с различными сценами и точками зрения. Были протестированы несколько базовых моделей для сравнения с предложенным подходом SAV. Результаты показали значительное улучшение качества сегментации, особенно в случаях сложных сцен и разнообразных углов обзора. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ Предложенный фреймворк SAV имеет широкое применение в области автономного вождения, а также в задачах мониторинга и анализа транспортных систем. Он позволяет добиться более точной и надежной сегментации автомобильных деталей, что важно для безопасности и эффективности автоматизированных систем. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ Предложенный метод SAV успешно решает проблемы существующих моделей, предоставляя более точную и контекстно-зависимую сегментацию. Будущие исследования могут фокусироваться на дальнейшем улучшении алгоритмов и расширении датасетов для более широких сценариев применения.

Annotation:

With the rapid advancement of autonomous driving, vehicle perception, particularly detection and segmentation, has placed increasingly higher demands on algorithmic performance. Pre-trained large segmentation models, especially Segment Anything Model (SAM), have sparked significant interest and inspired new research directions in artificial intelligence. However, SAM cannot be directly applied to the fine-grained task of vehicle part segmentation, as its text-prompted segmentation functionality ...

ID: 2508.04260v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 SelectiveShield: Lightweight Hybrid Defense Against Gradient Leakage in Federated Learning

2025-08-09

Авторы:

Borui Li, Li Yan, Jianmin Liu

## КОНТЕКСТ И ПРОБЛЕМАТИКА Federated Learning (FL) является передовым подходом к коллаборативному обучению моделей на децентрализованных данных, который позволяет сохранять конфиденциальность данных на клиентских устройствах. Однако FL незащищен от рисков, связанных с **gradient leakage attacks**, которые могут позволить злоумышленникам восстановить чувствительную информацию о данных пользователей на основе градиентов, передаваемых в процессе обучения. Традиционные методы защиты, такие как **differential privacy (DP)** и **homomorphic encryption (HE)**, часто вводят значительный компромисс между конфиденциальностью, качеством модели и вычислительными затратами. Этот компромисс становится особенно критичным в **heterogeneous environments**, где данные клиентов неидентичны (non-IID), а возможности устройств различаются. Проблематика заключается в необходимости разработки метода, который бы обеспечил высокую конфиденциальность, сохраняя при этом высокую эффективность модели и умеренные вычислительные накладные расходы. Кроме того, важно учитывать требования **personalization**, где клиенты могут иметь уникальные локальные нужды, которые не должны быть скомпрометированы в процессе глобального обучения. Настоящие методы защиты часто недостаточно адаптивны к различиям между клиентами, что может привести к неэффективности защиты или ухудшению производительности модели. Таким образом, существует актуальная необходимость в разработке гибридного подхода, который мог бы комбинировать преимущества разных методов защиты, с учетом разнообразия данных и возможностей клиентов. ## ПРЕДЛОЖЕННЫЙ МЕТОД Авторы предлагают **SelectiveShield**, легковесный гибридный фреймворк защиты, который интегрирует **selective homomorphic encryption** и **differential privacy** для защиты от gradient leakage. Основная идея заключается в адаптивном выборе параметров, которые требуют защиты, на основе **Fisher information**. 1. **Локальная квантификация чувствительности:** Каждый клиент вычисляет **Fisher information** для своих локальных данных, чтобы определить чувствительность параметров модели. Эта информация используется для определения критических параметров, которые требуют защиты. 2. **Коллаборативный протокол согласования:** Клиенты согласовываются по отношению к набору критических параметров, которые будут защищены с помощью **homomorphic encryption**. Это позволяет сократить вычислительные затраты, защищая только наиболее важные параметры. 3. **Локальное хранение уникальных параметров:** Параметры, которые важны только для конкретного клиента, хранятся локально, что позволяет поддерживать **personalization** без риска утечки информации. 4. **Адаптивное применение DP:** Остальные некритические параметры защищаются с помощью **differential privacy noise**, который применяется адаптивно в зависимости от контекста. Этот подход позволяет обеспечить баланс между конфиденциальностью, качеством модели и вычислительной эффективностью, а также поддерживает **scalability** в реальных системах FL. ## ЭКСПЕРИМЕНТАЛЬНЫЕ РЕЗУЛЬТАТЫ Авторы провели эксперименты на различных датасетах, включая non-IID данные, для оценки эффективности **SelectiveShield** по сравнению с существующими методами. - **Данные:** Использовались датасеты с различным уровнем разнообразия данных клиентов. - **Метрики:** Оценивались **model utility** (точность модели), **privacy leakage** (уровень утечки градиентов), и **computational overhead** (вычислительные затраты). - **Результаты:** SelectiveShield демонстрирует значительное снижение риска утечки градиентов в сравнении с методами, основанными только на DP или HE. Он также показывает сохранение высокого качества модели, даже при высокой неидентичности данных клиентов. ## ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ SelectiveShield имеет широкое применение в реальных сценариях FL, где клиенты могут иметь разнообразные данные и ограниченные вычислительные ресурсы. Он предлагает: - **Персонализацию:** Локальное хранение уникальных параметров поддерживает индивидуальные потребности клиентов. - **Масштабируемость:** Легковесная архитектура позволяет эффективно использовать метод в системах с ограниченными ресурсами. - **Применимость в реальном мире:** Метод может быть интегрирован в существующие системы FL для повышения конфиденциальности без значительного увеличения вычислительных затрат. ## ВЫВОДЫ И ПЕРСПЕКТИВЫ SelectiveShield представляет собой эффективное решение для защиты от gradient leakage в FL, которое сочетает в себе преимущества homomorphic encryption и differential privacy. Будущие исследования могут фокусироваться на дальнейшем улучшении адаптивности метода для более сложных сценариев и расширении его применимости к другим типам моделей и данных.

Annotation:

Federated Learning (FL) enables collaborative model training on decentralized data but remains vulnerable to gradient leakage attacks that can reconstruct sensitive user information. Existing defense mechanisms, such as differential privacy (DP) and homomorphic encryption (HE), often introduce a trade-off between privacy, model utility, and system overhead, a challenge that is exacerbated in heterogeneous environments with non-IID data and varying client capabilities. To address these limitation...

ID: 2508.04265v1 cs.DC, cs.AI, cs.CR

arXiv PDF

1
2
3371
3372
3373
3374
3375
3402
3403

Показано 33721 - 33730 из 34022 записей