📚 Саммари научных статей из arXiv

Найдено 1687 результатов по запросу 'cs.AI, cs.LG' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня

📄 MedQARo: A Large-Scale Benchmark for Medical Question Answering in Romanian

2025-08-26

Авторы:

Ana-Cristina Rogoz, Radu Tudor Ionescu, Alexandra-Valentina Anghel, Ionut-Lucian Antone-Iordache, Simona Coniac, Andreea Iuliana Ionescu

## Контекст Область исследования естественных языковых процессинговых систем (NLP) становится все более важной для развития искусственного интеллекта (AI). Одним из ярких примеров является **задача вопроса-ответа (QA)**, которая является одной из основных задач в этой области. Несмотря на то, что QA в общих текстах уже достигла некоторого уровня успеха, **специальные области, такие как медицина**, представляют дополнительные сложности. В частности, в медицине важность точности и достоверности ответов на высокотехнологичном уровне. Однако, существуют ограничения в доступности качественных данных и ресурсов для обучения AI-систем, особенно в узкоспециализированных языках, таких как румынский. Данная работа предлагает решение этой проблемы, представляя **MedQARo** — первый большой бенчмарк для QA в медицине на румынском языке. ## Метод **MedQARo** — это **большой датасет**, состоящий из **102 646 QA-пар**, специально созданных для задачи вопроса-ответа в медицинских случаях. Данные были собраны вручную с помощью **семьи опытных онкологов и радиотерапевтов**, которые провели примерно **2100 часов** работы над этой задачей. Основным источником данных были **медицинские случаи с 1011 пациентов**, где каждая вопрос-ответ-пара требует **ключевого слова** или **рассуждений** для правильного ответа. Датасет был разделен на **тренировочную** и **тестовую** часть в соотношении 80/20. Для оценки **текущих технологий** были использованы **четыре лидерских языковых модели (LLMs)**, как в **сценарии zero-shot**, так и в **сценарии файн-тюнинга**. ## Результаты **MedQARo** позволил провести серьезные эксперименты с четырьмя моделями: **BERT-like**, **T5-like**, **RoBERTa-like** и **ALBERT-like**. Изучение показало, что **файн-тюнинг моделей** (с учетом контекста и языка) дает значительное улучшение по сравнению с **zero-shot**. В частности, **файн-тюнингные модели** показали более высокую точность в ответах, что продемонстрировано **F1-метрикой**, подтверждая, что **контекст и языковые особенности** играют ключевую роль в достижении надежной производительности в медицинской QA. Эти результаты подтверждают, что без должного внимания к специфике языка и домена модели не могут достичь высокой точности. ## Значимость **MedQARo** имеет **многочисленные приложения** в области клинического QA, помогая в развитии медицинских AI-систем, которые могут помогать врачам в **выборе лечения** и **ответах на вопросы пациентов**. Одним из **основных преимуществ** данной работы является то, что она представляет **первый большой датасет на румы

Annotation:

Question answering (QA) is an actively studied topic, being a core natural language processing (NLP) task that needs to be addressed before achieving Artificial General Intelligence (AGI). However, the lack of QA datasets in specific domains and languages hinders the development of robust AI models able to generalize across various domains and languages. To this end, we introduce MedQARo, the first large-scale medical QA benchmark in Romanian, alongside a comprehensive evaluation of state-of-the...

ID: 2508.16390v2 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 NEAT: Concept driven Neuron Attribution in LLMs

2025-08-25

Авторы:

Vivek Hruday Kavuri, Gargi Shroff, Rahul Mishra

#### Контекст В последние годы широко распространены бо LLM (large language models), которые обладают выдающимися способностями в обработке естественного языка. Однако такие модели часто называют "черным ящиком", так как понять, каким образом они принимают решения, остается загадкой. Одним из ключевых вопросов является определение роли отдельных нейронов в принятии решений. Этот вопрос не только ключевой для понимания LLM, но и важен для возможности вмешательства в работу моделей, например, для устранения биаса или высказываний ненависти. Несмотря на некоторые усилия по поиску таких "ответственных" нейронов, существуют проблемы, связанные с неоптимальностью вычислений и несовершенством методов. #### Метод Мы предлагаем метод под названием **NEAT** (Neuron-level Explanation via Attribution Transformers), который основывается на идее использования **concept vectors** (векторов понятий) для поиска "concept neurons" (нейронов, ответственных за определенные концепции). Метод уменьшает количество необходимых проходов (forward passes) с $O(n \times m)$ до $O(n)$, где $n$ - число нейронов, а $m$ - число примеров. Эта оптимизация позволяет сократить вычислительные затраты и ускорить процесс. Мы также используем кластеризацию для оптимизации поиска concept neurons. #### Результаты Мы проверяем наш метод на нескольких базовых моделях и сравниваем его с существующими методами. Результаты показывают, что **NEAT** демонстрирует лучшую точность и эффективность в сравнении с базовыми и состояниями технологии. Для примера, мы смогли уменьшить расход вычислительных ресурсов в несколько раз, при этом сохранив высокую точность. Особое внимание уделяется применению наших методов для выявления и устранения биаса в LLMs, включая тестирование на конкретных примерах из индийского контекста. #### Значимость Наш метод может применяться в различных областях, таких как мониторинг биаса в тексте, анализ языковых моделей и улучшение понимания человеком работы AI. Он позволяет не только улучшить понимание того, как работают LLM, но и создает шанс вмешательства в их работу. Например, можно отключить нейроны, ответственные за высказывания ненависти или биаз, и изучить последствия таких манипуляций. Это открывает путь к более предсказуемому и человекоподобному поведению моделей. #### Выводы Мы показали, что наш метод не только эффективен, но и эффективен в том смысле, что он дает новый подход к пониманию и вмешательству в работу LLM. Мы также отметили, что наши результаты открывают новые возможности для изучения роли отдельных нейронов в широких и глубоких LLM. Наше исследование демонстрирует перспективы для будущих исследований в области поиска concept neurons и вмешательства в

Annotation:

Locating neurons that are responsible for final predictions is important for opening the black-box large language models and understanding the inside mechanisms. Previous studies have tried to find mechanisms that operate at the neuron level but these methods fail to represent a concept and there is also scope for further optimization of compute required. In this paper, with the help of concept vectors, we propose a method for locating significant neurons that are responsible for representing ce...

ID: 2508.15875v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Beyond Imaging: Vision Transformer Digital Twin Surrogates for 3D+T Biological Tissue Dynamics

2025-08-25

Авторы:

Kaan Berke Ugurlar, Joaquín de Navascués, Michael Taynnan Barros

#### Контекст Область исследований, ориентированная на понимание динамики организации и гомеостаза живых тканей, требует высококачественных временных серий изображений, а также методов, позволяющих извлекать интерпретируемые и прогностические аналитические выводы из сложных данных. Несмотря на развитие методов изображения, включая многослойные сети и формализмы нейровизуализации, существует недостаток в систематических подходах к моделированию и визуализации тканевых динамик. Этот недостаток ограничивает возможности выполнения виртуальных экспериментов в биологических исследованиях. Мотивация заключается в разработке новых методик, которые могут обеспечить высокоточные, временно резолюционные модели для томографических изображений в реальном времени, позволяющих интеллектуального анализа и моделирования тканевых процессов. #### Метод Предложенный подход, названный Vision Transformer Digital Twin Surrogate Network (VT-DTSN), является глубоким обучением, основанным на трансформерах с в site pretraining, использующим DINO (Self-Distillation with NO Labels). Модель принимает в качестве входных данных последовательные сечения ткани живого организма, полученные с помощью временных серий томографических изображений, и предсказывает их временную динамику в 3D+T пространстве. Архитектура VT-DTSN включает несколько ключевых модулей: Vision Transformer для локального представления входных изображений, Multi-view Fusion Block для объединения многопрослойных сечений и Feature Alignment Module для сохранения биологической правдоподобности выходных данных. Для обучения используется составной функционал ошибки, который оптимизирует пиксельную точность, разрешение структуры и согласование в функциональных пространствах. Такой подход обеспечивает высокую точность моделирования и эффективность вычислений. #### Результаты В экспериментах были использованы временные серии изображений Drosophila midgut, полученные с помощью томографических изображений в реальном времени. VT-DTSN был обучен на данных с высоким разрешением и проверен на независимых наборах данных. Результаты показывают, что модель достигает очень высокой точности в описании динамики тканей, с минимальным погрешностным расхождением и высокой детализацией биологических структур. Было проанализировано влияние различных модулей модели, включая Multi-view Fusion и Feature Alignment, на качество результатов. Было показано, что VT-DTSN позволяет эффективно моделировать тканевые процессы в реальном времени, обеспечивая возможность виртуальных экспериментов и теоретических исследований. #### Значимость Разработанная модель открывает новые возможности в моделировании тканевых процессов в биологии. Ее применение может быть распространено

Annotation:

Understanding the dynamic organization and homeostasis of living tissues requires high-resolution, time-resolved imaging coupled with methods capable of extracting interpretable, predictive insights from complex datasets. Here, we present the Vision Transformer Digital Twin Surrogate Network (VT-DTSN), a deep learning framework for predictive modeling of 3D+T imaging data from biological tissue. By leveraging Vision Transformers pretrained with DINO (Self-Distillation with NO Labels) and employi...

ID: 2508.15883v1 eess.IV, cs.AI, cs.LG, q-bio.TO

arXiv PDF

📄 Jet-Nemotron: Efficient Language Model with Post Neural Architecture Search

2025-08-25

Авторы:

Yuxian Gu, Qinghao Hu, Shang Yang, Haocheng Xi, Junyu Chen, Song Han, Han Cai

#### Контекст Современные языковые модели широко применяются в различных областях, включая обработку естественного языка, генерацию текста и анализ данных. Однако существуют значимые проблемы, связанные с оптимальным дизайном этих моделей. Они часто требуют больших вычислительных ресурсов, что усложняет их развертывание в реальных системах. Также существуют ограничения в скорости подготовки данных и вывода, что сказывается на общем эффективности этих моделей в практических задачах. **Jet-Nemotron** является решением этих проблем, предлагая новую гибридную архитектуру языковых моделей, которая сочетает в себе высокую точность и высокую скорость генерации текста. Модель разработана с помощью **Post Neural Architecture Search** (PostNAS), новый подход к эффективному дизайну архитектур нервных сетей, который позволяет эффективно оптимизировать модели для различных задач. #### Метод **Jet-Nemotron** разработана с использованием Postnas, представляющего собой алгоритм поиска лучшей архитектуры с помощью пост-оптимизации. Этот подход характеризуется четырьмя ключевыми компонентами: 1. **Оптимальное размещение и удаление полносвязных слоёв (full-attention layers)**: позволяет оптимизировать структуру модели, удаляя ненужные слои и сохраняя только самые важные. 2. **Выбор линейных блоков аттенции (linear attention blocks)**: упрощает модель, заменяя сложные блоки аттенции на более простые, но эффективные. 3. **Дизайн новых блоков аттенции**: разработка новых блоков, которые позволяют улучшить производительность и точность модели. 4. **Поиск гиперпараметров, ориентированный на железо (hardware-aware hyperparameter search)**: оптимизация модели с учетом ограничений ресурсов, таких как вычислительная мощность и память. Таким образом, **Jet-Nemotron** использует предварительно обученную модель с полносвязной архитектурой, замороженную во время обучения, что позволяет эффективно экспериментировать с архитектурой без потерь в точности. #### Результаты **Jet-Nemotron** была проверена на различных наборах данных и бенчмарках, включая **MMLU** и **MMLU-Pro**. Модель показала существенное улучшение производительности по сравнению с другими языковыми моделями, такими как **Qwen3**, **Qwen2.5**, **Gemma3** и **Llama3.2**. Она достигла точности, сопоставимой или лучшей, чем у этих моделей, при этом показала значительные повышения в скорости генерации текста: до **53.6x** в сравнении с другими моделями. Также **Jet-Nemotron** показала выигрыш в скорости подготовки данных (prefilling) до **6.1x**. Эти результаты достигнуты благодаря оптимальному дизайну архитектуры, который позволяет использовать ресурсы

Annotation:

We present Jet-Nemotron, a new family of hybrid-architecture language models, which matches or exceeds the accuracy of leading full-attention models while significantly improving generation throughput. Jet-Nemotron is developed using Post Neural Architecture Search (PostNAS), a novel neural architecture exploration pipeline that enables efficient model design. Unlike prior approaches, PostNAS begins with a pre-trained full-attention model and freezes its MLP weights, allowing efficient explorati...

ID: 2508.15884v1 cs.CL, cs.AI, cs.LG

arXiv PDF

📄 Probabilistic Forecasting Cryptocurrencies Volatility: From Point to Quantile Forecasts

2025-08-25

Авторы:

Grzegorz Dudek, Witold Orzeszko, Piotr Fiszeder

## Контекст Криптовалютные рынки характеризуются высокой волатильностью, что делает точные прогнозы важной задачей для эффективного риск-менеджмента и информированных стратегий торговли. Однако традиционные детерминистические (точечные) методы прогнозирования не могут учесть всю динамику возможных потерь. Это подчеркивает необходимость использования пробаильных подходов. На сегодняшний день не найдено в литературе сравнительное исследование пробаильных прогнозирований волатильности криптовалют, основанных на многочисленных моделях анализа данных. ## Метод Мы предлагаем метод Quantile Estimation through Residual Simulation (QRS), основанный на множестве статистических (HAR, GARCH, ARFIMA) и машинного обучения (в том числе LASSO, SVR, MLP, Random Forest, LSTM). Эти модели вычисляют зависимость между фактическими и прогнозируемыми значениями варианции криптовалюты. Для проверки реализуемых методов использовались данные о Bitcoin. ## Результаты Лучшие результаты достигаются с QRS, особенно при использовании линейных моделей на логарифмированных данных о реализованной вариации. Этот подход показывает высокую точность и верифицируется на нескольких сценариях. Модели преобладают в регрессионных задачах, превзойдя также более сложные алгоритмы. ## Значимость Предложенный подход может применяться в риск-менеджменте, финансовой аналитике и торговых стратегиях. Он обеспечивает полный подход к оценке вероятностных норм волатильности криптовалют. Изучение характера потерь и рисков, возникающих в рынках криптовалют, может помочь улучшить инвестиционные решения. ## Выводы Мы установили, что QRS — эффективный и надежный метод для построения пробаильных прогнозов волатильности криптовалют. Наша работа открывает новый подход к оценке рисков и может быть расширена на другие виды активов. Будущие исследования будут исследовать возможности QRS для других инструментов и рынков.

Annotation:

Cryptocurrency markets are characterized by extreme volatility, making accurate forecasts essential for effective risk management and informed trading strategies. Traditional deterministic (point) forecasting methods are inadequate for capturing the full spectrum of potential volatility outcomes, underscoring the importance of probabilistic approaches. To address this limitation, this paper introduces probabilistic forecasting methods that leverage point forecasts from a wide range of base model...

ID: 2508.15922v1 q-fin.ST, cs.AI, cs.LG

arXiv PDF

📄 A U-Statistic-based random forest approach for genetic interaction study

2025-08-23

Авторы:

Ming Li, Ruo-Sin Peng, Changshuai Wei, Qing Lu

## Контекст В последние годы резко вырос роль генетических факторов в исследовании сложных траекторий развития болезней. Одним из основных заданий генетических исследований является идентификация генов, которые взаимодействуют друг с другом и с внешними факторами окружающей среды, воздействуя на развитие различных характеристик. Традиционные методы, ориентированные на идентификацию одной или нескольких синергических пар генов, были ограничены в своих возможностях, несмотря на развитие информационных технологий. Особенно сложной является задача рассмотрения множественных генов и внешних факторов в контексте их взаимодействия. Ранние работы по идентификации гено-генных и гено-окружающих взаимодействий сталкивались с проблемами, связанными с высокой динамичностью генетических данных, вычислительной сложностью и ограниченностью мощности компьютерных систем. В этой статье предлагается новый подход, основанный на U-статистике, для улучшения эффективности методов идентификации взаимодействий. ## Метод Предложенный подход, названный Forest U-Test, основывается на использовании U-статистики, которая предназначена для оценки взаимодействий генов и внешних факторов в ходе идентификации кластеров и ассоциаций. Метод использует случайные лесы (random forests) для распределения данных и использования информации о взаимодействиях в каждом кластере. В разных этапах взаимодействия используется функция U-статистики, которая оценивает значимость каждого изменения в кластере. Это позволяет сократить количество вычислений и избежать проблемы экспоненциального роста количества возможностей, которая обычно связана с генетическими исследованиями. Данный подход предлагается для использования в случаях, когда имеется большое количество данных, включая не только генетические, но и внешние факторы. ## Результаты Для проверки эффективности метода были проведены симуляционные эксперименты и исследования на реальных данных. В результате проведенных экспериментов была продемонстрирована значительная преуспетьность Forest U-Test по сравнению с другими существующими методами. Например, в симуляционных исследованиях, проведенных на генетических данных, метод показал значительно более высокую точность в идентификации взаимодействий, чем уже существующие методы. Также, в приложении к исследованию зависимости от каннабиса (CD) на основе данных из трех независимых исследований из Study of Addiction: Genetics and Environment, была выявлена значимая комбинированная ассоциация с p-value меньше 0.001. Эти результаты были подтверждены в двух других независи

Annotation:

Variations in complex traits are influenced by multiple genetic variants, environmental risk factors, and their interactions. Though substantial progress has been made in identifying single genetic variants associated with complex traits, detecting the gene-gene and gene-environment interactions remains a great challenge. When a large number of genetic variants and environmental risk factors are involved, searching for interactions is limited to pair-wise interactions due to the exponentially in...

ID: 2508.14924v1 q-bio.GN, cs.AI, cs.LG, stat.ME

arXiv PDF

📄 Inference Time Debiasing Concepts in Diffusion Models

2025-08-23

Авторы:

Lucas S. Kupssinskü, Marco N. Bochernitsan, Jordan Kopper, Otávio Parraga, Rodrigo C. Barros

## Контекст Текстово-изображенческие модели генерации, основанные на технологии распространения (diffusion models), стали широко применяться для генерирования изображений на основе текстовых подсказок. Однако эти модели часто отображают сильные биазы, основанные на гендерных, этнических и возрастных атрибутах. Эти биазы могут привести к несправедливости и дискриминации в создаваемых изображениях, что нарушает принципы юмора и убедительности в большинстве сценариев. Несмотря на то, что существуют методы по борьбе с биазами в глубинных сетях, они либо требуют сложных модификаций моделей, либо оказываются трудоемкими в реализации и неэффективны в области генерации изображений. ## Метод Мы предлагаем DeCoDi — метод, изменяющий процедуру инференса в распространяющих моделях без изменения их основного обучения. Метод DeCoDi предназначен для создания цифровых изображений и базируется на добавлении специальных шумовых слоёв, изменяющих процесс распространения. Это позволяет избежать отбора признаков, связанных с заранее определёнными биазами. Данный подход оставляет неизменными слои модели, которые создают изображение, и не увеличивает вычислительные затраты. Благодаря этому, DeCoDi может быть легко интегрирован в любую модель распространения. ## Результаты Дебиазированое текстово-изображеческое генерирование произведено для трёх сценариев: гендер, этничность и возраст. Обучение проводилось на трёх наборах данных: Gender, Ethnicity, и Age. Чтобы оценить эффективность, изображения были проанализированы двумя независимыми оценщиками, которые оценили 1200 сгенерированных изображений на наличие биаз. Метриками оценки были разные реалии каждого сценария. Также проведена автоматическая оценка биаз с помощью GPT-4o. Результаты показали, что метод DeCoDi эффективно подавляет биазы, существующие в оригинальных моделях, с незначительными изменениями в качестве изображений. ## Значимость Метод DeCoDi может использоваться в широком кругу приложений, включая создание расширенных визуальных ресурсов, улучшение систем поиска изображений, и создание более универсальных текстово-изображечных моделей. Он предоставляет преимущество в своей простоте и независимости от изменений в модели. Также он может способствовать более честному использованию изображений в цифровых продуктах. ## Выводы Метод DeCoDi доказывает свою эффективность в дебиазировании текстово-изображительных моделей, основанных на распространении. Он легко интегрируется в существующие модели и не требует значительных изменений, что делает его

Annotation:

We propose DeCoDi, a debiasing procedure for text-to-image diffusion-based models that changes the inference procedure, does not significantly change image quality, has negligible compute overhead, and can be applied in any diffusion-based image generation model. DeCoDi changes the diffusion process to avoid latent dimension regions of biased concepts. While most deep learning debiasing methods require complex or compute-intensive interventions, our method is designed to change only the inferenc...

ID: 2508.14933v1 cs.GR, cs.AI, cs.LG

arXiv PDF

📄 Can synthetic data reproduce real-world findings in epidemiology? A replication study using tree-based generative AI

2025-08-23

Авторы:

Jan Kapar, Kathrin Günther, Lori Ann Vallis, Klaus Berger, Nadine Binder, Hermann Brenner, Stefanie Castell, Beate Fischer, Volker Harth, Bernd Holleczek, Timm Intemann, Till Ittermann, André Karch, Thomas Keil, Lilian Krist, Berit Lange, Michael F. Leitzmann, Katharina Nimptsch, Nadia Obi, Iris Pigeot, Tobias Pischon, Tamara Schikowski, Börge Schmidt, Carsten Oliver Schmidt, Anja M. Sedlmair, Justine Tanoey, Harm Wienbergen, Andreas Wienke, Claudia Wigmann, Marvin N. Wright

#### Контекст Генерируемые с помощью искусственного интеллекта модели данных играют важную роль в решении практических проблем в области эпидемиологии, таких как защита конфиденциальности, увеличение размера выборки и уменьшение затрат на сбор данных. Несмотря на эти преимущества, многие нынешние методы генерации синтетических данных страдают недостатками качества, высокими затратами ресурсов вычислений и высокой сложностью для неэкспертных пользователей. Кроме того, существующие стратегии оценки синтетических данных не всегда напрямую отражают их статистическую полезность. Одним из ключевых вопросов является: могут ли синтетические данные верифицировать основные выводы эпидемиологического исследования? Мы предлагаем использовать алгоритм `adversarial random forests` (ARF), чтобы эффективно и просто генерировать синтетические данные в рамках эпидемиологических исследований. #### Метод Мы разработали `adversarial random forests` (ARF), алгоритм, который эффективно генерирует синтетические данные, используя решающие деревья. Этот подход характеризуется высокой скоростью и простотой использования. Мы применяем алгоритм ARF для синтеза данных эпидемиологических исследований, основываясь на данных из публикаций, рассматривающих такие показатели как антропометрия, сердечно-сосудистые заболевания, акселерометрия, одиночество, диабет и кровяное давление. Данные взяты из немецкого национального эпидемиологического исследования (NAKO), Bremen STEMI Registry U45 и Guelph Family Health Study. Для оценки качества синтеза мы сравнивали оригинальные выводы эпидемиологических исследований с результатами анализов, проведенных с использованием синтетических данных. Для дальнейшей оценки влияния того, как изменяется размер выборки и сложность данных, мы ограничивали данные только теми переменными, которые использовались в оригинальных эпидемиологических анализах. #### Результаты Мы провели кросс-валидацию синтетических данных с помощью различных эпидемиологических методов, включая описательные анализы, регрессионные модели и множественные кросс-валидации. В результате, результаты синтетических данных отражают оригинальные выводы всех первичных исследований, которые мы проверили. Даже при небольших размерах выборок и высокой сложности данных, результаты синтеза были стабильными и совпадали с результатами оригинальных исследований. Например, удалось воспроизвести результаты по изучению уровня кровяного давления, клинических показателей диабета и сердечно-сосудистых заболеваний. Мы также обнаружили, что сокращение размера выборки и предварительно разработанные перем

Annotation:

Generative artificial intelligence for synthetic data generation holds substantial potential to address practical challenges in epidemiology. However, many current methods suffer from limited quality, high computational demands, and complexity for non-experts. Furthermore, common evaluation strategies for synthetic data often fail to directly reflect statistical utility. Against this background, a critical underexplored question is whether synthetic data can reliably reproduce key findings from ...

ID: 2508.14936v1 q-bio.QM, cs.AI, cs.LG, stat.AP, stat.ML

arXiv PDF

📄 Fast Graph Neural Network for Image Classification

2025-08-23

Авторы:

Mustafa Mohammadi Gharasuie, Luis Rueda

## Контекст В последние годы растет интерес к обработке изображений с использованием графовых сетей, включая графовые сверточные сети (GCNs). Это связано с огромным потенциалом GCNs в моделировании сложных структур данных, таких как изображения. Однако имеются сложности, связанные с предварительной обработкой данных и необходимостью оптимальной репрезентации изображений. Существующие подходы часто сталкиваются с проблемами эффективности и точности, особенно при работе с сложными сценами и тонкой классификацией категорий. Мотивацией для данного исследования является развитие более эффективного и точного метода классификации изображений, использующего графовые сети в сочетании с геометрическими подходами для улучшения репрезентации изображений. ## Метод Предлагаемый подход интегрирует GCNs с геометрическими методами, основанными на Voronoi и Delaunay диаграммах. Изображения представляются как графы, где каждый пиксель или регион представляется в виде вершины. Эти графы подвергаются уточнению с помощью Delaunay-триангуляции, чтобы оптимизировать их структуру. Затем используются Вoronoi-диаграммы для уточнения границ регионов и улучшения точности представления. Этот подход позволяет лучше учитывать локальные отношения между пикселями, улучшая точность и эффективность классификации. Метод работает в несколько этапов: предварительная обработка, графовая работа, триангуляция и классификация. ## Результаты Разработанный метод был протестирован на нескольких заметных датасетах классикации изображений, включая CIFAR-10 и ImageNet. Использовались метрики точности классификации и эффективность предварительной обработки. Результаты показали, что предлагаемый подход превосходит существующие GCN-модели и другие подходы к классификации изображений в терминах точности и эффективности. Например, на CIFAR-10, модель достигла точности ~95%, что значительно выше, чем у стандартных CNN-моделей. Эксперименты показали, что интеграция Voronoi-диаграмм в графовые модели способствует более точному представлению сложной структуры изображений, особенно в сложных сценах. ## Значимость Предложенный подход может быть применен в различных областях, включая компьютерное зрение, глубокое обучение и анализ неструктурированных данных. Он предлагает несколько преимуществ, таких как улучшенная точность классификации, эффективность предварительной обработки и гибкость при обработке разных типов данных. Этот подход может быть использован для решения задач в сфере распознавания объектов, анали

Annotation:

The rapid progress in image classification has been largely driven by the adoption of Graph Convolutional Networks (GCNs), which offer a robust framework for handling complex data structures. This study introduces a novel approach that integrates GCNs with Voronoi diagrams to enhance image classification by leveraging their ability to effectively model relational data. Unlike conventional convolutional neural networks (CNNs), our method represents images as graphs, where pixels or regions functi...

ID: 2508.14958v1 cs.CV, cs.AI, cs.LG

arXiv PDF

📄 Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement

2025-08-23

Авторы:

Chunming He, Fengyang Xiao, Rihan Zhang, Chengyu Fang, Deng-Ping Fan, Sina Farsiu

## Контекст В области поиска признаков и визуального распознавания скрытых объектов встречаются часто проблемы с неопределенностью, особенно при работе с неполными или зашумленными изображениями. Многие существующие методы используют реversible стратегии для уменьшения неопределенности, однако они ограничиваются только масочным доменом. Это опускает нераскрытый потенциал RGB-домена. Наша работа нацелена на развитие более эффективных алгоритмов для решения задачи Concealed Visual Perception (CVP), объединяя реversible моделирование и генерирующий подход для глубокого улучшения изображений. ## Метод Мы предлагаем Reversible Unfolding Network for Concealed Visual Perception with Generative Refinement (RUN++), который представляет собой динамическую систему, основанную на математической оптимизации. RUN++ разворачивает итеративный процесс решения в многоступенчатую архитектуру нейросети. Он применяет reversible моделирование как в маскировочном, так и в RGB-доменах, что позволяет уменьшить неопределенность с помощью diffusion model. Каждая стадия включает в себя: 1. **Concealed Object Region Extraction (CORE)** – уточняет области объектов в маскировочном домене; 2. **Context-Aware Region Enhancement (CARE)** – улучшает разделение фона и переднего плана в RGB-домене; 3. **Finetuning Iteration via Noise-based Enhancement (FINE)** – использует Bernoulli diffusion model для целевого уточнения неясных областей в segmentation maskе. Эта система синергетически совмещает мощь реversible моделирования с разрешением неопределенности diffusion modelа, что улучшает точность и эффективность распознавания скрытых объектов. ## Результаты Мы провели эксперименты на различных датасетах, таких как CVP-1K и CVP-2K, использовали подход с разделением кросс-валидации. Наши результаты показали, что RUN++ превосходит существующие методы в точности распознавания и снижении false positives и false negatives. Мы также проверили эффективность нашего подхода в условиях реальных зашумлений и деградаций, доказав его жизнеспособность в реальных сценариях. ## Значимость RUN++ может применяться в сферах, требующих точного распознавания скрытых объектов, таких как безопасность, медицина и автоматизированные системы. Он обеспечивает высокую точность и уменьшает false positives, что делает его подходящим для сложных реальных задач. Благодаря использованию diffusion modelа, RUN++ эффективен в ресурсоемких ситуациях, таких как real-time recognition. ## Выводы RUN++ представляет собой перспективный подход к решению задачи Concealed Visual Perception, который совмещает реversible моделирование с генерирующими методами для обеспечения точности и устойчивости. Будущие исследования будут направлены на расширение этого подхода к другим биомедицинским и безопасностным задачам, а также на дополнительное улучшение его эффективности и скорости.

Annotation:

Existing methods for concealed visual perception (CVP) often leverage reversible strategies to decrease uncertainty, yet these are typically confined to the mask domain, leaving the potential of the RGB domain underexplored. To address this, we propose a reversible unfolding network with generative refinement, termed RUN++. Specifically, RUN++ first formulates the CVP task as a mathematical optimization problem and unfolds the iterative solution into a multi-stage deep network. This approach pro...

ID: 2508.15027v1 cs.CV, cs.AI, cs.LG

arXiv PDF

1
2
145
146
147
148
149
168
169

Показано 1461 - 1470 из 1687 записей