📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning

2025-08-15

Авторы:

Weijian Mai, Jiamin Wu, Yu Zhu, Zhouheng Yao, Dongzhan Zhou, Andrew F. Luo, Qihao Zheng, Wanli Ouyang, Chunfeng Song

## Контекст Понимание того, как визуальные стимулы преобразуются в кровеносные ответы в мозгу, является важной проблемой в компьютерных науках и нейронауке. Этот процесс характеризуется биологической вариабельностью: одинаковые визуальные стимулы вызывают разные ответы в мозгу, зависящие от контекста, субъекта и ситуации. Традиционные методы, ориентированные на детерминированное моделирование, сталкиваются с трудностями, связанными с этим неопределенностью. Это снижает точность и предсказуемость моделей, ограничивая их применение в нейронаучных исследованиях. Моделирование этой нерегулярности в сочетании с функциональной согласованностью необходимо для более точного понимания нейробиологических механизмов. ## Метод Мы предлагаем SynBrain — новую программную структуру, основанную на принципах проблемы задачи обучения с учителем и генеративной моделирования. Основная идея заключается в том, чтобы представить нейронные ответы в виде продольных вероятностных распределений, что позволяет сохранить функциональную согласованность и представлять биологические вариации. Главные компоненты SynBrain: (i) **BrainVAE** — модель, представляющая нейронные ответы с помощью вероятностных профилей, что обеспечивает продольную вариативность. (ii) **Semantic-to-Neural Mapper** — слой, проецирующий визуальные семантические признаки на нейронный манифолд, что обеспечивает высокую точность воспроизведения ответов в fMRI. Эта архитектура объединяет в себе мощь продольного моделирования и интерпретируемость биологических процессов. ## Результаты Мы провели подробные эксперименты на обширных данных, включая fMRI сигналы и визуальные стимулы. Модель SynBrain показала превосходство над другими подходами в задачах визуально-ниронного отображения. Оценки были проведены по метрикам качества, таким как PSNR, SSIM и correlation coefficient. Модель отлично справляется с неопределенностью в данных и позволяет эффективно адаптироваться к новым субъектам с небольшим количеством данных. Мы также проанализировали возможность SynBrain для улучшения обратных задач, таких как fMRI-to-image decoding. Наши результаты подтверждают, что модель SynBrain не только точно воспроизводит ответы, но и выделяет биологически значимые шаблоны. ## Значимость Перспективы SynBrain касаются широкого спектра применений в нейронауке и разработке интеллектуальных систем. Модель может быть использована для создания более точных моделей нейронной деятельности, улучшения диагностики и терапии неврологических заболеваний. Благодаря способности SynBrain адаптироваться к новым субъектам с минимальным объемом данных, она оказывается важной для решения про

Annotation:

Deciphering how visual stimuli are transformed into cortical responses is a fundamental challenge in computational neuroscience. This visual-to-neural mapping is inherently a one-to-many relationship, as identical visual inputs reliably evoke variable hemodynamic responses across trials, contexts, and subjects. However, existing deterministic methods struggle to simultaneously model this biological variability while capturing the underlying functional consistency that encodes stimulus informatio...

ID: 2508.10298v1 cs.LG, cs.CV, eess.IV

arXiv PDF

📄 Improving Learning of New Diseases through Knowledge-Enhanced Initialization for Federated Adapter Tuning

2025-08-15

Авторы:

Danni Peng, Yuan Wang, Kangning Cai, Peiyan Ning, Jiming Xu, Yong Liu, Rick Siow Mong Goh, Qingsong Wei, Huazhu Fu

## Контекст Современные медицинские исследования сталкиваются с вопросами быстрого адаптирования к новым заболеваниям и высокой защиты конфиденциальности данных. Федеративное обучение (FL) широко применяется в здравоохранении, позволяя нескольким медицинским учреждениям обмениваться знаниями без передачи чувствительных данных. Большие фундаментальные модели (FMs) продемонстрировали вакумный потенциал в области медицинского анализа данных. Однако применение этих моделей через адаптерный тюнинг часто оказывается дорогостоящим и неэффективным. Более того, новые заболевания требуют не только персонализированного подхода, но и эффективного использования предыдущих знаний для ускорения обучения. Это влечет за собой необходимость разработки новых методов, которые бы ускоряли адаптацию к новым задачам, учитывая имеющиеся знания. ## Метод Мы предлагаем Federated Knowledge-Enhanced Initialization (FedKEI) — новую архитектуру, основанную на понятии знаний, которое усилено с помощью кросс-клиентского и кросс-задачного переноса. FedKEI сначала выполняет глобальный кластеризационный процесс на сервере для обобщения знаний по всем задачам. Затем он оптимизирует веса аггрегации между кластерами (интер-кластерные веса) и внутри каждого кластера (интерьер-кластерные веса), чтобы улучшить личный трансфер для каждого клиента. Для этого используется билевел-оптимизационный схема, в которой глобальные веса интерьера учитываются вместе со специфичными локальными весами клиентов. Эта структура позволяет FedKEI эффективно адаптироваться к новым заболеваниям, используя предыдущие знания для оптимизации начальных параметров адаптера. ## Результаты Мы проверили FedKEI на трех бенчмарк-сетях, относящихся к разным модальностям: дерматологии, травм брюшины и ретинальных OCT-сканах. Наши эксперименты показали, что наше решение превосходит состояние технологий по эффективности и скорости обучения. В частности, FedKEI показал существенное улучшение в скорости построения первых моделей для новых заболеваний, а также в их точности и потреблении ресурсов. Эти результаты демонстрируют высокую эффективность FedKEI в ситуациях, требующих быстрого адаптирования к новым задачам в сфере здравоохранения. ## Значимость FedKEI может применяться в различных медицинских областях, таких как дерматология, радиология и окулология. Его преимущества заключаются в ускорении обучения моделей для новых заболеваний, повышении точности и экономии ресурсов. Этот подход имеет потенциал для ускорения развития медицинских технологий, обеспечивая быстрое реагирование на новые заболевания

Annotation:

In healthcare, federated learning (FL) is a widely adopted framework that enables privacy-preserving collaboration among medical institutions. With large foundation models (FMs) demonstrating impressive capabilities, using FMs in FL through cost-efficient adapter tuning has become a popular approach. Given the rapidly evolving healthcare environment, it is crucial for individual clients to quickly adapt to new tasks or diseases by tuning adapters while drawing upon past experiences. In this work...

ID: 2508.10299v1 cs.LG, cs.CV

arXiv PDF

📄 Combating Noisy Labels via Dynamic Connection Masking

2025-08-15

Авторы:

Xinlei Zhang, Fan Liu, Chuanyi Zhang, Fan Cheng, Yuhui Zheng

```## Контекст Нетрудно предположить, что реальные данные часто содержат неточные или шумные метки, которые могут серьезно повлиять на качество моделей машинного обучения. Это особенно актуально в случае моделей с глубокими нейросетевыми архитектурами, которые способны быстро запоминать даже шумные или неверные метки. Изучение способов борьбы с этим шумом является ключевым вопросом в адаптивном машинном обучении. Одним из перспективных подходов является регуляризация архитектуры нейронных сетей, чтобы уменьшить влияние неточных меток. Однако пока что многие исследования фокусируются на потерь (loss functions) и выборе образцов (sample selection), оставив регуляризацию архитектуры недостаточно подробно изученной. В данной работе мы обобщаем принципы регуляризации моделирования в рамках Kolmogorov-Arnold Networks (KANs) и предлагаем Dynamic Connection Masking (DCM) — механизм, который адаптивно подавляет менее важные связи в модели, оптимизируя её надёжность в условиях шумных меток. ``` ```## Метод Механизм Dynamic Connection Masking (DCM) предлагает адаптивный метод для определения и отключения менее важных связей в нейронных сетях. Основной идеей является оценка информационной ценности каждой связи в модели и её динамическое управление во время обучения. Для MLP и KAN была разработана архитектура, в которой входы и выходы каждого слоя связаны динамическим маской. Это даёт возможность отключать менее важные связи и снижать влияние шума. Мы применяем специальный метод градиентного оценивания для классификации, который позволяет эффективно снижать градиентный шум. Таким образом, DCM может быть интегрирован с различными методами борьбы с шумом в метках, такими как устойчивые функции потерь и выбор образцов. Это даёт гибкость в применении DCM в различных условиях. ``` ```## Результаты Мы провели эксперименты с использованием как синтетических данных с шумом меток, так и реальных тестовых наборов данных. Наши результаты показали, что DCM постоянно превосходит современные подходы по сопротивлению шумным меткам в классификационных задачах. В сравнении с альтернативными методами, DCM не только повышает точность, но и уменьшает величину градиентного шума, что является критически важным при обучении с шумными метками. Кроме того, мы провели эксперименты с Kolmogorov-Arnold Networks (KANs) и показали, что они показали высокую стойкость к шумным меткам в различных сценариях, превосходя Multi-Layer Perceptron Networks (MLPs). ``` ```## Значимость DCM может быть применен в различных областях моделей машинного обучения, в том числе в ситуациях, когда необходимо обучить модели на данных с шу

Annotation:

Noisy labels are inevitable in real-world scenarios. Due to the strong capacity of deep neural networks to memorize corrupted labels, these noisy labels can cause significant performance degradation. Existing research on mitigating the negative effects of noisy labels has mainly focused on robust loss functions and sample selection, with comparatively limited exploration of regularization in model architecture. Inspired by the sparsity regularization used in Kolmogorov-Arnold Networks (KANs), we...

ID: 2508.09697v1 cs.LG, cs.CV

arXiv PDF

📄 Noise Hypernetworks: Amortizing Test-Time Compute in Diffusion Models

2025-08-15

Авторы:

Luca Eyring, Shyamgopal Karthik, Alexey Dosovitskiy, Nataniel Ruiz, Zeynep Akata

## Контекст На сегодняшний день, тест-тайм скейлинг (test-time scaling) стал одной из ключевых тем в исследованиях по машинному обучению, особенно в сфере генерирующих моделей и трансформерных моделей. Этот подход позволяет моделям эффективно использовать дополнительные вычислительные ресурсы во время теста для увеличения точности или достижения более качественных результатов. Однако существует одна значительная проблема: повышение вычислительного времени приводит к увеличению затрат и неэффективности во время работы в реальном времени. Например, в случае диффузионных моделей, ряд исследований показал, что дополнительная оптимизация шума на тестовом этапе может повысить качество результатов. Но эта дополнительная оптимизация носит высокую стоимость и не всегда приемлема в быстрых сценариях работы. Мы предлагаем новый подход, позволяющий интегрировать выгоды тест-тайм скейлинга в модель после обучения. ## Метод Мы предлагаем Noise Hypernetwork, архитектура, которая манипулирует начальным шумом в процессе работы диффузионной модели. Этот шум модифицируется с помощью гиперсети, которая достигает желаемого шума на основе входного объекта. Мы используем теоретически обоснованный фреймворк, основанный на целевой функции, которая следует за целевым распределением. Наша модель обучается таким образом, чтобы оптимизировать шум, учитывая желаемую выходную фидлизацию. Мы использовали диффузионную модель Stable Diffusion в качестве базовой модели и проверяли нашу архитектуру на различных датасетах, таких как LSUN и COCO. ## Результаты Мы провели ряд экспериментов, сравнивая нашу модель с исходной диффузионной моделью и другими подходами, ориентированными на тест-тайм оптимизацию. Мы использовали метрики качества, такие как FID и IS, чтобы измерить качество генерируемых изображений. Результаты показали, что наш подход позволяет получить качество, близкое к точности, достигаемой с использованием тест-тайм оптимизации, но с значительно более низкой стоимостью вычислительных ресурсов. Благодаря Noise Hypernetwork мы удалось сократить затраты времени на тест-тайм оптимизацию до 5 раз, при этом сохранив высокое качество работы модели. ## Значимость Наш подход имеет широкий спектр применений в сфере генерирующих моделей, включая генерацию изображений, текста и видео. Он может быть использован для ускорения работы моделей в реальном времени, например, в ситуациях, требующих быстрого генерирования контента. Благодаря тому, что наш подход снижает вычислительные затраты, он может сделать тест-тайм оптимизацию доступной для широкого кру

Annotation:

The new paradigm of test-time scaling has yielded remarkable breakthroughs in Large Language Models (LLMs) (e.g. reasoning models) and in generative vision models, allowing models to allocate additional computation during inference to effectively tackle increasingly complex problems. Despite the improvements of this approach, an important limitation emerges: the substantial increase in computation time makes the process slow and impractical for many applications. Given the success of this paradi...

ID: 2508.09968v1 cs.LG, cs.CV

arXiv PDF

📄 Enhanced Liver Tumor Detection in CT Images Using 3D U-Net and Bat Algorithm for Hyperparameter Optimization

2025-08-14

Авторы:

Nastaran Ghorbani, Bitasadat Jamshidi, Mohsen Rostamy-Malkhalifeh

## Контекст Одним из наиболее распространенных и смертельных видов рака является злокачественный новообразование печени. Раннее выявление и точная диагностика необходимы для эффективного лечения этой заболевания. Однако диагностика злокачественных опухолей печени чрезвычайно сложная, ввиду того, что ткани печени имеют очень мало контрастности и требуют очень точных методов выделения интересующих областей на изображениях. Традиционные методы диагностики часто требуют значительного времени и специализированных навыков, что может привести к неточности в результатах. Автоматизированные системы, основанные на искусственном интеллекте, могут существенно повысить точность диагностики, уменьшить время работы специалиста и повысить общую эффективность лечения. Однако существуют ряд проблем, связанных с точностью и производительностью этих систем, в частности, трудности с оптимизацией параметров нейронных сетей. ## Метод В данной работе предлагается использовать сверточную нейронную сеть типа 3D U-Net для выделения интересующих областей на изображениях. 3D U-Net широко используется в задачах медицинского изображения для выделения интересующих областей в трехмерных изображениях. Однако улучшение точности и результатов зачастую зависит от того, настроены ли параметры модели правильно. Для этого в подходе используется метод оптимизации Bat Algorithm. Bat Algorithm является мета-хиерархическим методом оптимизации, который моделирует поведение летучих мышей при поиске лучшего решения по полям функции целевой функции. Этот метод оптимизирует ключевые параметры модели, такие как learning rate и batch size, для повышения точности и надежности модели. ## Результаты Запуск модели проводился на общедоступном наборе данных, который содержит изображения CT с метками, обозначающими зоны подозрительных областей. Модель была оптимизирована с помощью Bat Algorithm, что позволило повысить приверженность модели к точности и уменьшить возможность выявления ложных срабатываний. Результаты экспериментов показали, что модель способна достигать высоких результатов в области F1-меры, даже при низких предсказательных порогов. Это крайне важно для диагностики, где необходимо избегать пропуска подозрительных областей, так как это может привести к задержке лечения. Таким образом, полученные результаты свидетельствуют о том, что интеграция метода 3D U-Net и Bat Algorithm может стать мощным инструментом для автоматизации диагностики злокачественных новообразований печени. ## Значимость Предлагаемый подход может быть применен в различных областях клинической практики, в том числе в диагностике злокачественных состояний печени. Это

Annotation:

Liver cancer is one of the most prevalent and lethal forms of cancer, making early detection crucial for effective treatment. This paper introduces a novel approach for automated liver tumor segmentation in computed tomography (CT) images by integrating a 3D U-Net architecture with the Bat Algorithm for hyperparameter optimization. The method enhances segmentation accuracy and robustness by intelligently optimizing key parameters like the learning rate and batch size. Evaluated on a publicly ava...

ID: 2508.08452v1 cs.LG, cs.CV

arXiv PDF

📄 Multi-level Collaborative Distillation Meets Global Workspace Model: A Unified Framework for OCIL

2025-08-14

Авторы:

Shibin Su, Guoqiang Liang, De Cheng, Shizhou Zhang, Lingyan Ran, Yanning Zhang

#### Контекст Онлайн-классификация неизвестных классов (OCIL) является ключевым задачей в области машинного обучения, которая предполагает научить модель отличать новые классы в непрерывном потоке данных. Она отличается от оффлайн-обучения тем, что обучающие выборки видны только один раз, что делает её более реалистичной для реальных сценариев. Однако OCIL сталкивается с двумя основными проблемами: стабильностью модели при ограниченном объёме памяти и её адаптивностью к новым задачам. Насыщенные методами реплея методы демонстрируют неэффективность в условиях ограниченной памяти, в то время как методы перекрестной интерполяции (ensemble), несмотря на улучшение моделирования новых классов (plasticity), часто страдают от ухудшения стабильности (стабилизации). #### Метод Мы предлагаем прогрессивный подход, который улучшает обучение с помощью глобальной рабочей модели (GWM) — динамического инструмента, который объединяет параметры всех студентских моделей в каждой итерации обучения. GWM служит динамическим анкором для хранения и кредилизации знаний, а также обеспечивает стабильность, благодаря консервативной генерации. Мы также интегрировали механизм многоуровневого совместного дистилляции, который обеспечивает парный обмен знаний между студентскими моделями и сохраняет историческую информацию. Это подходит к решению проблемы стабильности и адаптивности в сильно ограничивающих условиях памяти. #### Результаты Мы проверили нашу модель на трёх стандартных бенчмарках OCIL, включая COCO, ImageNet и MS-COCO. Наши результаты показывают, что GWM не только повышает точность, но и существенно повышает моделирование новых классов с минимальными изменениями в стабильности. Благодаря многоуровневому совместному дистилляции, модель показывает значительные улучшения в сравнении с современными методами. #### Значимость Наше решение может быть применено в областях, где необходимо выявлять новые классы в непрерывном потоке данных, таких как системы распознавания образов в реальном времени, автоматизированные системы мониторинга или мобильные приложения. Особенностью нашей модели является её удачный баланс между стабильностью и адаптивностью, что делает её выгодным инструментом для реалистичных задач. #### Выводы Мы представили новую архитектуру, которая улучшает обучение с помощью глобальной рабочей модели в ситуациях строгих ограничений на память. Наши результаты показывают, что она значительно улучшает моделирование новых классов в рамках OCIL-задачи. Будущие исследования будут направлены на расширение этой модели для подд

Annotation:

Online Class-Incremental Learning (OCIL) enables models to learn continuously from non-i.i.d. data streams and samples of the data streams can be seen only once, making it more suitable for real-world scenarios compared to offline learning. However, OCIL faces two key challenges: maintaining model stability under strict memory constraints and ensuring adaptability to new tasks. Under stricter memory constraints, current replay-based methods are less effective. While ensemble methods improve adap...

ID: 2508.08677v1 cs.LG, cs.CV

arXiv PDF

📄 Improving Diagnostic Accuracy for Oral Cancer with inpainting Synthesis Lesions Generated Using Diffusion Models

2025-08-12

Авторы:

Yong Oh Lee, JeeEun Kim, Jung Woo Lee

## Контекст Онкологические заболевания, включая оральный рак, являются одним из наиболее тяжелых здоровьесберих проблем. Один из ключевых факторов, ограничивающих точность диагностики, является недостаточность и качественное несоответствие данных, над которыми обучаются модели. Эти проблемы приводят к снижению точности диагностики и ухудшению выживаемости пациентов. Тем не менее, технологии искусственного интеллекта (AI) могут помочь расширить объемы обучающих данных и улучшить точность диагностики. Одной из таких технологий является метод инпейтинга (inpainting), который позволяет генерировать реалистичные изображения синтетических объектов. Методы инпейтинга, основанные на моделях диффузии, были успешно применены в медицинских изображениях, но их потенциал в диагностике орального рака до сих пор не полностью исследован. ## Метод Авторы предложили метод, который использует модель диффузии для генерирования реалистичных синтетических изображений оральных раковых лезионов. Для этого использовались данные из нескольких источников, включая изображения с разными состояниями оральных раковых лезионов. Модель была оптимизирована для того, чтобы генерировать изображения, которые не только выглядят реалистично, но и содержат подробные детали, схожие с реальными лезионами. Эта модель была применена к тренировочным изображениям, чтобы увеличить количество данных, которые могут быть использованы для обучения диагностических моделей. ## Результаты В ходе экспериментов был сравнен результат диагностики с использованием синтетических изображений и реальных данных. Диагностическая модель, обученная на синтетических данных, показала высокую точность классификации - 0,97. Модель детекции лезионов показала точность распознавания 0,85. Эти результаты показали, что синтетические изображения, генерируемые моделью inpainting, могут значительно улучшить точность диагностики и позволяют расширить объем данных, используемых в обучении. ## Значимость Метод предложенной модели может быть применен для улучшения диагностики различных онкологических заболеваний, в том числе орального рака. Это может привести к более точной диагностике и повышению выживаемости пациентов. Также, этот подход может быть расширен на другие типы рака, что делает его привлекательным для исследований в области медицинского искусственного интеллекта. ## Выводы Исследование показало, что использование моделей диффузии для генерирования синтетических лезионов может значительно улучшить точность диагностики орального рака. Это у

Annotation:

In oral cancer diagnostics, the limited availability of annotated datasets frequently constrains the performance of diagnostic models, particularly due to the variability and insufficiency of training data. To address these challenges, this study proposed a novel approach to enhance diagnostic accuracy by synthesizing realistic oral cancer lesions using an inpainting technique with a fine-tuned diffusion model. We compiled a comprehensive dataset from multiple sources, featuring a variety of ora...

ID: 2508.06151v1 cs.LG, cs.CV

arXiv PDF

📄 X-VFL: A New Vertical Federated Learning Framework with Cross Completion and Decision Subspace Alignment

2025-08-11

Авторы:

Qinghua Yao, Xiangrui Xu, Zhize Li

## Контекст В сфере искусственного интеллекта и машинного обучения возникла рост интереса к методам Vertical Federated Learning (VFL), который позволяет нескольким клиентам обучать модели по взаимозаменяемым данным, сохраняя приватность индивидуальных данных. Однако существуют два основных проблемы в существующих решениях. Во-первых, VFL требует точной координации примеров между клиентами, чтобы все они имели полные и совпадающие выборки данных. Это непрактично в реальной жизни, где данные часто не полны. Во-вторых, VFL не поддерживает локально независимую инференцию, что ограничивает возможности клиентов использовать модели для прогнозирования независимо от других клиентов. Данная работа ориентирована на развитие нового VFL-фреймворка, который бы решил эти проблемы. ## Метод Предложенный фреймворк, названный X-VFL, решает эти проблемы с помощью двух основных модулей. **Cross Completion (XCom)** представляет собой метод, который использует информацию из других клиентов для заполнения пропусков в данных клиентов. Это позволяет сделать данные более полными и совместимыми. **Decision Subspace Alignment (DS-Align)** гарантирует, что модели клиентов подходят к глобальному решению, сохраняя локальную независимость. Также, в рамках X-VFL разработаны теоремы об устойчивости, подтверждающие эффективность алгоритмов обучения, в том числе SGD и PAGE, с коэффициентами сходимости $O(1/\sqrt{T})$ и $O(1/T)$ соответственно. ## Результаты X-VFL был подвергнут тестированию на реальных данных, включая датасеты CIFAR-10 и MIMIC-III. На датасете CIFAR-10, X-VFL достиг 15% повышения точности в сравнении с основными методами. На датасете MIMIC-III, X-VFL показал 43% улучшение в производительности. Эти результаты указывают на способность X-VFL решать задачи, где данные не полные, и поддерживать локальную независимость, что делает его выдающимся в сложностях, связанных с федеративным обучением. ## Значимость Предлагаемый подход открывает новые горизонты для федеративного обучения в ситуациях, где данные не полны и требуется локальная независимость. X-VFL может применяться в различных областях, таких как медицина, финансы и интернет-технологии, где необходимо совместное обучение моделей, сохраняя приватность данных. Это решение повышает эффективность, устраняет ограничения существующих методов и демонстрирует перспективу в области федеративного обучения. ## Выводы Разработанный X-VFL представляет собой прорыв в области Vertical Federated Learning. Он способен решать ключевые проблемы, такие как отсутствие полных данных и необходимость локальных моделей, что увеличивает его применимость в реальных ситуациях. Буду

Annotation:

Vertical Federated Learning (VFL) enables collaborative learning by integrating disjoint feature subsets from multiple clients/parties. However, VFL typically faces two key challenges: i) the requirement for perfectly aligned data samples across all clients (missing features are not allowed); ii) the requirement for joint collaborative inference/prediction involving all clients (it does not support locally independent inference on a single client). To address these challenges, we propose X-VFL, ...

ID: 2508.05568v2 cs.LG, cs.CV, cs.DC, math.OC

arXiv PDF

📄 $ε$-Softmax: Approximating One-Hot Vectors for Mitigating Label Noise

2025-08-09

Авторы:

Jialiang Wang, Xiong Zhou, Deming Zhai, Junjun Jiang, Xiangyang Ji, Xianming Liu

**Резюме** Ошибочные метки — это частая проблема при обучении нейросетей, особенно в условиях масштабирования моделей. Ранее предлагались различные устойчивые функции потерь для борьбы с этой проблемой, однако они часто страдают от подавления ошибок или недостаточной точности подготовки моделей. В настоящей работе предлагается метод $\epsilon$-softmax, который аппроксимирует выходы слоя softmax в нейросети одного-горячего вектора с контролируемой точностью $\epsilon$. Это приводит к уменьшению влияния шума в метках на обучение, без потери гибкости в подавлении шума при определенных условиях. Теоретически, показано, что $\epsilon$-softmax обеспечивает ноут-толерантное обучение с оптимальным балансом между устойчивостью и точностью. На практике, сочетание $\epsilon$-softmax с симметричными функциями потерь позволяет достичь лучшего баланса между устойчивостью к шумным меткам и точностью обучения на чистых данных. Эксперименты подтвердили высокую эффективность метода на реальных и синтетических данных с мешаниной в метках.

Annotation:

Noisy labels pose a common challenge for training accurate deep neural networks. To mitigate label noise, prior studies have proposed various robust loss functions to achieve noise tolerance in the presence of label noise, particularly symmetric losses. However, they usually suffer from the underfitting issue due to the overly strict symmetric condition. In this work, we propose a simple yet effective approach for relaxing the symmetric condition, namely $\epsilon$-softmax, which simply modifies...

ID: 2508.02387v1 cs.LG, cs.CV

arXiv PDF

📄 Clinical Expert Uncertainty Guided Generalized Label Smoothing for Medical Noisy Label Learning

2025-08-09

Авторы:

Kunyu Zhang, Lin Gu, Liangchen Liu, Yingke Chen, Binyang Wang, Jin Yan, Yingying Zhu

Многие исследования используют тексты клинических заметок для создания больших медицинских имидж-датасетов с минимальными затратами. Однако эти методы страдают от шума в меток, вызванного неопределенностью в клинических заметках. Радиологи и врачи часто оставляют неопределенные замечания, например, "может быть" или "не исключено", что приводит к шуму в метках. Несмотря на развитие методов по определению меток, эти неявные неуверенности не учитываются, что приводит к появлению шума в метках. Наша работа предлагает метод обучения с учетом неопределенности клинических заметок, используя метод гладкого значения меток (Generalized Label Smoothing). Мы проанализировали влияние неопределенности клинических заметоток на шум меток, разработали бенчмарк для экспертной неопределенности и улучшили существующие подходы к обучению в условиях шума меток, продемонстрировав эффективность наших методов.

Annotation:

Many previous studies have proposed extracting image labels from clinical notes to create large-scale medical image datasets at a low cost. However, these approaches inherently suffer from label noise due to uncertainty from the clinical experts. When radiologists and physicians analyze medical images to make diagnoses, they often include uncertainty-aware notes such as ``maybe'' or ``not excluded''. Unfortunately, current text-mining methods overlook these nuances, resulting in the creation of ...

ID: 2508.02495v2 cs.LG, cs.CV

arXiv PDF

Показано 261 - 270 из 277 записей