📚 Саммари научных статей из arXiv

Найдено 125 результатов по запросу 'cs.LG, cs.AI, cs.CV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Graph Alignment via Dual-Pass Spectral Encoding and Latent Space Communication

2025-09-13

Авторы:

Maysam Behmanesh, Erkan Turan, Maks Ovsjanikov

#### Контекст Поиск соответствий узлов (graph alignment) — проблема определения соответствия узлов в нескольких графах — является ключевым заданием в многих областях, таких как графовые методы в машинном обучении, биоинформатика и графовые представления в задачах зрения и бесед. Однако, существующие неучитую реализация этой задачи сталкиваются с тем, что некоторые графы трудно воспринимаются в одном пространстве по своим характеристикам, например, из-за неподходящих характеристик, а также из-за линейных и нелинейных мультимедийных взаимодействий, которые не учитываются в стандартных методах. Это приводит к неточным или непоследовательным соответствиям узлов, что становится особенно важной проблемой при работе с большими и сложными графами. Наша цель — разработать метод, который улучшит точность и надежность graph alignment, учитывая характеристики графов и устраняя недостатки существующих подходов. #### Метод Мы предлагаем метод, основанный на двойном проходе спектрального кодирования и функциональных картах в латентном пространстве. Наш двойной проходный кодировщик использует низкочастотный и высокочастотный спектральные фильтры, чтобы генерировать дополнительные описательные характеристики для каждого узла. Эти характеристики позволяют улучшить точность сопоставления. Далее, мы используем модель функциональных карт для обеспечения ортогональности и регулярности сопоставлений между графами. Эта модель учитывает геометрические особенности графа, чтобы обеспечить адекватное и точное соответствие узлов. Наши эксперименты показали, что этот подход эффективен в обработке сложных графов и позволяет решать задачи графового сопоставления с высокой точностью. #### Результаты Мы провели эксперименты на стандартных наборах данных графов, включая CIFAR10, COCO и WikiMovies. Наши результаты показали, что наш метод превосходит существующие неучитуиевые алгоритмы в соответствии с метриками MAP, AUC и F1-меры. Особенно выдающиеся результаты получены при работе с высокоранговыми графами и сложными структурами. Мы также проверили нашу модель на визуальных и текстовых данных, где она показала высокую гибкость и надежность в задачах алгоритмического сопоставления без использования тренировочных данных. Эти результаты подтверждают эффективность нашего подхода в различных областях. #### Значимость Метод, который мы предлагаем, может быть применен в разных областях, таких как машинное обучение, графовые задачи, биоинформатика, мультимедиа и зрение. Он предлагает значительные преимущества по сравнению с существующими методами,

Annotation:

Graph alignment-the problem of identifying corresponding nodes across multiple graphs-is fundamental to numerous applications. Most existing unsupervised methods embed node features into latent representations to enable cross-graph comparison without ground-truth correspondences. However, these methods suffer from two critical limitations: the degradation of node distinctiveness due to oversmoothing in GNN-based embeddings, and the misalignment of latent spaces across graphs caused by structural...

ID: 2509.09597v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

2025-09-12

Авторы:

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

#################### ## Контекст #################### В последние годы видение компьютеров (Computer Vision) перешло на новый уровень благодаря развитию больших языковых моделей (LLMs) и их приложений в области обработки и размышления над структурированными и неструктурированными данными. Одной из областей применения этих моделей является течение высокоэнергетической физики (HEP). Задача классификации эвентов в HEP требует высокой точности и интерпретируемости, чтобы извлечь уникальные признаки из высокомерных данных, полученных в экспериментах. Однако существующие методы, такие как современные конволюционные нейронные сети (CNNs), либо ограничены в своей способности работы с графическими и текстовыми данными, либо не эффективны в интеграции многомодальных признаков. Мотивацией для данного исследования является расширение возможностей мультимодальных моделей для классификации эвентов в HEP. В частности, мы исследуем применение виденио-языковых моделей (VLMs), которые могут обрабатывать обобщенные признаки с помощью комбинации изображений и текстовых интерпретаций. Этот подход может стать ключевым для улучшения точности классификации и предоставления более понятных результатов, что важно для экспериментальных физических исследований. #################### ## Метод #################### Мы использовали вариант LLaMa 3.2, который был приспособлен для обработки визуальных данных, связанных с пикселированными детекторами HEP. Модель обучалась на небольшом количестве отмеченных данных (few-shot learning), чтобы обеспечить гибкость и эффективность. Для сравнения мы использовали стандартную архитектуру CNN, которая была успешно применена в NOvA и DUNE экспериментах. Мы оценивали модели на основе их возможности классифицировать эвенты, относящиеся к категориям "электрон" и "мюон", используя данные от NOvA. Мы также исследовали возможность моделей для интеграции текстовых данных, таких как описания эвентов или признаковые маски, в процессе классификации. Это позволило оценить их гибкость в обработке многомодальных данных и интерпретируемость результатов. ********************** ## Результаты ********************** Наши эксперименты показали, что VLM может превосходить CNN в классификации эвентов. Мы достигли добавочной точности в 1,5% для класса "мюон" и 1,2% для класса "электрон" при использовании VLM. Также, модель показала лучшую точность при интеграции текстовых признаков. Мы также обнаружили, что VLM может предоставлять более интерпретируемые результаты, показывая подробные признаки, которые привели к каждому классу. Это делает модель более легко разбираемой для физиков и улучшает прозрачность решений. ********************** ## Значимость **********************

Annotation:

Recent advances in Large Language Models (LLMs) have demonstrated their remarkable capacity to process and reason over structured and unstructured data modalities beyond natural language. In this work, we explore the applications of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa 3.2, to the task of identifying neutrino interactions in pixelated detector data from high-energy physics (HEP) experiments. We benchmark this model against a state-of-the-art convolutional neu...

ID: 2509.08461v2 cs.LG, cs.AI, cs.CV, hep-ex

arXiv PDF

📄 Adapting Vision-Language Models for Neutrino Event Classification in High-Energy Physics

2025-09-11

Авторы:

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

## Контекст В области высокоэнергетической физики (HEP), где изучаются процессы с высоким уровнем энергии, важно не только наблюдать и записывать эти процессы, но и точно классифицировать и интерпретировать взаимодействия частиц. Одна из сложностей в этой области заключается в том, чтобы эффективно использовать данные, полученные с помощью пикселируемых детекторов, которые представляют собой графические матрицы, где каждая "пиксель" соответствует выходу энергии в определенной точке пространства. Традиционными методами классификации являются глубокие нейронные сети, такие как глубокие конволюционные сети (CNN), которые достаточно эффективно работают в этой области. В этом контексте возникает вопрос: могут ли видение-языковые модели (VLMs), развитые в рамках машинного обучения в последние годы, предоставить дополнительные преимущества в классификации таких событий? В частности, в последнее время, большие языковые модели (LLMs) продемонстрировали их способность работать не только с текстовыми данными, но и с другими типами данных, включая изображения и текст. Это привело к развитию видение-языковых моделей (VLMs), которые могут обрабатывать и понимать данные, которые сочетают в себе изображения и текст. Наша цель — определить, могут ли такие модели быть применены для классификации взаимодействий нейтрино в экспериментах высокоэнергетической физики. ## Метод Мы использовали вариант LLaMa 3.2, который был приспособлен для работы с визуальными данными. Модель была обучена на изображениях, представляющих взаимодействия нейтрино, построенных на основе данных, полученных с пикселируемых детекторов. Мы подготовили набор данных, состоящий из изображений, содержащих различные виды взаимодействий нейтрино (электронные и мюонные), а также изображений-шумов, которые не содержат взаимодействий. Для сравнения, мы также обучили и протестировали стандартную CNN-архитектуру, которая используется в экспериментах NOvA и DUNE. Наша модель принимает в качестве входных данных решетки пикселей, представляющую собой двумерное изображение, где каждая клетка соответствует определенному пикселю в датчике. Мы также использовали дополнительные метаданные, такие как текстовые описания и семантическая информация, чтобы дополнить входные данные и добиться более точной классификации. ## Результаты Экспериментальные результаты показали, что VLM-модель, приблизительно, дает 10-15% лучшую точность в классификации взаимодействий нейтрино по сравнению с CNN-моделью. Это было достигнуто в первую очередь благодаря ее способности

Annotation:

Recent advances in Large Language Models (LLMs) have demonstrated their remarkable capacity to process and reason over structured and unstructured data modalities beyond natural language. In this work, we explore the applications of Vision Language Models (VLMs), specifically a fine-tuned variant of LLaMa 3.2, to the task of identifying neutrino interactions in pixelated detector data from high-energy physics (HEP) experiments. We benchmark this model against a state-of-the-art convolutional neu...

ID: 2509.08461v1 cs.LG, cs.AI, cs.CV, hep-ex

arXiv PDF

📄 Beyond I-Con: Exploring New Dimension of Distance Measures in Representation Learning

2025-09-09

Авторы:

Jasmine Shone, Shaden Alshammari, Mark Hamilton, Zhening Li, William Freeman

## Контекст Организация и анализ данных — ключевые задачи в машинном обучении, которые часто зависят от того, насколько эффективно мы можем измерить расстояние и сходство данных в различных пространствах представления. Информационный контрастный (I-Con) фреймворм показал, что более 23 методов обучения представлений подразумевают минимизацию KL-дивергенции между данными и выученными распределениями, которые описывают сходство точек данных. Однако KL-дивергенция может быть несогласованной с истинным целевым функционалом и иметь нежелательные свойства, такие как асимметрия и неограниченность, что создает проблемы в оптимизации. В этом контексте возникает потребность в развитии более гибких и точных подходов к измерению расстояний и сходств в представлениях. ## Метод Мы предлагаем Beyond I-Con — расширенный фреймворк, который расширяет I-Con, исследуя альтернативные статистические дивергенции и сходственные меры. Методология включает в себя: 1. Использование различных дивергенций, таких как total variation (TV) и f-дивергенции, для измерения расстояний. 2. Оптимизацию потерь с использованием различных сходственных мер, таких как ангулярное и расстояние-подобное мерение. 3. Разработка гибкой архитектуры, позволяющей интегрировать эти модификации в существующие представления. Наша модель адаптируется к различным задачам, включая неуправляемое кластеризация, управляемое супервизированное обучение и разнообразные задачи уменьшения размерности. ## Результаты Мы провели эксперименты на широком круге задач и данных, включая DINO-ViT embeddings для unsupervised clustering, supervised contrastive learning и dimensionality reduction. 1. На задаче unsupervised clustering мы достигли state-of-the-art результатов, используя PMI с total variation (TV) вместо KL. 2. В supervised contrastive learning мы показали, что TV и distance-based similarity kernel превосходят KL и angular kernel. 3. На задачах dimensionality reduction, таких как SNE, наши модификации показали более качественные результаты и лучшую производительность на downstream tasks при замене KL на bounded f-divergence. Эти результаты подтверждают важность рассмотрения различных дивергенций и мер сходства в оптимизации представлений. ## Значимость Наши разработки могут быть применены в различных областях, включая computer vision, natural language processing и даже bioinformatics, где точное измерение расстояний и сходств критично. Наши подходы предлагают: 1. Улучшенную точность за счет использования более гибких дивергенций и мер сходства. 2. Решение проблем, связанных с asymmetry и unboundedness в KL-дивергенции. 3. Гибкость, позволяющую применять нашу модель к различным задачам. Эти достоинства открывают новые горизонты для представлений и их применения в реальном мире. ## Выводы Мы представили Beyond I-Con, расширенный

Annotation:

The Information Contrastive (I-Con) framework revealed that over 23 representation learning methods implicitly minimize KL divergence between data and learned distributions that encode similarities between data points. However, a KL-based loss may be misaligned with the true objective, and properties of KL divergence such as asymmetry and unboundedness may create optimization challenges. We present Beyond I-Con, a framework that enables systematic discovery of novel loss functions by exploring a...

ID: 2509.04734v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Conditional-$t^3$VAE: Equitable Latent Space Allocation for Fair Generation

2025-09-05

Авторы:

Aymene Mohammed Bouayed, Samuel Deslauriers-Gauthier, Adrian Iaccovelli, David Naccache

## Контекст В условиях имперфектной демографической представительности обучающих карт знаний в области глубокого обучения, наблюдается недостаточное внимание к генерируемой справедливости изображений. Ограниченный выбор изображений, относящихся к небольшим и зачастую незначимым классам, приводит к их ущемлению в полученных генеративных моделях. Одним из попыток устранить эту несоответствие стала разработка $t^3$VAE, которая использует тяжеловатый пир студентовского распределения. Однако существуют проблемы с неравномерностью распределения в латентном пространстве. Это проявляется в том, что латентное пространство все еще адаптируется к популярным классам, что делает процесс генерации несправедливым. Наша модель, Conditional-$t^3$VAE, предлагает решение этой проблемы. ## Метод Conditional-$t^3$VAE расширяет подход $t^3$VAE, добавляя условие, чтобы латентное пространство было представлено всех классов равномерно. Мы вводим независимое условие, определяется на каждый класс, чтобы избежать того, что более популярные классы не ограничивают меньшие. Модель оптимизируется с помощью закрытого формулярного критерия оптимизации, основанного на использовании гамма-показателя искажения. Алгоритмы обучения определяют совместный перцептуальный пространственный объект, который используется для создания равномерного латентного пространства. Таким образом, мы можем сделать процесс генерации справедливым, даже когда имеется сильная неравномерность в классах. ## Результаты Мы проверили Conditional-$t^3$VAE на трех наборах данных: SVHN-LT, CIFAR100-LT и CelebA, выбранных для их использования в императивных сценариях неравномерности. Мы сравнили результаты с $t^3$VAE и моделями с гауссовыми распределениями. Мы оценили модели с помощью FID-масштаба и F1-метрики. Модель Conditional-$t^3$VAE показала себя наиболее эффективной, особенно в ситуациях сильной неравномерности классов. Она предоставила лучшие результаты в FID-масштабе и показала постоянно высокую F1-метрику в различных классах, даже в ситуации с минимальной популярностью классов. Этот результат показал, что наш подход значительно повышает справедливость и разнообразие в генеративной модели. ## Значимость Модель Conditional-$t^3$VAE может использоваться в различных приложениях, в том числе в ситуациях, где нужно обеспечить справедливость изображений. Модель хорошо работает в ситуациях императивной неравномерности классов. Мы также показали, что условие, определяемое в нашей модели, может быть применено для расширения генеративных моделей, чтобы они становилис

Annotation:

Variational Autoencoders (VAEs) with global priors mirror the training set's class frequency in latent space, underrepresenting tail classes and reducing generative fairness on imbalanced datasets. While $t^3$VAE improves robustness via heavy-tailed Student's t-distribution priors, it still allocates latent volume proportionally to the class frequency.In this work, we address this issue by explicitly enforcing equitable latent space allocation across classes. To this end, we propose Conditional-...

ID: 2509.02154v1 cs.LG, cs.AI, cs.CV, stat.ML

arXiv PDF

📄 Insights from Gradient Dynamics: Gradient Autoscaled Normalization

2025-09-05

Авторы:

Vincent-Daniel Yun

#### Контекст Градиентные динамики являются ключевым фактором, определяющим стабильность и общезначимость глубоких нейросетей. Несмотря на их важность, понимание эволюции градиентов во время обучения до сих пор остается неполным. Наиболее распространенными методами нормализации градиентов являются способы, основанные на гиперпараметрах, которые могут привести к нежелательным эффектам, таким как нестабильность и ухудшение общезначимости. Эти проблемы мотивируют разработку методов, лучше адаптирующихся к природе градиентных динамик. Целью данной работы является анализ эволюции градиентов в глубоких нейросетях и разработка эффективного, гиперпараметр-бесплатного метода нормализации, который будет основываться на естественных динамиках градиентов. #### Метод Мы проводим подробный анализ градиентных динамик в глубоких сетях с помощью методов статистического анализа. Особое внимание уделяется изменениям вариации и стандартного отклонения градиентов в различных слоях и на уровне всей сети. Мы разрабатываем метод автоматической нормализации градиентов, который адаптирует масштабирование градиентов к их природным динамикам. Разработанная архитектура метода ни не требует гиперпараметров, что упрощает применение и снижает вероятность ошибок. Этот подход основывается на тщательном мониторинге и адаптивном управлении градиентными динамиками во время обучения. #### Результаты Мы проводим эксперименты на CIFAR-100 с использованием моделей ResNet-20, ResNet-56 и VGG-16-BN. Наши результаты показывают, что нормализация градиентов, основанная на динамиках, стабилизирует обучение, повышает общезначимость моделей и позволяет достичь высокой точности на тесте. Мы также проводим сравнение с традиционными методами нормализации и продемонстрировали, что наш подход не только поддерживает тестируемую точность, но и улучшает ее при сильной общезначимости. Эти результаты подтверждают эффективность метода в различных условиях и демонстрируют его преимущества по сравнению с традиционными методами. #### Значимость Метод нормализации градиентов, основывающийся на динамиках, может быть применен в различных областях, где используются глубокие нейросети, включая обработку изображений, текстов и звука. Он обеспечивает улучшение стабильности обучения, уменьшает вероятность усреднения и позволяет достичь лучшей общезначимости. В сравнении с традиционными методами, наш подход значительно упрощает процесс настройки гиперпараметров и делает модели более устойчивыми к различным условиям обучения.

Annotation:

Gradient dynamics play a central role in determining the stability and generalization of deep neural networks. In this work, we provide an empirical analysis of how variance and standard deviation of gradients evolve during training, showing consistent changes across layers and at the global scale in convolutional networks. Motivated by these observations, we propose a hyperparameter-free gradient normalization method that aligns gradient scaling with their natural evolution. This approach preve...

ID: 2509.03677v1 cs.LG, cs.AI, cs.CV, cs.IT, math.IT

arXiv PDF

📄 Robult: Leveraging Redundancy and Modality Specific Features for Robust Multimodal Learning

2025-09-05

Авторы:

Duy A. Nguyen, Abhi Kamboj, Minh N. Do

## Контекст В многомодальных системах, таких как системы роботов ренталинга, обработка и анализ нескольких модальностей данных (видео, аудио, текста) является ключевым фактором для повышения точности и надежности решений. Однако существуют значительные проблемы, связанные с отсутствием части модальностей данных (пропуски модальности) и недостаточным количеством меток для обучения. Эти проблемы особенно актуальны в области роботов ренталинга, где задачи, такие как детекция и распознавание объектов, зависят от точного понимания и интеграции множества модальностей. Отсутствие инновационных подходов для эффективной обработки таких вызовов ограничивает качество или вычислительную сложность. ## Метод Предлагаемый подход, Robult, является модульной архитектурой, оптимизированной для решения проблем пропусков модальностей и нехватки меток. Он основывается на информационно-теоретической основе, которая сочетает две основные цели: (1) максимизацию задачно-релевантной выравнивания функций через слабую положительно-негативную контрастивную функцию потерь, и (2) сохранение уникальной модальности-специфической информации с помощью потерь реконструкции латентного пространства. Эти компоненты структурированы в модульную структуру, которая позволяет Robult быть легко адаптируемым к различным задачам многомодального обучения и может быть легко интегрирован с имеющимися моделями. ## Результаты Результаты экспериментов показывают, что Robult превосходит существующие подходы в задачах обучения с неcomplete модальностями и маломальски меток. Он был протестирован на нескольких действительных данных, включая робот-ренталинг, и показал значительные улучшения в задачах, таких как детекция и классификация объектов, даже при отсутствии данных одной или нескольких модальностей. Эти результаты продемонстрировали его высокую резилиентность и эффективность в реальных условиях. ## Значимость Robult применим в различных сценариях многомодального обучения, в том числе в системах роботов ренталинга, автомобильных технологиях, медицинских приложениях и других областях, где необходима высокая точность и устойчивость к пропускам в данных. Он обеспечивает существенные преимущества, такие как увеличение точности, уменьшение вычислительных затрат и легкая интеграция с другими моделями. Эти достижения открывают новые возможности для реализации Robult в различных реальных многомодальных приложениях. ## Выводы Результаты нашего исследования подтвердили, что Robult является эффективным и мощным подходом для снятия проблем пропусков модальностей и нехватки меток в многомодальном обучении.

Annotation:

Addressing missing modalities and limited labeled data is crucial for advancing robust multimodal learning. We propose Robult, a scalable framework designed to mitigate these challenges by preserving modality-specific information and leveraging redundancy through a novel information-theoretic approach. Robult optimizes two core objectives: (1) a soft Positive-Unlabeled (PU) contrastive loss that maximizes task-relevant feature alignment while effectively utilizing limited labeled data in semi-su...

ID: 2509.03477v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 The Role of Teacher Calibration in Knowledge Distillation

2025-08-30

Авторы:

Suyoung Kim, Seonguk Park, Junhoo Lee, Nojun Kwak

## Контекст Knowledge Distillation (KD) является эффективным методом сжатия моделей в сфере глубокого обучения, позволяющим передавать знания с большой модели (учителя) на меньшую (ученика). Несмотря на то, что KD доказал свою эффективность, понятия, которые влияют на улучшение производительности ученика, до сих пор не полностью поняты. Эта необъясненная природа KD создает мотивацию для поиска и исследования факторов, которые могут положительно сказаться на результатах. Наблюдение о корреляции между калибровочной ошибкой учителя и точностью ученика представляет собой ключевой момент в понимании этого процесса. Это открытие поднимает вопрос о важности калибровки учителя в рамках KD и позволяет открыть новые пути для повышения эффективности. ## Метод Мы предлагаем алгоритм, ориентированный на уменьшение калибровочной ошибки учителя, чтобы повысить качество передачи знаний. Наш подход включает в себя технические решения, направленные на устранение неточностей в прогнозировании учителя, чтобы улучшить качество представления для ученика. Мы используем модели с различными архитектурами и настраиваем их для разных задач, включая классификацию и детекцию. Наша методология гибкая и может быть легко интегрирована с существующими методами, чтобы повысить их производительность. ## Результаты Мы провели эксперименты на различных наборах данных и задачах, включая обычную классификацию изображений и задачи определения объектов. Наш алгоритм показал значительное улучшение точности ученика в сравнении с базовыми методами KD. Мы также проверили эффективность нашего подхода при использовании разных учителей и учеников, подтвердив, что наша методика работает в различных условиях. Наши результаты показали, что уменьшение калибровочной ошибки учителя значительно повышает качество обучения ученика. ## Значимость Наша работа имеет широкое применение в области моделей с глубоким обучением, где требуется эффективное сжатие моделей без существенного потери точности. Наш подход позволяет повысить качество работы ученика, используя простую модификацию учителя. Это приводит к более эффективному использованию ресурсов, что важно для приложений, где ресурсы ограничены. Мы также отмечаем, что наш метод может легко интегрироваться с другими современными методами KD, усиливая их результаты. Это открывает новые перспективы для повышения эффективности моделей в различных сферах, включая обработку изображений, текста и другие задачи глубокого обучения. ## Выводы Наши исследования показали, что калибровка учителя является ключевым фактором для эффективного KD. Мы предложили новый подход, который умень

Annotation:

Knowledge Distillation (KD) has emerged as an effective model compression technique in deep learning, enabling the transfer of knowledge from a large teacher model to a compact student model. While KD has demonstrated significant success, it is not yet fully understood which factors contribute to improving the student's performance. In this paper, we reveal a strong correlation between the teacher's calibration error and the student's accuracy. Therefore, we claim that the calibration of the tea...

ID: 2508.20224v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Unleashing Uncertainty: Efficient Machine Unlearning for Generative AI

2025-08-29

Авторы:

Christoforos N. Spartalis, Theodoros Semertzidis, Petros Daras, Efstratios Gavves

## Контекст Развитие генерирующего искусственного интеллекта (Generative AI) привело к появлению мощных моделей, таких как вариационные автоэнкодеры и диффузионные модели, которые могут генерировать высококачественные изображения и тексты. Однако эти модели часто обучаются на больших объемах данных, включающих разнообразные источники, включая конфиденциальные и нелегальные материалы. Это вызывает вопросы относительно конфиденциальности данных и прав авторства, так как пользователи могут запрашивать удаление или забыток определенных классов изображений или текстов. Недостаточность существующих методов машинного забытия (machine unlearning) в диффузионных моделях приводит к неэффективности, высоким затратам вычислений и рискуму. Метод SAFEMax (Selective Attention For Entropy Maximization) предлагается как решение этих проблем. ## Метод SAFEMax основывается на информационно-теоретических принципах, которые максимизируют энтропию генерируемых изображений. Для этого метод активно нарушает контроль над выходом модели, добиваясь того, чтобы модель генерировала шум в форме нормального распределения при обработке классов, запрошенных для забытия. Основная идея заключается в том, что при выполнении условия забытия SAFEMax логически прекращает работу модели на поздних этапах диффузионного процесса, когда генерируемые изображения начинают приобретать определенные классовые черты. Это достигается путем управления ранними этапами диффузии, где классовая информация остается наиболее влиятельной. Таким образом, SAFEMax позволяет эффективно забывать классы, сохраняя при этом высокую эффективность и быстроту. ## Результаты SAFEMax протестирован на различных диффузионных моделях и использовался для ситуаций забытия классов в изображениях. Использовались различные датасеты, включая стандартные тестовые наборы, чтобы оценить эффективность метода в отношении точности, скорости и экономии ресурсов. Результаты показали, что SAFEMax эффективно забывает классы, при этом значительно снижая вычислительные затраты по сравнению с другими методами. Например, в сравнении с традиционными методами, SAFEMax демонстрирует до 20% более высокую точность и 3-разность в вычислительных затратах. ## Значимость Приложение SAFEMax распространяется на широкий спектр областей, включая критически важные приложения, такие как медицина, финансы, и тематики, где конфиденциальность изображений и текстов является приоритетной задачей. Метод предоставляет значительные преимущества в скорости и эффективности, что позволяет ему быть использованным в реальном времени. Кроме того

Annotation:

We introduce SAFEMax, a novel method for Machine Unlearning in diffusion models. Grounded in information-theoretic principles, SAFEMax maximizes the entropy in generated images, causing the model to generate Gaussian noise when conditioned on impermissible classes by ultimately halting its denoising process. Also, our method controls the balance between forgetting and retention by selectively focusing on the early diffusion steps, where class-specific information is prominent. Our results demons...

ID: 2508.20773v1 cs.LG, cs.AI, cs.CV

arXiv PDF

📄 Fine-Tuning Vision-Language Models for Neutrino Event Analysis in High-Energy Physics Experiments

2025-08-29

Авторы:

Dikshant Sagar, Kaiwen Yu, Alejandro Yankelevich, Jianming Bian, Pierre Baldi

#### Контекст Область ядерных и высокоэнергетических экспериментов (HEP) стала в последние годы одной из самых актуальных в области физики. Одним из ключевых задач в этой области является классификация регистрируемых в экспериментах ядерных взаимодействий. Традиционные подходы к решению этой задачи основываются на использовании глубоких нейронных сетей (CNN), которые хорошо справляются с задачей классификации изображений. Однако, недавние прогрессы в области технологий многомодальных моделей (LLMs) открыли новые возможности для решения задач, включающих не только текстовую информацию, но и множество других модальностей, в том числе визуальные данные. В данной работе мы исследуем возможности тонкой настройки (fine-tuning) многомодальных моделей для классификации взаимодействий нейтрино, используя визуальные данные от детекторов экспериментов в высокоэнергетической физике. #### Метод Для решения поставленной задачи мы использовали модель Vision-Language Model (VLM), основанную на LLaMA 3.2. Модель была приведена к работе с визуальными данными, связанными с экспериментами в высокоэнергетической физике, в частности, с классификацией ядерных взаимодействий, зарегистрированных в пикселированных детекторах. Мы применяли методы тюнинга, применяя вспомогательные модели для дообучения модели LLaMA 3.2 на визуальных данных. Мы также использовали техники градиентного подъема (gradient ascent) и минимизации потерь (loss minimization) для оптимизации модели. Это позволило нам достичь лучшей точности и большей универсальности модели при работе с визуальными данными экспериментов в высокоэнергетической физике. #### Результаты Мы провели эксперименты с использованием данных от NOvA и DUNE, которые включали в себя визуальные данные от детекторов экспериментов. Мы сравнили полученные результаты модели VLM с традиционными CNN-моделями, используемыми в этих экспериментах. Результаты показали, что модель VLM не только выполняет лучше в классификации изображений, но и позволяет более эффективно интегрировать дополнительные текстовые данные и семантические контексты. Мы отметили увеличение точности и полноты классификации, а также повышение AUC-ROC в сравнении с традиционными CNN-моделями. Эти результаты демонстрируют, что VLM может значительно улучшить процесс классификации взаимодействий нейтрино в высокоэнергетических экспериментах. #### Значимость Наши результаты открывают новые перспективы для применения многомодальных моделей в высокоэнергетической физике. Модель VLM показала свою эффективность не только в классификации взаимодействий нейтрино, но и в решении других задач

Annotation:

Recent progress in large language models (LLMs) has shown strong potential for multimodal reasoning beyond natural language. In this work, we explore the use of a fine-tuned Vision-Language Model (VLM), based on LLaMA 3.2, for classifying neutrino interactions from pixelated detector images in high-energy physics (HEP) experiments. We benchmark its performance against an established CNN baseline used in experiments like NOvA and DUNE, evaluating metrics such as classification accuracy, precision...

ID: 2508.19376v1 cs.LG, cs.AI, cs.CV, hep-ex

arXiv PDF

1
2
9
10
11
12
13

Показано 101 - 110 из 125 записей