📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 0

Последнее обновление: сегодня
Авторы:

Jing Ma, Hanlin Li, Xiang Xiang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Entropy Minimization (EM) is beneficial to reducing class overlap, bridging domain gap, and restricting uncertainty for various tasks in machine learning, yet its potential is limited. To study the internal mechanism of EM, we reformulate and decouple the classical EM into two parts with opposite effects: cluster aggregation driving factor (CADF) rewards dominant classes and prompts a peaked output distribution, while gradient mitigation calibrator (GMC) penalizes high-confidence classes based o...
ID: 2511.03256v1 cs.LG, cs.CV, cs.IT, math.IT, math.ST, stat.ML, stat.TH
Авторы:

Di Zhang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
Self-supervised learning (SSL) has achieved remarkable success by learning meaningful representations without labeled data. However, a unified theoretical framework for understanding and comparing the efficiency of different SSL paradigms remains elusive. In this paper, we introduce a novel information-geometric framework to quantify representation efficiency. We define representation efficiency $\eta$ as the ratio between the effective intrinsic dimension of the learned representation space and...
ID: 2510.10980v1 cs.LG, cs.CV, cs.IT, math.IT, math.ST, stat.ML, stat.TH, 68T07, 62B11, 94A17, 53B12, I.2.6; I.5.1; G.3; H.1.1
Авторы:

Wenyuan Zhao, Adithya Balachandran, Chao Tian, Paul Pu Liang

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']
Annotation:
The study of multimodality has garnered significant interest in fields where the analysis of interactions among multiple information sources can enhance predictive modeling, data fusion, and interpretability. Partial information decomposition (PID) has emerged as a useful information-theoretic framework to quantify the degree to which individual modalities independently, redundantly, or synergistically convey information about a target variable. However, existing PID methods depend on optimizing...
ID: 2510.04417v1 cs.LG, cs.AI, cs.CL, cs.CV, cs.IT, math.IT
Авторы:

Ruiqi Shen, Haotian Wu, Wenjing Zhang, Jiangjing Hu, Deniz Gunduz

## Контекст В modern deep learning-based image compression methods achieve сompetitive rate-distortion performance through extensive end-to-end training and advanced architectures. Однако, emerging applications increasingly prioritizе semantic preservation over pixel-level reconstruction and demand robust performance across diverse data distributions and downstream tasks. Тhese challenges call for advanced semantic compression paradigms. Мultimodal foundation models, leveraging their zero-shot and representational capabilities, оffеr a promising direction for addressing these challenges. ## Метод Мы предлагаем novel semantic compression method based on the contrastive language-image pretraining (CLIP) model. Метод основывается на том, что вместо сжатия изображений для реконструкции, мы сжимаем CLIP feature embeddings в минимальные биты, сохраняя семантическую информацию для различных задач. Это позволяет эффективно представлять информацию с минимальным потреблением ресурсов. Такой подход гарантирует высокую семантическую целостность и декодирование в различных условиях. ## Результаты Проведены эксперименты с benchmark datasets, показывающие, что наш метод сохраняет семантическую целостность даже при extreme compression. Общий bit rate составил примерно 2-3 * 10**(-3) bits per pixel, что меньше чем 5% от bitrate, необходимого для mainstream image compression сравнимой степени performance. Благодаря zero-shot robustness, метод оказался устойчивым к разным data distributions и downstream tasks, даже при extreme compression. ## Значимость Предложенный подход имеет широкую область применения в сферах, где семантическая информация имеет первостепенное значение, таких как computer vision, мобильные устройства, и internet of things. Он предлагает существенное преимущество в снижении bitrate без потери semantic integrity, что может повлиять на развитие новых приложений. ## Выводы Предложенный метод демонстрирует высокую семантическую целостность при extreme compression, обеспечивая robust performance в разных условиях. Наше future work будет сконцентрировано на дальнейшем улучшении метода, в том числе его применении в реальных-времени приложениях и его усовершенствовании для различных downstream tasks.
Annotation:
Recent deep learning-based methods for lossy image compression achieve competitive rate-distortion performance through extensive end-to-end training and advanced architectures. However, emerging applications increasingly prioritize semantic preservation over pixel-level reconstruction and demand robust performance across diverse data distributions and downstream tasks. These challenges call for advanced semantic compression paradigms. Motivated by the zero-shot and representational capabilities ...
ID: 2509.05925v1 cs.CV, cs.IT, math.IT
Авторы:

Yifan Lan, Xin Cai, Jun Cheng, Shan Tan

## Контекст Одна из основных проблем в области визуального распознавания данных — это неравномерное распределение классов (long-tailed distribution). Данные в реальном мире часто имеют такой характер, где классы с малой количественной поддержкой (tail classes) существенно завышенного или заниженного количества примеров, что приводит к снижению качества распознавания. Для улучшения эффективности обучения и развертывания глубоких нейронных сетей (DNNs) в таких условиях, необходимо разработать методы, которые бы эффективно адаптировались к ситуации с длинным хвостом (long-tailed) и позволяли учитывать неравномерность в данных. Такие методы являются ключевыми для повышения качества распознавания в реальных сценариях. ## Метод Мы предлагаем метод Mixture of Balanced Information Bottlenecks (MBIB) для решения проблемы long-tailed visual recognition. Данный подход включает в себя ряд технических решений. Во-первых, мы используем **balanced information bottleneck (BIB)**, который реализует loss function re-balancing для улучшения обучения с учетом неравномерного распределения классов. В-отношении BIB, мы также используем **self-distillation** для улучшения представлений, извлекаемых из сети. В-отношении MBIB, мы разработали **многоуровневую структуру**, в которой каждый BIB отвечает за объединение информации из разных слоев нейронной сети, что позволяет улучшить обучение сети с использованием информационной теории. Этот подход может обучать представления и классификацию вместе, что оптимизирует процесс достижения state-of-the-art результатов в long-tailed recognition. ## Результаты Для оценки эффективности предлагаемых методов, мы провели эксперименты на стандартных длиннозатылых (long-tailed) датасетах, включая CIFAR100-LT, ImageNet-LT и iNaturalist 2018. В результате, оба BIB и MBIB показали существенное улучшение в отношении точности классификации по сравнению с последними state-of-the-art решениями. BIB демонстрирует улучшение в менее чем на 5% по отношению к предыдущим методам, а MBIB добавляет дополнительное улучшение, показывая лучшие результаты в нескольких классификационных задачах. Это указывает на эффективность BIB в создании более балансированных представлений, в то время как MBIB еще более эффективно учитывает информацию из разных слоев сети. ## Значимость Предлагаемый подход MBIB имеет широкие возможности применения в нескольких областях, таких как визуальное распознавание, работа с данными в условиях неравномерного распределения классов. Он также может быть полезен в таких приложениях, как анализ изображений в сценариях с реальным миром, где несоответствие количества данных в классах — частая проблема. Благодаря интеграции методов ликвидации неравномерности и самостоятельной дистил
Annotation:
Deep neural networks (DNNs) have achieved significant success in various applications with large-scale and balanced data. However, data in real-world visual recognition are usually long-tailed, bringing challenges to efficient training and deployment of DNNs. Information bottleneck (IB) is an elegant approach for representation learning. In this paper, we propose a balanced information bottleneck (BIB) approach, in which loss function re-balancing and self-distillation techniques are integrated ...
ID: 2509.01804v1 cs.CV, cs.IT, math.IT
Авторы:

Vincent-Daniel Yun

#### Контекст Градиентные динамики являются ключевым фактором, определяющим стабильность и общезначимость глубоких нейросетей. Несмотря на их важность, понимание эволюции градиентов во время обучения до сих пор остается неполным. Наиболее распространенными методами нормализации градиентов являются способы, основанные на гиперпараметрах, которые могут привести к нежелательным эффектам, таким как нестабильность и ухудшение общезначимости. Эти проблемы мотивируют разработку методов, лучше адаптирующихся к природе градиентных динамик. Целью данной работы является анализ эволюции градиентов в глубоких нейросетях и разработка эффективного, гиперпараметр-бесплатного метода нормализации, который будет основываться на естественных динамиках градиентов. #### Метод Мы проводим подробный анализ градиентных динамик в глубоких сетях с помощью методов статистического анализа. Особое внимание уделяется изменениям вариации и стандартного отклонения градиентов в различных слоях и на уровне всей сети. Мы разрабатываем метод автоматической нормализации градиентов, который адаптирует масштабирование градиентов к их природным динамикам. Разработанная архитектура метода ни не требует гиперпараметров, что упрощает применение и снижает вероятность ошибок. Этот подход основывается на тщательном мониторинге и адаптивном управлении градиентными динамиками во время обучения. #### Результаты Мы проводим эксперименты на CIFAR-100 с использованием моделей ResNet-20, ResNet-56 и VGG-16-BN. Наши результаты показывают, что нормализация градиентов, основанная на динамиках, стабилизирует обучение, повышает общезначимость моделей и позволяет достичь высокой точности на тесте. Мы также проводим сравнение с традиционными методами нормализации и продемонстрировали, что наш подход не только поддерживает тестируемую точность, но и улучшает ее при сильной общезначимости. Эти результаты подтверждают эффективность метода в различных условиях и демонстрируют его преимущества по сравнению с традиционными методами. #### Значимость Метод нормализации градиентов, основывающийся на динамиках, может быть применен в различных областях, где используются глубокие нейросети, включая обработку изображений, текстов и звука. Он обеспечивает улучшение стабильности обучения, уменьшает вероятность усреднения и позволяет достичь лучшей общезначимости. В сравнении с традиционными методами, наш подход значительно упрощает процесс настройки гиперпараметров и делает модели более устойчивыми к различным условиям обучения.
Annotation:
Gradient dynamics play a central role in determining the stability and generalization of deep neural networks. In this work, we provide an empirical analysis of how variance and standard deviation of gradients evolve during training, showing consistent changes across layers and at the global scale in convolutional networks. Motivated by these observations, we propose a hyperparameter-free gradient normalization method that aligns gradient scaling with their natural evolution. This approach preve...
ID: 2509.03677v1 cs.LG, cs.AI, cs.CV, cs.IT, math.IT
Авторы:

V. S. Usatyuk, D. A. Sapozhnikov, S. I. Egorov

## Контекст Современные глубокие генерирующие модели, такие как GANs и диффузионные сети, способны создавать изображения, которые практически не различимы от реальных фотографий. Это создает серьезные проблемы для медиа-фореnsic и биометрической безопасности. Настоящие изображения могут быть трудно распознаны супервизированными детекторами, в связи с узким кругом тренировочных данных и потерей эффективности вне тренировочного диапазона. Другие методики, основанные на низкоуровневых статистических признаках, оказываются чрезвычайно уязвимыми к атакам. Однако новый подход, основывающийся на физических принципах, предлагает новые возможности для решения этой задачи. ## Метод Методика основывается на статистических графовых моделях, где изображения представляются в виде спектральных характеристик графов. Используется технология QC-LDPC (Quasi-Cyclic Low-Density Parity-Check) для строительства графа, в котором вершины представляют собой вектора признаков изображений, извлеченные с помощью предобученных сверточных нейронных сетей (CNN). Эти вершины соединяются специальными графовыми ребрами, которые добавляются с учетом Nishimori-температуры, чтобы получить Random Bond Ising Model (RBIM). Спектр Bethe-Hessian оператора для RBIM имеет особую топологию в зависимости от того, является ли изображение реальным или синтетическим. Реальные изображения создают спектр с видимыми спектральными пробелами, в то время как синтетические изображения — нет. ## Результаты Эксперименты проводились на датасетах Flickr-Faces-HQ (FFHQ) и CelebA. Использованы GANs и diffusion models для создания синтетических изображений. Детектор работал в условиях нейтрального окружения, не имея доступа к синтетическим данным, и достиг точности около 94%. Анализ спектра показал, что для реальных изображений спектр является структурированным, в то время как для синтетических — полностью разрушен. Детектор был показан как сильно устойчивый к новым моделям генерации изображений. ## Значимость Подход имеет широкие потенциальные применения в медиа-анализе, биометрии, безопасности информации и противодействии ложной информации. Он не требует лейблирования или дополнительной обученности модели, поэтому является гибким и эффективным. Обнаружение синтетических изображений становится более доступным и надёжным, что может иметь значительное влияние на развитие технологий в области медиа-анализа. ## Выводы На основе физических принципов была предложена новая методика для автоматического распознавания синтетических изображений. Мето
Annotation:
The rapid advance of deep generative models such as GANs and diffusion networks now produces images that are virtually indistinguishable from genuine photographs, undermining media forensics and biometric security. Supervised detectors quickly lose effectiveness on unseen generators or after adversarial post-processing, while existing unsupervised methods that rely on low-level statistical cues remain fragile. We introduce a physics-inspired, model-agnostic detector that treats synthetic-image i...
ID: 2508.19698v1 cs.CV, cs.IT, math.IT, math.SP
Авторы:

Md Redwanul Haque, Manzur Murshed, Manoranjan Paul, Tsz-Kwan Lee

**Резюме** В последнее время развитие генерирующих моделей искусственного интеллекта (GenAI) стало важным вызывать новые подходы для оценки качества изображений, которые будут учитывать не только человеческое восприятие, но и геометрическую структуру сцены (Scene Composition Structure, SCS). Эта структура определяет относительные положения, размеры и направления объектов в сцене. Однако существующие метрики качества изображений часто неэффективны в оценке SCS, так как либо слишком чувствительны к мелким изменениям в образом (пиксельные подходы), либо ориентированы на аспекты человеческого восприятия (перцепционные метрики). Мы предлагаем новую метрику — SCS Similarity Index Measure (SCSSIM), которая аналитически оценивает SCS, используя статистические измерения, основанные на хирархичном разбиении изображения на кубические сегменты. SCSSIM проверена на экспериментах, показав высокую сохранность от неизмененных SCS и четкую отрицательную монотонность при изменении SCS. Эта метрика является значительным дополнением к существующим методам для улучшения и оценки GenAI-моделей, обеспечивая надежные способы оценки целостности сцены.
Annotation:
The rapid advancement of generative AI models necessitates novel methods for evaluating image quality that extend beyond human perception. A critical concern for these models is the preservation of an image's underlying Scene Composition Structure (SCS), which defines the geometric relationships among objects and the background, their relative positions, sizes, orientations, etc. Maintaining SCS integrity is paramount for ensuring faithful and structurally accurate GenAI outputs. Traditional ima...
ID: 2508.05037v1 cs.CV, cs.IT, math.IT