📚 Саммари научных статей из arXiv

Найдено 56 результатов по запросу 'cs.LG, eess.IV' Сбросить поиск

📊 Статистика дайджестов

Всего дайджестов: 34123 Добавлено сегодня: 101

Последнее обновление: сегодня

📄 Emulating Human-like Adaptive Vision for Efficient and Flexible Machine Visual Perception

2025-09-22

Авторы:

Yulin Wang, Yang Yue, Yang Yue, Huanqian Wang, Haojun Jiang, Yizeng Han, Zanlin Ni, Yifan Pu, Minglei Shi, Rui Lu, Qisen Yang, Andrew Zhao, Zhuofan Xia, Shiji Song, Gao Huang

## Контекст Мы сталкиваемся с ключевыми ограничениями в традиционных моделях машинного зрения, вынужденных пассивно обрабатывать все входные данные в целом. Это приводит к значительным потреблениям ресурсов, неэффективности и невысокой гибкости. У этих моделей недостаточно способности адаптироваться к конкретным задачам и ограничениям ресурсов. Эта проблема становится важной во многих областях, таких как обработка изображений в реальном времени, видеонаблюдение, визуальный поиск и даже исследования в области зрения человека. Мы мотивируем разработку моделей, которые способны активно выбирать и обрабатывать только самое необходимое, экономя ресурсы и улучшая эффективность. ## Метод Мы предлагаем AdaptiveNN, фреймворк, который преобразует визуальную перцепцию в процесс последовательного решения задач. Вместо обработки всего изображения за один проход, AdaptiveNN использует систему последовательных фиксаций. Он активно выбирает и обрабатывает только те регионы, которые требуются для решения задачи. Информация из разных фиксаций комбинируется в процессе, и модель активно определяет, когда достаточно данных для точного решения. Мы используем теорию, объединяющую репрезентацию объектов с самопоощряющимся реинфорсиментным обучением, чтобы обучать AdaptiveNN без дополнительных наград за фиксации. Это позволяет модели самостоятельно определять лучшие регионы для внимания. ## Результаты Мы проверили AdaptiveNN на 17 бенчмарках, охватывающих 9 различных задач, включая крупномасштабную классификацию изображений, детальную классификацию, визуальный поиск, обработку изображений с проездов и медицинских снимков, а также сравнение с человеческими результатами. Модель снизила потребление ресурсов до 28 раз по сравнению с другими методами, но при этом сохранила точность. Она показала гибкость в решении различных задач, не требуя переучения. Также AdaptiveNN демонстрирует интерпретируемость, позволяя понять, почему она принимает определенные решения, что важно для надежности. ## Значимость AdaptiveNN может применяться в многих областях, таких как реальное время обработка, видеонаблюдение, робототехника, и даже в исследованиях в области зрения человека. Он эффективно экономит ресурсы, адаптируется к разным задачам, интерпретируем и может быть использован в широком круге задач. Это может открыть новые возможности для более эффективного интеллектуального визуального поиска в машинной технике и робототехнике. ## Выводы Мы представили AdaptiveNN, фреймворк, превращающий машинное зрение в активный процесс, похожий на зрение человека. Он эффективен

Annotation:

Human vision is highly adaptive, efficiently sampling intricate environments by sequentially fixating on task-relevant regions. In contrast, prevailing machine vision models passively process entire scenes at once, resulting in excessive resource demands scaling with spatial-temporal input resolution and model size, yielding critical limitations impeding both future advancements and real-world application. Here we introduce AdaptiveNN, a general framework aiming to drive a paradigm shift from 'p...

ID: 2509.15333v1 cs.CV, cs.AI, cs.LG, eess.IV

arXiv PDF

📄 Explainable AI for Accelerated Microstructure Imaging: A SHAP-Guided Protocol on the Connectome 2.0 scanner

2025-09-13

Авторы:

Quentin Uhl, Tommaso Pavan, Julianna Gerold, Kwok-Shing Chan, Yohan Jun, Shohei Fujita, Aneri Bhatt, Yixin Ma, Qiaochu Wang, Hong-Hsi Lee, Susie Y. Huang, Berkin Bilgic, Ileana Jelescu

## Контекст На протяжении многих лет развития диффузионной магнитной резонансной импедансной томографии (diffusion MRI), многие протоколы исследований, ориентированные на изучение нейронной сети (connectome), требуют долгих сканирований. Это ограничивает применение этих методов в клинической практике, где необходимы более быстрые и эффективные сканирования. Одной из причин этого ограничения является необходимость в многоканальном сканировании для получения точных параметров поведения воды в сером веществе. Для решения этой проблемы, авторы предлагают **Explainable AI for Accelerated Microstructure Imaging**, который использует гибридный подход, сочетающий данные и искусственный интеллект, для создания более эффективных протоколов сканирования. ## Метод Протокол **Connectome 2.0** предлагает решение для ускорения сканирования, сохранив точность параметров. Авторы использовали **SHAP (SHapley Additive exPlanations)**, метод европейской концепции, позволяющий выявить наиболее важные факторы, влияющие на результаты. В рамках этого проекта разработан фреймворк, использующий **guided recursive feature elimination (RFE)**, чтобы оптимизировать выбор признаков для сканирования. Этот подход позволил выбрать оптимальный набор из 15 признаков, обеспечивая максимальную точность с минимальным временем сканирования. Метод был валидирован в наборе во вращающемся зонде, позволяя изучить точность параметров, анатомический контраст и повторяемость результатов. ## Результаты В результате использования оптимизированного протокола, авторы получили параметры, которые были почти идентичны тем, что достигались при использовании полного протокола. Эталонные тесты показали, что новый протокол позволяет сохранить точность параметров с минимальным влиянием на исследование. Кроме того, он показал лучшую производительность по сравнению с другими стратегиями снижения длины сканирования, такими как теоретические или хитроумные схемы. Данные показали, что уменьшение длины сканирования не приводит к потере важности параметров или их эффективности. ## Значимость Данный подход может быть применен в различных областях, включая клинические исследования и нейронирование. Он позволяет сократить время сканирования, не теряя точности в измерении параметров, что может повысить эффективность диагностики. Благодаря использованию искусственного интеллекта, **Explainable AI for Accelerated Microstructure Imaging** предлагает новую модель для оптимизации протоколов сканирования, которая может быть использована в различных областях, где необходима быстрая и точная диагностика. ## Выводы **Explainable AI for Accelerated Microstructure Imaging** позволяет создавать более эффективные протоколы для исследования поведения воды в сером веществе. Этот подход уско

Annotation:

The diffusion MRI Neurite Exchange Imaging model offers a promising framework for probing gray matter microstructure by estimating parameters such as compartment sizes, diffusivities, and inter-compartmental water exchange time. However, existing protocols require long scan times. This study proposes a reduced acquisition scheme for the Connectome 2.0 scanner that preserves model accuracy while substantially shortening scan duration. We developed a data-driven framework using explainable artific...

ID: 2509.09513v1 physics.med-ph, cs.AI, cs.CV, cs.LG, eess.IV, J.3

arXiv PDF

📄 Near Real-Time Dust Aerosol Detection with 3D Convolutional Neural Networks on MODIS Data

2025-09-10

Авторы:

Caleb Gates, Patrick Moorhead, Jayden Ferguson, Omar Darwish, Conner Stallman, Pablo Rivas, Paapa Quansah

#### Контекст Область исследования связана с мониторингом аэрозолей в реальном времени, которая играет ключевую роль в устранении рисков для здоровья и обеспечении безопасности транспорта в условиях пылевых бурь. Несомненно, что пылевые бури являются серьезной проблемой, которая приводит к существенным последствиям для индивидуального здоровья, экономической активности и авиационной безопасности. Однако существуют технологические вызовы, связанные с быстрым обнаружением и определением структур пылевых зон на основе данных с сатиллетной сети MODIS (Moderate Resolution Imaging Spectroradiometer). Необходимость в реальном времени и точности в этой области стала мотивацией для разработки современных алгоритмов обработки изображений. #### Метод Методология основывается на использовании 3D конволюционных нейронных сетей для обнаружения пылевых аэрозолей на основе 36 банд данных MODIS. Эта сеть обучается на отдельных пикселях изображений, создавая при этом возможность определять между двумя типами облаков и поверхностными микрофеноменами. Для обработки информации, отсутствующей в некоторых пикселях, были применены простые методы нормализации и исправления пропусков. Область изображения, работающая с трехмерным входом, значительно повышает точность. Также был оптимизирован алгоритм обучения, что позволило значительно снизить время обучения (на 21 раз) и повысить производительность системы. #### Результаты На 17 независимых сценах данных MODIS, модель достигла точности приблизительно 0.92 и ошибки квадратичного среднего 0.014. Эксперименты показали, что модель обнаруживает пылевые аэрозоли с высокой точностью, особенно в ядрах пылевых масс. Были выявлены небольшие пропуски вдоль краев облаков, что может быть связано с ограничениями в разрешении изображений. Общий вывод показывает, что использование 3D конволюционных сетей, обученных на широких входных окнах, позволяет добиться высокой точности в определении пылевых зон. #### Значимость Инновационная технология может быть применена в различных областях, включая экологию, авиационное пространство, санитарную инженерию и землеустройство. Основным преимуществом является то, что модель обеспечивает быстрое и точное обнаружение пылевых зон, что позволяет уменьшить временные задержки и увеличить эффективность реагирования на эти явления. В крайней мере, модель может стать основой для развития более сложных алгоритмов, включая активность в сетях с внимательностью к деталям. #### Выводы На основе результатов можно сделать вывод, что модель 3D конволюционных нейронных сетей, работающая на базе MOD

Annotation:

Dust storms harm health and reduce visibility; quick detection from satellites is needed. We present a near real-time system that flags dust at the pixel level using multi-band images from NASA's Terra and Aqua (MODIS). A 3D convolutional network learns patterns across all 36 bands, plus split thermal bands, to separate dust from clouds and surface features. Simple normalization and local filling handle missing data. An improved version raises training speed by 21x and supports fast processing o...

ID: 2509.05887v1 cs.CV, cs.LG, eess.IV, 68T07, 86A32, I.2.6; I.5.4

arXiv PDF

📄 Integrating Spatial and Semantic Embeddings for Stereo Sound Event Localization in Videos

2025-09-10

Авторы:

Davide Berghi, Philip J. B. Jackson

## Контекст Стероидный звуковой метод локализации и детекции источника (3D SELD) — это сложная задача, которая объединяет в себе классификацию событий во временном отношении, локализацию в пространстве и оценку дистанции источника. Такая задача требует моделирования взаимосвязей между пространственными, временными и семантическими измерениями. Однако семантические аспекты часто являются наиболее сложными для моделирования в силу ограничений данных и сложности их интеграции с другими измерениями. Обычно SELD-алгоритмы полагаются на многоканальные входные данные, что ограничивает их возможность использовать богатые ресурсы больших предобученных моделей. Этот проект нацелен на решение этих проблем, предлагая новый подход к интеграции семантических и пространственных признаков для улучшения 3D SELD. ## Метод Мы предлагаем модифицированную архитектуру Conformer, называемую Cross-Modal Conformer, для эффективного ожидания входных семантических признаков. Для этого используются CLAP (Contrastive Language-Aligned Pre-training) для звуковых данных и OWL-ViT (Object-centric World Models with Vision Transformers) для визуальных данных. Эти предобученные модели генерируют семантические признаки, которые в итоге объединяются в Cross-Modal Conformer. Эта модель специально разработана для мультимодального объединения и включает в себя вспомогательные модули для разделения информации по каналам, что учитывает конкретные характеристики каждого канала. Мы также описываем процесс сбора и модификации двух больших аугментированных наборов данных: аудио-визуальных и аудио-только данных. Эти наборы были использованы для предварительного тренирования моделей, которые впоследствии включены в конечную модель для задачи 3D SELD. ## Результаты Мы проводили эксперименты на DCASE2025 Task 3 Stereo SELD Dataset, сравнивая нашу модель с базовыми системами DCASE и другими участниками. Модель Cross-Modal Conformer показала себя эффективно, достигнув второго места в треке B задачи DCASE 2025. Мы также провели абляционные эксперименты, показав, что интеграция CLAP и OWL-ViT существенно улучшает результаты по сравнению с базовой моделью и даже с моделями, использующими CLAP или OWL-ViT отдельно. ## Значимость Наш подход имеет широкие возможности применения в реальных сценариях, таких как автоматизированная система локализации звуков, робототехника, мультимедиа и системы анализа видео-аудио. Мы показали, что интеграция семантических признаков может значительно улучшить точность локализации и классификации звуков в стандартных видео, что делает нашу модель привлекательной для практического использования. Будущие исследования будут направлены на уточнение модальностных моделей и расширение воз

Annotation:

In this study, we address the multimodal task of stereo sound event localization and detection with source distance estimation (3D SELD) in regular video content. 3D SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD approaches typically rely on multichannel input, limiting their capacity to benefit from large-scale...

ID: 2509.06598v1 eess.AS, cs.AI, cs.LG, eess.IV, eess.SP

arXiv PDF

📄 From Image Denoisers to Regularizing Imaging Inverse Problems: An Overview

2025-09-05

Авторы:

Hong Ye Tan, Subhadip Mukherjee, Junqi Tang

#### Контекст Обратные задачи являются основным элементом современной иммунной онкологии, а также находят широкое применение в медицине, позволяя получить информацию о невидимых процессах в организме. Несмотря на сильные прогрессы в этой области, существуют значительные проблемы, связанные с реконструированием изображений, в частности, недостатком точности и надежности при использовании традиционных методов. Эти недостатки приводят к недостаточному пониманию биологических процессов и неточным диагностическим выводам. Регулярные структуры изображений часто нарушены в результате шума, вызванного технологическими ограничениями или физическими особенностями съемки. В последние годы, процесс регуляризации изображений широко использует методы, основанные на машинном обучении, в частности, использование обученных изображений-денойзери (image denoisers) в качестве неявных предположений (priors) для решения обратных задач. Этот подход, известный как Plug-and-Play (PnP), позволяет добиться высокой точности реконструкции изображений, даже при высоком шуме. Несмотря на это, теоретические основы и квалитативные аспекты PnP-методов имеют недостаточно развитую литературу, что ставит под вопрос их надежность и круг применения. #### Метод Метод PnP основывается на использовании обученных денойзерий для регуляризации обратных задач в иммунной онкологии. Основной идеей является замена прохладного оператора в алгоритмах решения обратных задач (таких как ADMM или PGD) на сеть, обученную для задачи денойзирования изображений. Эта сеть, в свою очередь, выступает в роли неявного регуляризатора, улучшая точность и качество реконструкции. Технический аспект заключается в том, что PnP-методы могут быть реализованы с использованием различных архитектур сетей, таких как U-Net или CNN. Эти сети обучаются на больших данных, чтобы учитывать комплексные структуры изображений. Тем не менее, теоретические проблемы, такие как необходимость гарантии сходимости алгоритма или устойчивости к шумам, до сих пор остаются открытыми вопросами. #### Результаты Исследования показывают, что применение PnP-методов приводит к значительному улучшению точности реконструкции в сравнении с традиционными методами. Эксперименты проводятся на различных наборах данных, включая изображения микроскопии и рентгеновской синтетической апертурной оптики. В результате, предложенные PnP-методы демонстрируют высокую точность в реконструкции, даже при высоком шуме или недостатке информации. #### Значимость Прямое применение PnP-методов возможно в многих областях,

Annotation:

Inverse problems lie at the heart of modern imaging science, with broad applications in areas such as medical imaging, remote sensing, and microscopy. Recent years have witnessed a paradigm shift in solving imaging inverse problems, where data-driven regularizers are used increasingly, leading to remarkably high-fidelity reconstruction. A particularly notable approach for data-driven regularization is to use learned image denoisers as implicit priors in iterative image reconstruction algorithms....

ID: 2509.03475v1 math.OC, cs.LG, eess.IV, 65K15, 49J52

arXiv PDF

📄 Deep Data Hiding for ICAO-Compliant Face Images: A Survey

2025-08-29

Авторы:

Jefferson David Rodriguez Chivata, Davide Ghiani, Simone Maurizio La Cava, Marco Micheletto, Giulia Orrù, Federico Lama, Gian Luca Marcialis

## Контекст ICAO-совместимые лицевые изображения, разработанные для безопасных биометрических паспортов, набирают важность в различных сферах, включая контроль пассажиров на границах, цифровые документы для путешествий и финансовые услуги. Их стандартизация обеспечивает глобальную интераптерабильность, но также становится причиной новых проблем, таких как морфинг и глубокое подделывание (deepfakes). Эти технологии могут использоваться для злонамеренных целей, включая кражу личности и незаконное распространение документов. Существующие методы, такие как Presentation Attack Detection (PAD), ограничены во времени и не могут обеспечить пост-съемочную защиту. В этой статье предлагается рассмотреть цифровой водяной знак и стеганографию как дополнительные подходы, которые позволяют внедрять в изображение устойчивые к подделке сигналы, обеспечивая непрерывный пост-съемочный контроль без нарушения стандартов ICAO. ## Метод Работа посвящена исследованию цифровых водяных знаков и стеганографии в рамках их применения к ICAO-совместимым изображениям. Основная методология включает анализ существующих техник в трех основных направлениях: (1) оценка качества внедрения сигнала в изображения, (2) измерение уровня защиты от модификаций и (3) оценка повреждения качества изображения. Для этого используется трёххэш-анализ, метрики PSNR и SSIM, а также специальные методы для выявления морфинга и deepfakes. Технические решения включают различные алгоритмы водяных знаков и стеганографические подходы, оптимизированные для требований ICAO. Данные используются из открытых баз, таких как MORPH-II и CASIA-Iris, а также стандартные ICAO-совместимые выборки. ## Результаты Проведенные эксперименты демонстрируют высокую эффективность внедрения водяных знаков и стеганографических сигналов в ICAO-совместимые изображения без существенного повреждения их качества. Был доказан устойчивость внедренных сигналов к модификациям, в том числе морфингу и deepfake-технологиям. В частности, стеганографические подходы показали высокую устойчивость к скрытому изменению изображения без потерь в качестве или видимых повреждений. Исследования также показали, что внедрение сигналов не влияет на стандартные требования ICAO, такие как разрешение и формат файла. ## Значимость Такие подходы имеют широкие применения в системах безопасности, в частности в защите документов, контроле пассажиров и проверке личности в финансовых услугах. Они обеспечивают непрерывную проверку вне зависимости от момента съемки или модификации и

Annotation:

ICAO-compliant facial images, initially designed for secure biometric passports, are increasingly becoming central to identity verification in a wide range of application contexts, including border control, digital travel credentials, and financial services. While their standardization enables global interoperability, it also facilitates practices such as morphing and deepfakes, which can be exploited for harmful purposes like identity theft and illegal sharing of identity documents. Traditional...

ID: 2508.19324v1 cs.CV, cs.AI, cs.CR, cs.LG, eess.IV

arXiv PDF

📄 Composition and Alignment of Diffusion Models using Constrained Learning

2025-08-28

Авторы:

Shervin Khalafi, Ignacio Hounie, Dongsheng Ding, Alejandro Ribeiro

## Контекст Generative модели, такие как diffusion models, стали популярными в области машинного обучения, в частности в генерировании графических изображений. Они могут хорошо работать в сложных распределениях, но часто сталкиваются с проблемами соответствия пользовательским требованиям. Два распространенных подхода к улучшению качества и соответствия выходных данных являются **alignment** (согласование модели с определенным регулятором) и **composition** (комбинирование различных моделей для достижения более широкого спектра качественных выходных данных). Однако, при попытке оптимизировать модель по нескольким критериям, возникают конфликты между ними, так как различные модели могут отражать противоречивые атрибуты. Существующие методы не могут гарантировать успех в создании модели, которая бы удовлетворяла всем требуемым критериям. Наша работа фокусируется на создании фреймворма, который может комбинировать и выравнивать модели diffusion, учитывая оба критерия — композицию и выравнивание. ## Метод Мы предлагаем новый фреймворк, который использует **constrained optimization**, чтобы объединить alignment и composition моделей diffusion. Фреймворк оптимизирует модель, чтобы она удовлетворяла определенным требованиям в плане выполнения, при этом оставаясь близкой к одной или нескольким предварительно обученным моделям. Мы используем технику Lagrangian-based primal-dual optimization для того, чтобы решать эти задачи в рамках нашей модели. Наша архитектура позволяет построить модель, которая решает проблему конфликта между несколькими требованиями, управляя ими в соответствии с предварительно определенными ограничениями. Алгоритм нашего подхода позволяет решать задачи композиции и выравнивания в рамках одной модели. ## Результаты Мы проверили нашу модель на задаче генерирования изображений, применяя ее как для выравнивания, так и для композиции. Мы сравнили результаты наших моделей с моделями, которые использовались в простых подходах, таких как equally-weighted approach. Мы показали, что наш подход эффективно решает задачи выравнивания и композиции, а также показал улучшение в выполнении по сравнению с методами, которые не учитывали ограничения. Эксперименты проводились на различных данных, позволяя проверить эффективность нашего подхода в разных условиях. ## Значимость Мы показали, что наша модель эффективно решает задачи в области машинного генерирования изображений, когда необходимо учитывать несколько разных критериев. Наш подход можно применить в различных областях, таких как генерирование изображений, текста, звука и даже в медицинской обработке изображений. Мы показали, что наша модель может лучше справиться с задачей сохранения нескольких атрибутов, что делает ее боле

Annotation:

Diffusion models have become prevalent in generative modeling due to their ability to sample from complex distributions. To improve the quality of generated samples and their compliance with user requirements, two commonly used methods are: (i) Alignment, which involves fine-tuning a diffusion model to align it with a reward; and (ii) Composition, which combines several pre-trained diffusion models, each emphasizing a desirable attribute in the generated outputs. However, trade-offs often arise ...

ID: 2508.19104v1 cs.LG, eess.IV, stat.ML

arXiv PDF

📄 Beyond Interpretability: Exploring the Comprehensibility of Adaptive Video Streaming through Large Language Models

2025-08-26

Авторы:

Lianchen Jia, Chaoyang Li, Ziqi Yuan, Jiahui Chen, Tianchi Huang, Jiangchuan Liu, Lifeng Sun

## Контекст Для пользователей видеосервисов, таких как YouTube, Netflix и Amazon Prime, пакетная стратегия предоставления видео потоков стала доминирующим методом доставки видео. Однако вопросы, связанные с управлением битрейтом, остаются актуальными. Решать эти проблемы стали попытаться глубокие нейронные сети, которые позволяют адаптировать качество видео к изменяющимся условиям сети. Несмотря на эффективность, существуют проблемы с пониманием и управлением этих моделей. Частью проблемы является то, что нейронные сети часто являются "черными ящиками", что делает их сложно разбираться и оптимизировать. Например, существующие подходы, такие как преобразование моделей в деревья решений, повышают интерпретируемость, но не обязательно улучшают её понимание разработчиками. Чтобы улучшить это, мы предлагаем \texttt{ComTree}, фреймворк для построения моделей, который учитывает не только интерпретируемость, но и субъективное понимание. ## Метод Мы предлагаем \texttt{ComTree}, первый фреймворк, который строит модели адаптивного видеопотока с учетом их понятности для разработчиков. Метод работает следующим образом: сначала он генерирует все деревья решений, которые удовлетворяют требованиям в точности. Затем он использует горячие промежуточные модели (LLM), такие как GPT, для оценки понятности каждого дерева для разработчиков. Это делается с помощью целевых элементов, таких как читаемость, структура, доступность и понятность. Наконец, фреймворк выбирает дерево, которое оптимально подходит для работы с разработчиками, обеспечивая лучшее понимание. ## Результаты Мы провели эксперименты с \texttt{ComTree} на различных наборах данных, включая реальные запросы пользователей, и сравнили результаты с существующими подходами. Наши результаты показывают, что новый подход повышает понятность без существенного снижения производительности. Например, мы сравнили \texttt{ComTree} с моделями, созданными с помощью преобразования в деревья решений, что показало значительное улучшение в читаемости и удобоваримости моделей. Эти результаты подтверждают то, что \texttt{ComTree} может повысить понятность моделей, что может привести к улучшению взаимодействия разработчиков с ними. ## Значимость Мы убедились, что \texttt{ComTree} может быть применен в различных сценариях, включая проектирование и оптимизацию моделей адаптивного видеопотока. Одним из основных преимуществ является улучшение понимания моделей разработчиками, что позволяет им более эффективно контролировать и улучшать модели. Мы также увидели, что \texttt{ComTree} может привести к повышению эффективности и удоб

Annotation:

Over the past decade, adaptive video streaming technology has witnessed significant advancements, particularly driven by the rapid evolution of deep learning techniques. However, the black-box nature of deep learning algorithms presents challenges for developers in understanding decision-making processes and optimizing for specific application scenarios. Although existing research has enhanced algorithm interpretability through decision tree conversion, interpretability does not directly equate ...

ID: 2508.16448v1 cs.MM, cs.LG, eess.IV

arXiv PDF

📄 Parameter-Free Logit Distillation via Sorting Mechanism

2025-08-26

Авторы:

Stephen Ekaputra Limantoro

#### Контекст Knowledge distillation (KD) — это метод передачи знаний от более крупной (teacher) к меньшей (student) модели сети, чтобы эффективно использовать ресурсы. Основная цель KD — улучшить производительность student по мере уменьшения размера модели. Обычно, эффективность определяется по точности классификации с учетом того, что student должен копировать правильные ответы teacher. Однако, существующие KD-методы недостаточно учитывают неверные ответы teacher, что может привести к неэффективному обучению. Наша мотивация заключается в исправлении этих неверных ответов и сортировке дистрибутива logits в соответствии с приоритетами. #### Метод Мы предлагаем подход, основанный на сортировке logits: (1) исправляем неверные ответы teacher с помощью меток, и (2) сортируем logits в соответствии с их приоритетом. Это достигается путем преобразования logits в сортированный дистрибутив, где каждый класс получает приоритет в зависимости от его достоверности. Наша методика является простой plug-and-play техникой, которую можно легко интегрировать в существующие KD-методы. Она не требует дополнительных параметров и оптимизации, что делает ее эффективной и легко применимой. #### Результаты Мы проверили нашу методику на датасетах CIFAR-100 и ImageNet. Использовались существующие KD-методы как базовые, в том числе vanilla KD и FitNet. Показали, что наш подход улучшает точность на 2-5% в сравнении с оригинальными KD-методами. Мы также провели эксперименты на разных значениях temperature и сравнили с другими популярными KD-методами. Результаты показали, что наш подход показывает стабильную выгоду в различных условиях. #### Значимость Наш подход имеет широкие применения в хорошо структурированных данных, где точность teacher может быть несогласованной. Он полезен в сценариях, где студент должен изучать не только правильные ответы, но и учитывать неверные ответы teacher. Наши результаты показывают, что метод может стать стандартом в KD-индустрии, так как он легко интегрируется с любыми KD-методами без дополнительных параметров. #### Выводы Мы представили новую технику для KD, основанную на сортировке logits. Наши эксперименты показали, что она эффективно исправляет неверные ответы teacher и сортирует дистрибутив в соответствии с приоритетами. Наш подход является простым, но эффективным инструментом для улучшения KD. Мы планируем дальнейшие исследования в области улучшения точности KD при нестабильных teacher-моделях.

Annotation:

Knowledge distillation (KD) aims to distill the knowledge from the teacher (larger) to the student (smaller) model via soft-label for the efficient neural network. In general, the performance of a model is determined by accuracy, which is measured with labels. However, existing KD approaches usually use the teacher with its original distribution, neglecting the potential of incorrect prediction. This may contradict the motivation of hard-label learning through cross-entropy loss, which may lead ...

ID: 2508.16544v1 eess.SP, cs.LG, eess.IV

arXiv PDF

📄 Improving OCR using internal document redundancy

2025-08-22

Авторы:

Diego Belzarena, Seginus Mowlavi, Aitor Artola, Camilo Mariño, Marina Gardella, Ignacio Ramírez, Antoine Tadros, Roy He, Natalia Bottaioli, Boshra Rajaei, Gregory Randall, Jean-Michel Morel

## Контекст Текущие системы OCR (Optical Character Recognition, зрительный распознаватель знаков) основываются на глубоких нейронных сетях, обученных большим количеством данных. Они достаточно эффективны в обнаруживающих задачах, однако при работе с некачественными документами сталкиваются с проблемами. Это особенно важно для документов с низким внутридоменным вариативностью, но высокой междоменной вариативностью, таких как 17-й век до 20-го века европейские газеты или Уругвайские военные архивы. В таком контексте существующие OCR-системы не вполне используют внутридокументную репликацию (redundancy), что может улучшить распознавание низкокачественных императивов. Данная работа предлагает метод улучшения OCR, основанный на группировании и редактировании геометрических характеристик текста. ## Метод Предлагаемый подход основывается на расширенной гауссовой смесевой модели (Extended Gaussian Mixture Model, EGMM). Ключевым отличием является алгоритм, который альтернативно применяет экспектационно-максимизационный (EM) метод и процесс реалингации кластеров (intra-cluster realignment). Это позволяет улучшить точность кластеризации, обнаруживать и корректировать ошибки OCR. Более того, для каждого кластера осуществляется статистическое тестирование нормальности, чтобы гарантировать высокую точность в результатах. Метод используется в неучитываемых режимах и не требует дополнительных данных для обучения. ## Результаты Результаты показали значительные улучшения в распознавании текста для специфичных архивов. Например, для Уругвайских военных документов из 17-го века и европейских газет 17-20 веков, где данные пострадали от старения и деградации, метод показал до 12% улучшений в сравнении с оригинальными OCR-системами. Эти результаты были получены на основе реальных документов в разных уровнях деградации, включая размытые и поврежденные тексты. Обнаружено, что внутридокументная репликация значительно повышает точность, особенно в случаях, когда данные значительно разрушены. ## Значимость Этот подход может применяться в различных областях, таких как хранение исторических документов, цифровая библиотека, архивирование новостной отчетности. Основные преимущества заключаются в улучшении точности распознавания, особенно для низкокачественных документов. Будущие работы будут направлены на решение проблем с многоязычными документами и повышению скорости обработки больших датасетов. ## Выводы Предложенный метод демонстрирует эффективность в улучшении распознавания низкокачественных документов с помощью использования внутридокументной репликации и расширенной гаус

Annotation:

Current OCR systems are based on deep learning models trained on large amounts of data. Although they have shown some ability to generalize to unseen data, especially in detection tasks, they can struggle with recognizing low-quality data. This is particularly evident for printed documents, where intra-domain data variability is typically low, but inter-domain data variability is high. In that context, current OCR methods do not fully exploit each document's redundancy. We propose an unsupervise...

ID: 2508.14557v1 cs.CV, cs.LG, eess.IV

arXiv PDF

1
2
3
4
5
6

Показано 41 - 50 из 56 записей