📊 Статистика дайджестов
Всего дайджестов: 34022 Добавлено сегодня: 82
Последнее обновление: сегодня
Авторы:
V. S. Usatyuk, D. A. Sapoznikov, S. I. Egorov
## Контекст
Многоклассовая классификация изображений является ключевым заданием в области зрения компьютеров и искусственного интеллекта. Однако существуют трудности в создании эффективных методов классификации, которые были бы как моделью, так и в плане вычислительного времени. Одной из проблем является необходимость создания методов, которые могут обрабатывать высокомерных данных с минимальным потреблением ресурсов. Другой проблемой является необходимость создания моделей, которые могут обеспечить высокую точность и классующую структуру в высокомерных пространствах. Эти мотивации побудили авторов разработать универсальный подход, который объединяет статистическую физику, теорию кодирования и геометрическую топологию для решения этих проблем.
## Метод
Предложенный подход основан на использовании многоленточных квазициклических графов типа LDPC с категорическими спинами, которые формируют Рандом-Бонд Исинг-модель (Random-Bond Ising Model, RBIM). Эти графы используются для представления высокомерных функциональных пространств, извлеченных из сетки MobileNetV2. Графы строятся таким образом, чтобы имитировать физические свойства, такие как интеракции спинов, что позволяет использовать методы статистической физики для классификации. Алгоритм работает в условиях, когда наименьший собственный элемент матрицы Бетта-Хессиан возвращается к нулю, что максимизирует способность классификации классов. Для оптимизации, авторы предложили быстрый алгоритм для оценки условия Nishimori, который эффективно решает задачу интерполяции и использует коррекцию Ньютона.
## Результаты
В ходе экспериментов были использованы данные из наборов ImageNet-10 и ImageNet-100. Авторы провели классификацию изображений, используя графы типа MET-QC-LDPC, которые были сжаты до 32 или 64-х разрядных функциональных пространств. Несмотря на огромную сжатие данных, точность классификации составляла 98,7% на ImageNet-10 и 82,7% на ImageNet-100. Это показывает, что топологические принципы, использованные в дизайне графов, позволяют поддерживать высокую точность при минимальном потреблении ресурсов.
## Значимость
Разработанный подход имеет широкие применения в области зрения компьютеров и искусственного интеллекта. Он может использоваться в различных приложениях, таких как распознавание образов, видеоанализ, анализ сегментации изображений. Преимуществами этого подхода является высокая точность, высокая эффективность процесса обучения и минимальное потребление вычислительных ресурсов. Это значительно снижает время обучения и расчета, что является ключевым п
Annotation:
We present a unified framework combining statistical physics, coding theory,
and algebraic topology for efficient multi-class image classification.
High-dimensional feature vectors from a frozen MobileNetV2 backbone are
interpreted as spins on a sparse Multi-Edge Type quasi-cyclic LDPC
(MET-QC-LDPC) graph, forming a Random-Bond Ising Model (RBIM). We operate this
RBIM at its Nishimori temperature, $\beta_N$, where the smallest eigenvalue of
the Bethe-Hessian matrix vanishes, maximizing class sep...