📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Cross-Attention Multimodal Fusion for Breast Cancer Diagnosis: Integrating Mammography and Clinical Data with Explainability

2025-08-26

Авторы:

Muhaisin Tiyumba Nantogmah, Abdul-Barik Alhassan, Salamudeen Alhassan

## Контекст Определение риска развития раковых опухолей молочной железы является одной из ключевых задач в медицинской диагностике. Адекватное оценивание этого риска может существенно снизить частоту развития заболевания и обеспечить врачам более точное возможности выбора лечебной стратегии. Несмотря на прогресс в области компьютеризированных систем поддержки принятия решений, большинство из них основывается только на информации из маммограмм. Хотя этот подход демонстрирует достаточно высокую эффективность, он не вполне использует ценность информации, содержащейся в клинических отчетах. Эти отчеты могут предоставить дополнительные ключевые признаки, которые могут существенно улучшить точность диагностики. В этом исследовании рассматривается вопрос о том, в какой степени клинические признаки могут улучшить качество классификации в сравнении с маммографией в одиночку, а также возможность совместного использования этих двух источников информации для повышения точности и достоверности моделей. ## Метод Для решения поставленной задачи использована методология мультимодального обучения с применением нейронных сетей. Основной архитектурой стала модель, основанная на методе cross-attention, которая эффективно объединяет данные из маммограмм и клинических отчетов. Сеть обрабатывает две модальности данных независимо, а затем объединяет их с помощью механизма cross-attention, что позволяет подчеркнуть важные факторы из обоих источников. Эта модель обучалась на наборе данных TCGA и CBIS-DDSM, которые включают как маммографические изображения, так и клинические данные в категориальном виде. Использовались методы метрической оценки, такие как AUC-ROC, F1-score и accuracy, для оценки качества работы модели. ## Результаты Исследование проводилось на наборе TCGA и CBIS-DDSM, содержащих изображения маммограмм и клинические данные. Модель cross-attention показала высокую эффективность, достигнув AUC-ROC в 0.98, accuracy в 0.96, F1-score в 0.94, precision в 0.92 и recall в 0.95. Эти показатели превышают результаты моделей, основанных только на маммографических данных. Эксперименты показали, что клинические признаки не только добавили новые информационные признаки, но и улучшили общую стабильность модели, повысив ее надежность и точность в диагностике рака молочной железы. ## Значимость Результаты исследования могут найти применение в современных системах компьютеризированной поддержки принятия решений в медицине. Данная модель демонстрирует преимущества использования мультимодального подхода, который может быть использован для повышения точности и достоверности диагностики рака молочной желез

Annotation:

A precise assessment of the risk of breast lesions can greatly lower it and assist physicians in choosing the best course of action. To categorise breast lesions, the majority of current computer-aided systems only use characteristics from mammograms. Although this method is practical, it does not completely utilise clinical reports' valuable information to attain the best results. When compared to utilising mammography alone, will clinical features greatly enhance the categorisation of breast l...

ID: 2508.16000v1 eess.IV, cs.CV, cs.LG

arXiv PDF

📄 Domain Adaptation via Feature Refinement

2025-08-26

Авторы:

Savvas Karatsiolis, Andreas Kamilaris

## Контекст Многие задачи машинного обучения сталкиваются с проблемой доменного перехода (domain shift), когда модели, обученные на одном домене данных, неэффективны в других. Это происходит из-за различий в распределениях между исходным (источникным) и целевым (целевым) доменами. Для решения этой проблемы возникла область исследований — доменный адаптация (domain adaptation). Она сосредоточена на том, чтобы обеспечить моделям высокую точность работы в новых, неизвестных доменах без доступа к подробному меток-известным объектам. Хотя существуют многие подходы к решению этой проблемы, они часто сложны в реализации, многослойными и требуют большого объема меток-известных объектов. Наша мотивация заключается в создании простого, эффективного и универсального фреймворка для доменной адаптации, который бы стал более доступным и эффективным в различных задачах. ## Метод Мы предлагаем Domain Adaptation via Feature Refinement (DAFR2), фреймворк, который четко разделяет доменную адаптацию на две основные задачи: первичная адаптация и оптимизация через слой Batch Normalization. Данный фреймворк использует несупервизированный целевой датасет для подгонки Batch Normalization, что позволяет адаптировать модель к распределению целевых данных. Более того, DAFR2 включает в себя механизм feature distillation (передачи знаний) от модели, обученной на источникном домене, и гипотезу передачи, которая позволяет переносить модели из источника в целевой домен. Эта синергетическая комбинация позволяет DAFR2 создавать отзывчивые и доменно-независимые признаки, не требуя дополнительных меток-известных объектов или сложной архитектуры. Фреймворк может быть применен к различным задачам, включая изображение, текст и сигналы. ## Результаты Мы проводили эксперименты на популярных датасетах, таких как CIFAR10-C, CIFAR100-C, MNIST-C и PatchCamelyon-C, для оценки работоспособности DAFR2 в сценариях с устойчивостью к помехам (robustness to corruption). Наши результаты показывают, что DAFR2 обеспечивает значительное улучшение по сравнению с предыдущими методами в области доменной адаптации. Также, мы провели теоретические и эмпирические анализы, показав, что DAFR2 обеспечивает лучшую выравнивание признаков, увеличивает информацию между доменами и уменьшает чувствительность к входным помехам. Эти результаты подтверждают эффективность DAFR2 в создании доменно-независимых моделей. ## Значимость Предлагаемый фреймворк DAFR2 может быть применен в различных областях, таких как здравоохранение, автоматизация производства и рекомендательные системы, где доступ к подробным меток-известных объектов в новых доменах ограничен. Он предлагает простой,

Annotation:

We propose Domain Adaptation via Feature Refinement (DAFR2), a simple yet effective framework for unsupervised domain adaptation under distribution shift. The proposed method synergistically combines three key components: adaptation of Batch Normalization statistics using unlabeled target data, feature distillation from a source-trained model and hypothesis transfer. By aligning feature distributions at the statistical and representational levels, DAFR2 produces robust and domain-invariant featu...

ID: 2508.16124v1 cs.CV, cs.LG

arXiv PDF

📄 Deep learning-enabled virtual multiplexed immunostaining of label-free tissue for vascular invasion assessment

2025-08-26

Авторы:

Yijie Zhang, Cagatay Isil, Xilin Yang, Yuzhu Li, Anna Elia, Karin Atlan, William Dean Wallace, Nir Pillar, Aydogan Ozcan

## Контекст Иммуногистохимия (ИГХ) широко используется в клинической патологии для визуализации конкретных белков в тканях. Однако традиционные методы ИГХ требуют одного раздела ткани для каждого стака, приводят к разности разделов друг от друга, и требуют дорогостоящих и трудоемких процедур. Мультиплексная ИГХ (mIHC) позволяет одновременно оклеивать семьями нескольких антител на одном разделе, но эти методы требуют сложной подготовки и недоступны в патологических лабораториях в реальном времени. Недостаток этих традиционных методов вдохновил разработку альтернативных подходов, включая использование глубокого обучения для виртуального мультиплексного оклеивания без метки-тегов. ## Метод В настоящем исследовании предложен глубокое обучение, включающий в себя виртуальное мультиплексное оклеивание на основе аутентичного глубокого обучения. Метод основан на аутофлуоресцентном микроскопии в закрепленных деталях без меток. Он использует нейронные сети, чтобы повторно визуализировать ткань с помощью трех различных диагностических методов: ERG, PanCK и H&E. Алгоритмы обучения используют глубокие нейронные сети, чтобы восстановить изображения, которые сходны с реальными стаками. Это позволяет эффективно исследовать окрестности тканей, включая их взаимодействие с сосудами. ## Результаты Исследование проводилось на тканях с раком щитовидной железы. Виртуальный мультиплексный ИГХ на основе аутофлуоресцентного микроскопии был сравниван с реальными ИГХ. Результаты показали высокую точность в определении и размещении эпителиальных и эндотелиальных клеток. Благодаря виртуальному мультиплексному оклеиванию стало возможным отслеживание малых сосудов и их нарушений. Опытные патологи, оценивав этот подход, подтвердили его высокую согласованность с реальными результатами. ## Значимость Этот подход может превратиться в решение для проблемы высоких затрат и трудоемкости стандартного ИГХ. Он может быть применен в патологических лабораториях для быстрого итогового определения вариантов сосудистого проникновения, что повышает точность диагноза. Также, виртуальный мультиплексный ИГХ может снизить затраты на материал и уменьшить вероятность ложных срабатываний в диагностике. ## Выводы Виртуальное мультиплексное ИГХ, основанное на аутофлуоресцентном микроскопии, демонстрирует высокую точность в определении сосудистого проникновения в тканях. Он предлагает новый взгляд на традиционные технологии ИГХ, улучш

Annotation:

Immunohistochemistry (IHC) has transformed clinical pathology by enabling the visualization of specific proteins within tissue sections. However, traditional IHC requires one tissue section per stain, exhibits section-to-section variability, and incurs high costs and laborious staining procedures. While multiplexed IHC (mIHC) techniques enable simultaneous staining with multiple antibodies on a single slide, they are more tedious to perform and are currently unavailable in routine pathology labo...

ID: 2508.16209v1 physics.med-ph, cs.CV, cs.LG

arXiv PDF

📄 Structuring GUI Elements through Vision Language Models: Towards Action Space Generation

2025-08-26

Авторы:

Yi Xu, Yesheng Zhang, jiajia Liu, Jingdong Chen

## Контекст Графические пользовательские интерфейсы (GUI) широко используются в современных системах компьютерного взаимодействия. Одним из ключевых аспектов понимания GUI является их структурирование, что позволяет автоматизировать интерактивные процессы и улучшить пользовательский опыт. Несмотря на развитие многоязыковых моделей языка (MLLM), их применение в этой области сталкивается с рядом проблем. Эти модели обычно обучаются с помощью максимального правдоподобия (MLE), но этот подход имеет ограничения, такие как **exposure bias**, который приводит к ошибкам в процессе работы модели на тестовых данных. Это ограничение становится особенно заметным при финальной стадии работы модели, когда генерируются позиции элементов GUI. Кроме того, существуют сложности с точным генерированием координат элементов GUI из текстовых инструкций, что требует развития более специфичных методов для решения этой задачи. ## Метод Мы предлагаем **IoU-Augmented Maximum Likelihood (IAML)**, новый подход к обучению, который улучшает точность генерирования координат элементов GUI внутри моделей типа MLLM. Наша методология включает в себя процесс **IoU-based coordinate sampling**, где координаты элементов GUI выбираются на основе их интерсекционной области с областью зрения модели. Этот метод позволяет создавать более точные и контекстуально верные выходные данные для координат. Модель IAML применяет этот подход к обучению MLLM, которая после этого лучше способна генерировать координаты элементов GUI. Такой подход не только устраняет проблему **exposure bias**, но также улучшает общую точность и надежность модели при работе с GUI. ## Результаты Мы провели ряд экспериментов, используя различные GUI-данные для тренировки и тестирования нашей модели. Наши результаты показывают, что **IAML** значительно превышает стандартные MLLM в точности генерирования координат элементов GUI. Мы сравнили нашу модель с другими подходами, такими как MLE и другие адаптивные стратегии обучения, и убедились, что **IAML** демонстрирует существенное улучшение в ряде метрик, в том числе **Intersection over Union (IoU)** и **Average Precision (AP)**. Эти результаты подтверждают, что наш подход лучше адаптируется к задаче структурирования GUI и обеспечивает более точный и надежный вывод координат. ## Значимость Наш подход имеет широкое применение в области **автоматизации интерфейсов**, включая такие приложения, как **автоматические системы поддержки**, **распознавание инструкций** и **генерирование пользовательских интерфейсов**. Модель IAML предоставляет значительные преимущества, такие как прецизионность в распознавании координат и увеличение удобства для пользователей в интерактивных приложениях. Это может

Annotation:

Multimodal large language models (MLLMs) have emerged as pivotal tools in enhancing human-computer interaction. In this paper we focus on the application of MLLMs in the field of graphical user interface (GUI) elements structuring, where they assist in processing user instructions based on screen contents. Despite the promise of MLLMs, their performance in precisely generating UI element coordinates, a critical aspect of GUI understanding, is hindered by the nature of next-token prediction train...

ID: 2508.16271v1 cs.CV, cs.LG

arXiv PDF

📄 HandCraft: Dynamic Sign Generation for Synthetic Data Augmentation

2025-08-25

Авторы:

Gaston Gustavo Rios, Pedro Dal Bianco, Franco Ronchetti, Facundo Quiroga, Oscar Stanchi, Santiago Ponte Ahón, Waldo Hasperué

## Контекст Sign Language Recognition (SLR) — это важная область исследований, которая позволяет людям, использующим жесточную модель языка, взаимодействовать с цифровыми системами. Однако одной из ключевых проблем в этой области является недостаточность доступных данных для обучения моделей. Это приводит к ограниченной точности и нестабильности работы моделей SLR. Ограниченность данных обусловлена не только техническими ограничениями, но и естественными особенностями жесточных моделей языков, которые часто включают уникальные, локально специфические выражения. Мы предлагаем HandCraft, модель, которая адресует эту проблему, предлагая новый подход к гибридному подходу в генерации синтетических данных для обучения моделей SLR. ## Метод HandCraft — динамическая система для генерации синтетического жесточного языка, основанная на CMLPe. Она использует архитектуру, которая моделирует жесточный язык как последовательность динамических взаимодействий. Метод включает в себя несколько этапов: 1. Захват динамических характеристик жестов с помощью алгоритма CMLPe. 2. Генерация синтетических сигналов с помощью генеративной модели, основанной на CMLPe. 3. Интеграция синтетических данных в обучение моделей SLR. Мы также разработали новую архитектуру для обработки синтетических данных, которая объединяет возможности трансформеров с глубокими нейросетевыми архитектурами. ## Результаты Мы провели ряд экспериментов, чтобы проверить эффективность HandCraft. Для этого мы использовали две различные базы данных: LSFB (Бельгия) и DiSPLaY (Испания). Мы сравнили HandCraft с существующими методами генерации и аugmentation данных. Наши результаты показали, что HandCraft повышает точность распознавания сигналов в сравнении с традиционными методами. В частности, он улучшил точность распознавания на 12% для LSFB и на 10% для DiSPLaY. Также мы проанализировали то, как синтетические данные влияют на работу моделей в сочетании с другими методами augmentation. ## Значимость HandCraft — это новая, высокоэффективная и легковесная модель, которая может использоваться в различных областях, где требуется распознавание жесточного языка. Особенно она полезна для тех случаев, когда доступ к реальным данным ограничен. Наш подход демократизирует синтетическую генерацию жестов и обучение моделей, предоставляя высокоэффективные, но доступные для расчета решения. Мы также продемонстрировали, что наша модель может использоваться в сочетании с традиционными методами augmentation, чтобы улучшить качество распознавания. ## Выводы Мы представили HandCraft, модель, которая предлагает

Annotation:

Sign Language Recognition (SLR) models face significant performance limitations due to insufficient training data availability. In this article, we address the challenge of limited data in SLR by introducing a novel and lightweight sign generation model based on CMLPe. This model, coupled with a synthetic data pretraining approach, consistently improves recognition accuracy, establishing new state-of-the-art results for the LSFB and DiSPLaY datasets using our Mamba-SL and Transformer-SL classifi...

ID: 2508.14345v2 cs.CV, cs.LG

arXiv PDF

📄 Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment

2025-08-25

Авторы:

Youjia Zhang, Youngeun Kim, Young-Geun Choi, Hongyeob Kim, Huiling Liu, Sungeun Hong

#### Контекст Тест-тайм адаптация (TTA) является кллючевым подходом для повышения многообразия моделей искусственного интеллекта в условиях сдвига распределений. Она позволяет моделям делать более точные прогнозы при использовании непомеченных данных теста во время инференции. Однако существуют значительные проблемы: многие подходы требуют бэкпропагейшн или итеративных оптимизаций, что ограничивает их скорость и удобство применения в реальном времени. Более того, нетребуется моделирование классовых функций распределений, что снижает качество и корректность моделей. Наша работа нацелена на решение этих проблем, обеспечивая эффективную и высокоточную адаптацию без использования бэкпропагейшна и без полного доступа к исходным данным. #### Метод Мы предлагаем ADAPT – Advanced Distribution-Aware and backPropagation-free Test-Time Adaptation. Метод ADAPT рефреймит TTA как задачу простого гауссовского пространства, где классы определяются с помощью средних значений признаков и общей ковариационной матрицы. Это позволяет достичь закрытого-формулы для оптимизации без тренировки. Для борьбы с возможным биасом в логистических шансах мы вводим легковесную регуляризацию, основанную на признаках CLIP и исторической базе знаний. Метод ADAPT требует только тестовых данных, не требует градиентных обновлений и начинает работу сразу после загрузки модели. Он поддерживает как онлайновые, так и трансдуктивные сценарии работы. #### Результаты Мы проводили эксперименты на множестве бенчмарков, таких как ImageNet-C, ImageNet-R, ImageNet-Sketch, CIFAR-10-C или CIFAR-100-C. ADAPT показал статистически значимый выигрыш по сравнению с современным тест-тайм адаптационными подходами. Он усиливает точность прогнозов, уменьшает значимость шума и улучшает структуру решений в трудных условиях сдвига распределения. Производительность ADAPT доказана как в онлайн-задачах, так и в трансдуктивных задачах, подтверждая высокую универсальность, скорость и простоту использования. #### Значимость Наш подход может применяться во многих сферах, где требуется высокая производительность моделей при работе с разными данными. Это и мобильные приложения, и системы автоматизированного видеомониторинга, и зонды искусственного интеллекта, работающие в условиях нестандартных условий. ADAPT обеспечивает высокую скорость, низкий пропускный процесс, легковесную регуляризацию и широкую поддержку различных сценариев. Эти преимущества делают нашу работу ключевым инструментом для повышения многообразия и надежности моделей в интеллектуальных системах. #### Выводы Мы пре

Annotation:

Test-time adaptation (TTA) enhances the zero-shot robustness under distribution shifts by leveraging unlabeled test data during inference. Despite notable advances, several challenges still limit its broader applicability. First, most methods rely on backpropagation or iterative optimization, which limits scalability and hinders real-time deployment. Second, they lack explicit modeling of class-conditional feature distributions. This modeling is crucial for producing reliable decision boundaries...

ID: 2508.15568v2 cs.CV, cs.LG

arXiv PDF

📄 A Vision-Based Shared-Control Teleoperation Scheme for Controlling the Robotic Arm of a Four-Legged Robot

2025-08-23

Авторы:

Murilo Vinicius da Silva, Matheus Hipolito Carvalho, Juliano Negri, Thiago Segreto, Gustavo J. G. Lahr, Ricardo V. Godoy, Marcelo Becker

#### Контекст Роботизированные системы играют ключевую роль в решении задач в опасных и удаленных окружениях, где требуется высокая точность и безопасность. Одним из таких систем являются роботы-четвероногие роботы с кинематическими руками, обладающие мобильностью и гибкостью для выполнения сложных операций. Однако, управление такими системами во время телеоперации сопряжено с рядом трудностей. В частности, недостаток интегрированных систем детектирования препятствий и неудобство интуитивного управления роботской рукой чревато увеличением риска коллизий в узких или динамически изменяющихся рабочих местах. Это вынуждает операторов использовать квалифицированные системы управления, которые требуют высоких навыков и имеют высокий когнитивный нагрузку. #### Метод Для решения этих проблем предлагается инновационный взгляд на телеоперацию, основанный на визуальной оценке положения руки оператора, преобразованной в команды для роботской руки. Алгоритм построения траектории обеспечивает безопасность, предотвращая коллизии с препятствиями и самой рукой. Модель визуального определения положения воспользовалась методами машинного обучения для точного выявления положения руки. Этот подход позволяет реализовать интуитивное управление, уменьшив когнитивный нагрузку на оператора и улучшив эффективность процесса. #### Результаты Набор экспериментов был проведен с использованием реального робота в условиях удаленного управления. Результаты показали, что система обеспечивает точную и быструю реагирование на команды оператора, даже в условиях жесткого временного ограничения. Особое внимание уделено избежанию коллизий и сохранению безопасности во время операций. Эксперименты подтвердили, что подход хорошо подходит для индустриальных приложений, где необходима обеспеченность, точность и простота управления. #### Значимость Предложенный подход может быть использован в различных областях, включая промышленность, где требуется безопасность и точность, а также в сфере медицины и поисковых операций в пушечных пространствах. Он обеспечивает удобство в управлении, повышает точность и сокращает риск коллизий. Будущие исследования будут направлены на улучшение модели положения руки и расширение функций для более сложных сред. #### Выводы Предложенная система телеоперации, основанная на визуальном определении положения руки, является эффективным решением для управления роботской рукой в реальном времени. Она обеспечивает безопасность и точность, упрощает управление и может быть использована в различных ин

Annotation:

In hazardous and remote environments, robotic systems perform critical tasks demanding improved safety and efficiency. Among these, quadruped robots with manipulator arms offer mobility and versatility for complex operations. However, teleoperating quadruped robots is challenging due to the lack of integrated obstacle detection and intuitive control methods for the robotic arm, increasing collision risks in confined or dynamically changing workspaces. Teleoperation via joysticks or pads can be n...

ID: 2508.14994v1 cs.RO, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Pretrained Diffusion Models Are Inherently Skipped-Step Samplers

2025-08-23

Авторы:

Wenju Xu

## Контекст Одним из основных требований по системам generative AI является эффективность в процессе вывода, которая является ключевым фактором в сфере генерирования высококачественных графических изображений и текстов. Одна из ведущих технологий, достигшей лидирующих результатов, является diffusion models. Однако, они обладают значительным недостатком: требуются значительное количество последовательных шагов для сгенерированного объекта, что замедляет процесс и может привести к потере качества. Для улучшения этой ситуации ранее представлены методы, такие как DDIM, которые были предложены для сокращения шагов процесса, но они не являются частью стандартного подхода в diffusion models. В этой работе рассматривается возможность использовать технологии skipped-step sampling, которые позволяют ускорить процесс, не прибегая к изменению сути логики построения модели. ## Метод Авторы предлагают метод, называемый skipped-step sampling, который позволяет применять более эффективный шаблон вывода в процессе генерации. Основная характеристика этого метода заключается в том, что он не требует изменения логики, принципов или архитектуры стандартных diffusion models. Метод построен на основе того, что можно было бы пропустить некоторые шаги в процессе генерации, минуя их напрямую, благодаря использованию оптимизированных процессов. Это происходит благодаря тому, что модель diffusion может использовать Markovian properties для получения того же результата с меньшим числом шагов. Этот подход не требует изменений в самой модели и может быть реализован в соответствии с существующим контекстом. ## Результаты Результаты экспериментов показали, что skipped-step sampling позволяет значительно сократить число шагов, необходимых для генерации высококачественных объектов. Эксперименты проводились на популярных моделях, таких как OpenAI ADM, Stable Diffusion, и Open Sora. Использовавшаяся база данных включала различные типы графических изображений и текстов, а результаты показали, что для заданий, которые ранее требовали 100+ шагов, можно было получить тот же результат с помощью лишь 10-20 шагов, не уменьшая качества. Эта эффективность демонстрирует силу того, что skipped-step sampling может быть применено в различных сценариях для ускорения процессов генерации. ## Значимость Предложенный подход имеет широкие возможности для применения в сферах, где требуется быстрая и точная генерация высококачественных изображений и текстов. Например, в сфере creative AI, где требуется быстрое генерирование изображений для конкретных задач, подобный подход может существенно сократить время генерации. Благодаря повышению эффективности, это может позволить вносить более своевременные и точные вклады в сферу комп

Annotation:

Diffusion models have been achieving state-of-the-art results across various generation tasks. However, a notable drawback is their sequential generation process, requiring long-sequence step-by-step generation. Existing methods, such as DDIM, attempt to reduce sampling steps by constructing a class of non-Markovian diffusion processes that maintain the same training objective. However, there remains a gap in understanding whether the original diffusion process can achieve the same efficiency wi...

ID: 2508.15233v1 cs.CV, cs.LG

arXiv PDF

📄 Backpropagation-Free Test-Time Adaptation via Probabilistic Gaussian Alignment

2025-08-23

Авторы:

Youjia Zhang, Youngeun Kim, Young-Geun Choi, Hongyeob Kim, Huiling Liu, Sungeun Hong

## Контекст **Тест-тайм адаптация (TTA)** — это метод, позволяя моделям адаптироваться к несогласованности между тренировочными и тестовыми данными в сценариях без метки (zero-shot). Он особенно полезен при работе с распределениями, требующими постоянной адаптации в реальном времени. Однако существуют несколько ограничений. Многие методы требуют бэкпропаграции или итеративной оптимизации, что приводит к ограничению на скорость и реальному времени. Более того, недостаточное моделирование классовых распределений функций затрудняет получение точных границ решений и калиброванных предсказаний. Эти проблемы могут быть решены, чтобы улучшить широковещательность и применимость TTA в реальной ситуации. ## Метод Мы предлагаем **ADAPT** — Advanced Distribution-Aware and Backpropagation-Free Test-Time Adaptation. Этот метод представляет вопрос TTA в виде задачи простой гипотезы в рамках моделирования классовых распределений в гипотезе. Мы используем постепенно обновляемые классовые средние значения и общую матрицу ковариации, чтобы установить гипотезу. Для устранения возможного влияния биаса, мы вводим лёгкую регуляризацию, основанную на CLIP-признаках и исторической базе знаний. Наш метод не требует первичных данных, градиентных обновлений или полного доступа к тестовым данным, что позволяет использовать его в онлайн- и трансдуктивных сценариях. ## Результаты Мы проверили ADAPT на различных бенчмарках, включая CIFAR-10-C, CIFAR-100-C и ImageNet-C. Метод показал значительное улучшение в сравнении с современными TTA-методами под различными распределениями условий. Он доказал высокую скорость, гибкость и точность в процессе адаптации. Особенно заметно был выигрыш в ситуациях с повышенными затруднениями (например, шумом или изменениями контраста). ## Значимость ADAPT может применяться в различных областях, таких как мобильные приложения, космическая эксплуатация, медицина и распознавание образов в реальном времени. Он предлагает значительное преимущество в скорости и надежности по сравнению с традиционными TTA-методами. Благодаря использованию простых гипотез и закрытых формул, ADAPT гарантирует эффективный и стабильный инференс без использования оборудования для оптимизации. ## Выводы Мы представляем **ADAPT** — новую модель TTA, которая устраняет необходимость в бэкпропаграции и итеративном обучении. Наши результаты показывают, что ADAPT превосходит текущие методы в сфере TTA. Мы планируем продолжить работу над улучшением модели для более сложных распределений данных и рассмотреть возможность применения в различных многообразных приложениях.

Annotation:

ID: 2508.15568v1 cs.CV, cs.LG

arXiv PDF

📄 Exploring the Landscape of Non-Equilibrium Memories with Neural Cellular Automata

2025-08-23

Авторы:

Ethan Lake, Ehsan Pajouheshgar

## Контекст Настоящее исследование посвящено изучению сущности многотермених памятей в неравновесных системах. Такие системы позволяют сохранять информацию о своих начальных условиях на длительные термодинамические временные масштабы, даже при воздействии внешних помех. Несмотря на то, что в двумерных случаях лишь Toom's rule широко изучалась в качестве памяти, работа авторов основывается на суперпозиции математических и машинного обучения методов для того, чтобы раскрыть более широкий спектр возможностей таких систем. Целью исследования является выявление новых типов памяти, которые могут корректировать ошибки в различных стилях и способах, иметь упорядоченные фазы, стабилизируемые помехами, и сохранять информацию в условиях шума. ## Метод Для изучения многотермених памятей в двумерном пространстве использовалась комбинация математических доказательств и машинного обучения. Авторы разработали уникальные модели с помощью Neural Cellular Automata (NCA), которые позволяют моделировать многотермение и сохранение информации в условиях динамических помех. Эта модель является частным случаем рассмотренного в работе понятия многотермених памятей. Использование NCA позволило авторам формализовать свойства памяти и проверить их в различных сценариях, включая внешние помехи и различные условия динамики. ## Результаты В ходе исследования было выявлено многочисленное количество памятей, отличающихся способами корректировки ошибок и формирования упорядоченных фаз. Нашлись и ситуации, в которых информация сохраняется только при наличии шума. Эксперименты проводились с использованием различных моделей, в том числе с генерируемыми случайным образом параметрами, чтобы проверить разнообразие поведения памяти. Таким образом, было сформировано полное знакомство с широким диапазоном многотермених памятей, ранее не известных в двумерных системах. ## Значимость Результаты имеют значительное значение для теории многотермених памятей и систем, которые могут использоваться в различных областях, включая хранение информации в неравновесных системах, коррекцию ошибок и исследования стабилизации динамики. Эти новые памяти открывают новые возможности для использования в робототехнике, искусственных нейронных сетях, и даже в теории квантовых вычислений. Исследования показали, что понятие многотермених памятей более широкое, чем до этого предполагалось. ## Выводы На основе полученных результатов можно сделать вывод, что память в неравновесных системах может быть реализована разными способами, имеющими ра

Annotation:

We investigate the landscape of many-body memories: families of local non-equilibrium dynamics that retain information about their initial conditions for thermodynamically long time scales, even in the presence of arbitrary perturbations. In two dimensions, the only well-studied memory is Toom's rule. Using a combination of rigorous proofs and machine learning methods, we show that the landscape of 2D memories is in fact quite vast. We discover memories that correct errors in ways qualitatively ...

ID: 2508.15726v1 cond-mat.stat-mech, cs.CV, cs.LG, nlin.CG

arXiv PDF

Показано 721 - 730 из 835 записей