📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Automated Tuning for Diffusion Inverse Problem Solvers without Generative Prior Retraining

2025-09-16

Авторы:

Yaşar Utku Alçalar, Junno Yun, Mehmet Akçakaya

## Контекст В области развития генеративных моделей для решения инверских задач, таких как ускоренное восстановление изображений магнитной резонансной томографии (MRI), в последнее время наблюдается значительный прогресс. Диффузионные/скоростно-основые модели стали популярными генеративными примитивами для таких задач, благодаря их гибкости и возможности декомпозировать модель измерения от генеративного примитива. Однако, их эффективность сильно зависит от точного настройки данных фидертити-весов, особенно при использовании быстрых схем сэмплирования и небольшого числа данонинговых шагов. Традиционные подходы часто опираются на грубые интуитивные решения или установленные предварительно фиксированные веса, которые не могут эффективно адаптироваться к разным условиям измерений и нестандартным расписаниям. В данной работе мы предлагаем новый подход, Zero-shot Adaptive Diffusion Sampling (ZADS), который расширяет возможности текущих подходов, обеспечивая адаптивную настройку весов данных при тестировании без необходимости переучивать модель диффузионного примитива. ## Метод ZADS представляет собой метод оптимизации на этапе теста, который адаптивно настраивает веса фидбека в процессе создания изображений без необходимости переучивать генеративный примитив. Метод основывается на универсальной архитектуре методики построения диффузионных моделей, которая рассматривает диффузионный процесс как упорядоченную последовательность измерений и оптимизирует веса данных с помощью техник зеркального самосупервизора. Метод не требует дополнительных данных или тестовых выборок для переучивания модели. Основная идея заключается в том, что генеративный переменный (денойсинговый процесс) остается неизменным, в то время как веса фидбека адаптируются к конкретным условиям измерений, что позволяет достичь высокого качества распознавания даже при произвольных схемах сэмплирования. ## Результаты Эксперименты проводились на датасете fastMRI, который содержит разнообразные данные MRI с высоким разрешением и разными условиями измерений. Мы сравнили ZADS с традиционными методами, такими как сжатие сигнала (Compressed Sensing), и другими моделями диффузионных примитивов. Опытным путем мы показали, что ZADS показывает высокую точность восстановления изображений в различных ситуациях с измерениями и фидбеком, превосходя остальные подходы в соотношении качества исходного изображения и скорости вычислений. Значительное улучшение показался в сценариях с быстрым сэмплированием и нестандартными расписаниями, где другие методы часто сталкиваются с проблемами стабильности и качества. ## Значимость Предложенный подход им

Annotation:

Diffusion/score-based models have recently emerged as powerful generative priors for solving inverse problems, including accelerated MRI reconstruction. While their flexibility allows decoupling the measurement model from the learned prior, their performance heavily depends on carefully tuned data fidelity weights, especially under fast sampling schedules with few denoising steps. Existing approaches often rely on heuristics or fixed weights, which fail to generalize across varying measurement c...

ID: 2509.09880v1 eess.IV, cs.AI, cs.CV, cs.LG, physics.med-ph

arXiv PDF

📄 Drone-Based Multispectral Imaging and Deep Learning for Timely Detection of Branched Broomrape in Tomato Farms

2025-09-16

Авторы:

Mohammadreza Narimani, Alireza Pourreza, Ali Moghimi, Mohsen Mesgaran, Parastoo Farajpoor, Hamid Jafarbiglu

#### Контекст Branched broomrape (Phelipanche ramosa) является опасным паразитным растением, которое широко распространено в томатных фермах Калифорнии, где создаются 90% производства томатных продуктов в США. Это растение оказывает серьезное воздействие на урожайность и качество томатов, так как его имплантация происходит в почвенных слоях, а его развитие начинается в глубине земли. Традиционные методы борьбы с broomrape, такие как химическое лечение, являются дорогостоящими, вредными для окружающей среды и часто неэффективными. Это усиливает необходимость разработки более точных и экологически безопасных способов раннего выявления паразита. Многоспектральная дронная съемка и глубокое обучение представляют собой мощные инструменты, которые могут помочь определять broomrape на ранних стадиях, позволяя принимать быстрые и эффективные меры. #### Метод Для выявления broomrape использовались дрон-базированные многоспектральные снимки, обрабатываемые с помощью глубоких нейронных сетей типа Long Short-Term Memory (LSTM). Исследования проводились на томатном ферме в Woodland, где был заранее установлен распространенный бронморапе. Данные снимались на разных стадиях роста томатов, определенных через ростую степень (GDD). Для улучшения классификации взяты многоспектральные изображения, включающие отражение из растений, и исключились ненужные шумы. Для решения проблемы несбалансированности классов использовалась техника Synthetic Minority Over-sampling Technique (SMOTE). Эта методика позволила увеличить долю меньшинственных классов broomrape в обучающих данных. Также было использовано LSTM-сети для учета последовательности роста растений и для повышения точности выявления. #### Результаты За стадии роста GDD 897 было выявлено broomrape с общей точностью 79.09% и реколлокцией 70.36% без использования данных поздних стадий. Однако когда включались все стадии развития сети LSTM, точность определения broomrape значительно выросла. Лучший сценарий, включавший все стадии роста и использовавший технику SMOTE, показал общую точность 88.37% и реколлокцию 95.37%. Эти результаты указывают на возможность применения многоспектральной дрон-съёмки и LSTM для раннего выявления broomrape с высокой точностью, что может существенно повысить эффективность управления растениями и снизить убытки в сельскохозяйственном производстве. #### Значимость Этот подход имеет широкие применения в сельском хозяйстве, особенно в секторе томатной продукции. Многоспектральная дронная съемка, обработанная LSTM-сетями, может стать действительно прецизионным инструментом, уменьшающим потери и повышающий уровень санитарных мер в томатных зем

Annotation:

This study addresses the escalating threat of branched broomrape (Phelipanche ramosa) to California's tomato industry, which supplies over 90 percent of U.S. processing tomatoes. The parasite's largely underground life cycle makes early detection difficult, while conventional chemical controls are costly, environmentally harmful, and often ineffective. To address this, we combined drone-based multispectral imagery with Long Short-Term Memory (LSTM) deep learning networks, using the Synthetic Min...

ID: 2509.09972v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 Explainable AI for Accelerated Microstructure Imaging: A SHAP-Guided Protocol on the Connectome 2.0 scanner

2025-09-13

Авторы:

Quentin Uhl, Tommaso Pavan, Julianna Gerold, Kwok-Shing Chan, Yohan Jun, Shohei Fujita, Aneri Bhatt, Yixin Ma, Qiaochu Wang, Hong-Hsi Lee, Susie Y. Huang, Berkin Bilgic, Ileana Jelescu

## Контекст На протяжении многих лет развития диффузионной магнитной резонансной импедансной томографии (diffusion MRI), многие протоколы исследований, ориентированные на изучение нейронной сети (connectome), требуют долгих сканирований. Это ограничивает применение этих методов в клинической практике, где необходимы более быстрые и эффективные сканирования. Одной из причин этого ограничения является необходимость в многоканальном сканировании для получения точных параметров поведения воды в сером веществе. Для решения этой проблемы, авторы предлагают **Explainable AI for Accelerated Microstructure Imaging**, который использует гибридный подход, сочетающий данные и искусственный интеллект, для создания более эффективных протоколов сканирования. ## Метод Протокол **Connectome 2.0** предлагает решение для ускорения сканирования, сохранив точность параметров. Авторы использовали **SHAP (SHapley Additive exPlanations)**, метод европейской концепции, позволяющий выявить наиболее важные факторы, влияющие на результаты. В рамках этого проекта разработан фреймворк, использующий **guided recursive feature elimination (RFE)**, чтобы оптимизировать выбор признаков для сканирования. Этот подход позволил выбрать оптимальный набор из 15 признаков, обеспечивая максимальную точность с минимальным временем сканирования. Метод был валидирован в наборе во вращающемся зонде, позволяя изучить точность параметров, анатомический контраст и повторяемость результатов. ## Результаты В результате использования оптимизированного протокола, авторы получили параметры, которые были почти идентичны тем, что достигались при использовании полного протокола. Эталонные тесты показали, что новый протокол позволяет сохранить точность параметров с минимальным влиянием на исследование. Кроме того, он показал лучшую производительность по сравнению с другими стратегиями снижения длины сканирования, такими как теоретические или хитроумные схемы. Данные показали, что уменьшение длины сканирования не приводит к потере важности параметров или их эффективности. ## Значимость Данный подход может быть применен в различных областях, включая клинические исследования и нейронирование. Он позволяет сократить время сканирования, не теряя точности в измерении параметров, что может повысить эффективность диагностики. Благодаря использованию искусственного интеллекта, **Explainable AI for Accelerated Microstructure Imaging** предлагает новую модель для оптимизации протоколов сканирования, которая может быть использована в различных областях, где необходима быстрая и точная диагностика. ## Выводы **Explainable AI for Accelerated Microstructure Imaging** позволяет создавать более эффективные протоколы для исследования поведения воды в сером веществе. Этот подход уско

Annotation:

The diffusion MRI Neurite Exchange Imaging model offers a promising framework for probing gray matter microstructure by estimating parameters such as compartment sizes, diffusivities, and inter-compartmental water exchange time. However, existing protocols require long scan times. This study proposes a reduced acquisition scheme for the Connectome 2.0 scanner that preserves model accuracy while substantially shortening scan duration. We developed a data-driven framework using explainable artific...

ID: 2509.09513v1 physics.med-ph, cs.AI, cs.CV, cs.LG, eess.IV, J.3

arXiv PDF

📄 ObjectReact: Learning Object-Relative Control for Visual Navigation

2025-09-13

Авторы:

Sourav Garg, Dustin Craggs, Vineeth Bhat, Lachlan Mares, Stefan Podgorski, Madhava Krishna, Feras Dayoub, Ian Reid

#### Контекст Visual navigation, осуществляемая с применением только одной камеры и топологической карты, является привлекательным альтернативным подходом к методам, требующим дополнительных сенсоров и 3D-сетки. Отличительным чертами такого подхода является "изображение-относительный" подход, который позволяет оценивать управление на основе пары текущего изображения и субцели. Однако изображение-относительные подходы ограничены, так как изображения сильно привязаны к позе и антропоморфности агента. В то же время, объекты, являясь частью карты, предлагают трансформацию-инвариантную и позиционирование-инвариантную носительную структуру. В данной работе мы предлагаем новую парадигму обучения на основе "объектного-относительного" управления, которая имеет несколько выгодных свойств: a) позволяет совершать новые маршруты без необходимости копировать предыдущие опыты, b) разделяет проблему прогнозирования управления от решения проблемы соотнесения изображений, и c) обеспечивает высокую качественную инвариантность при переносе политики с моделирования на реальность, включая смену обзора и настройку траектории. #### Метод Мы предлагаем новую структуру топологической карты в виде "относительного" 3D-графа сцены, который используется для получения более информативных глобальных затрат планирования пути. Мы также разрабатываем локальный контроллер, "ObjectReact", который принимает в качестве входных данных высокоуровневую "WayObject Costmap", исключая необходимость в явном вводе цветного изображения. Обучение "ObjectReact" основано на методах глубокого обучения, которые позволяют принимать решения на основе объектного отношения, а не изображения. Этот подход позволяет лучше распознавать и управлять объектами, независимо от камеры или позы агента. #### Результаты Мы проводим эксперименты, сравнивая нашу модель с изображение-относительными подходами в различных ситуациях: изменения высоты камеры, маршрутами в обратном порядке, и т.д. Наши результаты показывают, что "ObjectReact" не только показывает высокую точность в локальном управлении, но и обеспечивает лучшую общительность во время переноса политик с симуляции на реальный мир. Мы также демонстрируем, что наша система может обеспечить трансфер в разные ситуации, включая смену обзора и смену траектории. #### Значимость Наша работа открывает новые возможности для эффективного обучения управления в визуальной навигации. Она позволяет переключаться между моделированием и реальным миром более устойчиво, с меньшим риском переобучения. Кроме того, наш подход предоставляет преимущества в сфере обеспечения простоты и универсаль

Annotation:

Visual navigation using only a single camera and a topological map has recently become an appealing alternative to methods that require additional sensors and 3D maps. This is typically achieved through an "image-relative" approach to estimating control from a given pair of current observation and subgoal image. However, image-level representations of the world have limitations because images are strictly tied to the agent's pose and embodiment. In contrast, objects, being a property of the map,...

ID: 2509.09594v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Adversarial Attacks on Audio Deepfake Detection: A Benchmark and Comparative Study

2025-09-11

Авторы:

Kutub Uddin, Muhammad Umar Farooq, Awais Khan, Khalid Mahmood Malik

#### Контекст Генерируемая с помощью искусственного интеллекта аудиосъемка, так называемая deepfake, стала одной из самых мощных технологий в современной цифровой среде. Она используется для подделки голосов, создания подлоговых аудио-видеоматериалов и даже обмана зрителей при помощи реалистичных, но ложной информации. Эта технология нашла применение в различных сферах: от развлечений до серьезных рисков в профессиональных сферах, например, в системах аудиоконференцсвязи, проверке личности по голосу и расследовании преступлений. Однако с этим резко возросло количество атак, направленных на подделку голоса или скрытие глубоких подделок. Эти атаки могут серьезно повлиять на безопасность, доверие к цифровым системам и юридические процессы. #### Метод Мы провели широкий анализ современных методов обнаружения глубоких подделок, посредством которых можно выявить глубокие подделки, использующие генерируемую звуковую информацию. Методика включала в себя два основных подхода: работу над звуковыми сигналами в "родном" формате (без предварительной обработки) и работу над спектрограммами (графическими представлениями звуковых сигналов). Мы использовали пять разных бенчмарк-датасетов, позволяющих протестировать различные методы обнаружения. Наша инфраструктура включала в себя такие подходы, как оптимизационные атаки (FGSM, PGD, C&W) и статистические модификации (например, разносятройка звуков, фильтрация, шум и др.). Мы проводили сравнительный анализ этих методов по метрикам, таким как точность, сенситивность и восстановление предложенных нюансов. #### Результаты Мы выполнили эксперименты на широком спектре глубоких подделок, используя пять разных датасетов. Мы оценивали как нововведения, так и уже существующие подходы к обнаружению глубоких подделок, чтобы понять, какие методы более эффективны в сравнении с другими. Наши результаты показали, что методы, основывающиеся на спектрограммах, показали лучший результат в том случае, когда данные были предварительно обработаны для извлечения закономерностей. Однако они оказались менее устойчивы в условиях атак, направленных на изменение звукового сигнала в "родной" формате. #### Значимость Наши результаты могут быть применены в сферах, где существует риск подделки голоса или глубоких подделок, таких как системы аудиоконференцсвязи, голосовые помощники, системы безопасности и проверка личности по голосу. Методы, разработанные в рамках нашего исследования, могут помочь в разработке более устойчивых систем,

Annotation:

The widespread use of generative AI has shown remarkable success in producing highly realistic deepfakes, posing a serious threat to various voice biometric applications, including speaker verification, voice biometrics, audio conferencing, and criminal investigations. To counteract this, several state-of-the-art (SoTA) audio deepfake detection (ADD) methods have been proposed to identify generative AI signatures to distinguish between real and deepfake audio. However, the effectiveness of these...

ID: 2509.07132v1 cs.SD, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 CardioComposer: Flexible and Compositional Anatomical Structure Generation with Disentangled Geometric Guidance

2025-09-11

Авторы:

Karim Kadry, Shoaib Goraya, Ajay Manicka, Abdalla Abdelwahed, Farhad Nezami, Elazer Edelman

#### Контекст Улучшение понимания структур тела через генерируемые модели 3D-анатомии имеет решающее значение в клинических исследованиях и разработке медицинских устройств. Однако существующие модели сталкиваются с проблемой достижения компромисса между контролируемостью и реалистичностью анатомии. Из этой проблемы возникает необходимость разработки более гибких и композиционных подходов к генерированию анатомических структур. Наша мотивация заключается в создании модели, которая не только реалистична, но и позволяет контролировать отдельные аспекты структуры, такие как размер, форма и положение, при этом сохраняя возможность композиционного развития. #### Метод Мы предлагаем CardioComposer — модель, основанную на недетерминированных диффузионных моделях, которая использует интерпретируемые эллипсоидальные примитивы для гибкого управления структурой тканей. Модель работает в следующих этапов: вначале выбирается определенная ткань из многослойных сегментационных карт. Затем, мы применяем геометрические потери моментов для управления размером, формой и положением этой ткани в пространстве. Наша модель позволяет композировать несколько примитивов в одной модели, что дает полную гибкость в управлении анатомическими структурами. Эта архитектура позволяет осуществлять контроль над каждым компонентом структуры отдельно, что является ключевым отличием от существующих моделей. #### Результаты Мы проводили эксперименты на множестве сегментационных карт, охватывающих различные человеческие анатомические структуры. Модель показала высокую точность в создании реалистичных моделей тканей, удовлетворяющих конкретным геометрическим ограничениям. Мы также проверили возможность композиционного управления, где отдельные анатомические компоненты могут быть изменены независимо друг от друга. Итоговые модели отличались высокой точностью и реалистичностью, сравнимой с реальными сегментациями, что подтверждает эффективность нашего подхода. #### Значимость CardioComposer открывает широкие возможности в области клинических исследований, в частности для изучения структур-функциональных отношений в организме. Она также может использоваться для разработки и тестирования медицинских устройств, где точность моделирования анатомических структур критична. Эта модель предлагает более гибкий и контролируемый подход по сравнению с другими моделями, что позволяет более точно контролировать результат. #### Выводы Мы успешно разработали CardioComposer — модель, которая обеспечивает гибкое и композиционное генерирование анатомических структу

Annotation:

Generative models of 3D anatomy, when integrated with biophysical simulators, enable the study of structure-function relationships for clinical research and medical device design. However, current models face a trade-off between controllability and anatomical realism. We propose a programmable and compositional framework for guiding unconditional diffusion models of human anatomy using interpretable ellipsoidal primitives embedded in 3D space. Our method involves the selection of certain tissues...

ID: 2509.08015v1 eess.IV, cs.AI, cs.CV, cs.LG

arXiv PDF

📄 TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals

2025-09-11

Авторы:

Stefan Podgorski, Sourav Garg, Mehdi Hosseinzadeh, Lachlan Mares, Feras Dayoub, Ian Reid

## Контекст Визуальная навигация в робототехнике традиционно основывается на глобально консистентных 3D-картах или обученных контроллерах, что часто требует высоких вычислительных ресурсов и сложности при общей пригодности для различных сред. Однако, существуют ситуации, когда использование 3D-карт или предварительно обученных контроллеров невозможно или неэффективно. Например, в новых и неизвестных окружениях, где недостаточно данных для обучения, или при работе с ограниченными вычислительными ресурсами. Было протестировано множество подходов, ориентированных на решение этих проблем, но они либо требуют доступа к 3D-картам, либо зависят от уже обученных моделей. Данная работа предлагает новую модель, которая объединяет локальный метрический контроль и глобальный топологический планирование, предлагая новый подход к визуальной навигации в открытых средах. ## Метод Метод TANGO (Traversability-Aware Navigation with Local Metric Control for Topological Goals) объединяет глобальное топологическое планирование с локальным метрическим контролем траектории. Глобальный планировщик определяет оптимальный топологический путь к цели, а локальный контроллер управляет метрической траекторией в реальном времени, используя распознавание объектов и оценку траверсабильности. Для снижения вычислительных затрат и повышения универсальности метод использует монокулярное глубинообнаружение и траверсабильность с использованием технологии фундаментальных моделей, что позволяет адаптироваться к новым средам без дополнительного обучения. Также внедрена механика автоматического переключения на базовый контроллер при выявлении нехватки данных или ошибках в планировании. ## Результаты Метод был протестирован в симуляционных и реальных окружениях. Были проведены эксперименты с различными средами, в том числе домашними помещениями и открытыми пространствами. Результаты показали, что TANGO эффективно решает задачи визуальной навигации в открытых средах, превосходя существующие методы по точности, универсальности и реальному развертыванию. Измерения показали, что TANGO обеспечивает высокую точность в достижении топологических целей, даже при неоднородных условиях видимости и объектной среды. ## Значимость Метод TANGO имеет широкое применение в различных областях робототехники, включая домашнюю автоматизацию, поиск и спасение, а также промышленную робототехнику. Его преимущества заключаются в том, что он не требует дополнительного обучения для каждой среды, имеет высокую универсальность и может работать в реальном времени с минимальными вычислительными ресурсами. Этот подход может существенно расширить

Annotation:

Visual navigation in robotics traditionally relies on globally-consistent 3D maps or learned controllers, which can be computationally expensive and difficult to generalize across diverse environments. In this work, we present a novel RGB-only, object-level topometric navigation pipeline that enables zero-shot, long-horizon robot navigation without requiring 3D maps or pre-trained controllers. Our approach integrates global topological path planning with local metric trajectory control, allowing...

ID: 2509.08699v1 cs.RO, cs.AI, cs.CV, cs.LG, cs.SY, eess.SY

arXiv PDF

📄 Spectral and Rhythm Feature Performance Evaluation for Category and Class Level Audio Classification with Deep Convolutional Neural Networks

2025-09-11

Авторы:

Friedrich Wolf-Monheim

## Контекст Аудиоданные широко используются в различных областях, таких как музыка, речь и среды. Одним из основных задач было решение классификации аудиозаписей по категориям и классам. Для этого применяются различные методы, включая сверточные нейронные сети (CNNs). Однако существуют различия в качестве и точности классификации в зависимости от выбранных функций. Распространенные функции включают mel-scaled spectrograms, MFCC, cyclic tempograms и др. Чтобы определить, какие функции показывают лучший результат, необходимо провести подробный анализ их результатов с использованием CNN. ## Метод Для анализа был использован диапазон функций, включая mel-scaled spectrograms, MFCC, cyclic tempograms и CQT chromagrams. Эти функции были использованы для построения многоканальных изображений в виде входных данных для сверточной нейронной сети. Набор данных ESC-50, содержащий 2000 записей, использовался для тестирования. Оценивались метрики точности, полнота, реколл и F1-меру. CNN была обучена в рамках энд-то-энд-подхода, чтобы определить качество классификации по категориям и классам. ## Результаты По результатам экспериментов, mel-scaled spectrograms и MFCC показали лучший результат в качестве классификации по категориям и классам. Оба показали высокую точность и F1-меру. MFCC лучше всего показались для классификации по классам, в то время как spectrograms оказались эффективными в категоризации. Остальные функции (cyclic tempograms, CQT chromagrams) показали нижнее качество, заметно уступив лидерам. ## Значимость Эти результаты имеют большую значимость для применения CNN в аудиоклассификации. Функции, эффективны в этой работе, могут стать предпочтительными для классификации в различных областях, таких как музыка, речь и среды. Особенно важно использовать MFCC для классификации по классам, так как они показали лучшие результаты. Это может улучшить качество и точность автоматических систем классификации звука. ## Выводы В итоге, методы mel-scaled spectrograms и MFCC оказались наиболее эффективными для классификации аудиоданных по категориям и классам с использованием CNN. В будущем можно расширить исследования, включив дополнительные данные и алгоритмы, чтобы улучшить качество классификации и расширить представление о данных.

Annotation:

Next to decision tree and k-nearest neighbours algorithms deep convolutional neural networks (CNNs) are widely used to classify audio data in many domains like music, speech or environmental sounds. To train a specific CNN various spectral and rhythm features like mel-scaled spectrograms, mel-frequency cepstral coefficients (MFCC), cyclic tempograms, short-time Fourier transform (STFT) chromagrams, constant-Q transform (CQT) chromagrams and chroma energy normalized statistics (CENS) chromagrams ...

ID: 2509.07756v1 cs.SD, cs.AI, cs.CV, cs.LG, eess.AS

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Современные угрозы в сфере кибербезопасности, такие как малвирь, требуют эффективных методов идентификации и классификации. Одним из ключевых вызовов является обход традиционных методов статического анализа, которые могут быть обойдены с помощью различных оболочек и обфускации. Динамический анализ, хотя и показывает высокую точность, требует больших ресурсов, что не допускает массового развертывания. Ранее проводились исследования, применяющие методы компьютерного зрения к 2D-изображениям, созданным из бинарных файлов. Однако этот подход приводит к значительной потере информации, включая зашумление и введение зависимостей между пикселями, которые не существуют в начальных данных. ## Метод В данном исследовании предлагается новый подход к классификации малвирьа, основанный на преобразовании бинарных файлов в одномерные сигналы. Этот метод устраняет необходимость использования 2D-изображений, сохраняя большую часть оригинальной информации. Бинарные файлы конвертируются в 1D-сигналы без ненужных преобразований, используя формат вещественных чисел, что позволяет избежать зашумления и сохранить точность. Для классификации были использованы 1D-конvolutional neural networks (1D-CNNs), адаптированные из 2D-архитектур, таких как ResNet, с добавлением squeeze-and-excitation слоев для улучшения осознанности и эффективности. ## Результаты Использовав MalNet dataset, были проведены эксперименты для классификации на уровнях бинарный, тип и семейство. 1D-CNNs показали высокую точность, достигнув F1-метрик 0.874, 0.503 и 0.507 соответственно. Эти результаты опережают предыдущие решения, основанные на 2D-изображениях. Особенно выдающимися были результаты при классификации на уровне бинарный и тип, где 1D-подход показал значительное превосходство. ## Значимость Предложенный подход имеет широкие возможности применения в сфере безопасности информационных технологий. Он позволяет более эффективно обнаруживать и классифицировать новые виды малвирьа, даже с использованием обфускации. Благодаря использованию 1D-сигналов, данный метод экономит ресурсы и повышает точность. Его можно применять в системах мониторинга, антивирусной защите и анализа бинарных файлов. ## Выводы Результаты этого исследования указывают на то, что использование 1D-сигналов для классификации малвирьа является более эффективным, чем традиционные 2D-подходы. Будущие исследования будут сфокусированы на расширении этой техники для работы с более сложными данными и улучш

Annotation:

Malware classification is a contemporary and ongoing challenge in cyber-security: modern obfuscation techniques are able to evade traditional static analysis, while dynamic analysis is too resource intensive to be deployed at a large scale. One prominent line of research addresses these limitations by converting malware binaries into 2D images by heuristically reshaping them into a 2D grid before resizing using Lanczos resampling. These images can then be classified based on their textural infor...

ID: 2509.06548v2 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

📄 Signal-Based Malware Classification Using 1D CNNs

2025-09-10

Авторы:

Jack Wilkie, Hanan Hindy, Ivan Andonovic, Christos Tachtatzis, Robert Atkinson

## Контекст Modern malware detection faces significant challenges due to the use of advanced obfuscation techniques, which can bypass traditional static analysis methods. Dynamic analysis, while effective, is resource-intensive and impractical for large-scale deployment. To address these issues, existing research transforms malware binaries into 2D images by reshaping their data into a grid format and resizing it using Lanczos resampling. These images are then analyzed using computer vision techniques, enabling detection of obfuscated malware more effectively than static analysis. However, this approach introduces significant information loss due to quantization noise and the artificial introduction of 2D dependencies, which do not exist in the original binary data. This limitation reduces the classification performance of downstream models. This study proposes a novel approach that converts malware binaries into 1D signals, eliminating the need for heuristic reshaping and avoiding quantization noise by storing data in a floating-point format. ## Метод The proposed methodology focuses on converting malware binaries into 1D signals, leveraging their inherent structure and minimizing information loss. Unlike traditional 2D image-based approaches, this method preserves the original signal's integrity by avoiding heuristic reshaping and quantization noise. The signals are processed using a bespoke 1D convolutional neural network (1D CNN) based on the ResNet architecture. The network incorporates squeeze-and-excitation layers to enhance feature representation and classification accuracy. The model was evaluated on the MalNet dataset, a comprehensive dataset for malware classification, to assess its performance across binary, type, and family-level classification tasks. This approach represents a significant departure from conventional methods, offering improved classification accuracy and robustness. ## Результаты The experiments demonstrated the efficacy of the 1D signal-based approach in malware classification. The bespoke 1D CNN achieved state-of-the-art performance on the MalNet dataset, with F1 scores of 0.874 for binary classification, 0.503 for type-level classification, and 0.507 for family-level classification. These results outperform existing 2D CNN models when applied to the same dataset, highlighting the superiority of the proposed signal-based methodology. The floating-point representation of signals eliminates quantization noise, ensuring that the models receive more accurate and complete data for analysis. This improvement in signal fidelity directly translates to better classification performance, paving the way for more effective malware detection systems. ## Значимость The proposed 1D signal-based approach offers several advantages over traditional 2D image-based methods. By avoiding heuristic reshaping and quantization noise, it preserves the integrity of the original malware data, leading to more accurate classification. The method is computationally efficient, making it suitable for large-scale deployment in real-world cybersecurity systems. Its applications extend beyond malware classification, as the signal-based modality can be applied to other domains requiring robust signal processing. The potential impact of this work includes enhanced malware detection capabilities, improved system security, and reduced resource consumption in large-scale deployment scenarios. ## Выводы The study demonstrates the effectiveness of converting malware binaries into 1D signals for classification using 1D CNNs. The bespoke 1D CNN architecture, based on ResNet and squeeze-and-excitation layers, achieves state-of-the-art performance on the MalNet dataset, outperforming existing 2D CNN models. This approach eliminates the limitations of traditional 2D image-based methods, offering superior classification accuracy and robustness. Future research directions include exploring advanced signal processing techniques to further enhance signal fidelity and investigating the applicability of the proposed methodology to other cybersecurity and signal processing tasks.

Annotation:

ID: 2509.06548v1 cs.CR, cs.AI, cs.CV, cs.LG, I.2.6; K.6.5

arXiv PDF

Показано 91 - 100 из 124 записей