📊 Статистика дайджестов

Всего дайджестов: 34022 Добавлено сегодня: 82

Последнее обновление: сегодня

📄 Identifying the Supply Chain of AI for Trustworthiness and Risk Management in Critical Applications

2025-11-21

Авторы:

Raymond K. Sheh, Karen Geappen

Саммари на русском не найдено
Доступные поля: ['id', 'arxiv_id', 'title', 'authors', 'abstract', 'summary_ru', 'categories', 'published_date', 'created_at']

Annotation:

Risks associated with the use of AI, ranging from algorithmic bias to model hallucinations, have received much attention and extensive research across the AI community, from researchers to end-users. However, a gap exists in the systematic assessment of supply chain risks associated with the complex web of data sources, pre-trained models, agents, services, and other systems that contribute to the output of modern AI systems. This gap is particularly problematic when AI systems are used in criti...

ID: 2511.15763v1 cs.AI, cs.CR, cs.SE

arXiv PDF

📄 Beyond Embeddings: Interpretable Feature Extraction for Binary Code Similarity

2025-10-01

Авторы:

Charles E. Gagnon, Steven H. H. Ding, Philippe Charland, Benjamin C. M. Fung

#### Контекст Binary code similarity detection является основной задачей в области обратной инженерии. Она используется для обнаружения вредоносных программ и изъянов в программном обеспечении путем выявления похожих фрагментов кода в разных контекстах. Ранее, эта задача решалась с помощью применения ручного энгенджеринга функций. Однако, такие приемы оказались слишком грубыми и недостаточно эффективными. В последнее время, появились методы, основанные на использовании векторных представлений кода. Они демонстрируют значительно более высокую точность, однако остаются непонятными для пользователя и недостаточно универсальными. Наша мотивация заключается в создании метода, который объединит точность и прозрачность. #### Метод Мы предлагаем агент, основанный на языковой модели, для проведения структурированного анализа ассемблерного кода. Этот агент извлекает человекочитаемые признаки, такие как входные и выходные типы, побочные эффекты, заметные константы и алгоритмическое намерение. Эти признаки являются более широкомасштабными и адаптивными, чем машинно-читаемые вектора. Данный агент использует непосредственно код как входной материал для вычислений. Наш алгоритм представляет собой новую архитектуру, которая объединяет семантический анализ и глубокий обученный подход к извлечению признаков. #### Результаты Мы провели эксперименты на различных реальных датасетах, содержащих код с различными архитектурами и оптимизациями. Наши результаты показали, что метод получает высокий уровень точности при распознавании похожих фрагментов кода. Например, в задаче кросс-архитектурного сравнения, метод показал рекорд @1 42%, что на 3% выше показателей технологий, основанных на глубоком обучении. Для задачи кросс-оптимизации результат составил 62%, что значительно превосходит результаты существующих систем. Эти результаты также демонстрируют, что наш метод обеспечивает сопоставимую точность со существующими подходами, но при этом обеспечивает читаемость и интерпретируемость результатов. #### Значимость Метод, который мы предлагаем, может быть применен в различных сферах, таких как обнаружение вредоносных программ, выявление уязвимостей в программном обеспечении и анализ кода в области обратной инженерии. Одним из основных преимуществ нашего подхода является то, что он объединяет в себе три ключевых фактора: точность, общительность и универсальность. Это делает нашу технологию более универсальной и привлекательной для практического применения. Мы также видим потенциал для дальнейшего расширения и улучшения нашего подхода в будущем, через развитие яз

Annotation:

Binary code similarity detection is a core task in reverse engineering. It supports malware analysis and vulnerability discovery by identifying semantically similar code in different contexts. Modern methods have progressed from manually engineered features to vector representations. Hand-crafted statistics (e.g., operation ratios) are interpretable, but shallow and fail to generalize. Embedding-based methods overcome this by learning robust cross-setting representations, but these representatio...

ID: 2509.23449v1 cs.AI, cs.CR, cs.SE

arXiv PDF